Графічні акселератори NVIDIA для серверів і робочих станцій
Tesla і Quadro йдуть в історію
NVIDIA більше не бачить необхідності в торгових марках Tesla(обчислення) і Quadro(професійна візуалізація). Після того як графічні акселератори покоління Ampere змінили попередників на архітектурі Turing однорідні лінійки продуктів охопили усі області бурхливого зростання GPU-обчислень: віртуалізацію, машинне навчання, математичне моделювання, 3D-проєктування, створення контенту, транскодування відео. Карти відрізняються між собою графічними процесорами, обсягом пам'яті та компонуванням, але їх придатність під додатки визначається об'ємом необхідних обчислювальних ресурсів, а не умовним позиціюванням.
У спрощеному виді "шкала цінностей" тепер така:
Першу групу продуктів (Compute) складають рішення для серверів і дата-центрів (спадкоємці сімейства Tesla). Другу (Graphics) - карти для професійних робітників станцій (раніше Quadro).
Сервери
До акселераторів A100/A40, представлених в жовтні минулого року, додалися квітневі A30/A10/A16. Подробиці тут.
Зведена таблиця основних технічних характеристик з огляду:
|
A100 |
A40 |
A30 |
A10 |
GPU |
GA100 |
GA102 |
GA100 |
GA102 |
Число FP32 ALU |
13.824 |
10.752 |
- |
9.216 |
Число INT32 ALU |
6.912 |
5.376 |
- |
4.608 |
Число SM |
108 |
84 |
- |
72 |
Ядра Tensor |
432 |
336 |
- |
288 |
Ядра RT |
- |
84 |
- |
72 |
Производительность INT4 |
1.248/2.496 TOPS |
- |
661/1.321 TOPS |
500/1000 TOPS |
Производительность INT8 |
624/1.248 TOPS |
- |
330/661 TOPS |
250/500 TOPS |
Производительность FP16 |
312/624 TFLOPS |
- |
165/330 TFLOPS |
125/250 TFLOPS |
Продуктивність Bfloat16 |
312/624 TFLOPS |
- |
165/330 TFLOPS |
125/250 TFLOPS |
Продуктивність FP32 |
19,5 TFLOPS |
- |
10,3 TFLOPS |
31,2 TFLOPS |
Продуктивність FP64 |
9,7/19,5 TFLOPS |
- |
5,2/10,3 TFLOPS |
- |
Об’єм памяти |
40/80 GB |
48 GB |
24 GB |
24 GB |
Тип пам'яті |
HBM2 |
GDDR6 |
HBM2 |
GDDR6 |
Ширина шини пам'яті |
5.120 бит |
384 бит |
3.072 бит |
384 бит |
Пропускна спроможність пам'яті |
2.039/1.555 Гбайт/с |
969 Гбайт/с |
933 Гбайт/с |
600 Гбайт/с |
TDP |
400/250 Вт |
300 Вт |
165 Вт |
150 Вт |
Усі моделі підтримують PCIe Gen 4. Прискорювачі призначені для дата-центрів. Охолодження пасивне. A100, A40 і A30 можуть групуватися з собі подібними за допомогою NVLink. На A10 і A16 підтримки NVLink немає.
Приклад A40 на процесорі GA102 показує, що межа між позиціюванням Compute і Graphics стирається - у карт три виходи DisplayPort. У флагмана A100 відсутні будь-які функції виведення відео, процесор GA100 був розроблений для чисто обчислювальних завдань. Пояснюючи включення відеовиходу в "серверний" акселератор, NVIDIA посилається на запити користувачів з медійної індустрії, A40 можна використати і як обчислювач. У ній немає деяких спеціальних функцій A100, таких як Multi - Instance GPU (MIG), але є підтримка профілю vGPU Virtual Compute Server. У частині додатків карта є економічною альтернативою A100.
A30 працює приблизно в половину продуктивності A100 із-за істотних відмінностей за об’ємом пам'яті та інтерфейсу. A10 буде приблизно на 15% повільніше від A40. Про A16 відомо тільки, що там буде чотири GPU на одній підкладці, кожен з 16ГБ пам'яті, в сумі 64ГБ. Вони орієнтовані на віртуальні робочі станції та потокову передачу відео. Карти A16 з'являться до кінця року. Інші доступні до замовлення вже зараз, приблизно за такими цінами:
A100 |
A40 |
A30 |
A10 |
$15250 |
$7400 |
$6650 |
$4100 |
Робочі станції
Флагманом професійних карт для робочих станцій візуалізації, машинного навчання і HPC стала NVIDIA RTX A6000, наступник Quadro RTX 8000/6000 (Turing). Карта побудована на такому ж графічному процесорі GA102, що стоїть в десктопних GeForce RTX 3080/3090, але забезпечена 48ГБ пам'яті. З'явилася підтримка декодування кодека AV1 і, зрозуміло, підтримка PCIe Gen 4 - вона дає удвічі більшу пропускну спроможність шини (на платформах AMD).
A6000 майже удвічі продуктивніший ніж Quadro RTX 8000 в завданнях, критичних до числа ядер FP32 CUDA або пропускній спроможності ядра RT. Наприклад, в рендерінгу. Роз'єм NVLink дозволяє з'єднати пару A6000 для підвищення продуктивності й спільного використання пам'яті для підтримуваних застосувань. На A6000 чотири порти DisplayPort 1.4. Охолодження карт для робочих станцій більш активне. Термопакет A6000 складає 300Вт, це на 50Вт нижче, ніж у GeForce RTX 3090.
У лінійці є й молодші карти:
Орієнтовна вартість карт :
A6000 |
A5000 |
A4000 |
$6700 |
$3200 |
$1400 |
Порівняння середньої RTX A5000 з попередницею - Quadro RTX 5000 :
Приріст продуктивності у практичних додатках:
Порівняльна ефективність карт сімейства в зрізі галузевих застосувань :
На відміну від трьохслотових десктопних родичок з бічним охолодженням RTX 3090, A6000 - двох слотова відеокарта з радіальним вентилятором (турбіною). Це означає, що в платформу заввишки 2U стає чотири таких карти. Подібні GPU- сервери стають все популярнішими в завданнях машинного навчання і тренування нейромереж.
Куди йде NVIDIA?
Перетин аудиторій змусив NVIDIA відмовитися від брендінгу сімейств на користь класифікації карт за потужністю процесорів і об'ємом використовуваної графічної пам'яті. Продуктивність графічних обчислень підганяє, де це можливо, перехід ресурсомістких корпоративних застосувань на GPU- сервери та робочі станції: в дата-центрах, хмарах та на периферійних пристроях. Додати роль NVIDIA в розвитку штучного інтелекту, роботизації, безпілотних автомобілів - і вийде вражаюча картина трансформації GPU з рушійної сили комп'ютерних ігор в "головний мозок" змін.