Графические акселераторы NVIDIA для серверов и рабочих станций
Tesla и Quadro уходят в историю
NVIDIA больше не видит необходимости в торговых марках Tesla (вычисления) и Quadro (профессиональная визуализация). После того, как графические акселераторы поколения Ampere сменили предшественников на архитектуре Turing, однородные линейки продуктов охватили все области бурного роста GPU-вычислений: виртуализацию, машинное обучение, математическое моделирование, 3D-проектирование, создание контента, транскодирование видео. Карты отличаются между собой графическими процессорами, объемом памяти и компоновкой, но их пригодность под приложения определяется объемом необходимых вычислительных ресурсов, а не условным позиционированием.
В упрощенном виде «шкала ценностей» теперь такая:
Первую группу продуктов (Compute) составляют решения для серверов и дата-центров (наследники семейства Tesla). Вторую (Graphics) – карты для профессиональных рабочих станций (ранее Quadro).
Серверы
К акселераторам A100 / A40, представленным в октябре прошлого года, добавились апрельские A30 / A10 / A16. Подробности тут.
Сводная таблица основных технических характеристик из обзора:
|
A100 |
A40 |
A30 |
A10 |
GPU |
GA100 |
GA102 |
GA100 |
GA102 |
Число FP32 ALU |
13.824 |
10.752 |
- |
9.216 |
Число INT32 ALU |
6.912 |
5.376 |
- |
4.608 |
Число SM |
108 |
84 |
- |
72 |
Ядра Tensor |
432 |
336 |
- |
288 |
Ядра RT |
- |
84 |
- |
72 |
Производительность INT4 |
1.248/2.496 TOPS |
- |
661/1.321 TOPS |
500/1000 TOPS |
Производительность INT8 |
624/1.248 TOPS |
- |
330/661 TOPS |
250/500 TOPS |
Производительность FP16 |
312/624 TFLOPS |
- |
165/330 TFLOPS |
125/250 TFLOPS |
Производительность Bfloat16 |
312/624 TFLOPS |
- |
165/330 TFLOPS |
125/250 TFLOPS |
Производительность FP32 |
19,5 TFLOPS |
- |
10,3 TFLOPS |
31,2 TFLOPS |
Производительность FP64 |
9,7/19,5 TFLOPS |
- |
5,2/10,3 TFLOPS |
- |
Емкость памяти |
40/80 GB |
48 GB |
24 GB |
24 GB |
Тип памяти |
HBM2 |
GDDR6 |
HBM2 |
GDDR6 |
Ширина шины памяти |
5.120 бит |
384 бит |
3.072 бит |
384 бит |
Пропускная способность памяти |
2.039/1.555 Гбайт/с |
969 Гбайт/с |
933 Гбайт/с |
600 Гбайт/с |
TDP |
400/250 Вт |
300 Вт |
165 Вт |
150 Вт |
Все модели поддерживают PCIe Gen 4. Ускорители предназначены для дата-центров. Охлаждение пассивное. A100, A40 и A30 могут группироваться с себе подобными при помощи NVLink. На A10 и A16 поддержки NVLink нет.
Пример A40 на процессоре GA102 показывает, что граница между позиционированием Compute и Graphics стирается – у карт три выхода DisplayPort. У флагмана A100 отсутствуют какие-либо функции вывода видео, процессор GA100 был разработан для чисто вычислительных задач. Объясняя включение дисплея ввода-вывода в «серверный» акселератор, NVIDIA ссылается на запросы пользователей из медийной индустрии. A40 можно использовать в качестве вычислителя. В ней нет некоторых специальных функций A100, таких как Multi-Instance GPU (MIG), но есть поддержка профиля vGPU Virtual Compute Server. В части приложений карта является экономичной альтернативой A100.
A30 работает примерно в половину производительности A100 – из-за существенных отличий по объему памяти и интерфейсу. A10 будет примерно на 15% медленнее A40. Про A16 известно только, что там будет четыре GPU на одной подложке, каждый с 16ГБ памяти, в сумме 64ГБ. Они ориентированы на виртуальные рабочие станции и потоковую передачу видео. Карты A16 появятся к концу года. Остальные доступны к заказу уже сейчас, примерно по таким ценам:
A100 |
A40 |
A30 |
A10 |
$15250 |
$7400 |
$6650 |
$4100 |
Рабочие станции
Флагманом профессиональных карт для рабочих станций визуализации, машинного обучения и HPC стала NVIDIA RTX A6000, преемник Quadro RTX 8000/6000 (Turing). Карта построена на таком же графическом процессоре GA102, что стоит в десктопных GeForce RTX 3080/3090, но снабжена 48 ГБ памяти. Появилась поддержка декодирования кодека AV1 и, разумеется, поддержка PCIe Gen 4 – она дает вдвое большую пропускную способность шины (на платформах AMD).
A6000 почти вдвое производительнее Quadro RTX 8000 в задачах, критичных к числу ядер FP32 CUDA или пропускной способности ядра RT. Например, в рендеринге. Разъем NVLink позволяет соединить пару A6000 для повышения производительности и совместного использования памяти для поддерживаемых приложений. На A6000 четыре порта DisplayPort 1.4. Охлаждение карт для рабочих станций активное. Термопакет A6000 составляет 300 Вт, на 50 Вт ниже, чем у GeForce RTX 3090.
В линейке есть карты и помладше:
Ориентировочная стоимость карт:
A6000 |
A5000 |
A4000 |
$6700 |
$3200 |
$1400 |
Сравнение средней RTX A5000 с предшественницей – Quadro RTX 5000:
Прирост производительности в практических приложениях:
Сравнительная эффективность карт семейства в срезе отраслевых приложений:
В отличие от трехслотовых десктопных родственниц с боковым охлаждением RTX 3090, A6000 - двухслотовая видеокарта с радиальным вентилятором (турбиной). Это значит, что в платформу высотой 2U становится четыре такие карты. Подобные GPU-серверы становятся все популярнее в задачах машинного обучения и тренировки нейросетей.
Куда идет NVIDIA?
Пересечение аудиторий заставило NVIDIA отказаться от брендинга семейств в пользу классификации карт по мощности процессоров и объему используемой графической памяти. Продуктивность графических вычислений подгоняет, где это возможно, переход ресурсоемких корпоративных приложений на GPU-серверы и рабочие станции: в дата-центрах, облаке и на периферийных устройствах. Добавить роль NVIDIA в развитии искусственного интеллекта, роботизации, беспилотных автомобилей – и получится впечатляющая картина трансформации GPU из движущей силы компьютерных игр в «головной мозг» перемен.