Графические акселераторы NVIDIA для серверов и рабочих станций

07.05.2021 | Серверы

NVidia 0

 

Tesla и Quadro уходят в историю

NVIDIA больше не видит необходимости в торговых марках Tesla (вычисления) и Quadro (профессиональная визуализация). После того, как графические акселераторы поколения Ampere сменили предшественников на архитектуре Turing, однородные линейки продуктов охватили все области бурного роста GPU-вычислений: виртуализацию, машинное обучение, математическое моделирование, 3D-проектирование, создание контента, транскодирование видео.  Карты отличаются между собой графическими процессорами, объемом памяти и компоновкой, но их пригодность под приложения определяется объемом необходимых  вычислительных ресурсов, а не условным позиционированием.

В упрощенном виде «шкала ценностей»  теперь такая:

NVidia

Первую группу продуктов  (Compute) составляют решения для серверов и дата-центров (наследники семейства Tesla). Вторую (Graphics) – карты для профессиональных рабочих станций (ранее Quadro).

Серверы

К акселераторам A100 / A40, представленным в октябре прошлого года, добавились апрельские A30 / A10 / A16. Подробности тут.

NVidia

Сводная таблица основных технических характеристик из  обзора:

 

A100

A40

A30

A10

GPU

GA100

GA102

GA100

GA102

Число FP32 ALU

13.824

10.752

-

9.216

Число INT32 ALU

6.912

5.376

-

4.608

Число SM

108

84

-

72

Ядра Tensor

432

336

-

288

Ядра RT

-

84

-

72

Производительность INT4

1.248/2.496 TOPS

-

661/1.321 TOPS

500/1000 TOPS

Производительность INT8

624/1.248 TOPS

-

330/661 TOPS

250/500 TOPS

Производительность FP16

312/624 TFLOPS

-

165/330 TFLOPS

125/250 TFLOPS

Производительность Bfloat16

312/624 TFLOPS

-

165/330 TFLOPS

125/250 TFLOPS

Производительность FP32

19,5 TFLOPS

-

10,3 TFLOPS

31,2 TFLOPS

Производительность FP64

9,7/19,5 TFLOPS

-

5,2/10,3 TFLOPS

-

Емкость памяти

40/80 GB

48 GB

24 GB

24 GB

Тип памяти

HBM2

GDDR6

HBM2

GDDR6

Ширина шины памяти

5.120 бит

384 бит

3.072 бит

384 бит

Пропускная способность памяти

2.039/1.555 Гбайт/с

969 Гбайт/с

933 Гбайт/с

600 Гбайт/с

TDP

400/250 Вт

300 Вт

165 Вт

150 Вт

 

Все модели поддерживают PCIe Gen 4. Ускорители предназначены для дата-центров. Охлаждение пассивное. A100, A40 и A30 могут группироваться с себе подобными при помощи NVLink. На A10 и A16 поддержки NVLink нет.

Пример A40 на процессоре GA102 показывает, что граница между позиционированием Compute и Graphics стирается – у карт три выхода DisplayPort. У флагмана A100 отсутствуют какие-либо функции вывода видео,  процессор GA100 был разработан для чисто вычислительных задач. Объясняя включение дисплея ввода-вывода в «серверный» акселератор, NVIDIA ссылается на запросы пользователей из медийной индустрии. A40 можно использовать в качестве вычислителя. В ней нет некоторых специальных функций A100, таких как Multi-Instance GPU (MIG), но есть поддержка профиля vGPU Virtual Compute Server. В части приложений карта является экономичной альтернативой A100.

A30 работает примерно в половину производительности A100 – из-за существенных отличий по объему памяти и интерфейсу. A10 будет примерно на 15% медленнее A40. Про A16 известно только, что там будет четыре GPU на одной подложке, каждый с 16ГБ памяти, в сумме 64ГБ. Они ориентированы на виртуальные рабочие станции и потоковую передачу видео. Карты A16 появятся к концу года. Остальные доступны к заказу уже сейчас, примерно по таким ценам:

A100

A40

A30

A10

$15250

$7400

$6650

$4100

 

Рабочие станции

Флагманом профессиональных карт для рабочих станций визуализации, машинного обучения и HPC стала NVIDIA RTX A6000, преемник Quadro RTX 8000/6000 (Turing). Карта построена на таком же графическом процессоре GA102, что стоит в десктопных GeForce RTX 3080/3090, но снабжена 48 ГБ памяти. Появилась поддержка декодирования кодека AV1 и, разумеется, поддержка PCIe Gen 4 – она дает вдвое большую пропускную способность шины (на платформах AMD).

nvidia rtx для СМИ и развлечений

A6000 почти вдвое производительнее Quadro RTX 8000 в задачах, критичных к числу ядер FP32 CUDA или пропускной способности ядра RT. Например, в рендеринге. Разъем NVLink позволяет соединить пару A6000 для повышения производительности и совместного использования памяти для поддерживаемых приложений. На A6000 четыре порта DisplayPort 1.4. Охлаждение карт для рабочих станций активное. Термопакет A6000 составляет 300 Вт, на 50 Вт ниже, чем у GeForce RTX 3090.

В линейке есть карты и помладше:

Ориентировочная стоимость карт:

A6000

A5000

A4000

$6700

$3200

$1400

 

Сравнение средней RTX A5000 с предшественницей – Quadro RTX 5000:

Прирост производительности в практических приложениях:

Сравнительная эффективность карт семейства в срезе отраслевых приложений:

В отличие от трехслотовых десктопных родственниц  с боковым охлаждением RTX 3090, A6000 - двухслотовая видеокарта с радиальным вентилятором (турбиной). Это значит, что в платформу высотой 2U становится четыре такие карты. Подобные GPU-серверы становятся все популярнее в задачах машинного обучения и тренировки нейросетей.

Куда идет NVIDIA?

Пересечение аудиторий заставило NVIDIA отказаться от брендинга семейств в пользу классификации карт по мощности процессоров и объему используемой графической памяти. Продуктивность графических вычислений подгоняет, где это возможно, переход ресурсоемких корпоративных приложений на GPU-серверы и рабочие станции: в дата-центрах, облаке и на периферийных устройствах. Добавить роль NVIDIA в развитии искусственного интеллекта, роботизации, беспилотных автомобилей – и получится впечатляющая картина трансформации GPU из движущей силы компьютерных игр в «головной мозг» перемен.