Графічні акселератори NVIDIA для серверів і робочих станцій

07.05.2021 | Сервери

Графічні акселератори NVIDIA для серверів і робочих станцій

Tesla і Quadro йдуть в історію

NVIDIA більше не бачить необхідності в торгових марках Tesla(обчислення) і Quadro(професійна візуалізація). Після того як графічні акселератори покоління Ampere змінили попередників на архітектурі Turing однорідні лінійки продуктів охопили усі області бурхливого зростання GPU-обчислень: віртуалізацію, машинне навчання, математичне моделювання, 3D-проєктування, створення контенту, транскодування відео. Карти відрізняються між собою графічними процесорами, обсягом пам'яті та компонуванням, але їх придатність під додатки визначається об'ємом необхідних обчислювальних ресурсів, а не умовним позиціюванням.

У спрощеному виді "шкала цінностей" тепер така:

NVidia розширення

Першу групу продуктів (Compute) складають рішення для серверів і дата-центрів (спадкоємці сімейства Tesla). Другу (Graphics) - карти для професійних робітників станцій (раніше Quadro).

Сервери

До акселераторів A100/A40, представлених в жовтні минулого року, додалися квітневі A30/A10/A16. Подробиці тут.

ПОРІВНЯТИ GPU для віртуалізації

Зведена таблиця основних технічних характеристик з огляду:

 

 

A100

A40

A30

A10

GPU

GA100

GA102

GA100

GA102

Число FP32 ALU

13.824

10.752

-

9.216

Число INT32 ALU

6.912

5.376

-

4.608

Число SM

108

84

-

72

Ядра Tensor

432

336

-

288

Ядра RT

-

84

-

72

Производительность INT4

1.248/2.496 TOPS

-

661/1.321 TOPS

500/1000 TOPS

Производительность INT8

624/1.248 TOPS

-

330/661 TOPS

250/500 TOPS

Производительность FP16

312/624 TFLOPS

-

165/330 TFLOPS

125/250 TFLOPS

Продуктивність  Bfloat16

312/624 TFLOPS

-

165/330 TFLOPS

125/250 TFLOPS

Продуктивність FP32

19,5 TFLOPS

-

10,3 TFLOPS

31,2 TFLOPS

Продуктивність FP64

9,7/19,5 TFLOPS

-

5,2/10,3 TFLOPS

-

Об’єм памяти

40/80 GB

48 GB

24 GB

24 GB

Тип пам'яті

HBM2

GDDR6

HBM2

GDDR6

Ширина шини пам'яті

5.120 бит

384 бит

3.072 бит

384 бит

Пропускна спроможність пам'яті

2.039/1.555 Гбайт/с

969 Гбайт/с

933 Гбайт/с

600 Гбайт/с

TDP

400/250 Вт

300 Вт

165 Вт

150 Вт

 

Усі моделі підтримують PCIe Gen 4. Прискорювачі призначені для дата-центрів. Охолодження пасивне. A100, A40 і A30 можуть групуватися з собі подібними за допомогою NVLink. На A10 і A16 підтримки NVLink немає.

Приклад A40 на процесорі GA102 показує, що межа між позиціюванням Compute і Graphics стирається - у карт три виходи DisplayPort. У флагмана A100 відсутні будь-які функції виведення відео, процесор GA100 був розроблений для чисто обчислювальних завдань. Пояснюючи включення відеовиходу в "серверний" акселератор, NVIDIA посилається на запити користувачів з медійної індустрії, A40 можна використати і як обчислювач. У ній немає деяких спеціальних функцій A100, таких як Multi - Instance GPU (MIG), але є підтримка профілю vGPU Virtual Compute Server. У частині додатків карта є економічною альтернативою A100.

A30 працює приблизно в половину продуктивності A100  із-за істотних відмінностей за об’ємом пам'яті та інтерфейсу. A10 буде приблизно на 15% повільніше від A40. Про A16 відомо тільки, що там буде чотири GPU на одній підкладці, кожен з 16ГБ пам'яті, в сумі 64ГБ. Вони орієнтовані на віртуальні робочі станції та потокову передачу відео. Карти A16 з'являться до кінця року. Інші доступні до замовлення вже зараз, приблизно за такими цінами:

A100

A40

A30

A10

$15250

$7400

$6650

$4100

 

Робочі станції

Флагманом професійних карт для робочих станцій візуалізації, машинного навчання і HPC стала NVIDIA RTX A6000, наступник Quadro RTX 8000/6000 (Turing). Карта побудована на такому ж графічному процесорі GA102, що стоїть в десктопних GeForce RTX 3080/3090, але забезпечена 48ГБ пам'яті. З'явилася підтримка декодування кодека AV1 і, зрозуміло, підтримка PCIe Gen 4 - вона дає удвічі більшу пропускну спроможність шини (на платформах AMD).

NVidia  RTX для медіа та розваг

A6000 майже удвічі продуктивніший ніж Quadro RTX 8000 в завданнях, критичних до числа ядер FP32 CUDA або пропускній спроможності ядра RT. Наприклад, в рендерінгу. Роз'єм NVLink дозволяє з'єднати пару A6000 для підвищення продуктивності й спільного використання пам'яті для підтримуваних застосувань. На A6000 чотири порти DisplayPort 1.4. Охолодження карт для робочих станцій більш активне. Термопакет A6000 складає 300Вт,  це на 50Вт нижче, ніж у GeForce RTX 3090.

У лінійці є й молодші карти:

NVidia RTX A4000; NVidia RTX A600; NVidia RTX A5000

Орієнтовна вартість карт :

A6000

A5000

A4000

$6700

$3200

$1400

 

Порівняння середньої RTX A5000 з попередницею - Quadro RTX 5000 :

Порівняння середньої RTX A5000 з попередницею - Quadro RTX 5000

Приріст продуктивності у практичних додатках:

Приріст продуктивності у практичних додатках CAD, DCC, RENDERING

Порівняльна ефективність карт сімейства в зрізі галузевих застосувань :

NVidia RTX порівняльна ефективність карт сімейства в зрізі галузевих застосувань

На відміну від трьохслотових десктопних родичок з бічним охолодженням RTX 3090, A6000 - двох слотова відеокарта з радіальним вентилятором (турбіною). Це означає, що в платформу заввишки 2U стає чотири таких карти. Подібні GPU- сервери стають все популярнішими в завданнях машинного навчання і тренування нейромереж.

Куди йде NVIDIA?

Перетин аудиторій змусив NVIDIA відмовитися від брендінгу сімейств на користь класифікації карт за потужністю процесорів і об'ємом використовуваної графічної пам'яті. Продуктивність графічних обчислень підганяє, де це можливо, перехід ресурсомістких корпоративних застосувань на GPU- сервери та робочі станції: в дата-центрах, хмарах та на периферійних пристроях. Додати роль NVIDIA в розвитку штучного інтелекту, роботизації, безпілотних автомобілів - і вийде  вражаюча картина трансформації GPU з рушійної сили комп'ютерних ігор в "головний мозок" змін.