Графічні акселератори NVIDIA для серверів і робочих станцій

07.05.2021 | Сервери | AI | ML | DL | NVIDIA | GPU

Tesla і Quadro йдуть в історію

NVIDIA більше не бачить необхідності в торгових марках Tesla(обчислення) і Quadro(професійна візуалізація). Після того як графічні акселератори покоління Ampere змінили попередників на архітектурі Turing однорідні лінійки продуктів охопили усі області бурхливого зростання GPU-обчислень: віртуалізацію, машинне навчання, математичне моделювання, 3D-проєктування, створення контенту, транскодування відео. Карти відрізняються між собою графічними процесорами, обсягом пам'яті та компонуванням, але їх придатність під додатки визначається об'ємом необхідних обчислювальних ресурсів, а не умовним позиціюванням.

У спрощеному виді "шкала цінностей" тепер така:

NVidia розширення

Першу групу продуктів (Compute) складають рішення для серверів і дата-центрів (спадкоємці сімейства Tesla). Другу (Graphics) - карти для професійних робітників станцій (раніше Quadro).

Сервери

До акселераторів A100/A40, представлених в жовтні минулого року, додалися квітневі A30/A10/A16. Подробиці тут.

ПОРІВНЯТИ GPU для віртуалізації

Зведена таблиця основних технічних характеристик з огляду:

	A100	A40	A30	A10
GPU	GA100	GA102	GA100	GA102
Число FP32 ALU	13.824	10.752	-	9.216
Число INT32 ALU	6.912	5.376	-	4.608
Число SM	108	84	-	72
Ядра Tensor	432	336	-	288
Ядра RT	-	84	-	72
Производительность INT4	1.248/2.496 TOPS	-	661/1.321 TOPS	500/1000 TOPS
Производительность INT8	624/1.248 TOPS	-	330/661 TOPS	250/500 TOPS
Производительность FP16	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
Продуктивність Bfloat16	312/624 TFLOPS	-	165/330 TFLOPS	125/250 TFLOPS
Продуктивність FP32	19,5 TFLOPS	-	10,3 TFLOPS	31,2 TFLOPS
Продуктивність FP64	9,7/19,5 TFLOPS	-	5,2/10,3 TFLOPS	-
Об’єм памяти	40/80 GB	48 GB	24 GB	24 GB
Тип пам'яті	HBM2	GDDR6	HBM2	GDDR6
Ширина шини пам'яті	5.120 бит	384 бит	3.072 бит	384 бит
Пропускна спроможність пам'яті	2.039/1.555 Гбайт/с	969 Гбайт/с	933 Гбайт/с	600 Гбайт/с
TDP	400/250 Вт	300 Вт	165 Вт	150 Вт

Усі моделі підтримують PCIe Gen 4. Прискорювачі призначені для дата-центрів. Охолодження пасивне. A100, A40 і A30 можуть групуватися з собі подібними за допомогою NVLink. На A10 і A16 підтримки NVLink немає.

Приклад A40 на процесорі GA102 показує, що межа між позиціюванням Compute і Graphics стирається - у карт три виходи DisplayPort. У флагмана A100 відсутні будь-які функції виведення відео, процесор GA100 був розроблений для чисто обчислювальних завдань. Пояснюючи включення відеовиходу в "серверний" акселератор, NVIDIA посилається на запити користувачів з медійної індустрії, A40 можна використати і як обчислювач. У ній немає деяких спеціальних функцій A100, таких як Multi - Instance GPU (MIG), але є підтримка профілю vGPU Virtual Compute Server. У частині додатків карта є економічною альтернативою A100.

A30 працює приблизно в половину продуктивності A100 із-за істотних відмінностей за об’ємом пам'яті та інтерфейсу. A10 буде приблизно на 15% повільніше від A40. Про A16 відомо тільки, що там буде чотири GPU на одній підкладці, кожен з 16ГБ пам'яті, в сумі 64ГБ. Вони орієнтовані на віртуальні робочі станції та потокову передачу відео. Карти A16 з'являться до кінця року. Інші доступні до замовлення вже зараз, приблизно за такими цінами:

A100	A40	A30	A10
$15250	$7400	$6650	$4100

Робочі станції

Флагманом професійних карт для робочих станцій візуалізації, машинного навчання і HPC стала NVIDIA RTX A6000, наступник Quadro RTX 8000/6000 (Turing). Карта побудована на такому ж графічному процесорі GA102, що стоїть в десктопних GeForce RTX 3080/3090, але забезпечена 48ГБ пам'яті. З'явилася підтримка декодування кодека AV1 і, зрозуміло, підтримка PCIe Gen 4 - вона дає удвічі більшу пропускну спроможність шини (на платформах AMD).

NVidia RTX для медіа та розваг

A6000 майже удвічі продуктивніший ніж Quadro RTX 8000 в завданнях, критичних до числа ядер FP32 CUDA або пропускній спроможності ядра RT. Наприклад, в рендерінгу. Роз'єм NVLink дозволяє з'єднати пару A6000 для підвищення продуктивності й спільного використання пам'яті для підтримуваних застосувань. На A6000 чотири порти DisplayPort 1.4. Охолодження карт для робочих станцій більш активне. Термопакет A6000 складає 300Вт, це на 50Вт нижче, ніж у GeForce RTX 3090.

У лінійці є й молодші карти:

NVidia RTX A4000; NVidia RTX A600; NVidia RTX A5000

Орієнтовна вартість карт :

A6000	A5000	A4000
$6700	$3200	$1400

Порівняння середньої RTX A5000 з попередницею - Quadro RTX 5000 :

Порівняння середньої RTX A5000 з попередницею - Quadro RTX 5000

Приріст продуктивності у практичних додатках:

Приріст продуктивності у практичних додатках CAD, DCC, RENDERING

Порівняльна ефективність карт сімейства в зрізі галузевих застосувань :

NVidia RTX порівняльна ефективність карт сімейства в зрізі галузевих застосувань

На відміну від трьохслотових десктопних родичок з бічним охолодженням RTX 3090, A6000 - двох слотова відеокарта з радіальним вентилятором (турбіною). Це означає, що в платформу заввишки 2U стає чотири таких карти. Подібні GPU- сервери стають все популярнішими в завданнях машинного навчання і тренування нейромереж.

Куди йде NVIDIA?

Перетин аудиторій змусив NVIDIA відмовитися від брендінгу сімейств на користь класифікації карт за потужністю процесорів і об'ємом використовуваної графічної пам'яті. Продуктивність графічних обчислень підганяє, де це можливо, перехід ресурсомістких корпоративних застосувань на GPU- сервери та робочі станції: в дата-центрах, хмарах та на периферійних пристроях. Додати роль NVIDIA в розвитку штучного інтелекту, роботизації, безпілотних автомобілів - і вийде вражаюча картина трансформації GPU з рушійної сили комп'ютерних ігор в "головний мозок" змін.

Ще публікації цього розділу