Графічні сервери і AMD EPYC
Показуючи NVIDIA DGX A100, універсальну систему під завдання машинного навчання (штучного інтелекту, ШІ) з продуктивністю 5 петафлопс, NVIDIA нахвалював свої графічні прискорювачі Tesla A100 і (тепер уже свої) мережеві адаптери Mellanox ConnetX-6VPI c пропускною спроможністю 200 Гбіт/с. Тінню пройшло неординарна подія - вперше у своїй практиці NVIDIA вибрала центральні процесори від AMD, немає від Intel.
Cама AMD вважає процесори EPYC ключовим компонентом для високопродуктивних обчислень (HPC). Чарлі Бойлі, віце-президент NVIDIA, з цим не сперечається: «Наші нові графічні процесори A100, які ми використовуємо в DGX A100, забезпечують величезний стрибок продуктивності і можливостей. Щоб вони забезпечувалися даними, нам були потрібні швидкі центральні процесори з максимально можливою кількістю ядер і PCI-ліній. Використовувані нами процесори AMD [EPYC 7742] мають по 64 ядра, багато ліній PCI і підтримують PCIe Gen4 ».
Екосистема ШІ
Інтеграцію процесорів EPYC в системи NVIDIA AMD називає «продовженням зростання екосистеми». AMD EPYC другого покоління - єдині x86-сумісні процесори, в яких налічується до 64 ядер і до 128 ліній PCIe Gen 4. У AMD є своя лінійка графічних процесорів Vega і прискорювачів Radeon Instinct, що не є перешкодою для співучасті в сторонніх масштабних проектах.
NVIDIA сьогодні - об'єктивний лідер в ІІ, а DGX A100 - готова до комерційної експлуатації система. Поставки систем йдуть повним ходом: в Міністерство енергетики США, університет Флориди, центр біомедичного ІІ в Гамбурзі, провідні дослідницькі лабораторії. Колись дійде справа і до Radeon Instinct, але поки що для AMD важлива роль партнера на ринку і причетність до HPC у всіх його проявах.
Попит на GPU-обчислювачі
«Cамая велика графічна карта» NVIDIA DGX A100 коштує $ 200 тис. Кожен з її восьми прискорювачів NVIDIA A100 - близько $ 13 тис. У GPU-cервер є і масове застосування - в аналітичних і самообучающихся системах різного масштабу, з куди меншими бюджетами. Вибір GPU великий: Tesla, Quadro RTX, та хоч GeForce. У кожного завдання є свій набір метрик і критеріїв - як в цьому огляді систем комп'ютерного зору і машинного перекладу.
Виробники серверних платформ уважно стежать за трендами, включаючи GPU-розрахунки. Зустрічаються зовсім вже екзотичні продукти, сервери Supercmicro для розвішування на стовпах в епоху IoT, 5G і смарт-міст. Але частіше це сервери 1-2U, під розміщення в них 4-8 GPU.
Один процесор AMD EPYC (128 ліній PCIe, до 64 ядер) привабливіше одного Intel Xeon SP (48 ліній PCIe, до 28 ядер) в якості бази GPU-сервера. Два процесора ще цікавіше, хоча надлишкові в більшості прикладних задач. До першого покоління AMD EPYC 7001 (Naples) розробники придивлялися, на другому 7002 (Rome) перейшли до дій. Односокетних системи під велике число графічних прискорювачів ідеальні для машинного навчання, наукових розрахунків, моделювання, VDI, кодування відео і роздачі потоків.
Два приклади платформ 2U / 8 GPU під «земні» завдання
Gigabyte G292-Z22 - односокетних платформа на AMD EPYC 7002 форм-фактора 2U під установку 8 одно- або 4 двослотових GPU-прискорювачів.
Графічний сервер ASUS ESC4000A-E10 скроєний приблизно так само. Обидва підтримують прискорювачі NVIDIA A100, Tesla T4, Quadro і AMD Radeon Instinct.
У сервері ASUS ESC4000A-E10 аж 11 слотів PCIe Gen 4 для установки плат розширення: графічних акселераторів, дискових і мережевих контролерів. Підтримується установка Ethernet-адаптера стандарту OCP 3.0 з пропускною спроможністю до 200 Гбіт/с - нехай не в такій же кількості як у NVIDIA DGX A100, зате таких же. У сервер можна встановити до восьми 3,5 або 2,5-дюймових жорстких дисків з підтримкою «гарячої» заміни, причому чотири пристрої можуть бути NVMe-накопичувачами.
«Кесарю кесареве»
Чи не платформи головне в GPU-розрахунках, а гармонія між використовуваними програмними моделями і апаратної начинкою. Замовники таких серверів - завсідники майданчиків для розробників на кшталт GitHub. Той випадок, коли завданнями править глибока експертиза, а не смаківщина навпіл з релігійним завзяттям