Собираем полигон на NVIDIA H200 NVL

NVIDIA H200 – передовой графический процессор с тензорными ядрами для ускорения генеративного искусственного интеллекта, больших языковых моделей (LLM) и высокопроизводительных вычислений (HPC). Сделанный на архитектуре NVIDIA Hopper, он имеет 141 гигабайт (ГБ) памяти HBM3e со скоростью 4,8 терабайта в секунду (ТВ/с) – почти вдвое больше, чем у предшественника H100, с большей в 1,4 раза пропускной способностью памяти.
Это не самый мощный процессор NVIDIA. Но, в отличие от флагманского B200, серверы H200 не требуют ни сложной инженерной инфраструктуры, ни систем жидкостного охлаждения - они интегрируются в обычные серверные стойки.
Платформы-компаньоны
NVIDIA ведет каталог квалифицированных серверных платформ партнерской экосистемы. Он содержит совместимые аппаратные решения для заданного типа и количества GPU. Представленная там ASUS ESC8000A-E13P, двухпроцессорная платформа на AMD EPYC 9005 класса NVIDIA MGX, рассчитана на установку до 8 ускорителей H200 NVL или RTX PRO 6000 Blackwell Server Edition.
С каждым новым поколением графических процессоров дизайн серверов усложняется: высокая производительность влечет повышенные требования к энергопитанию и охлаждению. NVIDIA H200 NVL потребляет 600 ватт – в полтора раза больше H100. При суммарном потреблении многопроцессорных систем в несколько киловатт сопровождение подобных серверов становится уделом центров обработки данных с продвинутой инфраструктурой.
NVIDIA H 200 NVL, журавль в руках
H200 NVL – двухслотовая карта, которая подключается к серверу по интерфейсу PCIe 5.0 x16.


GPU питается от 8-контактного разъема EPS, рассчитанного на повышенное потребление. Теплоотвод обеспечивают улучшенная конструкция вентилятора и радиатора вместе с принудительной конвекцией со стороны серверной платформы.

Два или четыре таких GPU можно совместить с помощью мостов NVLink (H100 NVL объединяются только парами). Это обеспечивает пропускную способность до 1,8 ТБ/с и суммарный объем памяти 564 ГБ HBM3e – втрое больше по сравнению со сдвоенными H100 NVL. Дуэт двух H200 NVL обеспечивает пропускную способность между видеокартами 900 ГБ/с — на 50% больше по сравнению с H100 NVL и в 7 раз быстрее PCIe Gen5.
|
NVIDIA H100 NVL |
NVIDIA H200 NVL |
|
|
Memory |
94 GB HBM3 |
141 GB HBM3e |
|
Memory Bandwidth |
3.35 TB/s |
4.8 TB/s |
|
Max NVLink (BW) |
2-way (600 GB/s) |
4-way (1.8 TB/s) |
|
Max Memory Pool |
188 GB |
564 GB |
Тестировщики считают H200 хорошим выбором для больших моделей LLM со 100+ миллиардами параметров и обработки последовательностей с десятками тысяч токенов.
Платформа на столе
ASUS RSC8000A-E13P имеет высоту 4U и становится в типовые стойки. Платформа соответствует референсной архитектуре MGX, стандартизирующей проектирование серверов на типовых модулях: центральных и графических процессорах, блоках обработки данных (DPU).

Вентиляторы снизу обеспечивают поток воздуха в нижнюю секцию с процессорами, сетевыми картами и памятью, тогда как вентиляторы сверху предназначены для охлаждения графических процессоров и накопителей.
На переднюю панель выводится часть портов ввода/вывода (mini DisplayPort, два порта USB) и дисплей Q CODE для проверки POST-кодов.

Это система с двумя процессорами AMD EPYC 9005 и 12 модулями DIMM DDR5 на процессор, вместе - 24 DIMM.

Отдельного внимания заслуживает организация охлаждения: приточная вентиляция передней панели, воздуховоды, мощные съемные вентиляторы в средней перегородке.

Все это предназначено для надежной работы двух мощных CPU и восьми GPU, потреблением до 600 ватт каждый.

Платформа оснащена четырьмя блоками питания Delta мощностью 3,2 кВт с резервированием 3+1. Рядом с блоками питания расположен задний порт управления, порт USB 3.0 и два порта 10Gbase-T встроенной сетевой карты Intel X710-AT2.

Реальное потребление таких систем может отличаться в зависимости от конфигурации, количества установленных ускорителей, центральных процессоров и сетевых карт, приближаясь в максимальном наполнении к 5 кВт. Кроме самых прожорливых NVIDIA H200 NVL и RTX PRO 6000 Blackwell SE система позволяет использовать и младшие решения, например, NVIDIA H100 NVL. Графические процессоры можно совмещать 2- и 4-канальными мостами NVLink.
В общем, ASUS ESC8000A-E13P – отличная система. Особенно для задач, где требуется наращиваемая мощность графических процессоров и есть ограничения по бюджету. Для «взрослых» проектов NVIDIA предлагает собственные фабрики NVIDIA DGX H200 .
