Собираем полигон на NVIDIA H200 NVL

19.05.2025 | Серверы

 

NVIDIA H200 – передовой графический процессор с тензорными ядрами для ускорения генеративного искусственного интеллекта, больших языковых моделей (LLM) и высокопроизводительных вычислений (HPC). Сделанный на архитектуре NVIDIA Hopper, он имеет 141 гигабайт (ГБ) памяти HBM3e со скоростью 4,8 терабайта в секунду (ТВ/с) – почти вдвое больше, чем у предшественника H100, с большей в 1,4 раза пропускной способностью памяти.

Это не самый мощный процессор NVIDIA. Но, в отличие от флагманского B200, серверы H200 не требуют ни сложной инженерной инфраструктуры, ни систем жидкостного охлаждения - они интегрируются в обычные серверные стойки.

 

Платформы-компаньоны

NVIDIA ведет каталог квалифицированных серверных платформ партнерской экосистемы. Он содержит совместимые аппаратные решения для заданного типа и количества GPU. Представленная там ASUS ESC8000A-E13P, двухпроцессорная платформа на AMD EPYC 9005 класса NVIDIA MGX, рассчитана на установку до 8 ускорителей H200 NVL или RTX PRO 6000 Blackwell Server Edition.

С каждым новым поколением графических процессоров дизайн серверов усложняется: высокая производительность влечет повышенные требования к энергопитанию и охлаждению. NVIDIA H200 NVL потребляет 600 ватт – в полтора раза больше H100. При суммарном потреблении многопроцессорных систем в несколько киловатт сопровождение подобных серверов становится уделом центров обработки данных с продвинутой инфраструктурой.

 

NVIDIA H 200 NVL, журавль в руках

H200 NVL – двухслотовая карта, которая подключается к серверу по интерфейсу PCIe 5.0 x16.

 

 

GPU питается от 8-контактного разъема EPS, рассчитанного на повышенное потребление. Теплоотвод обеспечивают улучшенная конструкция вентилятора и радиатора вместе с принудительной конвекцией со стороны серверной платформы.

 

 

Два или четыре таких GPU можно совместить с помощью мостов NVLink (H100 NVL объединяются только парами). Это обеспечивает пропускную способность до 1,8 ТБ/с и суммарный объем памяти 564 ГБ HBM3e – втрое больше по сравнению со сдвоенными H100 NVL. Дуэт двух H200 NVL обеспечивает пропускную способность между видеокартами 900 ГБ/с — на 50% больше по сравнению с H100 NVL и в 7 раз быстрее PCIe Gen5.

 

 

NVIDIA H100 NVL

NVIDIA H200 NVL

Memory

94 GB HBM3

141 GB HBM3e

Memory Bandwidth

3.35 TB/s

4.8 TB/s

Max NVLink (BW)

2-way (600 GB/s)

4-way (1.8 TB/s)

Max Memory Pool

188 GB

564 GB

 

Тестировщики считают H200 хорошим выбором для больших моделей LLM со 100+ миллиардами параметров и обработки последовательностей с десятками тысяч токенов.

 

Платформа на столе

ASUS RSC8000A-E13P имеет высоту 4U и становится в типовые стойки. Платформа соответствует референсной архитектуре MGX, стандартизирующей проектирование серверов на типовых модулях: центральных и графических процессорах, блоках обработки данных (DPU).

 

Вентиляторы снизу обеспечивают поток воздуха в нижнюю секцию с процессорами, сетевыми картами и памятью, тогда как вентиляторы сверху предназначены для охлаждения графических процессоров и накопителей.

На переднюю панель выводится часть портов ввода/вывода (mini DisplayPort, два порта USB) и дисплей Q CODE для проверки POST-кодов.

 

 

Это система с двумя процессорами AMD EPYC 9005 и 12 модулями DIMM DDR5 на процессор, вместе - 24 DIMM.

 

 

Отдельного внимания заслуживает организация охлаждения: приточная вентиляция передней панели, воздуховоды, мощные съемные вентиляторы в средней перегородке.

 

 

Все это предназначено для надежной работы двух мощных CPU и восьми GPU, потреблением до 600 ватт каждый.

 

 

Платформа оснащена четырьмя блоками питания Delta мощностью 3,2 кВт с резервированием 3+1. Рядом с блоками питания расположен задний порт управления, порт USB 3.0 и два порта 10Gbase-T встроенной сетевой карты Intel X710-AT2.

 

 

Реальное потребление таких систем может отличаться в зависимости от конфигурации, количества установленных ускорителей, центральных процессоров и сетевых карт, приближаясь в максимальном наполнении к 5 кВт. Кроме самых прожорливых NVIDIA H200 NVL и RTX PRO 6000 Blackwell SE система позволяет использовать и младшие решения, например, NVIDIA H100 NVL. Графические процессоры можно совмещать 2- и 4-канальными мостами NVLink.

В общем, ASUS ESC8000A-E13P – отличная система. Особенно для задач, где требуется наращиваемая мощность графических процессоров и есть ограничения по бюджету. Для «взрослых» проектов NVIDIA предлагает собственные фабрики NVIDIA DGX H200 .