Nvidia H100. Собираем стартовую площадку искусственного интеллекта
Генеративный искусственный интеллект (ИИ) – создание нейросетями текстов, изображений, музыки – несет революционные изменения в разных областях. Задают тон ведущие корпорации, такие как Microsoft и Google, хотя рост вычислительной мощности и распространенность графических процессоров (GPU) сделали плоды машинного обучения доступными также и малым игрокам. Если нейросеть ChatGPT работает на десятках тысяч графических процессоров Nvidia A100, то скромные задачи обходятся одним-двумя. Вооружаясь относительно недорогим парком оборудования, разработчики создают специализированные программы на основе ИИ.
Основное внимание сегодня уделяется флагманскому процессору Nvidia H100 и его производным. Обзор производительности и масштабируемости H100 проясняет преимущества перевода на него инфраструктуры GPU. Неизвестно, как там у Microsoft, сама же Nvidia предлагает коробочные решения с несколькими ускорителями DGX H100 и отдельные карты H100 PCIe для кастомных конфигураций.
Из чего можно сделать "народный генератор ИИ"?
Шина
Узкое место в машинном обучении – производительность графического процессора, не передача данных от CPU в GPU по шине PCIe. Обычно графическим ускорителям достаточно PCIe Gen 4 и даже использование 8 линий подключения вместо 16 не сильно сказывается на производительности. Но если речь об H100 PCIe, единственном из существующих графических акселераторов на шине PCI Gen 5, обойдемся без компромиссов.
PCIe Gen 5 поддерживают следующие процессоры: Intel Core 13th Gen, AMD Ryzen 7000, Intel Xeon W (LGA 4677), AMD EPYC 4th Gen (Genoa), Intel Xeon SP 4th Gen (Sapphire Rapids). Под несколько GPU и распараллеливание вычислений между ними первые две не подходят – слишком мало линий PCIe. Intel Xeon W годится для настольных графических вычислителей. Типичный пример – ASUS Pro WS W790-ACE. На плате 5 слотов x16 PCIe Gen 5, куда можно поставить до трех акселераторов двойной толщины.
При цене H100 PCIe около $40K логично предположить, что под два и более таких GPU нужна платформа в промышленном (стоечном) исполнении. Примеры: ASUS ESC4000A-E12 на 4 GPU и ESC8000-E12 на 8 GPU. Разберемся с первой.
Платформа
ASUS ESC4000A-E12 – компактный однопроцессорный сервер под AMD EPYC 9004 и четыре двухслотовых GPU. Поддерживаются процессоры от 16 до 96 ядер, до 3ТВ оперативной памяти DDR5 RDIMM на 12 каналах, до 6 дисков NVMe/SATA/SAS. Блок питания мощностью 2600W гарантирует стабильную бесперебойную работу сервера. Имеется дистанционное управление сервером ASUS ASMB11-iKVM на базе ASPEED AST2600 и ASUS Control Center IT Management Software.
Процессор
Поколение процессоров AMD EPYC 9004 Genoa существенно превзошло предшественника EPYC 7003 Milan: появилась поддержка памяти DDR5 и шины PCIe Gen5, верхняя граница по ядрам поднялась в полтора раза (с 64 до 96), увеличилось количество каналов памяти (с 8 до 12). Вычислительная мощность односокетных серверов на Genoa выше уровня многих двухпроцессорных серверов Intel Xeon, при куда более скромном ценнике. Один CPU обслуживает 128 линий PCIe Gen5 – и это определяющее преимущество для создания сервера с несколькими GPU.
В линейке AMD EPYC Genoa есть четыре номинала процессоров P для односокетных систем – на 32, 48, 64 и 96 ядер, но ставить в платформу можно любой из 18 имеющихся SKU. Среди задач GPU-сервера есть построение моделей, критическое к тактовой частоте CPU, поэтому 24-ядерный AMD EPYC 9274F с базовой частотой 4.05 (!) ГГц – неплохой выбор.
Память
Процессоры AMD EPYC Genoa работают с памятью DDR5 RDIMM, у контроллера 12 каналов памяти. Например, дюжиной модулей 32ГБ набирается 384ГБ.
Диски и сетевая периферия
В платформу можно поставить до шести дисков NVMe/SATA/SAS. Если штатного сетевого подключения 2 x GbE i350 мало, можно добавить дополнительную карту – слотов расширения для этого достаточно.
GPU
Графический процессор Nvidia H100 оснащен тензорными ядрами четвертого поколения, ускоряет обучение до 9 раз по сравнению с предыдущим поколением. Производительность в приложениях HPC до 7 раз выше, скорость инференса на больших моделях ИИ до 30 раз выше.
Развертывание графических процессоров H100 обеспечивает беспрецедентную производительность и делает следующее поколение экзафлопных высокопроизводительных вычислений (HPC) и ИИ с триллионами параметров доступным для всех исследователей. Это в масштабах дата-центра. Но отдельный сервер с парой H100 - тоже мощный инструмент.
Платформа ASUS ESC4000A-E12 имеет «купейную» компоновку и вмещает до 4 двухслотных GPU. Установленная пара H100 выглядит так:
При необходимости можно добавить еще два H100 – место, запас линий PCIe Gen 5 и мощность источника питания позволяют.
Дальше дело за разработчиком
Обычно проектирует графический вычислитель разработчик, постановщик задачи: каких и сколько GPU, какие CPU, сколько оперативной памяти и какие должны быть накопители. Задачи разные, подготовка моделей машинного обучения отличается, эффект перехода на новые акселераторы зависит от прикладной области. Типовых решений нет. Поставщик аппаратной платформы играет роль эксперта, воплощая пожелания заказчика, рекомендации Nvidia и отраслевой опыт.
Этот «железный конь» к пахоте готов.