Локальний инференс на двух RTX 5090. Собираем сервер

Системы с двумя графическими ускорителями RTX 5090 стали популярной платформой для народного AI-инференса благодаря высокой вычислительной производительности и относительно доступной стоимости таких решений. В первой части была рассмотрена мотивация развертывания локальных серверов для задач искусственного интеллекта.

Практическая реализация должна учитывать следующее:

Габариты
Ускорители RTX 5090 занимают 3,5-4 слота расширения на материнской плате. Даже в просторных корпусах установка двух таких видеокарт может быть проблематичной.
Адресное пространство PCIe
Для полноценной работы требуются два слота PCIe x16 Gen с полной пропускной способностью (x16/x16) и достаточное расстояние между ними. Уже само это требование существенно сужает выбор процессоров и материнских плат.
Питание
RTX 5090 потребляет около 450-600 Вт. В конфигурации с двумя GPU только видеокарты требуют до 1,2 кВт мощности. Приблизительно 300-350 Вт потребляет центральный процессор, остальные компоненты - еще 200-300 Вт. Желательно заложить запас не менее 20–30% для стабильной работы под пиковой нагрузкой. Практическим выбором станет блок питания мощностью от 2 кВт стандарта ATX 3.1 с 16-контактными разъемами PCIe Gen 5 (12VHPWR/12V-2×6).
Охлаждение
В серверах дата-центров обычно стоят профессиональные графические ускорители с фронтальным («туннельным») продувом. Потребительские GPU охлаждаются боковыми вентиляторами. При плотном размещении двух RTX 5090 «бок о бок» избежать перегрева можно только благодаря тщательному подбору материнской платы и видеокарт, с применением дополнительных средств отвода тепла.

Вид снаружи

Наш серверный корпус высотой 4U специально разработан для высокопроизводительных вычислений с мощными графическими ускорителями. Поддерживается установка до четырех GPU двойной толщины.

В переднюю корзину можно поставить до 12 дисков 3,5"/2.5" с возможностью горячей замены. Четыре отсека поддерживают установку U.2 NVMe. Есть внутренняя корзина под 2 диска 2.5".

Задняя панель корпуса рассчитана под 11 полноразмерных слотов PCIe.

Блок питания мощностью 2 кВт с резервированием 1+1 соответствует стандарту 80PLUS Platinum CRPS и гарантирует бесперебойную работу энергоемких конфигураций.

Начинка

Разработчикам систем локального AI-инференса нравится материнская плата ASUS Pro WS WRX90E-SAGE SE под процессоры AMD Ryzen Threadripper PRO.

Преимущества такой платформы:

Много линий PCIe . Threadripper PRO предоставляет до 128 линий PCIe, что позволяет подключить несколько GPU, NVMe-накопители и сетевые адаптеры без дополнительной PCIe-коммутации.
Полноценные многокарточные конфигурации . На массовых платформах вокруг сокетов AM5 или LGA1851 несколько GPU работают в режимах x8/x4 с разделением ресурсов. В системах Threadripper PRO все GPU получают полноценные PCIe-линии и стабильную пропускную способность.
Большой объем оперативной памяти . Платформа поддерживает гораздо больше RAM, чем типичные настольные решения. Это важно для RAG-генерации, больших датасетов, препроцессинга CPU, инференса с длинным контекстом.
Многоканальная DDR5-память . Threadripper PRO поддерживает 8-канальную DDR5, что значительно повышает пропускную способность оперативной памяти для вспомогательных задач.

Потребительские RTX 5090 оснащаются открытыми системами бокового охлаждения. Из всего разнообразия моделей для двойных конфигураций пригодны видеокарты толщиной не более 60 мм, поскольку слишком плотное размещение существенно ухудшает отвод тепла.

Альтернативой могут быть модели с жидкостным охлаждением, однако такое решение значительно усложняет конструкцию сервера, повышает требования к обслуживанию и значительно увеличивает общую стоимость системы.

Отвод тепла

Для охлаждения центрального процессора в сервере использован ARCTIC Freezer 4U-M. Кулер поддерживает процессоры с TDP до 350 Вт и способен эффективно отводить тепло от многоядерных CPU с количеством ядер до 96. Благодаря высоте 145 мм, он совместим с большинством корпусов формата 4U. Конструкция снабжена двумя вентиляторами на двойных шариковых подшипниках, рассчитанными на круглосуточную непрерывную работу в серверных условиях.

Для двух RTX 5090 их собственных систем охлаждения уже недостаточно – плотная компоновка создает значительную тепловую нагрузку. Поэтому отвод тепла дополнительно обеспечивают четыре 92-мм системных вентилятора с возможностью горячей замены, установленные внутри корпуса, а также четыре 80-мм вентилятора на задней стенке: два внутренних и два внешних. Такая конфигурация формирует мощный воздушный поток через всю систему и помогает поддерживать стабильный температурный режим под длительной нагрузкой.

Цены и ценности

Такой сервер обойдется примерно в $25–30 тыс. – это сопоставимо со стоимостью двух профессиональных ускорителей RTX PRO 6000 Workstation Max-Q. Пара RTX 5090 стоит существенно меньше – около $8 тыс. Высокая суммарная вычислительная производительность и значительный объем видеопамяти двух RTX 5090 делают такие системы привлекательной платформой для локального AI-инференса, работы с большими языковыми моделями и экспериментов с современными задачами искусственного интеллекта.

У экономии на профессиональных GPU есть оборотная сторона. Потребительские видеокарты не рассчитаны на плотную серверную компоновку, длительную непрерывную работу под максимальной нагрузкой и эксплуатацию в условиях дата-центров. Построение подобных серверов требует тщательного подбора компонентов, продуманного охлаждения и мощной подсистемы питания.

Несмотря на это именно такие конфигурации сегодня формируют новый класс «народных AI-серверов» - относительно доступных платформ, способных запускать современные LLM локально, без зависимости от облачных сервисов.

Ещё публикации этого раздела