Локальний інференс на двох RTX 5090. Збираємо сервер

Системи з двома графічними прискорювачами RTX 5090 стали популярною платформою для «народного AI-інференсу» завдяки високій обчислювальній продуктивності та відносно доступній вартості таких рішень. У перший частині було розглянуто мотивацію розгортання локальних серверів для задач штучного інтелекту.

Практична реалізація має враховувати наступне:

Габарити
Прискорювачі RTX 5090 займають 3,5–4 слоти розширення на материнській платі. Навіть у просторих корпусах встановлення двох таких відеокарт може бути проблематичним.
Адресний простір PCIe
Для повноцінної роботи потрібні два слоти PCIe x16 Gen із повною пропускною здатністю (x16/x16) та достатньою відстанню між ними. Уже сама ця вимога суттєво звужує вибір процесорів і материнських плат.
Живлення
RTX 5090 споживає близько 450–600 Вт. У конфігурації з двома GPU лише відеокарти потребують до 1,2 кВт потужності. Приблизно 300–350 Вт споживатиме центральний процесор, решта компонентів - ще 200–300 Вт. Бажано закласти запас щонайменше 20–30% для стабільної роботи під піковим навантаженням. Практичним вибором стане блок живлення потужністю від 2 кВт стандарту ATX 3.1 із 16-контактними роз’ємами PCIe Gen 5 (12VHPWR / 12V-2×6).
Охолодження
В серверах дата-центрів зазвичай стоять професійні графічні прискорювачі з фронтальним («тунельним») продувом. Натомість споживчі GPU охолоджуються боковими вентиляторами За щільного розміщення двох RTX 5090 «пліч-о-пліч» уникнути перегріву можна лише завдяки ретельному добору материнської плати та відеокарт, із застосуванням додаткових засобів відведення тепла.

Вид ззовні

Наш серверний корпус висотою 4U спеціально розроблений для високопродуктивних обчислень з потужними графічними прискорювачами. Підтримується встановлення до чотирьох GPU подвійної товщини.

В передній кошик можна поставити до 12 дисків 3,5"/2.5" з можливістю гарячої заміни. Чотири отсіки підтримують встановлення U.2 NVMe. Є внутрішній кошик під 2 диски 2.5".

Задня панель корпусу розрахована під 11 повнорозмірних слотів PCIe.

Блок живлення потужністю 2 кВт з резервуванням 1+ 1 відповідає стандарту 80PLUS Platinum CRPS і гарантує безперебійну роботу енергоємних конфігурацій.

Начинка

Розробникам систем локального AI-інференсу подобається материнська плата ASUS Pro WS WRX90E-SAGE SE під процесори AMD Ryzen Threadripper PRO.

Переваги такої платформи:

Багато ліній PCIe. Threadripper PRO надає до 128 ліній PCIe, що дозволяє підключити кілька GPU, NVMe-накопичувачі та мережеві адаптери без додаткової PCIe-комутації.
Повноцінні багатокарткові конфігурації. На масових платформах навколо сокетів AM5 або LGA1851 кілька GPU працюють у режимах x8/x4 із поділом ресурсів. В системах на Threadripper PRO усі GPU отримують повноцінні PCIe-лінії та стабільну пропускну здатність.
Великий обсяг оперативної пам’яті. Платформа підтримує значно більше RAM, ніж типові настільні рішення. Це важливо для RAG-генерації, великих датасетів, препроцесинга CPU, інференсу з довгим контекстом.
Багатоканальна DDR5-пам’ять. Threadripper PRO підтримує 8-канальну DDR5, що суттєво підвищує пропускну здатність оперативної пам’яті для допоміжних задач.

Cпоживчі RTX 5090 оснащуються відкритими системами бокового охолодження. Із усього різноманіття моделей для подвійних конфігурацій придатні відеокарти завтовшки не більше 60 мм, оскільки надто щільне розміщення суттєво погіршує відведення тепла.

Альтернативою можуть бути моделі з рідинним охолодженням, однак таке рішення значно ускладнює конструкцію сервера, підвищує вимоги до обслуговування та помітно збільшує загальну вартість системи.

Відведення тепла

Для охолодження центрального процесора в сервері використано ARCTIC Freezer 4U-M. Кулер підтримує процесори з TDP до 350 Вт і здатний ефективно відводити тепло від багатоядерних CPU з кількістю ядер до 96. Завдяки висоті 145 мм він сумісний із більшістю корпусів формату 4U. Конструкція оснащена двома вентиляторами на подвійних кулькових підшипниках, розрахованими на цілодобову безперервну роботу в серверних умовах.

Для двох RTX 5090 їх власних систем охолодження вже недостатньо — щільне компонування створює значне теплове навантаження. Тому відведення тепла додатково забезпечують чотири 92-мм системні вентилятори з можливістю гарячої заміни, встановлені всередині корпусу, а також чотири 80-мм вентилятори на задній стінці: два внутрішні та два зовнішні. Така конфігурація формує потужний спрямований повітряний потік через усю систему й допомагає підтримувати стабільний температурний режим під тривалим навантаженням.

Ціни та цінності

Такий сервер обійдеться приблизно у $25–30 тис. — це співставно з вартістю двох професійних прискорювачів RTX PRO 6000 Workstation Max-Q. Пара RTX 5090 коштує суттєво менше - близько $8 тис. Висока сумарна обчислювальна продуктивність і значний обсяг відеопам’яті двох RTX 5090 роблять такі системи привабливою платформою для локального AI-інференсу, роботи з великими мовними моделями та експериментів із сучасними задачами штучного інтелекту.

У економії на професійних GPU є зворотний бік. Споживчі відеокарти не розраховані на щільне серверне компонування, тривалу безперервну роботу під максимальним навантаженням та експлуатацію в умовах дата-центрів. Побудова подобних серверів вимагає ретельного підбору компонентів, продуманого охолодження та потужної підсистеми живлення.

Попри це, саме такі конфігурації сьогодні формують новий клас «народних AI-серверів» - відносно доступних платформ, здатних запускати сучасні LLM локально, без залежності від хмарних сервісів.

Ще публікації цього розділу