Четыре GPU в одной рабочей станции
Рабочие станции с несколькими GPU (multi-GPU) используют в машинном обучении, компьютерной графике, математических расчетах – задачах, где производительность масштабируется с добавлением акселераторов. Обычно речь идет о картах NVIDIA. Обустройство рядовых станций с 1-2 GPU не вызывает проблем, но как только речь заходит о 3-4 акселераторах, типовыми решениями не обойтись, стучат копытами “четыре всадника Апокалипсиса”: конструктив, питание, охлаждение, шум.
Куда поставить четыре GPU
Все начинается с выбора базовой платформы и корпуса. Четыре акселератора можно разместить на одной материнской плате только если GPU не толще двух слотов PCIe и охлаждаются продольно, турбинами. Так устроены карты профессиональной линейки NVIDIA A6000/A5500/A5000/A4500/A4000. Некоторые производители делали в таком же дизайне лимитированные версии Turbo -карт RTX 3000 (и,возможно, повторят опыты с RTX 4000).
В материнской плате должно быть достаточное количество слотов x16 PCIe. Под установку четырех GPU двойной толщины подходят, например, такие:
- ASUS WS C422 SAGE/10G под Intel Xeon W,
- ASUS WS C621E SAGE под два Intel Xeon SP 2nd Gen,
- ASUS WS WRX80E-SAGE SE WiFi под AMD Threadripper PRO.
На первых двух слоты x16 PCIe 3.0, на третьей – x16 PCIe 4.0. Вообще говоря, два процессора на столе разработчика сегодня потеряли актуальность - рабочие станции на AMD Threadripper PRO лишают смысла решения 2 x Intel Xeon - производительностью и ценой реализации.
Внушительные физические габариты материнских плат и GPU, требования по отводу тепла и уровню шума влияют на выбор корпуса. Удобен Fractal Design Define 7 XL.
Четыре GPU в одной системе - не предел. Так, Puget Systems в исследовательских целях развернул тестовый стенд на семь акселераторов RTX 4090. На рабочий стол подобную конструкцию не поставишь, для такого есть промышленные решения стоечного монтажа.
Питание
Тепловой пакет (TDP) акселераторов поколения NVIDIA RTX 3000 - 300 ватт и выше. У RTX 4000 – 450 ватт и выше. Из опытов Puget Systems следует, что под четыре GPU нужен источник мощности на 1800, а лучше 2000 ватт.
Двухкиловаттников на рынке немного: EVGA SuperNOVA 2000 G1+, FSP Cannon 2000W, Cooler Master M2000 Platinum.
Энергопотреблением видеокарт можно управлять c помощью инструментария NVIDIA System Management Interface (nvidia-smi) по ограничению мощности. Простой командой
sudo nvidia-smi --power-limit=280
TDP RTX3090 понижается с 350ВТ до 280Вт. Как показывают тесты, предельная мощность GPU может быть снижена на 10-20% с незначительным влиянием на общую производительность вычислений в системах с несколькими GPU. Зато система станет стабильнее, снизится шум, похудеют счета за электроэнергию.
Источник: Puget Systems
Охлаждение
Современные видеокарты оснащены массивными радиаторами, тепловыми трубками, вентиляторами в габаритных кожухах. В стандартных ПК карты охлаждаются нисходящим потоком на открытом воздухе. Два-три вентилятора всасывают воздух изнутри корпуса и проталкивают его через радиатор. Охладители открыты с боков и сзади, позволяя воздуху проходить во всех направлениях через вентиляционные отверстия. Такие карты занимают три-четыре слота и достаточно тихи.
В системах с несколькими GPU запаса по месту нет. Там используют карты с вентиляторами нагнетательного типа (турбинами). Воздух проталкивается через печатную плату к задней части видеокарты, где через вентиляционную решетку выбрасывается наружу корпуса станции. При таком теплоотводе каждый GPU охлаждается автономно, не нагревая друг друга и CPU - он и без того горяч. Турбины работают на высокой скорости, громко.
Источник: CGDirector
Встречаются карты с водяным охлаждением и карты с испарительной камерой, дорогие и нескладные. Все же речь о типовых решениях multi-GPU.
Шум
Увы, акселераторы с турбонаддувом громче аналогов для ПК. Это плата за возможность масштабировать производительность добавлением GPU. Геймеры сравнивают их шумовой профиль со звуком реактивного двигателя перед взлетом. Но ведь и промышленный цех не больница.
Управление потреблением, описанное выше, снижает и шум, при несущественной потере производительности. Всегда стоит подбирать корпус с акустической защитой и малошумящими вентиляторами, кулер CPU и блок питания потише.
Рабочие станции с несколькими GPU не покупают для забавы. Хозяин волен сам соразмерять предполагаемую выгоду с издержками.