RTX PRO 6000 Blackwell проти чотирьох RTX 5090

Розвиток штучного інтелекту поступово розділяється на два напрями: навчання моделей залишається глобальним, тоді як інференс – їх практичне застосування – стає дедалі більш локальним. Це логічний наслідок економіки обчислень, інфраструктурних обмежень, вимог до швидкості і контролю над даними.

Навчання великих моделей потребує гігантських ресурсів, доступних лише найбільшим гравцям: хмарним провайдерам, технологічним корпораціям, міжнародним дослідницьким альянсам. Дані агрегуються глобально, обчислення концентруються в дата-центрах гіперскейлерів.

Для інференсу важливе інше: низька затримка, передбачувана вартість, надійність і контроль. Обчислення наближаються до користувача - виконуються на периферії мережі (edge), локальних серверах підприємств або безпосередньо на робочому столі. Те, що було централізованим на етапі створення, децентралізується на етапі застосування.

Причини прагматичні:

Затримка. Багато сучасних застосунків - від автономних систем до інтерактивних AI-агентів - не можуть дозволити собі затримки, пов’язані з віддаленими дата-центрами.
Економіка. Передача великих обсягів даних і постійні запити до хмарних сервісів швидко збільшують витрати.
Приватність. Регулятори та бізнес-обмеження вимагають локальної обробки даних в певних кордонах.

Локалізація інференсу стимулює появу енергоефективних прискорювачів, оптимізованих моделей і нових підходів до розгортання. Поки «вища ліга» AI-розробників міряється гігаватами дата-центрів, простіші користувачі діляться досвідом фізичних реалізацій графічних обчислень робочого столу.

Альтернатива кільком RTX 5090

Для локального запуску великих моделей штучного інтелекту зазвичай застосовуються багатографічні (multi-GPU) системи. Масштабування інференсу на кількох GPU є природним підходом: сучасні відкриті LLM підтримують тензорний паралелізм, разом із паралелізмом даних.

Водночас, свіже порівняння різних тестових платформ показує: одна професійна графічна відеокарта RTX PRO 6000 Blackwell забезпечує продуктивність на рівні чотирьох споживчих RTX 5090 тієї ж архітектури, у задачах інференсу великих моделей.

Обчислювальна продуктивність обох карт близька на рівні ядра. Ключова відмінність - суттєво більший обсяг відеопам’яті RTX Pro 6000 Blackwell (96 GB ECC) порівняно з 32 GB у RTX 5090. Розмір VRAM є визначальним фактором для великих моделей класу 100B–200B+, оскільки він впливає на можливість розміщення моделі цілком або з мінімальним розбиттям її на фрагменти.

	RTX PRO 6000 W/E	RTX 5090
Архітектура	Blackwell	Blackwell
Ядра CUDA	24 064	21 760
Тензорні ядра	752	680
Продуктивність FP32	125 TFLOPS	104.8 TFLOPS
Відеопам’ять	96ГБ GDDR7 ECC	32ГБ GDDR7
Пропускна здатність пам’яті	1792 ГБ/c	1792 ГБ/c

Відступ про «паралельність»

Попри те, що сучасні двигуни (vLLM, SGLang та інші) підтримують пакетну обробку з розпаралелюванням запитів, логіка генерації тексту залишається послідовною, токен за токеном. У типових сценаріях інференсу на кількох GPU модель розбивається між ними, кожен крок обчислення токена вимагає синхронізації між усіма пристроями.

Сумарна обчислювальна потужність складає N × 120 TFLOPS, однак у практичних задачах вона не є визначальним фактором. Критичним стає обмін даними між GPU. За відсутністю у споживчих RTX 5090 високошвидкісного інтерфейсу NVLink обмін даними відбувається через PCIe, яка є «вузьким місцем». Навіть PCIe 5.0 x16 має суттєво нижчу пропускну здатність порівняно з локальною пам’яттю GPU:

пропускна здатність GDDR7 - ~1.8 ТБ/с
пропускна здатність PCIe 5.0 x16 - ~0.128 ТБ/с

Черги ядер CUDA до VRAM кожного прискорювача спотворює комунікація між ними, доступ до розподілених тензорів. У результаті значна частина часу витрачається не на обчислення, а на обмін тензорами між GPU.

Заради справедливості, лобове порівняння RTX PRO 6000 з набором кількох RTX 5090 буде коректним тільки в тому випадку, якщо модель, з усіма своїми мільярдами параметрів, KV-кешами і необхідним контекстним вікном дійсно вимагає великого об'єму відеопам'яті. Якщо модель поміщається в 32 GB VRAM однієї RTX 5090, переваг у RTX PRO 6000 немає. Коли модель більша, але не потребує агресивного розбиття, багатокарткова система на RTX 5090 може бути більш продуктивним рішенням.

«Розмір [моделі] має значення».

І все одно результаті цікаві

У цитованих тестах використовувалась модель штучного інтелекту MiniMax M2.7 з 230B параметрів. Порівнювались чотири різні конфігурації, всі на графічних процесорах NVIDIA.

GPU / сумарна пам’ять	Час до видачи першого токену (TTFT)	Швидкість генерації токенів
4x RTX 4090 / 96 ГБ	1045 мс	71,52 ток/с
4x RTX 5090 / 128 ГБ	725 мс	120,54 ток/с
1x RTX PRO 6000 / 96 ГБ	765 мс	118,74 ток/с
DGX Spark / 128 ГБ	741 мс	24,41 ток/с

TTFT (Time To First Token) – це час від моменту відправлення запиту до моделі до появи першого згенерованого токена у відповіді. Він відображає, наскільки швидко система починає віддавати стрімінговий результат, тобто «як швидко модель починає говорити». TTFT є критичною метрикою для інтерактивних сценаріїв (чат-боти, real-time асистенти), оскільки прямо впливає на відчутну затримку відповіді для користувача.

Ціна продуктивності

Хоча один графічний прискорювач NVIDIA RTX Pro 6000 Blackwell може забезпечувати продуктивність на рівні чотирьох RTX 5090 багатографічної системи, швидкість генерації токенів не є єдиним критерієм вибору локального AI-сервера. Важливо враховувати сукупну вартість володіння: складність реалізації сервера, ціну придбання, витрати на впровадження і експлуатацію, енергоспоживання та охолодження.

Конфігурація	Вартість	Пікове споживання
4x RTX 5090	~ 4 х $4000 = $16000	~ 2300 Вт (4 х 575 Вт)
1x RTX PRO 6000	~ $13000	~ 600 Вт
DGX Spark	~ $5000	~ 240 Вт (система)

DGX Spark – це специалізовані AI-системи з гетерогенною архітектурою, що об’єднує CPU та GPU в єдиному когерентному адресному просторі пам’яті. В екосистемі NVIDIA такі рішення орієнтовані на навчання, прототипування та дослідницькі задачи.

Класичні сервери x86-архітектури дають простір для творчості, пошуків оптимального балансу CPU / RAM / GPU та прийнятної ціни рішення. Виходить, за співставної продуктивності, RTX PRO 6000 Blackwell дешевша та споживає вчетверо менше чотирьох RTX 5090. Про спрощення конструктиву серверів годі й казати.

Тяготи облаштування

Спокуса «доторкнутися» до штучного інтелекту шляхом складання локальних систем на відносно доступних RTX 5090 підживлює інтерес до відео на кшталт Збираємо робочу станцію з чотирма RTX 5090. Такі ролики збирають сотні тисячі переглядів і служать прикладом для наслідування.

Плата ASUS Pro WS WRX90E-SAGE SE під процесори AMD Ryzen Threadripper / Threadripper PRO з великою кількістю слотів PCIe Gen 5 виглядає як приваблива основа для AI-робочої станції або експериментального сервера.

Під’єднати кілька RTX 5090 до плати ASUS Pro WS WRX90E-SAGE SE технічно можливо, однак практична реалізація подібних монстрів є складним інженерним завданням. Процесор Threadripper PRO з його 128 лініями PCIe впорається, проблема з самими RTX 5090.

·Проблема №1 — фізичний розмір

RTX 5090 займає 3.5-4 слоти та мають довжину ~320–360 мм. Навіть у просторих корпусах розміщення 3–4 таких карт є проблематичним. На практиці часто доводиться використовувати відкриті конструкції або спеціалізовані GPU-шасі.

·Проблема №2 — живлення

RTX 5090 споживає ~ 450-600W. Для конфігурацій з чотирма GPU виходить до ~2.4 кВт лише на відеокарти, ~300–350 Вт на центральний процесор, ~200–300 Вт на інші компоненти. Сумарне споживання понад 3 кВт створює низку практичних перешкод: необхідність кількох блоків живлення, обмеження по електромережі, вимоги до кабелів, розеток і захисту.

·Проблема №3 — охолодження

Споживчі GPU використовують відкрите бокове охолодження. При щільному розміщенні «пліч-о-пліч» карти ризикують «задихнуться». Перегріву та тротлінгу перешкоджають потужний фронтальний/тунельний продув (як у серверах) або кастомні системи рідинного охолодження – що суттєво ускладнює конструкцію.

·Проблема №4 — PCIe адресний простір і ініціалізація

Сучасні GPU мають великий обсяг VRAM (32+ GB), що впливає на вимоги до адресного простору PCIe. У багатокарткових конфігураціях необхідні коректні налаштування (Above 4G Decoding, MMIO). При 4+ GPU можуть виникати проблеми проблеми ініціалізації частини відеокарт, залежність від версії BIOS і драйверів, обмеження на рівні ОС.

У сухому залишку

Робоча станція (сервер) з двома RTX 5090 є поширеним варіантом для локальних AI-навантажень. Це потужний і відносно недорогий інструмент для інференсу та експеріментів, цілком достатній для запуску таких моделей як DeepSeek-R1 70B.

Зібрати сервер з 4 х RTX 5090 складно, але можливо. Масштабування понад 4 GPU у споживчому сегменті економічно та технічно невиправдане. З урахуванням накладних витрат рішення на базі однієї RTX PRO 6000 Blackwell 96 ГБ будуть продуктивнішими, дешевшими, енергоефективнішими.

Ще публікації цього розділу