RTX PRO 6000 Blackwell против четырех RTX 5090

 

Развитие искусственного интеллекта постепенно разделяется на два направления: обучение моделей остается глобальным, тогда как инференс – их практическое применение – становится все более локальным. Это логическое последствие экономики вычислений, инфраструктурных ограничений, требований к скорости и контролю за данными.

Обучение большим моделям требует гигантских ресурсов, доступных только крупнейшим игрокам: облачным провайдерам, технологическим корпорациям, международным исследовательским альянсам. Данные агрегируются глобально, вычисления концентрируются в дата-центрах гиперскейлеров.

Для инференса важно другое: низкая задержка, предсказуемая стоимость, надежность и контроль. Вычисления приближаются к пользователю – выполняются на периферии сети (edge), локальных серверах предприятий или непосредственно на рабочем столе. То, что было централизовано на этапе создания, децентрализуется на этапе применения.

Причины прагматичны:

  • Задержка. Многие современные приложения – от автономных систем до интерактивных AI-агентов – не могут позволить себе задержки, связанные с удаленными дата-центрами.
  • Экономика. Передача больших объемов данных и постоянные запросы облачных служб быстро увеличивают затраты.
  • Конфиденциальность. Регуляторы и бизнес-ограничения требуют локальной обработки данных в определенных границах.

Локализация инференса стимулирует появление энергоэффективных ускорителей, оптимизированных моделей и новых подходов к развертыванию. Пока "высшая лига" AI-разработчиков меряется гигаваттами дата-центров, пользователи попроще делятся опытом физических реализаций графических вычислений рабочего стола.

 

Альтернатива нескольким RTX 5090

Для локального запуска больших моделей искусственного интеллекта обычно используются многографические (multi-GPU) системы. Масштабирование инференса на нескольких GPU является естественным подходом: современные открытые LLM поддерживают тензорный параллелизм вместе с параллелизмом данных.

В то же время, свежее сравнение различных тестовых платформ показывает: одна профессиональная графическая видеокарта RTX PRO 6000 Blackwell обеспечивает производительность на уровне четырех потребительских RTX 5090 той же архитектуры в задачах инференса больших моделей.

Вычислительная производительность обеих карт близка на уровне ядра. Ключевое отличие – существенно больший объем видеопамяти RTX Pro 6000 Blackwell (96 GB ECC) по сравнению с 32 GB у RTX 5090. Размер VRAM является определяющим фактором для больших моделей класса 100B–200B+, поскольку он влияет на возможность размещения модели целиком или с минимальным разбиением.

 

 

RTX PRO 6000 W/E

RTX 5090

Архитектура

Blackwell

Blackwell

Ядро CUDA

24 064

21 760

Тензорные ядра

752

680

Производительность FP32

125 TFLOPS

104.8 TFLOPS

Видеопамять

96ГБ GDDR7 ECC

32ГБ GDDR7

Пропускная способность памяти

1792 ГБ/c

1792 ГБ/c

 

Отступление о «параллельности»

Несмотря на то, что современные двигатели (vLLM, SGLang и другие) поддерживают пакетную обработку с распараллелированием запросов, логика генерации текста остается последовательной, токен за токеном. В типичных сценариях инференса на нескольких GPU модель разбивается между ними , каждый шаг вычисления токена требует синхронизации между всеми устройствами.

Суммарная вычислительная мощность составляет N×120 TFLOPS, однако в практических задачах она не является определяющим фактором. Критичным становится обмен данными между GPU. За неимением у потребительских RTX 5090 высокоскоростного интерфейса NVLink обмен данными происходит через PCIe, которая является «узким местом». Даже PCIe 5.0 x16 имеет существенно более низкую пропускную способность по сравнению с локальной памятью GPU:

  • пропускная способность GDDR7 - ~1.8 ТБ/с
  • пропускная способность PCIe 5.0 x16 - ~0.128 ТБ/с

Очереди ядер CUDA к VRAM каждого ускорителя усугубляются коммуникацией между ними, доступом к распределенным тензорам. В результате значительная часть времени уходит не на вычисление, а на обмен тензорами между GPU.

Справедливости ради, лобовое сравнение RTX PRO 6000 с набором нескольких RTX 5090 будет корректным только в том случае, если модель, со всеми своими миллиардами параметров, KV-кэшами и необходимым контекстным окном действительно требует большого объема видеопамяти. Если модель помещается в 32 GB VRAM одной RTX 5090, преимуществ у RTX PRO 6000 нет. Когда модель больше, но не нуждается в агрессивном разбиении, многокарточная система на RTX 5090 может быть более производительным решением.

«Размер [модели] имеет значение».

 

И все равно результаты интересны

В цитируемых тестах использовалась модель искусственного интеллекта MiniMax M2.7 из 230B параметров. Сравнивались четыре разных конфигурации, все на графических процессорах NVIDIA.

GPU / суммарная память

Время до выдачи первого токена ( TTFT )

Скорость генерации токенов

4x RTX 4090/96 ГБ

1045 мс

71,52 ток/с

4x RTX 5090/128 ГБ

725 мс

120,54 ток/с

1x RTX PRO 6000/96 ГБ

765 мс

118,74 ток/с

DGX Spark/128 ГБ

741 мс

24,41 ток/с

 

TTFT (Time To First Token) – время от момента отправки запроса к модели до появления первого сгенерированного токена в ответе. Он отражает, насколько быстро система начинает отдавать стриминговый результат, то есть «как быстро модель начинает говорить». TTFT является критической метрикой для интерактивных сценариев (чат-боты, real-time ассистенты), поскольку прямо влияет на ощутимую задержку пользовательского ответа.

 

Цена производительности

Хотя один графический ускоритель NVIDIA RTX Pro 6000 Blackwell может обеспечивать производительность на уровне четырех RTX 5090 многографической системы, скорость генерации токенов - не единственный критерий выбора локального AI-сервера. Важно учитывать совокупную стоимость владения: сложность реализации сервера, цену приобретения, затраты на внедрение и эксплуатацию, энергопотребление и охлаждение.

 

Конфигурация

Стоимость

Пиковое потребление

4x RTX 5090

~ 4 х $4000 = $16000

~ 2300 Вт (4 х 575 Вт)

1x RTX PRO 6000

~ $13000

~600 Вт

DGX Spark

~ $5000

~ 240 Вт (система)

 

DGX Spark – это специализированные AI-системы с гетерогенной архитектурой, объединяющей CPU и GPU в едином когерентном адресном пространстве памяти. В экосистеме NVIDIA такие решения ориентированы на обучение, прототипирование и исследовательские задачи.

Классические серверы x86-архитектуры дают простор для творчества, поисков оптимального баланса CPU/RAM/GPU и приемлемой цены решения. Выходит, при сопоставимой производительности, RTX PRO 6000 Blackwell дешевле и потребляет вчетверо меньше четырех RTX 5090. Об упрощении конструктива серверов и говорить нечего.

 

Тяготы обустройства

Соблазн «прикоснуться» к искусственному интеллекту сборкой локальных систем на относительно доступных RTX 5090 подпитывает интерес к видео типа Собираем рабочую станцию ​​с четырьмя RTX 5090. Такие ролики собирают сотни тысяч просмотров и служат примером для подражания.

Плата ASUS Pro WS WRX90E-SAGE SE под процессоры AMD Ryzen Threadripper/Threadripper PRO с большим количеством слотов PCIe Gen 5 выглядит привлекательной основой для AI-рабочей станции или экспериментального сервера.

Подключить несколько RTX 5090 к плате ASUS Pro WS WRX90E-SAGE SE технически возможно, однако практическая реализация подобных монстров является сложной инженерной задачей. Процессор Threadripper PRO, с его 128 линиями PCIe справится, проблема с самими RTX 5090.

· Проблема №1 - физический размер

RTX 5090 занимает 3.5-4 слота и имеет длину ~320-360 мм. Даже в просторных корпусах размещение 3–4 таких карт проблематично. На практике часто приходится использовать открытые конструкции или специализированные GPU-шасси.

· Проблема №2 - питание

RTX 5090 потребляет ~450-600W. Для конфигураций с четырьмя GPU выходит до ~2.4 кВт только на видеокарты, ~300-350 Вт на центральный процессор, ~200-300 Вт на другие компоненты. Суммарное потребление свыше 3 кВт создает ряд практических помех: необходимость нескольких блоков питания, ограничения по электросети, требования к кабелям, розеткам и защите.

· Проблема №3 - охлаждение

Потребительские GPU используют открытое боковое охлаждение. При плотном размещении «бок о бок» карты рискуют «задохнуться». Перегреву и тротлингу препятствуют мощный фронтальный/туннельный продув (как в серверах) или кастомные системы жидкостного охлаждения, что существенно усложняет конструкцию.

· Проблема №4 - PCIe адресное пространство и инициализация

Современные GPU обладают большим объемом VRAM (32+ GB), что влияет на требования к адресному пространству PCIe. В многокарточных конфигурациях необходимы корректные настройки (Above 4G Decoding, MMIO). При 4+ GPU могут возникать проблемы проблемы инициализации части видеокарт, зависимости от версии BIOS и драйверов, ограничения на уровне ОС.

 

В сухом остатке

Рабочая станция (сервер) с двумя RTX 5090 является наиболее распространенным вариантом для локальных AI-нагрузок. Это мощный и относительно недорогой инструмент для инференса и экспериментов, вполне достаточный для запуска таких моделей, как DeepSeek-R1 70B .

Собрать сервер с 4 х RTX 5090 сложно, но возможно. Масштабирование более 4 GPU в потребительском сегменте экономично и технически неоправданно. С учетом накладных расходов решения на базе одной RTX PRO 6000 Blackwell 96 ГБ будут производительнее, дешевле, энергоэффективнее.