Такие разные лики семейства Blackwell

 

Удерживая более 90% рынка графических процессоров, NVIDIA формирует продуктовые линейки по своему усмотрению. Ее ценообразование обусловлено не конкуренцией (за практическим отсутствием конкурентов), а желанием разветвить сценарии потребления, избежать внутренней каннибализации продуктов и, в конце концов, максимизировать прибыль в каждой нише присутствия. Так поступают все монополисты.

Профессиональные видеокарты NVIDIA RTX Pro 6000 семейства Blackwell базируются на том же графическом процессоре GB202, что и их ближайшие родственники – потребительские GeForce RTX 5090. Однако у RTX Pro 6000:

  • 24 064 блоков CUDA (против 21 760 у RTX 5090)
  • больше блоков TMU, ROP, тензорных ядер и ядер RT
  • главное отличие – 96 ГБ памяти GDDR7 против 32 ГБ в потребительской версии.

А также цена: более $10 000 против $3-3.5 тыс.

Как же дополнительные 64 ГБ видеопамяти (которые стоят производителю примерно на 200 долларов больше) оправдывают трехкратную разницу в цене?

 

Распределение «семейных» ролей

 

Первыми из Blackwell на рынке появились массовые видеокарты GeForce RTX 5090. Их ждал отложенный спрос, а впоследствии и заслуженная слава у самых требовательных геймеров - благодаря более реалистичной графике, сложным текстурам и высококачественной трассировке лучей.

Чуть позже была представлена корпоративная часть семейства - линейка RTX Pro 6000, предназначенная для ускорения рабочих нагрузок искусственного интеллекта и творческих задач: научных вычислений, 3D-графики, обработки видео в реальном времени. Три варианта – Workstation Edition, Max-Q Workstation Edition, Server Edition – охватывают спектр приложений от рабочего стола к центру обработки данных.

  • Workstation Edition имеет привычный для видеокарт дизайн с боковыми вентиляторами и ориентирован на настольные системы для задач ШИ, САПР и создания контента.
  • Max-Q Workstation Edition с активным продольным охлаждением обладает компактным исполнением, а пониженное энергопотребление делает его идеальным для конфигураций с несколькими GPU — как в десктопах, так и в устойчивых рабочих станциях.
  • Server Edition оптимизирована для использования в ЦОД: логического вывода, распределенного рендеринга. Она имеет пассивное охлаждение и требует установки в стойки с принудительным воздушным обдувом.

Пока целевая аудитория – охотники за искусственным интеллектом – только раскачивалась, RTX PRO 6000 успели окрестить «новым королем игр». И это неудивительно: статусное потребление – «покупаю, потому что могу» – всегда искажает прогнозируемые сценарии использования.

Правда, геймеров, покупающих эти карты ради игр, ожидает неприятный сюрприз — неслыханный акустический дискомфорт. Из-за дизайна охлаждения в стиле Founders Edition, RTX Pro 6000 выглядит эстетично и достаточно компактна, но при потреблении до 600 Вт ее вентиляторы могут мгновенно разгоняться — громко и агрессивно. Один из типичных отзывов:

«Это худший вой катушек, который я когда-либо слышал, он безумно громкий».

 

Построение по конструктивным признакам

 

Между разновидностями RTX Pro 6000 Blackwell выбирают преимущественно по механическим характеристикам, а не производительности: последняя хоть и отличается, но несущественно.

  • Workstation Edition , построенная на том же графическом процессоре, что и GeForce RTX 5090, имеет двухслотовое исполнение с двумя мощными боковыми вентиляторами. Она предназначена для установки в одиночном экземпляре в настольные рабочие станции. Ее потребление до 600 Вт требует соответствующего блока питания, габаритного корпуса и эффективной системы охлаждения.
  • Также двухслотовая Max-Q Workstation Edition оснащена турбинным вентилятором и рассчитана на использование нескольких GPU в настольных рабочих станциях или стойковых серверах. Она имеет самое низкое энергопотребление среди всех Blackwell-карт – до 300 Вт.
  • Server Edition имеет пассивное охлаждение и TDP до 600 Вт. Она создана для серверов в стойках, обеспечивающих мощное принудительное охлаждение. Компания NVIDIA также предлагает производителям референсный дизайн модульной серверной платформы NVIDIA MGX – как ответ на растущий спрос на масштабируемые, производительные серверы для искусственного интеллекта.

Базовый графический процессор и подсистема памяти во всех трех модификациях RTX Pro 6000 Blackwell идентичны. Незначительные отличия в спецификациях обусловлены необходимостью обеспечить стабильную работу в различных форм-факторах и плотности компоновки.

Графические карты семейства Blackwell обещают теоретические приросты производительности:

  • +37 % в традиционных FP32-вычислениях,
  • +80 % в трассировке лучей (RT TFLOPS),
  • +174% в тензорной производительности (AI TOPS).

Среди ключевых архитектурных новшеств – поддержка FP4-вычислений для тензоров.

Впрочем, поразительный рост производительности сопровождается заметным увеличением энергопотребления и цен. Переход с 300 Вт к 600 Вт существенно затрудняет размещение нескольких таких графических ускорителей в одной настольной системе – как с точки зрения питания, так и охлаждения.

 

Самое интересное – память

 

Одним из самых выдающихся преимуществ RTX Pro 6000 Blackwell является подсистема памяти: 96 ГБ GDDR7 с пропускной способностью около 1,8 ТБ/с.

Это втрое больше, чем у GeForce RTX 5090 – и это не проходит бесследно. Но где именно и насколько сильно проявляется это преимущество, остается вопросом . Она точно будет критически важна в задачах обработки больших моделей ИИ, 3D-рендеринга с огромными текстурами, симуляциях или видеообработке в реальном времени, где важны не только мощность, но и объем памяти и ее пропускная способность.

 

Машинное обучение и логическое заключение

 

Развертывание и настройка больших языковых моделей (LLM) требует значительного объема видеопамяти GPU (VRAM) – как для хранения параметров, так и для обеспечения высокой скорости вычислений. Большое количество VRAM критически важно для обработки больших наборов данных, сложных алгоритмов обучения и выполнения логического вывода.

  • Хранение параметров модели

LLM могут содержать от миллионов до сотен миллиардов параметров, которые должны постоянно находиться в видеопамяти как во время обучения, так и заключения. Это обеспечивает быстрый доступ к параметрам без задержек, связанным с перемещением данных между GPU и другими уровнями памяти.

  • Управление промежуточными данными

В процессе обработки LLM генерируют большое количество промежуточных тензоров – результатов отдельных этапов модели, также хранящихся в VRAM. Объем этих данных растет пропорционально глубине и сложности архитектуры модели.

  • Параллельная обработка

Для повышения эффективности используют пакетную (batch) обработку – одновременную обработку нескольких запросов. Чем больше размер пакета, тем выше производительность, однако это напрямую увеличивает потребность в видеопамяти для размещения всех промежуточных данных.

Для достижения максимальной эффективности логического вывода желательно, чтобы вся модель помещалась в видеопамять GPU. Если доступной VRAM недостаточно, вычисления продолжаются, но с заметным снижением скорости из-за вынужденного использования обменов через шину PCIe, которая имеет значительно меньшую пропускную способность и более высокую задержку.

Заранее определяются, сколько VRAM требуется . При необходимости обучение и заключение масштабируются с использованием нескольких GPU .

 

Генеративный ШИ

 

Архитекторы и дизайнеры все чаще используют модели генеративного ИИ для преобразования текста в изображения – в частности, такие как Stable Diffusion . Эта модель способна создавать впечатляющие фотореалистичные изображения на основе текстовых описаний. Ее универсальность, точность и гибкость настроек сделали Stable Diffusion популярным инструментом среди креативных специалистов.

Создатели могут быстро сгенерировать сотни вариантов, что позволяет исследовать различные стили, идеи и композиционные решения в разы быстрее, чем при традиционной ручной работе.

Stable Diffusion работает на основе двух главных процессов: логического заключения (inference) и обучения (training).

  • Большинство архитекторов и дизайнеров взаимодействуют именно с процессом вывода – то есть генерации изображений по текстовым подсказкам (prompts).
  • Процесс обучения является гораздо более ресурсоемким: он предполагает создание или дообучение собственной диффузионной модели, адаптированной к определенному архитектурному стилю, бренду, специфике продукта или индивидуальным пожеланиям клиента.

Несмотря на удобство облачных сервисов, запуск Stable Diffusion на собственной рабочей станции обеспечивает больше контроля над процессом, гарантирует конфиденциальность и во многих случаях экономически выгоднее в долгосрочной перспективе.

Объем видеопамяти (VRAM) играет критически важную роль в генеративном ИИ. На его использование влияют следующие факторы:

  • Разрешение изображения : чем она выше – тем больше VRAM требуется.
  • Размер пакета (batch size) : одновременное создание нескольких изображений повышает эффективность, но увеличивает потребление памяти.
  • Версия модели : например, SDXL потребляет гораздо больше VRAM, чем базовые модели.
  • Функциональное расширение : использование дополнительных модулей и надстроек (ControlNet, LoRA, DreamBooth и т.д.) увеличивает объем памяти, необходимый для генерации.

 

Создание контента

 

По оценке ведущего производителя кастомных рабочих станций Puget Systems , RTX Pro 6000 Blackwell Workstation Edition – это впечатляющая, высокопроизводительная видеокарта, которая... подходит не всем.

В Lightroom Classic новая Blackwell работает практически так же, как и две предыдущие топовые профессиональные карты NVIDIA. Некоторый рост производительности при экспорте фотографий есть, но в этом сегменте такая видеокарта чрезмерное решение. Аналогичная ситуация в After Effects : да, Blackwell быстрее RTX 6000 Ada, однако ее высокая стоимость ставит под сомнение целесообразность такого обновления, особенно по сравнению с потребительскими GPU.

В DaVinci Resolve наблюдаются реальные улучшения: в частности в обработке LongGOP-видео и при применении GPU-эффектов. Деликатный комментарий — «дополнительная видеопамять является приятным дополнением» — намекает, что карта имеет смысл только тогда, когда необходим именно большой объем VRAM или сертифицированные драйверы.

У Unreal Engine , при рендере в реальном времени, Blackwell опережает RTX 6000 Ada, но прирост производительности зависит от сложности сцены. Значительно более ощутимое преимущество проявляется в офлайн-рендерерах: V-Ray RTX, Blender Optix, V-Ray CUDA. В этих тестах RTX Pro 6000 Blackwell оказывается почти вдвое быстрее предыдущего поколения.

Новый мощный графический процессор действительно впечатляет. Но он имеет смысл только для тех, кто сознательно выбирает профессиональное решение и нуждается в увеличенной памяти (по сравнению с GeForce RTX 5090).

 

Моделирование

 

Лидер в сфере моделирования Cadence Design Systems представил самую амбициозную на сегодняшний день аппаратно-программную платформу для моделирования и проектирования с применением искусственного интеллекта — суперкомпьютер Millennium M2000.

Этот комплекс разработан для сложных задач: проектирования микросхем следующего поколения, разработки новых лекарственных препаратов, высокоточного вычислительного моделирования гидродинамики (CFD). В сферах робототехники, автономного транспорта, а также аэрокосмической и автомобильной промышленности M2000 позволяет создавать виртуальные аэродинамические трубы — сложные цифровые модели, имитирующие поведение физических объектов в потоках воздуха. Это позволяет тщательно тестировать решение для создания физического прототипа, значительно сокращая затраты и время.

Эта сложная инженерная система работает на базе графических ускорителей NVIDIA RTX Pro 6000 Server Edition – мощных решений, специально оптимизированных для вычислительных кластеров и центров обработки данных. Конечно, она не является примером следования («не пытайтесь повторить это дома»). Но можно представить себе масштаб и потенциал индустрии: во время анонса системы генеральный директор NVIDIA Дженсен Хуанг объявил, что немедленно заказывает десять таких суперкомпьютеров. Его полушутливый вопрос «Когда вы начнете поставки?» вызывало смех в зале — и в то же время четко обозначило реальные потребности в подобных системах на рынке.

 

«Каждому – по вере его»

 

За исключением демонстративного потребления (вроде покупки видеокарты за $10 000 «для игр»), большинство покупателей дорогих графических ускорителей четко осознают, что требования к аппаратной части диктует программное обеспечение.

В частности, выбор RTX Pro 6000 с 96 ГБ видеопамяти вместо GeForce RTX 5090 с 32 ГБ (при трехкратной переплате) оправдан в тех случаях, когда модель не помещается в память потребительской карты, а распределены вычисления между несколькими GPU или малоэффективны, или вообще не эффективны, или вообще неэффективны, или вообще неэффективны, или вообще не эффективны.

На следующем уровне – в мире многопроцессорных систем, где неизбежно построение конфигураций из нескольких GPU, выбора уже нет.

Всё решено за нас.