Соблазны межпроцессорных соединений GPU

16.07.2025 | Серверы

 

Названия графических ускорителей NVIDIA H100 NVL и H200 NVL для задач искусственного интеллекта и высокопроизводительных вычислений указывают на поддержку NVLink – технологии обмена данными между несколькими GPU графическими процессорами с гораздо большей скоростью, чем по шине PCIe. Мосты NVLink применяются в многопроцессорных (multi-GPU) системах, где критически важна высокая общая производительность при интенсивном внутреннем обмене данными - в обучении нейросетей, распознавании изображений, обработке естественного языка, научном моделировании.

 

От SLI к NVLink

Значительной частью эволюции GPU последних десятилетий стало развитие технологий, позволяющих нескольким графическим процессорам работать вместе. NVIDIA прошла путь от SLI – популярной среди геймеров технологии – до NVLink для задач машинного обучения и логического вывода в реальном времени.

SLI начала 2000-х годов была ответом NVIDIA на рост спроса на более высокое качество графики в видеоиграх. Улучшение производительности обеспечивалось путем альтернативного рендеринга с распределением воспроизведения кадров между несколькими GPU. Сходным образом работала и технология конкурента AMD CrossFire.

В 2010-х появились цели поинтереснее улучшения игрового и потребительского графического опыта. Развитие искусственного интеллекта, высокопроизводительные вычисления и аналитика больших данных требовали производительных многопроцессорных решений. В 2017 году вместе с архитектурой Volta NVIDIA представила принципиально новый подход к соединению графических процессоров – NVLink. Благодаря сетчатой топологии и концепции унифицированной памяти, удалось существенно повысить эффективность параллельной обработки больших объемов данных.

 

Движущие силы технологии

Архитектура NVLink построена на высокоскоростных линиях передачи данных, обеспечивающих двунаправленную коммуникацию. NVLink реализует соединение типа "точка-точка", что существенно уменьшает узкие места в обмене данными и повышает общую пропускную способность.

Сетчатая топология позволяет создавать более гибкие и многочисленные соединения между графическими процессорами, в отличие от более старых архитектур вроде цепнчечных схем или «звезды». Это важно для дата-центров и высокопроизводительных вычислений, где сложные маршруты данных являются нормой.

Ключевым преимуществом является унифицированный доступ к памяти, уменьшающий потребность в дублировании данных между GPU. Это в значительной степени упрощает работу с большими наборами данных, особенно в задачах машинного обучения и аналитики обширных данных, где объем оперативной памяти одного графического процессора часто недостаточен.

NVLink улучшает задержку при передаче данных, что является критическим фактором для эффективной синхронизации между GPU. Это достигается благодаря поддержке прямого доступа к памяти (DMA) — когда один GPU может напрямую считывать или записывать данные в память другого без участия центрального процессора.

С ростом спроса на вычисление искусственного интеллекта, логического вывода и аналитики в реальном времени развитие NVLink будет продолжать играть ключевую роль в создании масштабируемых, высокопроизводительных систем.

 

Позиция NVIDIA

Компания представляет технологию NVLink как премиальную функцию для выбранных видеокарт. NVLink имеет два ключевых преимущества: во-первых, пропускная способность протокола значительно выше, чем у PCI, а во-вторых, чипы видеокарт связаны непосредственно в обход процессора. Теоретически эти особенности должны обеспечивать более высокую скорость выполнения задач:

  • Оптимизация топологии (например точка-точка, сетчатая, кольцевая) на основе требований к рабочей нагрузке. Например, модели обучения ИИ с интенсивной межграфической связью получают преимущества от сетчатых топологий, в то время как рабочие нагрузки с минимальной передачей данных между графическими процессорами могут использовать более простые настройки.
  • Использование библиотек с поддержкой NVLink: cuDNN, NCCL и TensorRT. Они эффективно обрабатывают параллелизм и пулинг памяти, уменьшая потребность в пользовательской оптимизации.
  • Интеграция NVSwitch для гипермасштабированных систем, многоузловых конфигураций.
  • Закрепление памяти для оптимизации скорости передачи данных. Сочетание закрепленной памяти с унифицированной моделью памяти NVLink может еще больше повысить производительность в программах, требующих частой связи между хостом и графическим процессором.
  • Сочетание NVLink с RDMA для кластерных вычислений: в распределенных системах используйте удаленный прямой доступ к памяти (RDMA) для достижения связи между узлами графического процессора с низкой задержкой.

 

Современное состояние

Флагманский дискретный графический ускоритель NVIDIA H200 NVL поддерживает использование мостов NVLink как в конфигурации на два, так и четыре GPU.

 

 

В парном режиме (2×GPU) пропускная способность межпроцессорного соединения достигает 900 ГБ/с, что на 50% выше, чем у предшественника H100 NVL, и примерно в 7 раз быстрее, чем по шине PCIe Gen5.

В конфигурации с четырьмя ускорителями H200 NVL, соединенными мостами NVLink, суммарная скорость обмена данными достигает 1,8 ТБ/с. Это открывает новые возможности для задач с экстремально высокими требованиями к межпроцессорной коммуникации, таких как тренировка гигантских LLM, графовые вычисления и обработка потоковых данных в реальном времени.

 

Feature

NVIDIA H100 NVL

NVIDIA H200 NVL

Memory

94 GB HBM3

141 GB HBM3e

Memory Bandwidth

3.35 TB/s

4.8 TB/s

Max NVLink (BW)

2-way (600 GB/s)

4-way (1.8 TB/s)

Max Memory Pool

188 GB

564 GB

 

Рекомендуемая архитектура

NVIDIA дает рекомендации по аппаратному и программному обеспечению для построения высокопроизводительной, масштабируемой, безопасной инфраструктуры ускоренных графических вычислений.

Спецификация NVIDIA MGX предлагает производителям серверных систем модульную эталонную архитектуру для эффективного создания различных вариантов серверов. Например, в шаблоне H200 NVL PCIe Optimized 2-8-5 цифры обозначают количество процессорных сокетов (CPU), количество графических процессоров (GPU) и количество сетевых адаптеров (NIC). Восемь H200 NVL могут быть соединены двумя мостами 4-way NVLink или попарно по мостам 2-way NVLink, в зависимости от целевого сценария использования. Это обеспечивает масштабируемую внутрисистемную пропускную способность для задач со сверхвысокими требованиями к скорости обмена данными между GPU.

 

Примером MGX-платформы является ASUS ESC8000A-E13P . Двухпроцессорный сервер на AMD EPYC 9005 поддерживает до восьми двухслотных графических процессоров NVIDIA H200 NVL (или NVIDIA RTX PRO 6000 Blackwell Server Edition), до 24 модулей DIMM, пяти слотов PCIe 5.0 и восьми 2,5-дюйм.

 

 

Ошибочные представления

Устойчивое мнение, якобы NVLink позволяет объединять видеопамять нескольких графических процессоров в единый пул, ошибочно. Мосты не заставляют набор GPU работать как одна система с суммарной памятью. Это предубеждение берет начало еще со времен, когда функциональность объединения была не очевидна и казалась частью драйверов NVIDIA – достаточно было «включить галочку» в настройках, а не программировать взаимодействие вручную.

NVLink не создает единого объема памяти, общего для всех GPU. Он обеспечивает высокоскоростной обмен данными между видеокартами, в частности прямой доступ одного GPU к памяти другого. Но управление распределением данных в памяти остается в зоне ответственности фреймворков и API, таких как CUDA, PyTorch или TensorFlow. Именно они решают, какие части модели или данных разместить на каком-нибудь графическом процессоре, и координируют передачу между ними.

Этот обмен, хоть и в разы быстрее PCIe, значительно уступает скорости локального доступа к памяти GPU. Поэтому даже при наличии NVLink эффективность масштабирования во многом определяется характером задачи и свойствами алгоритма.

Дотошные исследователи напоминают: не каждая задача масштабируется линейно с добавлением графических процессоров. И не каждый сценарий извлекает выгоду от NVLink. Производительность может даже снижаться, если затраты на синхронизацию и передачу данных превышают выигрыш от параллелизма. Прирост эффективности параллелизма зависит от алгоритма задачи и ограничен сверху для любой задачи .

 

To link or not to link?

NVLink может оказаться полезным, когда вся программа или модель не помещается в память одного графического процессора и возникает необходимость передавать данные между несколькими GPU. В таких случаях увеличена пропускная способность NVLink облегчает взаимодействие между устройствами и уменьшает задержки по сравнению с PCIe.

Однако добавление новых GPU не всегда оправдано. Существуют накладные расходы – время, необходимое для синхронизации и передачи данных между графическими процессорами. Кроме того, масштабируемость вычислений ограничена не только скоростью связи, но и структурой алгоритма.

При логическом выводе (inference) с использованием больших языковых моделей (LLM) передача данных между GPU минимальна, поэтому NVLink почти не требуется. Но при обучении, особенно когда модель распределена между несколькими GPU, накладные расходы на передачу могут существенно возрастать. В таких случаях NVLink улучшает эффективность, но не решает все проблемы.

Существуют альтернативы модульному распределению модели:

  • Параллелизм модели: позволяет распределить модель между GPU, но требует высокой скорости соединения и вызывает более высокие затраты на синхронизацию.
  • Параллелизм данных: каждый GPU обрабатывает отдельные фрагменты данных с полной копией модели. Это гораздо проще масштабировать, и NVLink не обязателен, если модель помещается в память каждого GPU.

 

Выбираем взвешенно

NVIDIA рекомендует учитывать конкретные модели рабочей погрузки и требования к масштабируемости, выбирая стратегию соединения графических процессоров. Если вы учите большие модели на кластере серверов с GPU, NVLink может стать полезным. В большинстве случаев, связанных с разработкой и логическим выводом, обмена по PCIe вполне достаточно.

С другой стороны, клиентов, которые могут позволить себе серверы с восемью H200 NVL, вряд ли сдержат дополнительные расходы на пару мостов NVLink – даже если реальная польза от них будет неочевидной.

 

При использовании материалов NVIDIA.