Невыносимая сложность бытия: архитектура NVIDIA Blackwell

17.09.2025 | Серверы

 

Ускорители на графических процессорах находятся в центре внимания исследователей искусственного интеллекта и всех причастных: от поставщиков серверного оборудования до энергетиков и биржевых игроков. Рыночная капитализация NVIDIA выросла на 50% за последний год, превысив четыре триллиона долларов.

Оставим дискуссии о «пузырях» и финансовых рисках провидцам будущего. Гораздо интереснее заглянуть за технологические кулисы. Чтение документации разработчиков процессоров открывает масштабность задач и вызывает искреннее уважение к создателям.

Так что к делу.

Открываем первоисточник NVIDIA RTX BLACKWELL GPU ARCHITECTURE. Blackwell – новая архитектура NVIDIA, «мозг эры ИИ». Она легла в основу целого поколения ускорителей – от настольных видеокарт RTX 5090 до серверных B100/B200 для дата-центров.

По официальной документации, полный чип GB202 состоит из 92,2 млрд транзисторов и содержит 12 GPC, 96 TPC, 192 SM и 16 контроллеров памяти по 32 бита (в общей сложности 512 бит). В каждом SM - 128 ядер FP32 CUDA, то есть всего 24 576 CUDA-ядер, а также 192 ядра RT, 768 ядер Tensor, 768 текстурных блоков и 192 ROPS. Подсистема памяти включает 24 МБ кэша L1, 48 МБ регистров и 128 МБ кэша L2.

Еще недавно мы с придыханием листали документацию к архитектуре Hopper. С тех пор количество транзисторов в GPU выросло на 15%. Казалось бы, мелочь – в относительных величинах это как шаг от 200 до 230. Но в абсолютных цифрах речь идет о дополнительных 12 миллиардах транзисторов!

Как заставить работать такое гигантское количество разнообразных ядер? Как программное обеспечение распознает и координирует их работу? Как ядра обмениваются данными и получают доступ к памяти? Как обеспечить стабильную тактовую частоту, ее синхронизацию, питание и охлаждение всей системы?

Это не просто наращивание масштабов — вызов, требующий чрезвычайной инженерной компетентности. NVIDIA завоевала нынешнее лидерство благодаря способности решать подобные задачи, воплощая их не только в алгоритмах, но и в сверхсложных аппаратных решениях.

Переход от Ampere к Hopper был для NVIDIA относительно простым. Нидерландская ASML вместе с тайваньской TSMC обеспечили переход с 7-нм на 4-нм техпроцесс. Добавление 25,8 миллиарда транзисторов не превратило Hopper в «мартеновскую печь».

А вот с выпуском GB202 ситуация усложнилась: пришлось остаться на том же 4-нм техпроцессе и вместе с тем разместить еще большее количество транзисторов. В современных цифровых схемах (CPU или GPU) главным источником тепла является динамическая мощность, связанная с зарядкой и разрядкой затворной емкости. Приблизительные оценки (с учетом того, что не все транзисторы работают одновременно и архитектурные оптимизации снижают тепловую нагрузку) показывают: каждый дополнительный миллиард транзисторов может увеличивать тепловыделение на 10–50 Вт. В результате тепловая нагрузка чипа приближается к киловатту, что делает создание GPU в формате PCIe-карты чрезвычайно сложной задачей.

Чтобы справиться с ростом количества транзисторов и стагнацией литографии, NVIDIA применила многоуровневую систему оптимизации энергопотребления и тепловыделения, основанную на тонком управлении питанием и тактированием. В документации появились новые маркетинговые термины – Clock Gating, Power Gating и Rail Gating. За этими словами стоит титанический инженерный труд и чрезвычайная сложность проектирования.

Усовершенствованная система управления питанием Blackwell позволяет выборочно выключать отдельные функциональные блоки графического процессора, когда они не задействованы. Технология реализована с высокой детализацией: динамическое включение и выключение даже мельчайших компонентов существенно снижает энергопотребление без потери производительности.

Впервые NVIDIA применила отдельные шины для ядер GPU и подсистемы памяти. Это позволяет точно подстраивать напряжение под потребности каждой системы. Например, модули памяти нуждаются в постоянном питании, тогда как вычислительные ядра могут полностью отключаться в периоды простоя. Разделение питания не только повышает энергоэффективность, но и уменьшает тепловыделение.

Дополнительно энергосберегающие режимы могут синхронизироваться с обработкой кадров, оптимизируя работу GPU в условиях переменной нагрузки. Благодаря этому тактовая частота может адаптироваться к текущим потребностям в 1000 раз быстрее , чем в предыдущих поколениях. Если раньше графический процессор должен поддерживать стабильную частоту в течение нескольких миллисекунд, то теперь он реагирует на изменения в пределах микросекунд.

 

 

Такая быстрая адаптивность существенно снижает энергопотребление, особенно при переменных или кратковременных нагрузках. Ускоренное переключение частот обеспечивает не только экономию энергии, но и повышает эффективность в реальных рабочих сценариях. Благодаря этому GPU способен быстрее мобилизовать доступные ресурсы, что позволяет обрабатывать пиковые нагрузки без потери стабильности или дополнительных задержек.

Для понимания сложности таких инноваций следует взглянуть на проектирование системы тактирования и стробирования. Самый большой чип архитектуры NVIDIA Blackwell – GB200 – содержит 208 миллиардов транзисторов. Если учесть, что типичный логический вентиль состоит из 4-6 транзисторов, количество вентилей Blackwell можно оценить примерно в 40 миллиардов.

В полупроводниковом проектировании считается, что уже при превышении отметки в 10 миллионов вентилей инструменты автоматизированного проектирования (EDA), в частности Auto Place & Route, сталкиваются с ощутимыми трудностями. В случае с Blackwell эти проблемы выходят на совершенно новый уровень, что подчеркивает исключительную сложность создания таких процессоров.

(Synopsys IC Compiler II – основной инструмент для Auto Place & Route – рекомендует разбивать проекты на блоки размером примерно до 10 миллионов вентилей, что соответствует 2–5 миллионам инстансов. Такой подход обусловлен необходимостью сохранять баланс между производительностью, потреблением ресурсов, временем выполнения и качеством результатов в ключевых параметрах: производительности, энергоэффективности и площади кристалла).

Поэтому дизайн делится на области примерно по 10 миллионов вентилей. По этому стандарту Blackwell имеет около 4000 таких областей . Для работы микросхемы каждая из этих областей нуждается по крайней мере в одном тактовом генераторе. Количество генераторов можно оптимизировать с помощью различных методов, однако минимальный уровень остается по меньшей мере 4000.

Дополнительно усложняет систему стробирования тактовых генераторов, отключающее питание тогда, когда оно не требуется. Это позволяет снизить энергопотребление и повысить эффективность, но одновременно увеличивает масштабность задачи: количество узлов стробирования обычно в 10-20 раз превышает количество тактовых доменов. Даже по консервативной оценке – если умножать на 10 – получаем около 40 000 узлов .

В кремниевой реализации NVIDIA, несомненно, оптимизировала количество доменов, однако трудно представить систему, способную генерировать тысячи тактовых сигналов, доставлять их именно туда, где они нужны, и включать или выключать в реальном времени с точностью до кадра.

Это как Метагалактика – наблюдаемая часть Вселенной. Видимая, но необъятная.