Платформи-компаньйони обчислень на графічних процесорах
Центральні процесори (CPU) – універсальний інструмент виконання найрізноманітніших завдань. Графічні процесори (GPU) за своєю природою більше підходять під паралельні обчислення – ідеально для комп'ютерної графіки та машинного навчання. Тому і спостерігаємо випереджаюче зростання попиту на GPU-обчислення, що штучний інтелект входить у повсякденне життя: розпізнавання зображень та мовлення, навігація, розумний пошук, персоналізація онлайн-пропозиції, сервісні чат-боти. За оцінками McKinsey, темпи розвитку напівпровідникової індустрії, що обслуговує AI, уп'ятеро вищі за non-AI.
Основні завдання штучного інтелекту - навчання та інференс: підготовка моделей для додатків на масивах наявних даних та робота вже навченої нейронної мережі на кінцевому пристрої. Згідно з тими ж підрахунками McKinsey, до 2025 року витрати на інференс у дата-центрах удвічі перевищать витрати на тренування нейромереж, а попит на периферійні інференс-рішення буде втричі більшим за обсяг ринку обладнання для навчання.
Крім завдань штучного інтелекту, GPU ефективніший за CPU в аналізі даних, математичних розрахунках, моделюванні, рендерингу, малюванні ігор і спецефектів кіно.
Продуктивність більшості обслуговуючих програм добре масштабується по GPU, що породило окремий клас робочих станцій та серверів з кількома графічними процесорами. Платформи multi-GPU домінують на ринку – через щільність та енергоефективність обчислень.
Автори базових платформ для GPU-серверів орієнтуються на NVIDIA – лідера графічних розробок. Найбільш повну картину дає каталог кваліфікованих NVIDIA систем. У облаштуванні обчислювачів на графічних процесорах є загальна логіка. Обійдемося вибірковими прикладами.
Професійні та користувальницькі акселератори
NVIDIA постачає графічні процесори численним виробникам ігрових відеокарт, але сама проектує лінійки акселераторів для робочих станцій та серверів . Професійні візуальні обчислення у завданнях штучного інтелекту, промислового проектування чи створення спецефектів вимагають відповідних програмно-апаратних засобів. Особливо коли йдеться про масштабування навантажень.
Наприклад, акселератори RTX A6000 і RTX 3090 створені на одному процесорі GA102 покоління Ampere. Але у A6000 48GB пам'яті ECC (проти 24GB non-ECC), термопакет 300 ват (проти 350-450 ват) і товщина два слоти (проти трьох). RTX A6000 охолоджується поздовжньо, з використанням одного активного елемента відцентрового типу (турбіни), тоді як RTX 3090 оснащені вентиляторами з боковим видуванням. Під щільне набивання серверів у дата-центрах NVIDIA рекомендує A40 – аналог A6000, також двослотовий, але з пасивним охолодженням.
Якщо в робочу станцію чи сервер треба поставити кілька графічних акселераторів, з побутовими відеокартами це зробити складно фізично.
AMD замість Intel
Багато років GPU-сервери традиційно робили на інтелівських платформах, хоча AMD вже п'ять років пропонує серверному ринку передові технологічні рішення . Консерватизм виробників сильно похитнув випуск самої NVIDIA два роки тому сервера DGX A100 – універсальної системи під завдання AI із вісьма графічними прискорювачами A100 загальною продуктивністю 5 петафлопс. Це не перший сервер від NVIDIA, але вперше у своїй практиці компанія вибрала центральні процесори AMD, не Intel (два AMD EPYC 7742). З'явилося і простіше рішення - станція для робочих груп DGX Station A100 на чотирьох акселераторах A100 і одному AMD EPYC 7742.
Інтереси AMD та NVIDIA зійшлися. Процесори EPYC були і залишаються ключовим компонентом високопродуктивних обчислень (HPC). NVIDIA з цим погодилася : «Наші нові графічні процесори A100, які ми використовуємо в DGX A100, забезпечують величезний стрибок продуктивності та можливостей. Щоб вони постачали дані, нам були потрібні швидкі центральні процесори з максимально можливою кількістю ядер і PCI-ліній. Використовувані процесорами AMD [EPYC 7742] мають по 64 ядра, багато ліній PCI і підтримують PCIe 4.0».
Справа не в ціні, а в охопленні можливостей. Порівняємо AMD EPYC Milan та Intel Xeon Ice Lake:
Ядер |
8-64 |
8-40 |
Потоків |
16-128 |
16-80 |
Техпроцес |
7нм |
10нм |
Базові частоти (ГГц) |
2.0 – 3.7 |
2.0 – 3.6 |
Максимальні частоти (ГГц) |
3.45 – 4.1 |
2.6 – 3.6 |
Термопакет |
155Вт - 280Вт |
105Вт - 270Вт |
Кеш L2 |
512КБ |
10МБ - 50МБ |
Кеш L3 |
64МБ - 256МБ |
12МБ - 60МБ |
DDR4 (МГц) |
3200 |
3200 |
Пам'ять |
4TB |
6TB |
Ліній PCIe 4.0 |
128 |
64 |
Один процесор AMD EPYC обслуговує 128 ліній PCIe 4.0. Один Intel Xeon - 64. Два процесори AMD EPYC - 160 (решта з 2 х 128 йдуть на міжпроцесорні з'єднання). Два Intel Xeon SP 3rd Gen Ice Lake -128 ліній. Зрозуміло, підключення периферійних пристроїв можна масштабувати за допомогою комутаторів PCIe, але це ускладнює схемотехніку базових материнських плат та здорожчує виробництво.
Багатоядерність CPU не завадить там, де є змішані навантаження, в багатозадачному і розрахованому на багато користувачів середовищі. Лінії PCIe потрібні периферійним пристроям, головним чином, графічним акселераторам. Перевага по ядрах CPU та кількості доступних ліній PCIe (крім GPU є й інші споживачі: NVMe SSD, мережеві карти, акселератори FPGA) дає AMD перевагу над Intel.
Приклади платформ
Світ GPU-рішень різноманітний, а вибір завжди суб'єктивний. Обмежимося прикладом ходових платформ ASUS на процесорах AMD – на одному вендорі зрозуміліша логіка продуктової вертикалі. Почнемо із настільних робочих станцій.
З виходом лінійки AMD Ryzen Threadripper PRO зникла потреба в двопроцесорних робочих станціях Intel Xeon для цілих класів настільних додатків. AMD відігнав конкурента від столу розробника все тим самим: багатоядерністю, високою тактовою частотою, 128 лініями PCIe 4.0 з процесора. У старшого AMD Ryzen Threadripper PRO 5995WX 64 ядра з базовою частотою 2.7ГГц та максимальною 4.5ГГц.
На материнській платі ASUS WS WRX80E-SAGE SE WiFi сім слотів PCIe 4.0 x16.
Сюди стають чотири акселератори подвійної товщини, аж до NVIDIA A100 , або сім однослотових - як NVIDIA A2 . Все це господарство треба розмістити у просторому корпусі, забезпечити живлення та відвести тепло, що саме по собі є нетривіальним завданням. Але результат того вартий.
На такі рішення є попит від авторів мультимедійного контенту, розробників ігор, наукових лабораторій.
Стійкові варіанти
Найпопулярніший формат GPU-сервера стійкового монтажу - платформа 2U під 8 однослотових або 4 двослотових акселератора - як ASUS ESC4000A-E11 . Односокетна платформа AMD EPYC Rome/Milan – гарне та економічне рішення, багаторазово апробоване на практиці . Купейне компонування забезпечує гарне охолодження GPU та просте обслуговування сервера.
На блок-схемі базової материнської плати видно яку свободу отримує розробник платформи на AMD EPYC, коли ліній PCIe 4.0 із процесора вистачає всім мислимим споживачам, без додаткової комутації та ускладнення дизайну.
Для тих, кому цього мало, є платформа 4U під 8 двослотових GPU, ASUS ESC8000A-E11 - на двох процесорах AMD EPYC Milan.
Платформи свободи розробника
Подібні сервери – потужний інструмент розробки, коли можна не тільки розпоряджатися програмними збірками під прикладні завдання, але й масштабувати продуктивність та модифікувати апаратне наповнення. Хтось вибирає GPU з лінійок NVIDIA, іншим підходять прискорювачі AMD Instinct MI100, є юзери Xlinx FPGA.
Ринок дрейфує до децентралізації обчислень (зокрема, їх перенесення з CPU на периферійні пристрої) та створює попит на відповідні апаратні рішення.