Закон убывающей отдачи или Затратное лидерство

Есть простое экономическое правило: если постоянно вкладываться в один и тот же ресурс, то с определенного момента каждая последующая единица инвестиций будет давать все меньший прирост результата. В технологиях закон убывающей отдачи проявляется даже жестче, чем в классической экономике. Современные системы многокомпонентны, с ростом их сложности расходы на согласование и координацию нивелируют ожидаемый прирост производительности.
Каждый последующий процент ускорения стоит все дороже. Классический пример - закон Амдала , описывающий фундаментальное ограничение масштабирования при параллельных вычислениях: если часть задачи не поддается параллелизации, общее время выполнения не может быть меньше времени выполнения самого медленного фрагмента. Скажем, в ИИ-инференсе, если определенные этапы обработки остаются последовательными, увеличение количества графических процессоров дает все меньший эффект .
Значительная часть инженерной работы – постоянная борьба с убывающей отдачей. Технологический прогресс приносит очевидные улучшения: более тонкие техпроцессы, многоядерность, кэширование, параллелизм. В то же время, усложняется взаимодействие между компонентами, падают рабочие частоты и эффективность, а энергопотребление становится главным ограничительным фактором. Реальный выигрыш обеспечивает только специализация. Индустрия проживает «одну битву за другой» двух сил, постоянно тянущих положение дел в противоположные стороны: закона Мура (больше транзисторов, большая плотность) и закона нисходящей отдачи (меньший прирост пользы от каждого транзистора).
Прогресс оплачивает потребитель – и не обязательно напрямую. Волна расходов мировых лидеров на ШИ-разработки уже привела к каскадному росту цен на всю микроэлектронику. Новая реальность заставляет затягивать пояса, принимать более взвешенные решения и охлаждать максимализм. Отчасти погоню за «лучшим» сдерживают чрезмерные затраты на достижение желаемого, естественным образом.
Несмотря на такие проявления закона нисходящей отдачи на уровне отдельно взятого кармана, не все так грустно: незначительное ослабление требований может существенно упростить реализацию без заметного ущерба для производительности. Вот несколько примеров оптимального выбора в плоскости «ожидания - затраты».
NVIDIA RTX PRO 6000 Blackwell : Workstation Edition против Max - Q
Архитектура NVIDIA Blackwell стала значительным шагом вперед по сравнению с предыдущим поколением графических процессоров Ada. В частности, старшие ускорители для профессиональных рабочих станций, RTX PRO 6000 Blackwell Workstation Edition (WE) и RTX PRO 6000 Blackwell Max-Q Workstation Edition (Max-Q), получили удвоенный объем графической памяти – 96ГБ.
|
|
NVIDIA RTX PRO 6000 Blackwell WE |
NVIDIA RTX PRO 6000 Blackwell Max-Q |
NVIDIA RTX 6000 Ada |
|
Архитектура |
Blackwell |
Blackwell |
Ada |
|
Процессор |
GB202 |
GB202 |
AD102 |
|
Ядро CUDA |
24 064 |
24 064 |
18 176 |
|
Тензорные ядра |
752 |
752 |
568 |
|
RT -ядра |
188 |
188 |
142 |
|
Видеопамять |
96ГБ GDDR7 ECC |
96ГБ GDDR7 ECC |
48ГБ GDDR6 ECC |
|
Базовая частота |
1590 МГц |
1035 МГц |
915 МГц |
|
Максимальная частота |
2617 МГц |
2280 МГц |
2505 МГц |
|
Пропускная способность памяти |
1792 Гб/с |
1792 Гб/с |
960 Гб/с |
|
FP16 (half) |
126.0 TFLOPS (1:1) |
109.7 TFLOPS (1:1) |
91.06 TFLOPS (1:1) |
|
FP32 (float) |
126.0 TFLOPS |
109.7 TFLOPS |
91.06 TFLOPS |
|
FP64 (double) |
1.968 TFLOPS (1:64) |
1.715 TFLOPS (1:64) |
1.422,08 TFLOPS (1:64) |
|
Видеовыходы |
4x DisplayPort 2.1 |
4x DisplayPort 2.1 |
4x DisplayPort 1.4 |
|
Потребление |
600 Вт |
300 Вт |
300 Вт |
|
Шина |
PCIe Gen 5 x16 |
PCIe Gen 5 x16 |
PCIe Gen 4x16 |
|
Размер |
5.4” (В) x 12” (Д) двухслотовая |
4.4” (В) x 10.5” (Д) двухслотовая |
4.4” (В) x 10.5” (Д) двухслотовая |
|
Охлаждение |
Боковые вентиляторы |
Активное, турбина |
Активное, турбина |
|
Цена |
~$11,000 |
~$10,200 |
~$9,100 |
Самым заметным отличием между двумя версиями RTX Pro 6000 Blackwell является энергопотребление. Max-Q удерживает его на приемлемом уровне 300 Вт, тогда как флагманская WE потребляет впечатляющие 600 Вт и значительно более требовательна к окружающим: просторных корпусов, мощных блоков питания и подсистем охлаждения. Для одной такой карты требуется блок питания мощностью 1000-1200 Вт со штатным 16-пиновым разъемом 12 VHPWR / CEM 5 , сертифицированным для высоких токов. Значительные габариты и конструктивные особенности карты нуждаются в тщательной организации воздушного потока в корпусе.
Физически WE не помещается в стандартные 4U-шасси, а установка даже двух карт в одну рабочую станцию является вызовом. Возможность разместить несколько GPU в одной системе без необходимости в специализированных решениях питания или охлаждения - существенное преимущество Max-Q в сценариях масштабирования GPU-производительности.
Сравнение RTX PRO 6000 WE и Max-Q в задачах создания контента показывает: несмотря на вдвое меньшее энергопотребление Max-Q в большинстве случаев держится почти на уровне WE. У After Effects Max-Q отстала на 5-9%, у Unreal Engine – на 14% (и была лишь чуть быстрее RTX 6000 Ada). Автономные рендереры, такие как V-Ray, Blender, Redshift и Octane также показали незначительное отставание Max-Q на 5-13%.
Для большинства пользователей, сосредоточенных на After Effects и Adobe Creative Cloud, лучшим выбором с учетом цены будут даже не RTX PRO 6000, а потребительские карты GeForce RTX серии 50.
AMD EPYC 4545 P
Серверы AMD на сокете АМ5 являются удачной альтернативой не только Intel Xeon E (Xeon 6300), но и большинству решений класса Intel Xeon Silver, благодаря высокой процессорной производительности и более дешевой платформе.
В линейке процессоров AMD EPYC 4005 особенно выделяется 16-ядерный AMD EPYC 4545P . Его тепловой пакет 65 Вт составляет всего 38% от показателей флагманских моделей EPYC 4565P и EPYC 4585PX с TDP 170 Вт. За это приходится платить более низкой базовой частотой – 3,0 ГГц против 4,3 ГГц, однако максимальная частота в 5,4 ГГц почти не уступает 5,7 ГГц у старших процессоров.
По результатам тестов Phoronix AMD EPYC 4545P обеспечивает 88% производительности от 16-ядерного EPYC 4565P и 84% от флагманского, а также 16-ядерного EPYC 4585PX с технологией 3D V-Cache. При таком незначительном отставании удивительно малое энергопотребление и меньшая цена делают AMD EPYC 4545P естественным выбором для развертывания недорогих высокопроизводительных серверов веб-приложений , edge-решений и любых инфраструктурных задач с плотным размещением оборудования.
Многоканальность памяти
Заполнение всех каналов памяти процессора в целом считается правильной практикой. Однако большинство серверных приложений значительно чувствительнее к задержкам (latency), чем к пропускной способности подсистемы памяти (bandwidth). Причина проста: нагрузка баз данных и виртуализированных сред состоят из большого количества мелких, коротких и взаимосвязанных доступов к оперативной памяти и постоянным носителям, в которых процессор в основном ожидает данные, а не последовательно передает гигабайты информации. Высокая поточная скорость важна в задачах аналитики, научных расчетах и ШИ-нагрузках – в частности, при предварительной обработке данных и инференса на CPU.
Показательно исследование 8 vs. 12 Channel DDR5-6000 Memory Performance With AMD 5th Gen EPYC , во время которого почти 200 бенчмарков использовались для оценки влияния заполнения всех 12 каналов памяти процессора AMD EPYC 9655 (1P) модулями DDR5-6000. Разница в производительности между конфигурациями с 8 и 12 модулями оказалась настолько незначительной, что автор пришел к выводу о целесообразности выбора более дешевой материнской платы с 8 слотами DIMM.
Сегодня вклад модулей оперативной памяти в общую стоимость сервера настолько велик, что рекомендация заполнять все слоты DIMM в соответствии с количеством каналов CPU выглядит довольно циничной. Объем DRAM должен определяться реальными потребностями приложений и имеющимся бюджетом. Количество установленных модулей является второстепенным фактором.
Совет, откуда не ждали
Даже сами производители призывают к сдержанности. С началом поставок нового процессора Ryzen 7 9850X3D компания AMD прямо отмечает , что не стоит гнаться за памятью DDR5-6000, которую традиционно считают оптимальной. Новинка демонстрирует стабильную и предполагаемую производительность и с заметно более медленной памятью.
По данным AMD, разница в игровой производительности Ryzen 7 9850X3D между памятью со скоростью 4800 и 6000 МТ/с составляет менее 1%, тогда как стоимость модулей DDR5-6000 примерно на 20% выше. Это наглядно иллюстрирует классическую ситуацию убывающей отдачи: дополнительные затраты почти не трансформируются в практический выигрыш.
«Лучшее — враг достаточного»
Повсеместно и постоянно решения, находящиеся «на шаг ниже флагмана», обеспечивают желаемое за гораздо меньшие деньги, с более простой реализацией. Рациональный выбор заключается не в погоне за максимумом характеристик, а в достижении оптимального баланса между возможностями, ценой и реальными потребностями.
Понимание обычно приходит через кошелек.
