Локальный инференс на двух RTX 5090. Движущие силы спроса

За последние несколько лет рынок прошел путь от экспериментальных AI-инструментов до массового внедрения больших языковых моделей в разработке, аналитике и автоматизации бизнес-процессов. Вместе с расширением возможностей росли и требования к оборудованию. Ключевым ограничением для локального запуска LLM, мультимодальных систем и диффузионных моделей сегодня становится не только вычислительная мощность CPU/GPU, но и объем и пропускная способность видеопамяти.

Графические ускорители NVIDIA RTX 5090 отличаются двумя особенностями архитектуры Blackwell, важными для инференса: аппаратной поддержкой FP4 на уровне тензорных ядер и использованием памяти GDDR7. Именно поэтому они стали "народным стандартом" локальных AI-серверов, ориентированных на запуск больших моделей.

Тензорные ядра пятого поколения и FP4

Тензорные ядра графических процессоров выполняют операции матричного умножения, лежащие в основе работы нейросетей. Архитектура NVIDIA Blackwell реализует уже пятое поколение таких ядер. Одним из ключевых обновлений стала аппаратная поддержка формата FP4.

Источник : NVIDIA

С практической точки зрения это означает, что модель можно квантовать до более низкой разрядности: объем занимаемой памяти снижается более чем вдвое по сравнению с FP16, снижается нагрузка на подсистему памяти, а во многих случаях сохраняется приемлемое качество результата при заметном росте скорости.

Для инференса это особенно важно, поскольку у больших моделей ограничение часто связано не с FLOPS, а с тем, сколько параметров и какой объем контекста можно удержать в VRAM. Практический пример – тяжелые модели генерации изображений типа FLUX. В формате FP16 они могут потребовать более 23 ГБ VRAM, после перехода к FP4 объем модели может уменьшаться до менее 10 ГБ, а скорость генерации - заметно возрастать благодаря аппаратной поддержке этого формата.

Кроме FP4, Blackwell поддерживает и другие форматы вычислений: FP6, FP8, FP16, BF16, TF32 и INT8. Это обеспечивает гибкость при выборе схемы квантования под конкретную задачу.

GDDR7 и пропускная способность памяти

При инференсе больших моделей узким местом часто становится подсистема памяти. Графический процессор может производить вычисления быстрее, чем видеопамять успевает поставлять веса модели и контекст, в результате чего часть вычислительных ресурсов простаивает.

В серии RTX 50 эта проблема отчасти решается переходом на память GDDR7. По сравнению с RTX 4090 (архитектура Ada Lovelace) пропускная способность памяти RTX 5090 (Blackwell) выросла с ~1 ТБ/с до ~1.8 ТБ/с.

Источник: NVIDIA

Для AI-нагрузок это важно по нескольким причинам: быстрее загружаются веса модели, ускоряется работа с KV-кэшем, уменьшается задержка при обработке длинных контекстов, повышается стабильность производительности при параллельном выполнении нескольких запросов.

Важной особенностью GDDR7 является использование кодирования PAM3, позволяющее эффективнее передавать данные на более высоких частотах и обеспечивающее стабильную работу памяти при высокой пропускной способности. Дополнительно реализовано встроенные механизмы коррекции ошибок на уровне микросхем памяти, что повышает надежность при длительной нагрузке.

Практические сценарии использования двух RTX 5090

Современные открытые LLM поддерживают тензорный параллелизм, позволяющий распределять модель и вычисления между несколькими GPU . Многографические конфигурации являются естественным способом масштабирования, когда модель не помещается в видеопамять одного ускорителя.

Благодаря высокой вычислительной мощности, относительно простой реализации и привлекательной цене решений приобрел популярность локальный AI-инференс на двух ускорителях RTX 5090. Суммарный объем видеопамяти составляет 64 ГБ, правда, часть ее тратится на служебные нужды драйверов и движка. В результате ключевое ограничение сводится к балансу между размером модели и объемом памяти, доступной для контекста и KV-кэша.

Рассмотрим несколько типичных сценариев использования подобных серверов:

1. Запуск больших моделей

Самый распространенный сценарий использования – запуск моделей класса 70B, в частности Llama 3.1 70B или Qwen2.5-72B. Такие модели применяются для сложного программирования, анализа документов, логического вывода и других задач, где важно высокое качество ответов.

FP4-квантизация (максимальная эффективность)

Для этого класса моделей практически необходимо использование низкой разрядности. В конфигурации с двумя RTX 5090 в таком режиме 70B-модель занимает примерно 35-36 ГБ видеопамяти. С учетом накладных расходов остается около 24 ГБ под KV-кэш.

Этого достаточно для длинного контекста, RAG-сценариев, продолжительных диалогов и задач, где важно не только качество модели, но и способность системы содержать большой объем контекстной информации.

Альтернатива: модели 32B (баланс качества и ресурсов)

Если 70B модели в FP4 обеспечивают максимальное качество, но требуют жесткого контроля за памятью, то модели класса 32B (например, Qwen2.5-32B или Command R) позволяют значительно проще балансировать контекст и параллельную нагрузку.

В конфигурации с двумя RTX 5090 модель у FP8 обычно занимает около 32 ГБ, оставляя до 28 ГБ под KV-кэш. Это удобно для сценариев с большими контекстами, подключением внешних инструментов, параллельной обработкой запросов и снижением риска ошибок из-за нехватки памяти.

В итоге это один из самых практичных вариантов локальных AI-серверов.

2. Агентные системы

Вторым важным сценарием является агентный AI. В этом случае модель не просто отвечает на запросы, но способна взаимодействовать с инструментами, файлами, журналами событий и внешними сервисами в полностью автоматическом режиме.

В качестве примера можно рассмотреть OpenClaw - агентную систему, работающую в фоновом режиме и имеющую доступ к файловой системе, CLI-инструментам и задачам автоматизации. Подобные решения могут анализировать логи, генерировать код, запускать скрипты, обрабатывать документы или передавать результаты во внешние каналы вроде Telegram или WhatsApp.

Источник

Для таких систем критически важны две вещи: корректная поддержка tool calling (механизма вызова модели внешних функций и инструментов) и большой рабочий контекст.

Агентная система работает итеративно: модель получает задание, выбирает инструмент, анализирует результат, после чего формирует следующий шаг. В пределах одной сессии может выполняться много последовательных вызовов модели, причем любая новая итерация опирается на предыдущий контекст.

Связка OpenClaw с моделями класса 32B является одним из наиболее сбалансированных вариантов для агентных сценариев. Она объединяет:

высокую точность в логике и tool calling,
значительный запас памяти под контекст,
возможность работы с длинными логами и документами,
высокую скорость отклика.

В такой конфигурации можно использовать контекст 64k и более – при условии поддержки со стороны модели и инференс-движка. Это важно, когда агенту нужно анализировать обширные журналы событий, историю изменений в коде или наборы файлов проекта.

Вариант OpenClaw с моделями класса 70B/72B имеет смысл в более сложных сценариях, где 32B-модели уже начинают допускать ошибки в планировании или логике. Преимущества 70B-моделей:

выше качество выводов,
стабильнее декомпозиция сложных задач,
меньше вероятность логических ошибок во время многошагового выполнения.

Основное ограничение здесь – доступный объем VRAM под контекст. Если значительная часть памяти занята самой моделью, для логов, истории действий и KV-кеша остается меньше места. Поэтому в агентных сценариях 70B-модели – это выбор в пользу максимального качества рассуждения, в то время как 32B-модели обеспечивают более сбалансированное соотношение между качеством, быстродействием и длиной контекста.

3. Малые модели для массового потока запросов

Третий сценарий – это не работа с одной сложной задачей, а обслуживание большого количества кратких запросов. В таких случаях использование большой модели часто не имеет смысла.

Если развернуть, например, модель Qwen2.5-0.5B на конфигурации из двух RTX 5090, для одного пользователя это будет чрезмерным: модель слишком мала, чтобы эффективно задействовать такой объем вычислительных ресурсов. Однако в промышленных системах подобный подход может быть вполне оправданным, если основная цель — максимальная пропускная способность.

Типичные задания для следующих моделей:

модерация текста,
классификация обращений,
выделение сущностей,
ранжирование коротких сообщений,
анализ логов,
предварительная обработка данных перед передачей в более тяжелые модели.

В высокопроизводительных инференс-конвейерах ключевым параметром становится не размер модели, а количество запросов, которые система способна обработать в секунду. При использовании continuous batching и оптимизированных движков GPU могут работать со значительно более высоким уровнем загрузки и более эффективно использовать доступные ресурсы.

В формате FP4 веса маленьких моделей занимают малый размер памяти. Благодаря этому большая часть VRAM остается доступной для KV-кеша и больших batch-очередей. В результате система способна обслуживать значительное количество параллельных запросов, сохраняя низкую задержку отклика.

Еще один важный сценарий использования малых моделей – speculative decoding, то есть ускорение генерации больших LLM с помощью быстрой «черновой» модели.

Принцип работы состоит в том, что небольшая модель предварительно генерирует несколько последующих токенов, после чего большая модель проверяет этот фрагмент и подтверждает корректные токены. Если возникают разногласия, пересчитывается только проблемная часть ответа, а не весь фрагмент целиком.

Особенно эффективно этот подход работает с большими моделями класса 70B: легкая модель обеспечивает быструю генерацию черновика, тогда как тяжелая модель отвечает за контроль качества и финальную проверку результата. В итоге заметно возрастает скорость генерации без необходимости упрощать или сбавлять основную модель.

Снаряжение исследователей

RTX 5090 стала популярной картой для локального AI-инференса благодаря привлекательному соотношению производительности к цене. Конфигурация с двумя GPU дает удвоенный объем видеопамяти и существенно ускореяет вычисления.

Возможно ли дальнейшее масштабирование с такими GPU?

Собрать систему даже с двумя RTX 5090 - уже непростая задача, с учетом требований к питанию, охлаждению, совместимости с корпусами, материнскими платами и слотами PCIe на них. RTX 5090 имеет тепловой пакет 575 Вт – значительно выше, чем у карт предыдущих поколений. Мощности блока питания сервера должно хватать не только для двух GPU, но и для CPU, материнской платы, RAM, накопителей и другой периферии. Типичные RTX 5090 перекрывают почти четыре слота расширения на материнских платах. Даже физическая установка двух таких карт требует нестандартных решений по компоновке и вентиляции.

Почему бы не перейти на профессиональную линейку графических ускорителей NVIDIA RTX PRO Blackwell?

Сравнительная таблица кандидатов в серверы «народного инференса» частично дает ответ на этот вопрос:

Характеристика	RTX 5090	RTX PRO 4500	RTX PRO 6000 Max-Q	RTX PRO 6000 WS
Архитектура	Blackwell	Blackwell	Blackwell	Blackwell
CUDA-ядер	21 760	10 496	24 064	24 064
Тензорные ядер	680	328	752	752
VRAM	32 GB GDDR7	32 GB GDDR7 ECC	96 GB GDDR7 ECC	96 GB GDDR7 ECC
Memory bus	512-bit	256-bit	512-bit	512-bit
Memory bandwidth	1.79 ТВ/с	896 ГБ/с	1.79 ТВ/с	1.79 ТВ/с
FP32	104.8 TFLOPS	50.53 TFLOPS	109.7 TFLOPS	126 TFLOPS
TDP	575 Вт	200 Вт	300 Вт	600 Вт
Масштабируемость по GPU	умеренная	лучшая	лучшая	низкая
Цена	~$4 000	~$4 000	~$13 000	~$13 000

При одинаковом объеме видеопамяти и сопоставимой цене RTX 5090 гораздо производительнее по сравнению с RTX PRO 4500. Обе версии RTX PRO 6000 имеют близкую к RTX 5090 вычислительную мощность, втрое больше VRAM, но и стоят более чем втрое дороже. При этом дальнейшее масштабирование по GPU требует уже значительно более дорогих платформ.

На этом фоне конфигурация из двух RTX 5090 выглядит заманчиво.

В следующем разделе рассмотрим физическую реализацию такого сервера.

Ещё публикации этого раздела