8 800 500-99-26 Для звонков по России
Серверная платформа для запуска LLM в государственной организации
Рабочие станции
4 мин

Серверная платформа для запуска LLM в государственной организации

DigitalRazor
DigitalRazor
Подписаться в Telegram
Содержание 10 разделов
О клиенте Задача В чём было ограничение Решение Почему выбрали RTX PRO 5000 48GB Зачем нужны два процессора AMD EPYC Почему 256 ГБ ECC-памяти Зачем NVMe U.2 Почему 4U Результат
Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX

Есть проект? Напишите нам

Обсудим задачу и подберём оборудование

Обсудить проект

О клиенте

Государственная структура, которая работает в сфере развития индивидуального жилищного строительства. Организация управляет земельными активами, занимается реализацией участков и сопровождает инфраструктурные и строительные проекты в регионе.

Задача

В рамках цифровизации компания внедряет инструменты на базе искусственного интеллекта. Один из ключевых сценариев — использование языковых моделей для внутренних задач: обработки запросов, работы с данными, автоматизации рутинных процессов и поддержки прикладных систем.

На момент обращения в DigitalRazor клиент уже тестировал LLM, но текущая инфраструктура не позволяла перейти от локальных экспериментов к полноценному использованию моделей внутри компании. Клиент планирует использовать современные LLM-модели: Gemma 3, LLaMA, Qwen и GPT-OSS. Основных рабочих сценария два:

Инференс. Модели должны обрабатывать запросы внутренних пользователей в режиме реального времени. Ориентир по нагрузке — до 100–150 одновременных пользователей. Это уже не тестовый запуск на одном рабочем месте, а полноценный внутренний сервис, который должен быть доступен разным подразделениям.

Дообучение моделей. Клиенту нужно адаптировать LLM под собственные данные, внутренние процессы и прикладные задачи организации.

Поэтому компании нужна серверная платформа, которая снимает ограничения текущей конфигурации и даёт основу для дальнейшего масштабирования.

В чём было ограничение

Изначально организация использовала систему с графическим ускорителем RTX 4080 Super с 16 ГБ видеопамяти. Для локальных экспериментов этого достаточно: можно запускать модели, проверять гипотезы, тестировать сценарии. Но при переходе к реальному использованию LLM в компании такая конфигурация быстро упирается в ограничения.

Главное узкое место — видеопамять. Объёма 16 ГБ недостаточно для комфортной работы даже с моделями уровня 7B, особенно если добавляются контекст, параллельные запросы и прикладная обвязка вокруг модели.

Вторая проблема — масштабирование. Система на базе потребительской видеокарты подходит для одного пользователя или небольшой тестовой группы, но не для сценария, где к модели одновременно обращаются десятки и даже сотни сотрудников.

Третья проблема — класс платформы. Desktop-решение не рассчитано на роль внутреннего ИИ-сервиса, который должен работать стабильно, предсказуемо и в режиме 24/7.

Иными словами, клиенту нужно было перейти от локального запуска LLM к серверной инфраструктуре.

Решение

В LLM-задачах видеокарта действительно играет ключевую роль, но проблема не решается только заменой GPU. Если сервер должен одновременно обслуживать пользователей, запускать несколько процессов, работать с данными и поддерживать сценарии дообучения, важен баланс всей системы: GPU, CPU, RAM, хранилища и форм-фактора:

  • Большой объём VRAM нужен для размещения модели и работы с контекстом;
  • Процессор нужен для обслуживания параллельных процессов, подготовки данных и прикладной логики;
  • ОЗУ нужна для работы с датасетами и стабильной эксплуатации сервисов;
  • Быстрое хранилище нужно для загрузки моделей, данных и промежуточных артефактов;
  • Серверный форм-фактор нужен для нормальной эксплуатации в инфраструктуре клиента.

Поэтому решение проектировали не как «ПК с более дорогой видеокартой», а как серверную платформу под внутренний LLM-сервис.

Для задачи клиента предложили платформу FORSITE HPC 4000 в форм-факторе 4U.

Конфигурация:

Сервер на 2x AMD Epyc 9224, 254GB DDR5 ECC, RTX PRO 5000 48GB

Конфигурацию подбирали с учётом требований клиента: работа с современными LLM, поддержка многопользовательской нагрузки, достаточный объём видеопамяти, серверная эксплуатация и заданный бюджет.

Почему выбрали RTX PRO 5000 48GB

Основная причина перехода с RTX 4080 Super на RTX PRO 5000 — большой объём видеопамяти.

Для LLM VRAM напрямую определяет, с какими моделями можно работать, какой контекст использовать и насколько свободно система выдерживает параллельные процессы. Когда памяти не хватает, модель либо не запускается в нужном режиме, либо требует компромиссов: уменьшения контекста, квантования, ограничения числа одновременных запросов или переноса части нагрузки на CPU.

RTX PRO 5000 с 48 ГБ VRAM снимает ключевое ограничение текущего контура. Это даёт клиенту возможность работать с выбранными LLM не как с тестовой игрушкой, а как с основой для внутренних сервисов.

Зачем нужны два процессора AMD EPYC

Внутренний LLM-сервис — это не только вычисления на GPU. Вокруг модели работает прикладной слой: обработка запросов, маршрутизация, подготовка данных, системные процессы, очереди, интеграция с внутренними сервисами.

Два AMD EPYC 9224 дают платформе запас по CPU-ресурсам для параллельной работы этих процессов. Это особенно важно, если сервер используется не только под инференс, но и под дообучение, обработку датасетов и тестирование разных моделей.

Почему 256 ГБ ECC-памяти

Оперативная память нужна для работы с данными, обслуживания сервисов и стабильной эксплуатации системы под нагрузкой.

ECC-память с аппаратной коррекцией ошибок выбрали потому, что речь идёт о сервере для организации, а не о пользовательской рабочей станции. Для инфраструктурных задач важна не только скорость, но и устойчивость работы при длительной нагрузке.

Зачем NVMe U.2

LLM-инфраструктура постоянно работает с большими файлами: весами моделей, датасетами, логами, промежуточными результатами и служебными данными.

Накопители NVMe U.2 SSD нужны, чтобы ускорить загрузку моделей и работу с данными. Это снижает риск ситуации, когда GPU готов считать, но система ждёт данные с накопителя.

Почему 4U

Клиенту нужен был серверный формат до 4U. Такой форм-фактор позволяет разместить производительные компоненты, обеспечить нормальное охлаждение и интегрировать систему в существующую ИТ-инфраструктуру.

Это важное отличие от desktop-подхода. Сервер должен не стоять под столом у специалиста, а работать как часть внутреннего вычислительного контура.

Результат

Предложенная платформа дала клиенту основу для запуска LLM в корпоративном контуре.

Она закрывает три ключевые задачи:

  • Снимает ограничение по видеопамяти;
  • Позволяет перейти к многопользовательскому инференсу;
  • Создаёт серверную базу для дообучения моделей и дальнейшего развития ИИ-сценариев.

Было: локальное использование LLM на системе с RTX 4080 Super, ограничение по VRAM, сложности даже с моделями уровня 7B, отсутствие запаса под многопользовательскую нагрузку.

Стало: серверная платформа под внутренний LLM-сервис, профессиональная GPU с 48 ГБ VRAM, серверная архитектура, запас по CPU и RAM, возможность работать с современными моделями и масштабировать использование ИИ внутри компании.

Главное изменение — переход от экспериментов к промышленному сценарию. LLM перестаёт быть инструментом отдельного специалиста и становится частью внутренней цифровой инфраструктуры компании.

Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
2.6К

Так же будет интересно почитать

Сайт использует cookies
Узнать подробнее