
ИИ-инфраструктура для крупного разработчика корпоративного ПО
Есть проект? Напишите нам
Обсудим задачу и подберём оборудование
О клиенте
Крупный разработчик программных решений для большого бизнеса и государственного сектора. Компания работает на рынке 20 лет, объединяет свыше 1200 специалистов и воплотила в жизнь более 2000 проектов. Компания занимается разработкой корпоративного ПО, автоматизацией бизнес-процессов, большими данными, BI, ИИ, машинным обучением, а также развивает собственные продукты и платформы. Основные отрасли — финансы, промышленность, ретейл, транспорт, энергетика и государственный сектор.
Задача
Внутри компании одновременно развиваются несколько ИИ-направлений: обучение и дообучение моделей, работа с LLM, компьютерное зрение, подготовка данных и запуск моделей для решения бизнес-задач (инференс). Все эти процессы завязаны на собственном ПО и внутренних пайплайнах
Задача была не в том, чтобы просто добавить вычислительной мощности. Клиенту нужна была локальная инфраструктура, которая позволит параллельно вести несколько ИИ-процессов без просадок по скорости, конфликтов за ресурсы и зависимости от внешних вычислительных мощностей.
В чём была проблема
По мере роста количества ИИ-задач старая схема начала упираться в ограничения:
- Увеличилась вычислительная нагрузка. Когда одновременно происходят обучение моделей, дообучение под конкретный проект, подготовка данных и инференс, процессы начинают конкурировать за ресурсы системы.
- Возникла проблема параллельности. Отдельные задачи уже нельзя было комфортно запускать в одном контуре без влияния друг на друга. Если одна команда занимала ресурсы под обучение, это могло тормозить работу других специалистов.
- Текущая среда плохо масштабировалась. При росте числа задач производительность становилась менее предсказуемой, а зависимость от внешних вычислительных ресурсов только усиливалась.
Клиенту был нужен не просто новый более мощный сервер, а единая вычислительная платформа, спроектированная под несколько параллельных ИИ-сценариев.
Почему стандартные решения не подходили
Типовая рабочая станция в этом сценарии слишком быстро становится узким местом. Она может закрыть отдельные задачи, но плохо подходит для одновременной работы нескольких команд и процессов.
Облачные ресурсы тоже не решали задачу полностью. Они помогают закрывать отдельные пиковые нагрузки, но не дают клиенту собственную, постоянно доступную и предсказуемую вычислительную базу внутри своей инфраструктуры. Кроме того, под вопросом оказывается конфиденциальность данных.
Обычная серверная конфигурация без баланса между GPU, CPU, RAM, хранилищем и сетевой инфраструктурой тоже не подходит. В ИИ-процессах недостаточно просто поставить в сервер несколько мощных видеокарт. Если оперативной памяти мало, CPU не справится с подготовкой данных, а если медленное хранилище не успеет подгружать датасеты, GPU начинают простаивать.
Поэтому нужна не просто «мощная система», а сбалансированная архитектура под конкретные рабочие сценарии.
Решение
Спроектировали серверную платформу со следующей конфигурацией:
Почему выбрали именно такую конфигурацию
Четыре GPU в одной системе
Ключевая задача клиента — не один тяжёлый сценарий, а несколько параллельных. Поэтому четыре RTX PRO 6000 Blackwell 96 ГБ (384 ГБ VRAM суммарно) в одном узле дают не только запас по вычислениям, но и возможность разводить разные процессы по отдельным ресурсам системы.
Такая архитектура подходит для обучения и дообучения моделей, работы с LLM среднего и крупного размера, задач компьютерного зрения и параллельного запуска нескольких ИИ-пайплайнов. Вместо ситуации, где все процессы борются за одну-две карты, клиент получает возможность равномерно распределять нагрузку и снизить внутреннюю конкуренцию за ресурсы.
1024 ГБ RAM
Один терабайт оперативной памяти нужен не «для красивых цифр». Он закрывает задачи, которые часто становятся бутылочным горлышком в ИИ-инфраструктуре: подготовку данных, работу с крупными датасетами, промежуточные этапы препроцессинга и подачу данных в GPU.
Когда этих ресурсов недостаточно, система начинает чаще упираться в обмен данными с более медленным хранилищем. В этом проекте важно было сократить подобные задержки и разгрузить вычислительный контур. Важный момент — серверная память снабжена коррекцией ошибок (ECC), что исключает сбои в бизнес-процессах и потерю драгоценного прогресса.
AMD EPYC на 128 ядер
Многоядерный процессор AMD EPYC 9745 со 128 ядрами и 256 МБ L3-кэша нужен клиенту не как дополнение к GPU, а как полноценный рабочий элемент платформы. На нём держатся параллельные пайплайны, подготовка данных, оркестрация задач, обслуживание внутренних сервисов и часть вспомогательных вычислений.
Для компании, которая ведёт несколько ИИ-направлений одновременно, это критично: четыре GPU не должны ждать, пока CPU закончит подготовку инструкций и вводных данных для следующего этапа работы.
NVMe SSD
Быстрое хранилище важно в сценариях, где постоянно загружаются большие массивы данных, чекпойнты, промежуточные артефакты и модели. Здесь NVMe SSD нужны для того, чтобы ускорить подачу данных в вычислительный контур и уменьшить задержки на чтении и записи. А результаты обработки данных и рабочие проекты хранятся на более медленных, но объёмных HDD-накопителях.
Сеть 25G
Решение не существует отдельно от ИТ-среды клиента. Оно должно быть встроено в действующую инфраструктуру, быстро обмениваться данными с другими сервисами и не создавать узкое место на уровне Сети. Поэтому в конфигурацию сразу заложили 25-гигабитное подключение для нормальной интеграции в контур клиента.
Как решение встроено в процессы клиента
Новую платформу используют как локальную ИИ-инфраструктуру для нескольких направлений сразу. На ней запускается обучение моделей и дообучение под конкретные проекты. Здесь же решаются задачи инференса, подготовки и обработки данных. Параллельно с сервером могут работать несколько команд, не замедляя друг друга в пределах одного вычислительного контура.
Клиент получил выделенную внутреннюю платформу, на которой можно вести разные ИИ-процессы не по очереди, а одновременно. Это важно для компании, где ИИ — не отдельный эксперимент, а важная часть нескольких продуктовых и проектных направлений.
Результат
После внедрения клиент получил не просто новый вычислительный узел, а собственную, стабильную и масштабируемую инфраструктуру под ИИ-задачи.
Что это дало на практике:
- появилась локальная вычислительная база под ИИ-процессы;
- снизилась зависимость от внешних вычислительных ресурсов;
- стало возможно параллельно вести несколько проектов и пайплайнов;
- производительность стала более стабильной при росте нагрузки;
- появился запас под дальнейшее расширение и увеличение числа задач.
Было: разрозненные или ограниченные вычислительные ресурсы, вынужденная последовательность в решении задач, рост конкуренции за ресурсы системы, зависимость от внешних облачных мощностей, просадки предсказуемости при увеличении нагрузки.
Стало: единая локальная платформа с четырьмя GPU, большим объёмом RAM, многоядерным CPU, быстрым хранилищем и сетевой интеграцией со скоростью 25 Гбит, на которой можно параллельно обучать и дообучать модели, обрабатывать данные и запускать инференс. Всё это без зависимости от сторонних облачных сервисов и риска утечки конфиденциальных данных.




