8 800 500-99-26 Для звонков по России
ИИ-инфраструктура для крупного разработчика корпоративного ПО
Рабочие станции
5 мин

ИИ-инфраструктура для крупного разработчика корпоративного ПО

DigitalRazor
DigitalRazor
Подписаться в Telegram
Содержание 4 раздела
О клиенте Задача Решение Результат
Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX

Есть проект? Напишите нам

Обсудим задачу и подберём оборудование

Обсудить проект

О клиенте

Крупный разработчик программных решений для большого бизнеса и государственного сектора. Компания работает на рынке 20 лет, объединяет свыше 1200 специалистов и воплотила в жизнь более 2000 проектов. Компания занимается разработкой корпоративного ПО, автоматизацией бизнес-процессов, большими данными, BI, ИИ, машинным обучением, а также развивает собственные продукты и платформы. Основные отрасли — финансы, промышленность, ретейл, транспорт, энергетика и государственный сектор.

Задача

Внутри компании одновременно развиваются несколько ИИ-направлений: обучение и дообучение моделей, работа с LLM, компьютерное зрение, подготовка данных и запуск моделей для решения бизнес-задач (инференс). Все эти процессы завязаны на собственном ПО и внутренних пайплайнах

Задача была не в том, чтобы просто добавить вычислительной мощности. Клиенту нужна была локальная инфраструктура, которая позволит параллельно вести несколько ИИ-процессов без просадок по скорости, конфликтов за ресурсы и зависимости от внешних вычислительных мощностей.

В чём была проблема

По мере роста количества ИИ-задач старая схема начала упираться в ограничения:

  1. Увеличилась вычислительная нагрузка. Когда одновременно происходят обучение моделей, дообучение под конкретный проект, подготовка данных и инференс, процессы начинают конкурировать за ресурсы системы.
  2. Возникла проблема параллельности. Отдельные задачи уже нельзя было комфортно запускать в одном контуре без влияния друг на друга. Если одна команда занимала ресурсы под обучение, это могло тормозить работу других специалистов.
  3. Текущая среда плохо масштабировалась. При росте числа задач производительность становилась менее предсказуемой, а зависимость от внешних вычислительных ресурсов только усиливалась.

Клиенту был нужен не просто новый более мощный сервер, а единая вычислительная платформа, спроектированная под несколько параллельных ИИ-сценариев.

Почему стандартные решения не подходили

Типовая рабочая станция в этом сценарии слишком быстро становится узким местом. Она может закрыть отдельные задачи, но плохо подходит для одновременной работы нескольких команд и процессов.

Облачные ресурсы тоже не решали задачу полностью. Они помогают закрывать отдельные пиковые нагрузки, но не дают клиенту собственную, постоянно доступную и предсказуемую вычислительную базу внутри своей инфраструктуры. Кроме того, под вопросом оказывается конфиденциальность данных.

Обычная серверная конфигурация без баланса между GPU, CPU, RAM, хранилищем и сетевой инфраструктурой тоже не подходит. В ИИ-процессах недостаточно просто поставить в сервер несколько мощных видеокарт. Если оперативной памяти мало, CPU не справится с подготовкой данных, а если медленное хранилище не успеет подгружать датасеты, GPU начинают простаивать.

Поэтому нужна не просто «мощная система», а сбалансированная архитектура под конкретные рабочие сценарии.

Решение

Спроектировали серверную платформу со следующей конфигурацией:

Почему выбрали именно такую конфигурацию

Четыре GPU в одной системе

Ключевая задача клиента — не один тяжёлый сценарий, а несколько параллельных. Поэтому четыре RTX PRO 6000 Blackwell 96 ГБ (384 ГБ VRAM суммарно) в одном узле дают не только запас по вычислениям, но и возможность разводить разные процессы по отдельным ресурсам системы.

Такая архитектура подходит для обучения и дообучения моделей, работы с LLM среднего и крупного размера, задач компьютерного зрения и параллельного запуска нескольких ИИ-пайплайнов. Вместо ситуации, где все процессы борются за одну-две карты, клиент получает возможность равномерно распределять нагрузку и снизить внутреннюю конкуренцию за ресурсы.

1024 ГБ RAM

Один терабайт оперативной памяти нужен не «для красивых цифр». Он закрывает задачи, которые часто становятся бутылочным горлышком в ИИ-инфраструктуре: подготовку данных, работу с крупными датасетами, промежуточные этапы препроцессинга и подачу данных в GPU.

Когда этих ресурсов недостаточно, система начинает чаще упираться в обмен данными с более медленным хранилищем. В этом проекте важно было сократить подобные задержки и разгрузить вычислительный контур. Важный момент — серверная память снабжена коррекцией ошибок (ECC), что исключает сбои в бизнес-процессах и потерю драгоценного прогресса.

AMD EPYC на 128 ядер

Многоядерный процессор AMD EPYC 9745 со 128 ядрами и 256 МБ L3-кэша нужен клиенту не как дополнение к GPU, а как полноценный рабочий элемент платформы. На нём держатся параллельные пайплайны, подготовка данных, оркестрация задач, обслуживание внутренних сервисов и часть вспомогательных вычислений.

Для компании, которая ведёт несколько ИИ-направлений одновременно, это критично: четыре GPU не должны ждать, пока CPU закончит подготовку инструкций и вводных данных для следующего этапа работы.

NVMe SSD

Быстрое хранилище важно в сценариях, где постоянно загружаются большие массивы данных, чекпойнты, промежуточные артефакты и модели. Здесь NVMe SSD нужны для того, чтобы ускорить подачу данных в вычислительный контур и уменьшить задержки на чтении и записи. А результаты обработки данных и рабочие проекты хранятся на более медленных, но объёмных HDD-накопителях.

Сеть 25G

Решение не существует отдельно от ИТ-среды клиента. Оно должно быть встроено в действующую инфраструктуру, быстро обмениваться данными с другими сервисами и не создавать узкое место на уровне Сети. Поэтому в конфигурацию сразу заложили 25-гигабитное подключение для нормальной интеграции в контур клиента.

Как решение встроено в процессы клиента

Новую платформу используют как локальную ИИ-инфраструктуру для нескольких направлений сразу. На ней запускается обучение моделей и дообучение под конкретные проекты. Здесь же решаются задачи инференса, подготовки и обработки данных. Параллельно с сервером могут работать несколько команд, не замедляя друг друга в пределах одного вычислительного контура.

Клиент получил выделенную внутреннюю платформу, на которой можно вести разные ИИ-процессы не по очереди, а одновременно. Это важно для компании, где ИИ — не отдельный эксперимент, а важная часть нескольких продуктовых и проектных направлений.

Результат

После внедрения клиент получил не просто новый вычислительный узел, а собственную, стабильную и масштабируемую инфраструктуру под ИИ-задачи.

Что это дало на практике:

  • появилась локальная вычислительная база под ИИ-процессы;
  • снизилась зависимость от внешних вычислительных ресурсов;
  • стало возможно параллельно вести несколько проектов и пайплайнов;
  • производительность стала более стабильной при росте нагрузки;
  • появился запас под дальнейшее расширение и увеличение числа задач.

Было: разрозненные или ограниченные вычислительные ресурсы, вынужденная последовательность в решении задач, рост конкуренции за ресурсы системы, зависимость от внешних облачных мощностей, просадки предсказуемости при увеличении нагрузки.

Стало: единая локальная платформа с четырьмя GPU, большим объёмом RAM, многоядерным CPU, быстрым хранилищем и сетевой интеграцией со скоростью 25 Гбит, на которой можно параллельно обучать и дообучать модели, обрабатывать данные и запускать инференс. Всё это без зависимости от сторонних облачных сервисов и риска утечки конфиденциальных данных.

Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
3.6К

Так же будет интересно почитать

Сайт использует cookies
Узнать подробнее