8 800 500-99-26 Для звонков по России
GPU-узел высокой плотности: четыре RTX 5090 в одной стойке без перегрева
Рабочие станции
5 мин

GPU-узел высокой плотности: четыре RTX 5090 в одной стойке без перегрева

DigitalRazor
DigitalRazor
Подписаться в Telegram
Содержание 3 раздела
О проекте Решение Результат
Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX

Есть проект? Напишите нам

Обсудим задачу и подберём оборудование

Обсудить проект

О проекте

К нам обратилась исследовательская организация, которой требовался GPU-узел для длительных ресурсоёмких вычислений. Система должна работать в стоечном формате, занимать минимум места в инфраструктуре и выдерживать продолжительную нагрузку на все видеокарты одновременно.

Главное требование клиента — высокая плотность вычислений. Нужно было разместить четыре производительные видеокарты в одном узле и при этом сохранить стабильный тепловой режим.

В таких проектах вопрос обычно упирается не в сам факт установки GPU. Поставить четыре карты в корпус — это только половина задачи. Вторая половина — сделать так, чтобы система не перегревалась, не сбрасывала частоты и оставалась предсказуемой под длительной нагрузкой.

Основные требования:

  • стоечное исполнение;
  • четыре GPU в одной системе;
  • стабильная работа под полной нагрузкой;
  • корректный тепловой режим;
  • запас по питанию;
  • возможность дальнейшего обслуживания;
  • проверка системы до передачи заказчику.

В чём была сложность

Четыре RTX 5090 в одной системе — это высокая вычислительная плотность, но вместе с ней появляется главный риск: тепло.

Под полной нагрузкой каждая видеокарта потребляет сотни ватт. Когда таких карт четыре, суммарное энергопотребление GPU превышает 2,2 кВт. Всё это тепло нужно вывести из корпуса быстро и равномерно.

Если воздушные потоки организованы неправильно, проблема проявляется не сразу. Система может нормально запуститься, пройти короткую проверку, показать приемлемые температуры в первые минуты, а затем выйти на перегрев после стабилизации нагрузк

Для заказчика такой сценарий неприемлем. GPU-узел должен работать не «до первого тяжёлого запуска», а стабильно держать длительные вычислительные задачи.

Поэтому главным техническим вопросом проекта стало охлаждение.

Почему обычный сервер не подходит

Типовая серверная платформа не всегда рассчитана на четыре видеокарты такого класса в плотной компоновке.

Проблема не только в физическом размещении компонентов. Важны сразу несколько факторов:

  • расстояние между GPU;
  • направление воздушных потоков;
  • объём воздуха, проходящий через корпус;
  • нагрев соседних карт;
  • работа вентиляторов под нагрузкой;
  • энергобюджет системы;
  • стабильность питания;
  • поведение системы после выхода на рабочий тепловой режим.

Если ошибиться хотя бы в одном из этих пунктов, система начнёт терять предсказуемость. Температуры будут расти, вентиляторы выйдут на предельные нагрузки, а видеокарты начнут сбрасывать частоты.

Поэтому здесь нельзя ограничиться стандартным сервером и формальной совместимостью компонентов. Нужна платформа, в которой корпус, питание и охлаждение работают как единая инженерная система.

Решение

Для проекта собрали стоечный GPU-узел DigitalRazor на базе корпуса Rack 6.5U.

Сервер с 4 RTX 5090 и  Threadripper PRO 7975WX

Финальная конфигурация

Ключевой элемент решения — тепловая архитектура корпуса. В этой системе важен не только набор компонентов, но и то, как через корпус проходит воздух, как охлаждаются соседние видеокарты и как платформа ведёт себя после выхода на стабильную температуру.

Почему выбрали такую архитектуру

Четыре RTX 5090 в одном узле

Клиенту нужна была максимальная плотность GPU-вычислений в одной системе. Связка из четырёх RTX 5090 позволяет сосредоточить большой объём вычислительных ресурсов в одном стоечном узле и не разносить задачу по нескольким машинам.

Это упрощает размещение, обслуживание и интеграцию платформы в существующую инфраструктуру.

AMD Threadripper PRO 7975WX

Для такой GPU-конфигурации нужна платформа, которая не ограничивает видеокарты по архитектуре. Threadripper PRO 7975WX выбрали как основу под многоканальную, ресурсоёмкую систему с несколькими GPU.

В этом проекте процессор не является главным героем. Его задача — обеспечить платформе нормальную работу с четырьмя видеокартами, достаточное количество линий и стабильную системную основу.

512 ГБ ECC-памяти

Оперативная память с коррекцией ошибок нужна для вычислительного узла, который рассчитан на длительные задачи. Это не пользовательская рабочая станция, а система для стабильной эксплуатации в инфраструктуре заказчика.

Большой объём RAM даёт запас для рабочих процессов, системной обвязки и обработки данных.

Питание 3200 Вт 1+1 CRPS

При суммарном потреблении GPU более 2,2 кВт питание нельзя подбирать «на глаз». В конфигурацию заложили 3200 Вт в серверном формате 1+1 CRPS.

Это закрывает энергобюджет системы и снижает риск нестабильной работы при одновременной полной нагрузке на все видеокарты.

Корпус Rack 6.5U

Основная задача корпуса — обеспечить нормальный воздушный поток для четырёх горячих GPU.

В плотных вычислительных узлах корпус становится частью системы охлаждения. Если он не справляется с отводом тепла, производительность видеокарт уже не имеет значения: система начнёт упираться в температуру.

Проверка под полной нагрузкой

После сборки система прошла контролируемый стресс-тест: 30 минут непрерывной 100% нагрузки на все четыре GPU одновременно.

Тест проводили на стенде с тем же корпусом и системой охлаждения, что и в поставленной конфигурации. Поэтому результаты по температурам относятся к той же тепловой архитектуре, которую получил заказчик.

Результаты теста:

GPU Установившаяся температура Средняя мощность Пиковая мощность
GPU 1 84 °C ~523 Вт 561 Вт
GPU 2 72 °C ~522 Вт 562 Вт
GPU 3 83 °C ~564 Вт 602 Вт
GPU 4 86 °C ~551 Вт 596 Вт

Температуры вышли на рабочий режим примерно за 2 минуты и дальше оставались стабильными. Это главный результат теста: система не просто запустилась под нагрузкой, а удержала тепловой режим без дальнейшего роста температур.

Максимальная температура под полной нагрузкой составила 87 °C при пороге троттлинга 92 °C. Троттлинг не зафиксирован ни на одной видеокарте.

Суммарное потребление GPU под нагрузкой превысило 2,2 кВт. Охлаждение справилось с этим тепловым пакетом, а обороты вентиляторов находились в диапазоне 50–92%. Это означает, что система работала стабильно и не упёрлась в предел охлаждения.

Дополнительная проверка другим инструментом дала сопоставимый максимум температуры — около 86 °C. Результат оказался воспроизводимым.

Результат

Главный результат — снятый инженерный риск.

Мы не стали голословно утверждать, что «система должна справиться». Вместо этого проверили тепловой режим под полной нагрузкой, зафиксировали температуры, подтвердили отсутствие троттлинга и убедились, что платформа стабилизируется под полной нагрузкой.

Что получил заказчик:

  • 4 GPU в одной стоечной системе;
  • суммарно 128 ГБ VRAM;
  • серверное питание 3200 Вт 1+1 CRPS;
  • эффективное воздушное охлаждение;
  • подтверждённый тепловой режим под нагрузкой 100%;
  • отсутствие троттлинга в контролируемом стресс-тесте;
  • готовый вычислительный узел для длительных ресурсоёмких задач.

В этом проекте важно то, что удалось собрать плотный GPU-узел, который не теряет стабильность под полной нагрузкой. Для таких систем недостаточно подобрать совместимые комплектующие. Нужно заранее продумать питание, воздушные потоки, тепловой режим и поведение системы после выхода на рабочие температуры.

Именно это и стало основой проекта: не обещание производительности на словах, а проверенная конфигурация с измерениями, стабильными температурами и отсутствием троттлинга.

Подберём решение под ваш проект

Расскажите о задаче — предложим оптимальную конфигурацию и реализацию.

Обсудить проект
или свяжитесь с нами
Telegram Telegram WhatsApp WhatsApp ВКонтакте ВКонтакте MAX MAX
1.1К

Так же будет интересно почитать

Сайт использует cookies
Узнать подробнее