
GPU-узел высокой плотности: четыре RTX 5090 в одной стойке без перегрева
Есть проект? Напишите нам
Обсудим задачу и подберём оборудование
О проекте
К нам обратилась исследовательская организация, которой требовался GPU-узел для длительных ресурсоёмких вычислений. Система должна работать в стоечном формате, занимать минимум места в инфраструктуре и выдерживать продолжительную нагрузку на все видеокарты одновременно.
Главное требование клиента — высокая плотность вычислений. Нужно было разместить четыре производительные видеокарты в одном узле и при этом сохранить стабильный тепловой режим.
В таких проектах вопрос обычно упирается не в сам факт установки GPU. Поставить четыре карты в корпус — это только половина задачи. Вторая половина — сделать так, чтобы система не перегревалась, не сбрасывала частоты и оставалась предсказуемой под длительной нагрузкой.
Основные требования:
- стоечное исполнение;
- четыре GPU в одной системе;
- стабильная работа под полной нагрузкой;
- корректный тепловой режим;
- запас по питанию;
- возможность дальнейшего обслуживания;
- проверка системы до передачи заказчику.
В чём была сложность
Четыре RTX 5090 в одной системе — это высокая вычислительная плотность, но вместе с ней появляется главный риск: тепло.
Под полной нагрузкой каждая видеокарта потребляет сотни ватт. Когда таких карт четыре, суммарное энергопотребление GPU превышает 2,2 кВт. Всё это тепло нужно вывести из корпуса быстро и равномерно.
Если воздушные потоки организованы неправильно, проблема проявляется не сразу. Система может нормально запуститься, пройти короткую проверку, показать приемлемые температуры в первые минуты, а затем выйти на перегрев после стабилизации нагрузк
Для заказчика такой сценарий неприемлем. GPU-узел должен работать не «до первого тяжёлого запуска», а стабильно держать длительные вычислительные задачи.
Поэтому главным техническим вопросом проекта стало охлаждение.
Почему обычный сервер не подходит
Типовая серверная платформа не всегда рассчитана на четыре видеокарты такого класса в плотной компоновке.
Проблема не только в физическом размещении компонентов. Важны сразу несколько факторов:
- расстояние между GPU;
- направление воздушных потоков;
- объём воздуха, проходящий через корпус;
- нагрев соседних карт;
- работа вентиляторов под нагрузкой;
- энергобюджет системы;
- стабильность питания;
- поведение системы после выхода на рабочий тепловой режим.
Если ошибиться хотя бы в одном из этих пунктов, система начнёт терять предсказуемость. Температуры будут расти, вентиляторы выйдут на предельные нагрузки, а видеокарты начнут сбрасывать частоты.
Поэтому здесь нельзя ограничиться стандартным сервером и формальной совместимостью компонентов. Нужна платформа, в которой корпус, питание и охлаждение работают как единая инженерная система.
Решение
Для проекта собрали стоечный GPU-узел DigitalRazor на базе корпуса Rack 6.5U.
Финальная конфигурация
Ключевой элемент решения — тепловая архитектура корпуса. В этой системе важен не только набор компонентов, но и то, как через корпус проходит воздух, как охлаждаются соседние видеокарты и как платформа ведёт себя после выхода на стабильную температуру.
Почему выбрали такую архитектуру
Четыре RTX 5090 в одном узле
Клиенту нужна была максимальная плотность GPU-вычислений в одной системе. Связка из четырёх RTX 5090 позволяет сосредоточить большой объём вычислительных ресурсов в одном стоечном узле и не разносить задачу по нескольким машинам.
Это упрощает размещение, обслуживание и интеграцию платформы в существующую инфраструктуру.
AMD Threadripper PRO 7975WX
Для такой GPU-конфигурации нужна платформа, которая не ограничивает видеокарты по архитектуре. Threadripper PRO 7975WX выбрали как основу под многоканальную, ресурсоёмкую систему с несколькими GPU.
В этом проекте процессор не является главным героем. Его задача — обеспечить платформе нормальную работу с четырьмя видеокартами, достаточное количество линий и стабильную системную основу.
512 ГБ ECC-памяти
Оперативная память с коррекцией ошибок нужна для вычислительного узла, который рассчитан на длительные задачи. Это не пользовательская рабочая станция, а система для стабильной эксплуатации в инфраструктуре заказчика.
Большой объём RAM даёт запас для рабочих процессов, системной обвязки и обработки данных.
Питание 3200 Вт 1+1 CRPS
При суммарном потреблении GPU более 2,2 кВт питание нельзя подбирать «на глаз». В конфигурацию заложили 3200 Вт в серверном формате 1+1 CRPS.
Это закрывает энергобюджет системы и снижает риск нестабильной работы при одновременной полной нагрузке на все видеокарты.
Корпус Rack 6.5U
Основная задача корпуса — обеспечить нормальный воздушный поток для четырёх горячих GPU.
В плотных вычислительных узлах корпус становится частью системы охлаждения. Если он не справляется с отводом тепла, производительность видеокарт уже не имеет значения: система начнёт упираться в температуру.
Проверка под полной нагрузкой
После сборки система прошла контролируемый стресс-тест: 30 минут непрерывной 100% нагрузки на все четыре GPU одновременно.
Тест проводили на стенде с тем же корпусом и системой охлаждения, что и в поставленной конфигурации. Поэтому результаты по температурам относятся к той же тепловой архитектуре, которую получил заказчик.
Результаты теста:
| GPU | Установившаяся температура | Средняя мощность | Пиковая мощность |
|---|---|---|---|
| GPU 1 | 84 °C | ~523 Вт | 561 Вт |
| GPU 2 | 72 °C | ~522 Вт | 562 Вт |
| GPU 3 | 83 °C | ~564 Вт | 602 Вт |
| GPU 4 | 86 °C | ~551 Вт | 596 Вт |
Температуры вышли на рабочий режим примерно за 2 минуты и дальше оставались стабильными. Это главный результат теста: система не просто запустилась под нагрузкой, а удержала тепловой режим без дальнейшего роста температур.
Максимальная температура под полной нагрузкой составила 87 °C при пороге троттлинга 92 °C. Троттлинг не зафиксирован ни на одной видеокарте.
Суммарное потребление GPU под нагрузкой превысило 2,2 кВт. Охлаждение справилось с этим тепловым пакетом, а обороты вентиляторов находились в диапазоне 50–92%. Это означает, что система работала стабильно и не упёрлась в предел охлаждения.
Дополнительная проверка другим инструментом дала сопоставимый максимум температуры — около 86 °C. Результат оказался воспроизводимым.
Результат
Главный результат — снятый инженерный риск.
Мы не стали голословно утверждать, что «система должна справиться». Вместо этого проверили тепловой режим под полной нагрузкой, зафиксировали температуры, подтвердили отсутствие троттлинга и убедились, что платформа стабилизируется под полной нагрузкой.
Что получил заказчик:
- 4 GPU в одной стоечной системе;
- суммарно 128 ГБ VRAM;
- серверное питание 3200 Вт 1+1 CRPS;
- эффективное воздушное охлаждение;
- подтверждённый тепловой режим под нагрузкой 100%;
- отсутствие троттлинга в контролируемом стресс-тесте;
- готовый вычислительный узел для длительных ресурсоёмких задач.
В этом проекте важно то, что удалось собрать плотный GPU-узел, который не теряет стабильность под полной нагрузкой. Для таких систем недостаточно подобрать совместимые комплектующие. Нужно заранее продумать питание, воздушные потоки, тепловой режим и поведение системы после выхода на рабочие температуры.
Именно это и стало основой проекта: не обещание производительности на словах, а проверенная конфигурация с измерениями, стабильными температурами и отсутствием троттлинга.




