Начните вводить название своего города или выберите из списка ниже.

Выберите вариант или продолжайте ввод

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

В потребительском сегменте технологии работы видеокарт в дуэте год как официально мертвы. Технически возможна реализация в играх на базе API DirectX 12 и Vulkan, но не на уровне драйвера, а со стороны разработчиков. Они делают это крайне неохотно, да и «профит» от такого подхода несопоставим с банальной покупкой одной, но мощной карты. По этой причине DigitalRazor не предлагает игровые компьютеры с несколькими видеокартами.

Однако дела обстоят кардинально иначе с рабочими станциями и соответствующими профессиональными приложениями. Как правило в них достаточно неплохо развита многопоточность, и добавление второй карты обеспечивает порядка +95% производительности. Третей меньше, четвёртой ещё меньше, и дальше по накатанной. В ассортименте DigitalRazor есть и GPU-серверы, как максимум насчитывающие 4 графических адаптера. Добавление большего количества частично нерационально, частично опасно из-за ограничения в 16 ампер тока (3,5 кВт мощности) нагрузки на одну розетку.

Одной из особенностей новой архитектуры Ada Lovelace компания NVIDIA называет улучшенный параллелизм – меньшее снижение абсолютного быстродействия при наличии нескольких графических адаптеров. Наиболее эффект будет заметен с профессиональными видеокартами за счёт возможностей профессионального драйвера. Такие карты пока лишь формально анонсированы, да и не редко пользователи предпочитают не переплачивать, и берут условно игровые решения серии GeForce RTX, технически представляющие собой почти тоже самое.

Интересующаяся публика наверняка уже видела возможности новой GeForce RTX 4090, может даже пары таких карт в тандеме. Мы решили пойти дальше, и протестировали масштабируемость RTX 4090 в случае 1-7 карт в рабочих задачах, а также рост аппетитов. Конечно же такие конфигурации оптимальными не назвать, зато интересно.

Несколько важных моментов

В тестировании принимали участие не одинаковые исполнения GeForce RTX 4090. Это были модели Founders Edition и Gigabyte Gaming OC  – уж что было на руках. Однако большой погрешности это не внесёт.

Использовалась богатырская материнская плата на чипсете AMD WRX80 с семью слотами PCI-E 4.0 x16, и процессор AMD Threadripper PRO 5995WX. 128 встроенных линий PCI-E позволили подключить карты полноценно – по 16 линий на карту. Возможно из-за использования большого количества x16-x16 райзеров (толщина карт не позволяет вставить их прямо в «материнку»), возможно из-за наводок и токов утечки, может из-за плохих ретрансляторов на плате (а скорее всего по совокупности причин), режим PCI-E 4.0 работал из рук вон плохо. Пришлось остановиться на PCI-E 3.0. Как показывает практика, при подключении 16 линиями разницы между 3.0 и 4.0 нет.

Тестовый стенд не ограничивался количеством оперативной памяти (128 ГБ), как и скоростью накопителя (Samsung 980 Pro). Дополнительный обдув обеспечил крупный полупромышленный вентилятор.

Иными словами, мы постарались избавиться от «бутылочных горлышек», насколько это было возможно. Для справки, суммарная стоимость используемого оборудования в районе 2 миллионов рублей.

Потребление и нагрузка

Начнём с потребления. Питание обеспечили сразу 4 блока с Platinum-сертификатом энергоэффективности (до 94% КПД). Судя по максимальной нагрузке, можно было обойтись и парой блоков, но не хватало разъёмов питания для подключения всего. А использовать разветвители не хотелось ввиду известной проблемы с выгоранием разъёмов у RTX 4090 и общей стоимости сборки.

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

В режиме простоя нагрузка небольшая даже при использовании 7 карт. В среднем каждый GPU добавлял ~30 Вт с небольшим скачком каждые 2 карты (поскольку включался дополнительный блок).

Нагрузку обеспечил OctaneBench. Конечно, можно было бы «зарядить» и более тяжеловесные тесты, но решено было придерживаться реалистичных сценариев использования, пусть эта конфигурация в принципе далека от реалистичной.

Каждая добавочная карта увеличивала нагрузку примерно на 375 Вт, зависимость прямая. Здесь спасибо OctaneBench, который реально может нагрузить 7 GPU, что будет видно далее. В целом, пиковое потребление из розетки составило 2750 Вт – вполне терпимая цифра для стандартной 16-амперной розетки.

Производительность в DaVinci Resolve Studio

Вообще общеизвестно, что DaVinci Resolve Studio масштабируется не так замечательно, как другие видеоредакторы. Зато DaVinci умеет задействовать несколько GPU для OpenFX и шумоподавления.

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Переход с 1 карты на 2 обеспечивает порядка +50%, столько же с 2 на 3. В итоге конфигурация с 3х GeForce RTX 4090 в 2,3 раза быстрее, чем с одной картой. 3 – рубеж. После него каждый GPU добавляет всего ~+10%. 7 карт иногда даже хуже, чем 6. Конфигурация с 6х GeForce RTX 4090 оказалась ровно втрое быстрее, чем с единичной.

Производительность в RedShift

RedShift - довольно популярное ПО для 3D-рендеринга на графическом процессоре. В контексте этого теста у него есть ряд недостатков: RedShift показывает время для рендеринга одной сцены, а не количество сэмплов в секунду. К тому же время в цельных секундах, что для современного оборудования и такой сборки недостаточно точно. И ещё время загрузки сцены может быть больше, чем время обработки, но итоговый результат выводится общий (то есть время для рендеринга не изолировано).

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

В связи с этим RedShift вводит в заблуждение. Приличное масштабирование наблюдалось до 4 карт, после чего преимущество совсем небольшое. Пиковая производительность 7 адаптеров в 4,5 раза лучше, чем одного.

И тут же стоит сказать, что в случае реального большого проекта преимущество может быть большее, чем у встроенного теста RedShift.

Производительность в V-Ray

В бенчмарке V-Ray сравнение проводилось в режимах CUDA и RTX. В первом случае «профит» сильно убывает после 4 GPU, но во втором при наличии 6 карт в системе. При добавлении ещё одного адаптера удалось получить 6-кратное преимущество относительно единичной GeForce RTX 4090.

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Производительность в OctaneBench

Наконец, OctaneBench. Ещё на этапе проверки «аппетитов» было понятно, что OctaneBench просто великолепно масштабируется. Фактически каждая видеокарта добавляла ~98% быстродействия.

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

Изучаем влияние количества видеокарт GeForce RTX 4090 на рабочие задачи

С 7х GPU производительность в OctaneRender в 6,9 раз выше, чем с одним – предел мечтаний. Снимаем шляпу перед разработчиками из Refractive Software.

Заключение

В самую первую очередь хотелось бы отметить, что столь монструозная система работала на удивление стабильно. Электроника – наука о контактах, и этих самых контактов с шестью райзерами x16-x16, четырьмя блоками питания и просто плеядой разъёмов питания было ну очень много. Единственная проблема, с которой столкнулись – режим PCI-E 4.0 плохо работал, пришлось ограничиться PCI-E 3.0.

Согласно результатам, система с 4х GPU – это разумный предел. Лишь OctaneRender обеспечивает почти +100% быстродействия с каждым адаптером, после квартета «профит» от добавления карты ограничивался ~15%, и чем дальше – тем меньше. Поэтому более четырёх видеокарт в GPU-серверах DigitalRazor не встретить.

Если недостаточно производительности такого GPU-сервера, то разумнее не городить одну крайне сложную систему, а объединить несколько серверов в кластер. Проблемы потребления и тепловыделения будут не столь значительными, отказоустойчивость вырастет, а масштабируемость производительности улучшится. А насколько сильно? - возможно, про это в следующий раз.

Кстати, наша сборка заняла 12 строчку в мировом рейтинге OctaneBench, и уступает только системам с 10+ графическими процессорами.



ИСТОЧНИК: PUGESTSYSTEM



10589  просмотров

Также будет интересно

Оптимальные конфигурации для игр в 1440p в 2023 году

Оптимальные конфигурации для игр в 1440p в 2023 году

На 2023 год 12,3% игроков предпочитают именно WQHD-дисплеи. Ещё пару процентов приходит...

Читать дальше

46478  просмотров
Что за CUDA-ядра и зачем они нужны?

Что за CUDA-ядра и зачем они нужны?

Графический процессор любой видеокарты состоит из небольших блоков, которые в свою очер...

Читать дальше

30165  просмотров