© ComNews
25.10.2022

Инженеры компании "Тринити", системного интегратора и российского производителя ИТ-оборудования, разработали высокопроизводительный сервер для обучения нейросетей на базе двухпроцессорного двухюнитового сервера "Тринити" с использованием трёх GPU TESLA T4.

Использование нейросетей сегодня повсеместно, например, для решения задач видеоаналитики, обработки медиаданных, криптографии, 3D-моделирования и анимации, научных исследований - все эти системы обучаются на больших объемах данных. Поскольку инфраструктура подобных систем весьма масштабна (обычно речь идет о десятках и сотнях серверов), нужна высокая плотность размещения вычислительных ресурсов, что диктует особые требования к конструкции, питанию и охлаждению серверов. При этом для российских компаний важно, чтобы оборудование отвечало требованиям импортонезависимости, и обеспечивало стабильную работу инфраструктуры.

Для решения подобных задач инженеры "Тринити" разработали специализированную версию сервера "Тринити ER220R", внесенного в реестр Минпромторга.

При установке нескольких GPU в стандартный сервер наблюдается перегрев как всей машины, так и особенно самих графических ускорителей. Компоненты сервера имеют встроенную термозащиту, но при длительных максимальных нагрузках снижаются частоты процессоров и GPU (троттлинг), что снижает экономическую эффективность внедрения комплекса (требуется больше серверов для обеспечения стабильной производительности).

Кроме того, некоторые популярные GPU, при установке нескольких штук в одну машину, потребовали внесения изменений в настройки микрокода материнской платы.

В рамках разработки проекта крупной аналитической системы для одного из заказчиков инженеры Тринити оперативно разработали и изготовили решение, обеспечивающее эффективное охлаждение нескольких GPU.

Был разработан вариант дополнительного охлаждения, а именно термокожухи на видеокарты и охладительный элемент к каждой. Данная модификация позволяет эксплуатировать сервер под любой нагрузкой в течение неограниченного времени. При этом все компоненты работают на своих максимальных частотах и с большим запасом по температуре, что обеспечивает стабильную производительность, высокую надежность и длительный срок эксплуатации комплекса.

Современные технологии проектирования и малосерийного изготовления позволяют в короткие сроки адаптировать серийные изделия под внезапно возникшие нестандартные задачи. Это могут быть как другие GPU, так и разного рода неграфические ускорители и иные высоконагруженные компоненты.

Небольшие партии компонентов можно изготавливать аддитивными технологиями "с экрана", а если речь идет о крупных тиражах, то уже отлажены производственные цепочки для быстрого "традиционного" изготовления в металле и пластике.