Liqid интегрирует инструмент управления HPC с движком оркестровки Slurm

Источник · Перевод автора

Liqid интегрировала свое программное обеспечение для динамического создания вычислительных ресурсов и ресурсов хранения в средах высокопроизводительных вычислений (HPC) с программным обеспечением Slurm Workload Manager с открытым исходным кодом, используемым для организации заданий на этих платформах.

По словам генерального директора Liqid Сумита Пури, интеграция Liqid Matrix Software с механизмом оркестровки с открытым исходным кодом упростит для ИТ-организаций динамическое масштабирование рабочих нагрузок высокопроизводительных вычислений вверх и вниз по мере необходимости. Эта возможность стала более важной, поскольку ИТ-команды все чаще запускают рабочие нагрузки ИИ на платформах HPC, настроенных с использованием графических процессоров (ГП), добавил Пури.

Программное обеспечение Liqid Matrix позволяет динамически агрегировать ресурсы без операционной системы, такие как графические процессоры, процессоры x86 и Arm, хранилище NVMe, карты сетевой интеграции (NIC), адаптеры шины хоста, программируемые на месте массивы вентилей и память, а затем назначать их к конкретной рабочей нагрузке. Он также обеспечивает одноранговую связь, которая позволяет объединять эти ресурсы в нескольких системах HPC.

Slurm – это механизм оркестровки, широко используемый в средах HPC для динамического масштабирования ресурсов почти так же, как Kubernetes в ИТ-средах с контейнерами. Одним из предварительных условий является то, что системы с программным обеспечением Liqid Matrix должны поддерживать стандарт шины расширения Peripheral Component Interconnect (PCI) Express 3.0, который обеспечивает возможности виртуализации ввода-вывода. Совсем недавно Liqid сообщила, что в сотрудничестве с Broadcom создала эталонные комплекты для PCI Express 4.0, которые удваивают общую доступную пропускную способность.

«Впервые в истории каждое устройство в центре обработки данных говорит на одном языке», – сказал Пури.

Liqid iso также работает с VMware, чтобы сделать свое программное обеспечение доступным через консоль, которую VMware предоставляет для управления виртуальной инфраструктурой. Недавно VMware расширила свой альянс на Nvidia, чтобы сделать графические процессоры более доступными для среднего ИТ-администратора.

По словам Пури, организации стремятся максимизировать коэффициент использования платформ высокопроизводительных вычислений, чтобы повысить ценность инвестиций, которые они сделали в существующие платформы. Совсем недавно Liqid выиграла контракт на 32 миллиона долларов от Министерства обороны США на максимальное использование пары суперкомпьютеров, расположенных в Центре ресурсов суперкомпьютеров на Абердинском полигоне в Мэриленде, которые обеспечивают производительность до 15 петафлопс. Эти системы основаны на процессорах Intel Xeon Platinum 9200 с технологией Intel DL Boost и графических процессорах Nvidia A100 с тензорными ядрами.

Вместо того, чтобы полагаться на платформы HPC, построенные с использованием проприетарных процессоров, используемых, например, в суперкомпьютере Cray, Liqid делает ставку на то, что больше рабочих нагрузок HPC будет развернуто на более дешевых коммерческих процессорах Intel, Arm и Nvidia. Программное обеспечение Liqid позволяет управлять системами на основе этих процессоров, как если бы они были одним логическим объектом.

Неясно, в какой степени рабочие нагрузки ИИ будут выполняться локально или в облаке, где управление оркестровкой обычно осуществляется поставщиками облачных услуг. Однако, учитывая преобладание уже оплаченных и развернутых платформ высокопроизводительных вычислений, весьма вероятно, что многие организации предпочтут использовать то, что составляет уже невозвратные затраты. В других случаях соображения безопасности и соответствия требуют от ИТ-организаций продолжать инвестировать в локальные системы.

Независимо от подхода, платформы высокопроизводительных вычислений скоро станут основой многих ИТ-сред, поскольку количество рабочих нагрузок ИИ продолжает расти. По словам Пури, в долгосрочной перспективе эти рабочие нагрузки будут перенесены на периферию сети. По словам Пури, по мере того, как эта тенденция будет развиваться, она станет критически важной для ИТ-команд в управлении инфраструктурой без оборудования на более высоких уровнях абстракции.

Но, учитывая стоимость графических процессоров, большинство ИТ-организаций, вероятно, по-прежнему будут стремиться оптимизировать любую платформу, которая их использует, в обозримом будущем.