Nvidia представляет ИИ чип A100 с 54 миллиардами транзисторов и 5 петафлопсами производительности

Источник · Перевод автора

Nvidia развернула свой чип искусственного интеллекта Nvidia A100, и генеральный директор Дженсен Хуанг (Jensen Huang) назвал его идеальным инструментом для продвижения ИИ. Хуанг сказал, что он может выполнять задачи суперкомпьютеров, которые имеют жизненно важное значение в борьбе с COVID-19, гораздо более экономически эффективными и мощными, чем современные более дорогие системы.

Чип имеет чудовищные 54 миллиарда транзисторов (двухпозиционные переключатели, которые являются строительными блоками для всего электронного), и он может выполнить производительность в 5 петафлопс, или примерно в 20 раз больше, чем чип Volta предыдущего поколения. Хуанг сделал это заявление во время своего выступления на мероприятии Nvidia GTC, которое в этом году было цифровым.

Первоначально запуск был запланирован на 24 марта, но был отложен из-за пандемии. Nvidia перенесла релиз на сегодня, так как чипы и системы DGX A100, которые использовали чипы, уже доступны и поставляются.

Чип Nvidia A100 использует ту же архитектуру Ampere (названную в честь французского математика и физика Андре-Мари Ампера), которую можно использовать в потребительских приложениях, таких как графические чипы Nvidia GeForce. В отличие от Advanced Micro Devices (AMD), Nvidia нацелена на создание единой микроархитектуры для своих графических процессоров как для коммерческого ИИ, так и для потребительской графики. Но Хуанг сказал, что смешивание и сопоставление различных элементов на чипе определит, будет ли он использоваться для ИИ или графики.

DGX A100 – это третье поколение платформы AI DGX от Nvidia, и, по словам Хуанга, это позволяет объединить возможности всего центра обработки данных в одной стойке. Это гипербола, но Пареш Харья (Paresh Kharya), директор центра обработки данных и облачных платформ управления, заявил на брифинге для прессы, что 7-нанометровая микросхема под кодовым названием Ampere может заменить многие системы ИИ, используемые сегодня.

«Вы получаете все накладные расходы, связанные с дополнительной памятью, процессорами и блоками питания 56 серверов…, которые объединены в один», – сказал Хуанг. «Предложение экономической ценности действительно не по графику, и это то, что действительно интересно».

Например, для решения задач обучения ИИ сегодня одному клиенту необходимо 600 систем центрального процессора (ЦП) для обработки миллионов запросов для приложений центра обработки данных. Это стоит 11 миллионов долларов и потребует 25 стоек серверов и 630 киловатт электроэнергии. С помощью Ampere Nvidia может выполнять тот же объем обработки за 1 миллион долларов, одну серверную стойку и 28 киловатт электроэнергии.

«Вот почему вы слышите, как Дженсен говорит:« Чем больше вы покупаете, тем больше вы экономите», – сказала Харья.

Хуан добавил: «Он заменит целую кучу серверов логического вывода. Пропускная способность обучения и умозаключений находится вне графика – 20 раз вне графика».

Первый заказ

Первый заказ на чипы поступит в Аргоннскую национальную лабораторию Министерства энергетики США (DOE), которая будет использовать искусственный интеллект и вычислительные возможности кластера для лучшего понимания и борьбы с COVID-19. В системах DGX A100 используются восемь новых графических процессоров Nvidia A100 Tensor Core, обеспечивающих 320 гигабайт памяти для обучения самых больших наборов ИИ данных и новейшие высокоскоростные межсоединения Nvidia Mellanox HDR 200 Гбит / с.

Несколько меньших рабочих нагрузок можно ускорить, разбив DGX A100 на 56 экземпляров на систему, используя функцию многоэкземплярного графического процессора A100. Объединение этих возможностей позволяет предприятиям оптимизировать вычислительную мощность и ресурсы по требованию для ускорения различных рабочих нагрузок – включая аналитику данных, обучение и вывод – на единой полностью интегрированной программно-определяемой платформе.

Немедленное принятие и поддержка DGX A100

Nvidia сообщила, что ряд крупнейших мировых компаний, поставщиков услуг и правительственных учреждений разместили первоначальные заказы на DGX A100, а первые системы были доставлены в Аргонн ранее в этом месяце.

Рик Стивенс (Rick Stevens), младший директор лаборатории вычислительной техники, окружающей среды и наук о жизни в Национальной лаборатории Аргонн, заявил в своем заявлении, что суперкомпьютеры центра используются для борьбы с коронавирусом, при этом модели и симуляторы ИИ работают на машинах в надежде найти способы лечения и вакцина. Мощность систем DGX A100 позволит ученым выполнять работу в течение года за месяцы или дни.

Университет Флориды станет первым вузом в США, который получит системы DGX A100, которые он развернет для внедрения ИИ во всю учебную программу с целью стимулирования рабочей силы с ИИ.

Среди других первопроходцев – Центр биомедицинского искусственного интеллекта при Университетском медицинском центре Гамбург-Эппендорф, Германия, который будет использовать DGX A100 для поддержки клинических решений и оптимизации процесса.

Тысячи систем DGX предыдущего поколения в настоящее время используются по всему миру широким кругом государственных и частных организаций. В число этих пользователей входят некоторые ведущие мировые компании, в том числе автопроизводители, поставщики медицинских услуг, розничные продавцы, финансовые учреждения и логистические компании, которые внедряют ИИ в своих отраслях.

SuperPods

Nvidia также представила свой DGX SuperPod следующего поколения, кластер из 140 систем DGX A100, способных достигать 700 петафлопс вычислительной мощности ИИ. Комбинируя 140 систем DGX A100 с Nvidia Mellanox HDR 200 Гбит / с InfiniBand, компания создала собственный суперкомпьютер DGX SuperPod AI следующего поколения для внутренних исследований в таких областях, как разговорный искусственный интеллект, геномика и автономное вождение.

По словам Харьи, создание этого SuperPod заняло всего три недели, и этот кластер является одним из самых быстрых в мире суперкомпьютеров ИИ – для достижения уровня производительности, который ранее требовал тысячи серверов.

Чтобы помочь клиентам создать свои собственные центры обработки данных на базе A100, Nvidia выпустила новую эталонную архитектуру DGX SuperPod. Это дает клиентам план, который следует тем же принципам проектирования и лучшим практикам, которые использовала Nvidia.

Программа DGXpert, DGX-готовое программное обеспечение

Nvidia также запустила программу Nvidia DGXpert, которая объединяет клиентов DGX с экспертами ИИ компании, и программу Nvidia DGX-ready, которая помогает клиентам использовать сертифицированное программное обеспечение корпоративного уровня для рабочих процессов ИИ.

Компания заявила, что каждая система DGX A100 имеет восемь графических процессоров Nvidia A100 Tensor Core (GPU), обеспечивая 5 петафлопс ИИ-мощности, с общим объемом графической памяти 320 ГБ и пропускной способностью 12,4 ТБ в секунду.

Системы также имеют шесть межкомпонентных сетей Nvidia NVSwitch с технологией Nvidia NVLink третьего поколения с пропускной способностью 4,8 терабайта в секунду в двунаправленной полосе пропускания. И у них есть девять сетевых интерфейсов Nvidia Mellanox ConnectX-6 HDR 200 Гбит / с, обеспечивающих 3,6 терабит в секунду при двунаправленной полосе пропускания.

Чипы сделаны TSMC в 7-нанометровом процессе. Системы Nvidia DGX A100 стоят от 199 000 долларов США и теперь поставляются через реселлеров Nvidia Partner Network по всему миру.

Хуанг сказал, что DGX A100 использует материнскую плату HGX, которая весит около 50 фунтов и является «самой сложной материнской платой в мире». (Это доска, которую он вытащил из домашней печи в видео-тизере). У этого есть 30 000 компонентов и километр следов провода.

Что касается потребительского графического чипа, то Nvidia настроит чип на основе Ampere совсем по-другому. A100 использует память с высокой пропускной способностью для приложений центра обработки данных, но это не будет использоваться в потребительской графике. По его словам, ядра будут сильно смещены для графики, а не для центров обработки данных с плавающей запятой двойной точности.

«Мы будем смещать его по-разному, но каждая рабочая нагрузка выполняется на каждом графическом процессоре», – сказал Хуанг.