XLearn от DeepMind обучает агентов искусственного интеллекта выполнять сложные задачи

XLearn от DeepMind обучает агентов искусственного интеллекта выполнять сложные задачи

Источник · Перевод автора

DeepMind подробно описал свои последние усилия по созданию систем искусственного интеллекта, способных выполнять ряд различных уникальных задач. Разработав виртуальную среду под названием XLand, лаборатория при поддержке Alphabet сообщает, что ей удалось обучить системы, способные успешно решать проблемы и игры, включая прятки, захват флага и поиск объектов, с некоторыми из которых они не сталкивались. во время тренировки.

Методика искусственного интеллекта, известная как обучение с подкреплением, продемонстрировала замечательный потенциал, позволяя системам учиться играть в такие игры, как шахматы, сёги, го и StarCraft II, посредством повторяющегося процесса проб и ошибок. Но недостаток данных обучения был одним из основных факторов, ограничивающих поведение систем, обученных обучению с подкреплением, достаточно общим, чтобы его можно было применять в различных играх. Не имея возможности обучать системы достаточно обширному набору задач, системы, обученные с помощью обучения с подкреплением, были неспособны адаптировать свое усвоенное поведение к новым задачам.

DeepMind разработал XLand для решения этой проблемы, который включает многопользовательские игры в согласованных, «человеческих» цифровых мирах. Смоделированное пространство позволяет выполнять задачи, создаваемые процедурно, позволяя системам обучаться и генерировать опыт на основе задач, которые создаются программно.

XLand предлагает миллиарды задач для самых разных миров и игроков. ИИ управляет игроками в среде, предназначенной для моделирования физического мира, обучения в ряде совместных и соревновательных игр. Цель каждого игрока – максимизировать награды, и каждая игра определяет индивидуальные награды для игроков.

«Эти сложные нелинейные взаимодействия создают идеальный источник данных для обучения, поскольку иногда даже небольшие изменения в компонентах среды могут привести к большим изменениям в задачах для [систем]», – поясняет DeepMind в своем блоге.

XLand обучает системы, динамически генерируя задачи в ответ на поведение системы. Функции создания задач систем развиваются в соответствии с их относительной производительностью и надежностью, а поколения систем загружаются друг из друга, вводя в многопользовательскую среду еще лучших игроков.

DeepMind утверждает, что после обучения систем в течение пяти поколений – 700 000 уникальных игр в 4 000 миров в пределах XLand, где каждая система проходит 200 миллиардов шагов обучения – они увидели последовательные улучшения как в обучении, так и в производительности. DeepMind обнаружил, что системы демонстрируют общее поведение, такое как экспериментирование, например, изменение состояния мира до тех пор, пока они не достигнут полезного состояния. Более того, они заметили, что системы знали основы их тел, течение времени и высокоуровневую структуру игр, с которыми они сталкивались.

Всего за 30 минут целенаправленного обучения новой сложной задаче системы могли быстро адаптироваться, в то время как агенты, обученные с помощью обучения с подкреплением с нуля, не могли выучить задачи вообще. «Миссия DeepMind по поиску интеллекта для развития науки и человечества побудила нас изучить, как мы можем преодолеть это ограничение для создания ИИ [систем] с более общим и адаптивным поведением», – сказал DeepMind. «Вместо того, чтобы изучать по одной игре за раз, эти [системы] смогут реагировать на совершенно новые условия и играть в целую вселенную игр и задач, включая те, которые раньше никогда не видели».