Тренировка искусственного интеллекта: вознаграждения недостаточно

Источник · Перевод автора

В недавней статье команда DeepMind (Silver et al., 2021) утверждает, что награды достаточно для всех видов интеллекта. В частности, они утверждают, что «максимального вознаграждения достаточно, чтобы управлять поведением, которое проявляет большинство, если не все атрибуты интеллекта». Они утверждают, что простые награды – это все, что нужно агентам в богатой среде для развития мультиатрибутного интеллекта, необходимого для создания общего искусственного интеллекта. Это звучит как смелое заявление, но на самом деле оно настолько расплывчато, что почти бессмысленно. Они подтверждают свой тезис, не предлагая конкретных доказательств, а неоднократно заявляя, что вознаграждения достаточно, потому что наблюдаемые решения проблем согласуются с решенной проблемой.

Silver et al. документ представляет собой, по крайней мере, третий раз, когда было предложено серьезное предложение, чтобы продемонстрировать, что общие механизмы обучения достаточны для учета всего обучения. Это идет дальше, чтобы также предположить, что этого достаточно, чтобы достичь интеллекта, и, в частности, достаточно, чтобы объяснить общий искусственный интеллект.

Первый значительный проект, который я знаю, который попытался показать, что единый механизм обучения – это все, что требуется, – это версия бихевиоризма Б.Ф. Скиннера, представленная в его книге «Вербальное поведение». Эта книга была подвергнута разрушительной критике Ноамом Хомским (1959), который назвал попытку Скиннера объяснить производство человеческого языка примером «игры, действующей на науку». Второе важное предложение было сосредоточено на изучении английских глаголов в прошедшем времени Румелхартом и Макклелландом (1986), что подверглось резкой критике со стороны Лахтера и Бевер (1988). Лахтер и Бевер показали, что конкретный способ, выбранный Рамельхартом и Макклелландом для представления фонематических свойств слов, которые их система коннекционистов училась преобразовывать, содержит конкретную информацию, которая позволит системе добиться успеха.

Обе эти предыдущие попытки не увенчались успехом, так как поддались предвзятости подтверждения. Как Silver et al. Однако они сообщили данные, которые соответствовали их гипотезе, без рассмотрения возможных альтернативных объяснений, и они интерпретировали неоднозначные данные как поддерживающие. Во всех трех проектах не учитывались неявные предположения, заложенные в их модели. Без этих неявных ТРИКС (имя Лахтера и Бевер для «представлений, которые он решающим образом предполагает») в этих системах не было бы интеллекта.

Сильвер и другие этот аргумент резюмируют тремя предложениями:

  • Максимального вознаграждения достаточно для выработки интеллекта: «Общей цели максимизации вознаграждения достаточно, чтобы стимулировать поведение, которое проявляет большинство, если не все способности, изучаемые естественным и искусственным интеллектом».
  • Интеллект – это способность достигать целей: «Интеллект можно понимать как гибкую способность достигать целей».
  • Успех измеряется максимальным вознаграждением: «Таким образом, успех измеряется максимальным вознаграждением».

Короче говоря, они предполагают, что определение интеллекта – это способность максимизировать вознаграждение, и в то же время они используют максимизацию вознаграждения для объяснения появления интеллекта. Вслед за писателем XVII века Мольером некоторые философы назвали бы этот вид аргумента virtus dormativa (добродетель, вызывающая сон). Когда его просят объяснить, почему опиум вызывает сон, холостяк Мольера (в «Воображаемом инвалиде») отвечает, что у него есть сонное свойство (способность вызывать сон). Это, конечно, всего лишь наименование свойства, которому требуется объяснение. Максимизация вознаграждения играет аналогичную роль в гипотезе Сильвера, которая также является полностью замкнутой. Достижение целей – это одновременно и процесс интеллекта, и объяснение этого процесса.

Хомский также критиковал подход Скиннера, поскольку он предполагал, что за любое проявленное поведение должно быть какое-то вознаграждение. Если кто-то смотрит на картину и говорит «голландский», анализ Скиннера предполагает, что в картине должна быть какая-то особенность, за которую высказывание «голландский» было вознаграждено. Но, утверждает Хомский, этот человек мог сказать что угодно, в том числе «криво», «отвратительно» или «давай пообедаем». Скиннер не может указать на конкретную особенность картины, которая вызвала какое-либо из этих высказываний, или предоставить какие-либо доказательства того, что это высказывание ранее было вознаграждено наличием этой особенности. Цитируя французского писателя XVIII века (Вольтера), его доктор Панглосс (в «Кандиде») говорит: «Обратите внимание, что нос имеет форму, позволяющую носить очки – таким образом, у нас есть очки». Должна существовать проблема, которую решает любая особенность, и в этом случае он утверждает, что нос сформирован именно для того, чтобы очки можно было держать наверху. Панглосс также говорит: «Это очевидно … что вещи не могут быть другими, чем они есть; поскольку все создано для цели, все обязательно для лучшего». Для Сильвер и др. эта цель – решение проблемы, и интеллект был изучен именно для этой цели, но мы не обязательно знаем, какова эта цель или какие особенности окружающей среды ее вызвали. Должно быть, что-то было.

Гулд и Левонтин (1979), как известно, используют доктора Панглосса для критики того, что они называют «адаптационистской» или «панглоссианской» парадигмой в эволюционной биологии. Основной адаптационистский постулат заключается в том, что любой особенности должно быть адаптивное объяснение. Они отмечают, что богато украшенные перемычки (приблизительно треугольная форма, где встречаются две арки) собора Святого Марка в Венеции – это архитектурная особенность, которая вытекает из выбора дизайна собора с четырьмя арками, а не движущей силой архитектурного дизайна. Спандрели следовали выбору арок, а не наоборот. Как только архитектор выбрал арки, потребовались перемычки, и их можно было декорировать. Гулд и Левонтин говорят: «Каждый потолок с веерным сводом должен иметь ряд открытых пространств по средней линии свода, где стороны вентиляторов пересекаются между колоннами. Поскольку пространства должны существовать, их часто используют для создания оригинального декоративного эффекта».

Гулд и Левонтин приводят другой пример – адаптационистское объяснение ацтекского жертвенного каннибализма. Ацтеки совершали человеческие жертвоприношения. Согласно адаптационистскому объяснению, система жертвоприношений была решением проблемы хронической нехватки мяса. Конечности жертв часто ели некоторые высокопоставленные члены общины. Это «объяснение» утверждает, что система мифов, символов и традиций, составлявшая это тщательно продуманное ритуальное убийство, была результатом потребности в мясе, тогда как, вероятно, верно обратное. Каждый новый король должен был превзойти своего предшественника, принося в жертву все больше и больше людей; эта практика, похоже, все больше истощала экономические ресурсы империи ацтеков. Другие источники белка были легко доступны, и только определенные привилегированные люди, у которых уже было достаточно еды, ели только определенные части жертвоприношений. Если бы целью было попадание мяса в животы голодающих людей, то можно было бы ожидать, что они будут более эффективно использовать жертв и более широко распространять источники пищи. Потребность в мясе вряд ли станет причиной человеческих жертвоприношений; скорее, это могло бы показаться следствием других культурных практик, которые на самом деле были неадекватными для выживания ацтекской цивилизации.

Перефразируя доводы Силвер и др. до сих пор, если цель состоит в том, чтобы стать богатым, достаточно накопить много денег. Тогда накопление денег объясняется целью стать богатым. Богатство определяется накоплением большого количества денег. Обучение с подкреплением не объясняет, как можно накапливать деньги или почему это должно быть целью. Они утверждают, что они определяются окружающей средой.

Таким образом, вознаграждения само по себе недостаточно, как минимум, окружающая среда также играет роль. Но адаптация – это не только это. Адаптация требует источника изменчивости, из которого можно выбрать определенные черты. Первичный источник этого разнообразия в эволюционной биологии – мутации и рекомбинация. Размножение в любом организме предполагает копирование генов родителей в детей. Процесс копирования не идеален, и возникают ошибки. Многие из этих ошибок фатальны, но некоторые из них нет, и тогда они доступны для естественного отбора. У видов, размножающихся половым путем, каждый родитель вносит копию (вместе с любыми потенциальными ошибками) своих генов, и две копии допускают дополнительную вариабельность за счет рекомбинации (некоторые гены от одного родителя, а некоторые от другого передаются следующему поколению).

Награда – это выбор. В одиночку этого недостаточно. Как указал Докинз, эволюционная награда – это передача определенного гена следующему поколению. Вознаграждение происходит на уровне гена, а не на уровне организма или вида. Все, что увеличивает шансы передачи гена от одного поколения к следующему, опосредует эту награду, но обратите внимание, что сами гены не способны быть разумными.

Помимо вознаграждения и окружающей среды, в эволюции и обучении с подкреплением также играют роль другие факторы. Вознаграждение можно выбрать только из доступного сырья. Если мы бросим мышь в пещеру, она не научится летать и использовать сонар, как летучую мышь. Потребуются многие поколения и, возможно, миллионы лет, чтобы накопить достаточное количество мутаций, и даже в этом случае нет гарантии, что это приведет к тем же решениям пещерной проблемы, что и летучие мыши. Обучение с подкреплением – это чисто выборочный процесс. Обучение с подкреплением – это процесс увеличения вероятности действий, которые вместе формируют политику взаимодействия с определенной средой. Эти действия должны уже существовать, чтобы их можно было выбрать. По крайней мере, на данный момент эти действия обеспечиваются генами в процессе эволюции и разработчиками программ в области искусственного интеллекта.

Как указали Лахтер и Бевер, обучение начинается не с tabula rasa, как утверждают Силвер и др., а с набора репрезентативных обязательств. Скиннер основывал большую часть своей теории на обучении с подкреплением животных, особенно голубей и крыс. Он и многие другие исследователи изучали их в суровых условиях. Для крыс это была камера, в которой находился рычаг для нажатия крысы и кормушка для доставки награды. Крыса ничего не могла поделать, кроме как пройти небольшое расстояние и коснуться рычага. Подобным же образом были проведены испытания голубей в среде, содержащей ключ для клевания (обычно кружок из плексигласа на стене, который можно было подсвечивать) и кормушку для зерна, чтобы доставить награду. В обеих ситуациях у животного уже было предубеждение реагировать так, как того хотел бихевиорист. Крысы касались рычага, а голуби, как выяснилось, даже без награды клевали подсвеченный ключ в темный ящик. Эта склонность реагировать желаемым образом позволяла легко дрессировать животное, и исследователь мог без особых проблем изучать эффекты схемы вознаграждения, но не в течение многих лет было обнаружено, что выбор рычага или рычага Клевание ключа было не просто произвольным удобством, а непризнанным «удачным выбором».

Тот же непризнанный удачный выбор произошел, когда Рамельхарт и Макклелланд построили своего ученика в прошедшем времени. Они выбрали представление, которое случайно отражает ту самую информацию, которую они хотели, чтобы их нейронная сеть узнала. Это не была tabula rasa, полагавшаяся исключительно на общий механизм обучения. Silver et al. (в другой статье с пересекающимся кругом авторов) также «повезло» в разработке AlphaZero, на которую они ссылаются в данной статье.

В предыдущей статье они дали более подробный отчет об AlphaZero вместе со следующим утверждением:

«Наши результаты демонстрируют, что универсальный алгоритм обучения с подкреплением может обучаться, tabula rasa – без специфических человеческих знаний или данных, о чем свидетельствует успех одного и того же алгоритма во многих областях – сверхчеловеческая производительность в нескольких сложных играх».

Также они отмечают:

«AlphaZero заменяет созданные вручную знания и специфические для предметной области дополнения, используемые в традиционных игровых программах, глубокими нейронными сетями, универсальным алгоритмом обучения с подкреплением и универсальным алгоритмом поиска по дереву».

Они не включают явных вычислительных инструкций, специфичных для игры, но они включают существенный человеческий вклад в решение проблемы. Например, их модель включает в себя «нейронную сеть fθ (s) [которая] принимает положение доски s в качестве входных данных и выводит вектор вероятностей перемещения». Другими словами, они не ожидают, что компьютер узнает, что он играет в игру, или что игра ведется по очереди, или что он не может просто складывать камни (фишки игры го) в стопки или бросать игровое поле. на полу. Они также создают множество других ограничений, например, заставляя машину играть против самой себя. Представление в виде дерева, которое они используют, когда-то было огромным нововведением для представления игры. Ветви дерева соответствуют диапазону возможных ходов. Никакие другие действия невозможны. Компьютеру также предоставляется способ поиска в дереве с использованием алгоритма поиска по дереву Монте-Карло, и он снабжен правилами игры.

Таким образом, AlphaZero вовсе не является tabula rasa, и ему дается существенное предварительное знание, которое сильно ограничивает круг возможных вещей, которые он может изучить. Поэтому неясно, что означает «вознаграждение достаточно» даже в контексте обучения игре в го. Чтобы вознаграждения было достаточно, он должен работать без этих ограничений. Более того, неясно, будет ли даже общая игровая система считаться примером общего обучения в менее ограниченных средах. AlphaZero является существенным вкладом в вычислительный интеллект, но его вклад в основном заключается в человеческом интеллекте, который участвовал в его разработке, в определении ограничений, с которыми он будет работать, и в сведении проблемы игры к ориентированному поиску по дереву. Более того, его ограничения применимы даже не ко всем играм, а только к играм ограниченного типа. Он может играть только в определенные виды настольных игр, которые можно охарактеризовать как поиск по дереву, когда учащийся может взять позицию на доске в качестве входных данных и вывести вектор вероятности. Нет никаких доказательств того, что он мог даже изучить другой вид настольной игры, такой как «Монополия» или даже парчизи.

Без ограничений награда ничего не объясняет. AlphaZero – это не модель для всех видов обучения и, конечно, не для общего интеллекта.

Silver et al. рассматривать общий интеллект как количественную проблему.

«Общий интеллект, которым обладают люди и, возможно, другие животные, можно определить как способность гибко достигать множества целей в разных контекстах».

Какая гибкость требуется? Насколько разнообразны цели? Если бы у нас был компьютер, который мог бы играть в го, шашки и шахматы как синонимы, это все равно не составляло бы общего интеллекта. Даже если бы мы добавили еще одну игру, сёги, у нас все равно был бы точно такой же компьютер, который все еще работал бы, найдя модель, которая «принимает позицию на доске в качестве входных данных и выводит вектор вероятностей ходов». Компьютер совершенно неспособен развлечь какие-либо другие «мысли» или решить какую-либо проблему, которую нельзя представить таким специфическим образом.

«Общее» в общем искусственном интеллекте характеризуется не количеством различных задач, которые он может решить, а способностью решать многие типы задач. Агент общей разведки должен иметь возможность автономно формулировать свои собственные представления. Он должен изобретать свой собственный подход к решению проблем, выбирая собственные цели, представления, методы и так далее. На данный момент это все, что входит в компетенцию дизайнеров-людей, которые сводят проблемы к формам, которые компьютер может решить путем настройки параметров модели. Мы не сможем достичь общего интеллекта, пока не избавимся от зависимости от людей при построении проблем. Обучение с подкреплением как избирательный процесс не может этого сделать.

Заключение: как и в случае противостояния бихевиоризма и когнитивизма и вопроса о том, было ли обратное распространение достаточным для изучения языковых преобразований прошедшего времени, этих простых механизмов обучения кажется достаточно, только если мы игнорируем тяжелое бремя, которое несут другие, часто непризнанные ограничения. Награды выбирают среди доступных альтернатив, но они не могут создавать эти альтернативы. Вознаграждения бихевиористов работают до тех пор, пока человек не смотрит слишком внимательно на явления и пока предполагает, что должно быть какое-то вознаграждение, подкрепляющее какое-то действие. Они хороши для постфактум, чтобы «объяснить» любые наблюдаемые действия, но они не помогают вне лаборатории предсказать, какие действия будут выполнены. Эти явления совместимы с вознаграждением, но было бы ошибкой думать, что они вызваны вознаграждением.

Вопреки утверждениям Сильвер и др., вознаграждения недостаточно.