Большие языковые модели не всегда сложнее

Большие языковые модели не всегда сложнее

Источник · Перевод автора

Языковые модели, такие как OpenAI GPT-3, которые используют методы искусственного интеллекта и большие объемы данных для обучения таким навыкам, как написание текста, в последние годы привлекают все большее внимание со стороны предприятий. С качественной точки зрения результаты хорошие – GPT-3 и вдохновленные им модели могут писать электронные письма, резюмировать текст и даже генерировать код для глубокого обучения на Python. Но некоторые эксперты не уверены, что размер этих моделей и их обучающих наборов данных соответствует производительности.

Мария Антониак (Maria Antoniak), исследователь обработки естественного языка и специалист по обработке данных из Корнельского университета, говорит, что когда дело доходит до естественного языка, вопрос о том, являются ли более крупные модели правильным подходом, остается открытым. Хотя сегодня одни из лучших показателей производительности бенчмарков исходят от больших наборов данных и моделей, отдача от переноса огромных объемов данных в модели сомнительна.

«Текущая структура поля ориентирована на задачи, когда сообщество собирается вместе, чтобы попытаться решить конкретные проблемы на конкретных наборах данных», – сказала Антониак VentureBeat в предыдущем интервью. «Эти задачи обычно очень структурированы и могут иметь свои слабые стороны, поэтому, хотя они в некоторой степени помогают нашей области двигаться вперед, они также могут сдерживать нас. Большие модели хорошо справляются с этими задачами, но вопрос о том, могут ли эти задачи в конечном итоге привести нас к какому-либо истинному пониманию языка, остается предметом споров».

Количество параметров

Когда-то считалось, что чем больше параметров имеет модель, тем более сложные задачи она может выполнять. В машинном обучении параметры – это внутренние переменные конфигурации, которые модель использует при прогнозировании, и их значения, по сути, определяют навыки модели в решении проблемы.

Но растущее количество исследований ставит под сомнение эту идею. На этой неделе группа исследователей Google опубликовала исследование, в котором утверждалось, что модель, намного меньшая, чем GPT-3 – точно настроенная языковая сеть (FLAN) – превосходит GPT-3 «с большим отрывом» по ряду сложных тестов. FLAN, который имеет 137 миллиардов параметров по сравнению со 175 миллиардами GPT-3, превзошел GPT-3 по 19 из 25 задач, на которых его тестировали исследователи, и даже превзошел GPT-3 по производительности по 10 задачам.

FLAN отличается от GPT-3 тем, что он точно настроен на 60 задач обработки естественного языка, выраженных с помощью таких инструкций, как «Каково мнение этого обзора фильма – положительное или отрицательное?» и “Переведите” как дела “на китайский язык”. По словам исследователей, такая «настройка инструкций» улучшает способность модели реагировать на подсказки естественного языка, «обучая» ее выполнять задачи, описанные в инструкциях.

Обучив FLAN работе с набором веб-страниц, языков программирования, диалогов и статей в Википедии, исследователи обнаружили, что модель может научиться выполнять инструкции для задач, которым она не была специально обучена. Несмотря на то, что обучающие данные были не такими «чистыми», как обучающий набор GPT-3, FLAN все же удалось превзойти GPT-3 в таких задачах, как ответы на вопросы и обобщение длинных историй.

«Производительность FLAN выгодно отличается от GPT-3 с нулевым и малым выстрелами, что свидетельствует о потенциальной способности масштабных моделей следовать инструкциям», – пишут исследователи. «Мы надеемся, что наша статья будет стимулировать дальнейшие исследования в области обучения с нулевым выстрелом и использования помеченных данных для улучшения языковых моделей».

Проблемы с набором данных

Как упоминалось в исследовании Google, проблема с большими языковыми моделями может заключаться в данных, используемых для их обучения, а также в общих методах обучения. Например, ученые из Института искусственного интеллекта Венского медицинского университета в Австрии обнаружили, что GPT-3 уступает в таких областях, как биомедицина, по сравнению с более мелкими, менее архитектурно сложными, но тщательно отлаженными моделями. По словам исследователей, даже при предварительном обучении на биомедицинских данных большие языковые модели с трудом отвечают на вопросы, классифицируют текст и выявляют взаимосвязи наравне с хорошо настроенными моделями, на «порядки величин» меньшими.

«Большие языковые модели [не могут] достичь показателей производительности, отдаленно конкурирующих с показателями языковой модели, точно настроенной на всех данных обучения», – пишут исследователи Венского медицинского университета. «Результаты экспериментов показывают, что в области биомедицинской обработки естественного языка еще есть много возможностей для разработки многозадачных языковых моделей, которые могут эффективно передавать знания новым задачам, где доступен небольшой объем обучающих данных».

Это может сводиться к качеству данных. В отдельной статье Лео Гао (Leo Gao), специалиста по данным из проекта EleutherAI, управляемого сообществом, говорится, что способ кураторства данных в обучающем наборе данных может существенно повлиять на производительность больших языковых моделей. Хотя широко распространено мнение, что использование классификатора для фильтрации данных из «низкокачественных источников», таких как Common Crawl, улучшает качество обучающих данных, чрезмерная фильтрация может привести к снижению производительности языковой модели, подобной GPT. Из-за слишком сильной оптимизации для оценки классификатора сохраняемые данные начинают смещаться так, чтобы удовлетворять классификатору, создавая менее богатый и разнообразный набор данных.

«Хотя интуитивно может показаться, что чем больше данных отбрасывается, тем выше качество оставшихся данных, но мы обнаруживаем, что это не всегда так при неглубокой фильтрации на основе классификатора. Вместо этого мы обнаруживаем, что фильтрация до некоторой степени улучшает производительность последующих задач, но затем снова снижает производительность, поскольку фильтрация становится слишком агрессивной», – написал Гао. «[Мы] предполагаем, что это связано с законом Гудхарта, поскольку несоответствие между прокси и истинной целью становится более значительным с усилением давления оптимизации».

Смотря вперед

Меньшие, более тщательно настроенные модели могут решить некоторые другие проблемы, связанные с большими языковыми моделями, например воздействие на окружающую среду. В июне 2020 года исследователи из Массачусетского университета в Амхерсте выпустили отчет, в котором говорится, что количество энергии, необходимое для обучения и поиска определенной модели, включает выбросы примерно 626 000 фунтов углекислого газа, что почти в 5 раз превышает выбросы за весь срок службы. средняя машина США.

Исследование Google показало, что GPT-3 потреблял 1287 мегаватт во время обучения и произвел 552 метрических тонны выбросов углекислого газа. Напротив, FLAN потребляла 451 мегаватт и производила 26 тонн углекислого газа.

Как написали соавторы недавней статьи Массачусетского технологического института, требования к обучению станут непомерно дорогими с точки зрения оборудования, окружающей среды и денег, если тенденция к использованию больших языковых моделей сохранится. Достижение целевых показателей производительности экономичным способом потребует более эффективного оборудования, более эффективных алгоритмов или других улучшений, дающих чистый положительный эффект.