НЛП должно быть открытым. 500+ исследователей пытаются воплотить это в реальность

Источник · Перевод автора

Ускорение в области искусственного интеллекта (ИИ) и обработки естественного языка (НЛП) окажет фундаментальное влияние на общество, поскольку эти технологии лежат в основе инструментов, которые многие из нас используют ежедневно. Однако ресурсы, необходимые для создания наиболее эффективных моделей ИИ и НЛП, находятся в основном у технологических гигантов.

Мертвая хватка технологических гигантов в отношении этой преобразующей технологии создает ряд проблем, начиная от того, кто решает, какие исследования должны быть опубликованы, до их воздействия на окружающую среду и этические аспекты. Например, в то время как недавние модели НЛП, такие как GPT3 (от OpenAI и Microsoft), демонстрируют интересное поведение с точки зрения исследования, такие модели являются частными, и многим академическим организациям предоставляется только ограниченный доступ – или вообще его нет, что делает невозможно ответить на важные вопросы об этих моделях и изучить возможности, ограничения, потенциальные улучшения, предвзятость и справедливость.

Группа из более чем 500 исследователей из 45 разных стран – от Франции, США и Японии до Индонезии, Ганы и Эфиопии – собралась вместе, чтобы работать над решением некоторых из этих проблем. Проект, в котором участвуют все авторы этой статьи, называется Big Science, и наша цель – улучшить научное понимание возможностей и ограничений крупномасштабных моделей нейронных сетей в NLP и создать разнообразный и многоязычный набор данных. и крупномасштабная языковая модель в качестве исследовательских артефактов, открытых для научного сообщества.

BigScience был вдохновлен схемами научного творчества, существующими в других научных областях, таких как ЦЕРН и LHC в физике элементарных частиц, в которых открытое научное сотрудничество способствует созданию крупномасштабных артефактов, полезных для всего исследовательского сообщества. На данный момент к проекту присоединился широкий круг институтов и дисциплин, которые начались в мае 2021 года.

В проекте задействовано более 20 рабочих групп и подгрупп, параллельно занимающихся различными аспектами языкового моделирования, некоторые из которых тесно связаны и взаимозависимы. Данные играют решающую роль в этом процессе. В машинном обучении модель учится делать прогнозы на основе данных, которые она видела ранее. Наборы данных, на которых обычно обучаются большие языковые модели, огромны, в основном ориентированы на английский язык и получены из Интернета, что, в частности, вызывает вопросы о предвзятости, справедливости, этике и конфиденциальности.

Таким образом, коллектив стремится реализовать преднамеренное построение набора обучающих данных, чтобы способствовать лингвистической, географической и социальной репрезентативности, а не оппортунистическим практикам, которые в настоящее время определяют обучающие данные, используемые в очень больших моделях. Наши усилия по обработке данных также направлены на определение прав владельцев языков, субъектов и сообществ. Это не только техническая проблема, но и организационная и социальная. Группы проектирования и моделирования занимаются определением законов проектирования архитектуры и масштабирования, например, с конкретной целью обучения языковой модели с мощностью до 210 миллиардов параметров машинного обучения на французском суперкомпьютере Jean Zay в IDRIS.

Одна из наших целей состоит в том, чтобы раскрыть и понять механизмы, которые позволяют языковой модели выдавать действительный вывод по любому естественному описанию задачи, которое ей было дано, без явного обучения этому (способность, известная как поведение с нулевым выстрелом). Другой интересный момент – изучение того, как языковая модель может обновляться с течением времени. У нас также есть группа исследователей, работающих над стратегиями токенизации для разнообразного набора языков и моделирования многоязычия, чтобы гарантировать, что все возможности НЛП перенесены на языки, отличные от английского. Другие работают над социальным воздействием, углеродным следом, управлением данными и правовыми последствиями моделей НЛП, а также над тем, как внешне и внутренне оценивать их точность.

В результате этих огромных усилий BigScience стремится поделиться очень большим многоязычным корпусом, составленным таким образом, чтобы он был ответственным, разнообразным и учитывал этические и юридические вопросы, крупномасштабная многоязычная языковая модель, демонстрирующая нетривиальное поведение с нулевым выстрелом в способ, доступный для всех исследователей, а также код и инструменты, связанные с этими артефактами, для облегчения использования. Кроме того, это возможность создать план того, как проводить крупномасштабные исследовательские инициативы в области ИИ. Наши усилия продолжают развиваться и расти, и с каждым днем ​​к нам присоединяется все больше исследователей, что уже делает их крупнейшим вкладом открытой науки в области искусственного интеллекта на сегодняшний день.

Подобно трениям между проприетарным программным обеспечением и программным обеспечением с открытым исходным кодом в начале 2000-х, ИИ переживает поворотный момент, когда он может либо перейти в частное направление, а крупномасштабные современные модели все чаще разрабатываются внутри компаний. и сохраняться в частном порядке или в открытом, совместном, ориентированном на сообщества направлении, сочетая в себе лучшие аспекты открытого исходного кода и открытой науки. Важно, чтобы мы максимально использовали эту текущую возможность, чтобы продвинуть ИИ на этот ориентированный на сообщества путь, чтобы он мог принести пользу обществу в целом.