Маркировка данных для исследований ИИ очень непоследовательна, как показывают исследования

Источник · Перевод автора

Машинное обучение с учителем, при котором модели машинного обучения учатся на размеченных обучающих данных, настолько хорошо, насколько хороши эти данные. В исследовании, опубликованном в журнале Quantitative Science Studies, исследователи из консалтинговой компании Webster Pacific и Калифорнийского университета в Сан-Диего и Беркли изучают, в какой степени передовые методы маркировки данных соблюдаются в исследовательских работах ИИ, уделяя особое внимание данным, помеченным людьми. Они обнаружили, что типы помеченных данных широко варьируются от бумаги к бумаге, и что «множество» обследованных ими исследований не дали информации о том, кто выполнял маркировку или откуда эти данные.

Хотя маркированные данные обычно приравниваются к достоверным данным, наборы данных могут содержать – и содержат – ошибки. Процессы, используемые для их создания, по своей природе подвержены ошибкам, что становится проблематичным, когда эти ошибки достигают наборов тестов, подмножеств наборов данных, которые исследователи используют для сравнения прогресса. В недавней статье Массачусетского технологического института были определены от тысяч до миллионов неправильно маркированных образцов в наборах данных, используемых для обучения коммерческих систем. Эти ошибки могут привести ученых к неправильным выводам о том, какие модели работают лучше всего в реальном мире, что подрывает контрольные показатели.

Соавторы статьи о количественных научных исследованиях изучили 141 исследование ИИ по целому ряду различных дисциплин, включая социальные и гуманитарные науки, биомедицины и науки о жизни, а также физические науки и науки об окружающей среде. Из всех документов 41% использовали существующий набор данных, помеченных людьми, 27% создали новый набор данных, помеченных людьми, а 5% не раскрыли ни того, ни другого. (Остальные 27% использовали наборы данных с машинной маркировкой.) Только половина проектов, использующих данные, помеченные людьми, показали, были ли аннотаторам предоставлены документы или видеоролики, содержащие руководящие принципы, определения и примеры, на которые они могли ссылаться в качестве вспомогательных средств. Более того, наблюдались «широкие различия» в показателях, используемых для оценки того, соглашались ли аннотаторы или не соглашались с конкретными ярлыками, причем в некоторых документах это вообще не отмечалось.

Компенсация и воспроизводимость

Как указывалось в предыдущем исследовании ученых Корнелла и Принстона, основным местом проведения краудсорсинговой маркировки является Amazon Mechanical Turk, где аннотаторы в основном происходят из США и Индии. Это может привести к дисбалансу культурных и социальных перспектив. Например, исследование показало, что модели, обученные в ImageNet и Open Images, двух больших общедоступных наборах данных изображений, хуже работают с изображениями из стран Глобального Юга. Изображения женихов из Эфиопии и Пакистана классифицируются с меньшей точностью, чем изображения женихов из США.

Для аннотаторов задачи по маркировке обычно монотонны и низкооплачиваются – работники ImageNet получали в среднем 2 доллара в час в час. К сожалению, опрос Quantitative Science Studies показывает, что в области ИИ вопрос справедливой компенсации в значительной степени не решен. В большинстве публикаций не указывалось, какое вознаграждение они предлагали этикетировщикам, и даже не содержалась ссылка на набор данных по обучению.

Отсутствие ссылок не только оказывает медвежью услугу этикетировщикам, но и может усугубить проблему воспроизводимости в ИИ. На ICML 2019 30% авторов не предоставили код со своими статьями к началу конференции. В одном отчете было обнаружено, что от 60% до 70% ответов, даваемых моделями обработки естественного языка, были встроены где-то в эталонных обучающих наборах, что указывает на то, что модели часто просто запоминали ответы.

«В некоторых из проанализированных нами документов очень подробно описывалось, как отбирались люди, маркирующие свои наборы данных, с учетом их опыта, от опытных практикующих врачей, занимающихся диагностикой заболеваний, до молодежи, знакомой с сленгом в социальных сетях на нескольких языках. Тем не менее, не все задачи по маркировке требуют многолетнего специализированного опыта, например, более простые задачи, которые мы видели, например, различение положительных и отрицательных бизнес-обзоров или определение различных жестов рук», – пишут соавторы статьи о количественных исследованиях науки. «Даже самые простые, на первый взгляд, задачи классификации могут иметь существенное место для двусмысленности и ошибок в неизбежных крайних случаях, которые требуют процессов обучения и проверки для обеспечения стандартизированного набора данных».

Движение вперед

Исследователи избегают пропаганды единого универсального решения для маркировки человеческих данных. Тем не менее, они призывают специалистов по данным, которые решают повторно использовать наборы данных, проявлять такую ​​же осторожность при принятии решения, как если бы они сами маркировали данные, чтобы не закрасться предвзятость. Более ранняя версия ImageNet, как было обнаружено, содержала фотографии обнаженных детей, порноактрисы и вечеринки в колледжах – все было скопировано из Интернета без согласия этих людей. Другой популярный набор данных, 80 миллионов крошечных изображений, был отключен после того, как в ходе аудита были обнаружены расистские, сексистские и другие оскорбительные аннотации, такие как почти 2000 изображений, помеченных буквой N и такими ярлыками, как «подозреваемый в изнасиловании» и «растлитель малолетних».

«Мы видим роль классического принципа воспроизводимости, но для маркировки данных: предоставляет ли документ достаточно подробностей, чтобы другой исследователь мог гипотетически набрать аналогичную команду этикетировщиков, дать им те же инструкции и обучение, аналогичным образом урегулировать разногласия и иметь они производят набор данных с аналогичной пометкой?» писали исследователи. «[Наша работа] свидетельствует о том, что существуют существенные и широкие различия в практиках, связанных с маркировкой людей, обучением данных и исследовательской документацией … Мы призываем научные учреждения – публикации, спонсоров, дисциплинарные общества и преподавателей – сыграть важную роль в разработке решений этих проблем качества данных и исследовательской документации».