Набор данных Facebook борется с предвзятостью ИИ, позволяя людям самостоятельно определять возраст и пол

Источник · Перевод автора

Сегодня Facebook предоставил открытый исходный код набора данных, предназначенного для выявления предубеждений по возрасту, полу и цвету кожи в моделях компьютерного зрения и звукового машинного обучения. Компания утверждает, что корпус – Случайные разговоры – является первым в своем роде, в котором представлены оплачиваемые люди, которые явно указали свой возраст и пол, а не помечали эту информацию третьими сторонами или оценили ее с помощью моделей.

Предубеждения могут проникать в данные, используемые для обучения систем искусственного интеллекта, усиливая стереотипы и приводя к пагубным последствиям. Исследования показали, что современные модели искусственного интеллекта, классифицирующие изображения, обученные в ImageNet, популярном наборе данных, содержащем фотографии, взятые из Интернета, автоматически изучают человеческие предубеждения относительно расы, пола, веса и т. Д. Бесчисленные исследования показали, что распознавание лиц подвержено предвзятости. Было даже показано, что предрассудки могут проникать в инструменты искусственного интеллекта, используемые для создания искусства, потенциально способствуя ложным представлениям о социальных, культурных и политических аспектах прошлого и препятствуя осознанию важных исторических событий.

Случайные разговоры, который содержит более 4100 видеороликов с 3000 участников, некоторые из которых взяты из Deepfake Detection Challenge, направлен на борьбу с этой предвзятостью путем включения ярлыков «очевидного» тона кожи. Facebook сообщает, что тона оцениваются с помощью шкалы Фитцпатрика, схемы классификации цвета кожи, разработанной в 1975 году американским дерматологом Томасом Б. Фицпатриком. Шкала Фитцпатрика – это способ оценить реакцию типов кожи на ультрафиолетовый свет, от типа I (бледная кожа, которая всегда горит и никогда не загорает) до типа VI (глубоко пигментированная кожа, которая никогда не горит).

Facebook заявляет, что нанял обученных аннотаторов для случайных разговоров, чтобы определить, какой тип кожи у каждого участника. Аннотаторы также помечали видео с условиями окружающего освещения, что помогло измерить, как модели относятся к людям с разным оттенком кожи в условиях низкой освещенности.

Представитель Facebook сообщил VentureBeat по электронной почте, что поставщик из США был нанят для отбора аннотаторов для проекта из «разного происхождения, этнической принадлежности и пола». Участникам, приехавшим из Атланты, Хьюстона, Майами, Нового Орлеана и Ричмонда, была выплачена зарплата.

«Как отрасль, так и отраслевые и академические эксперты все еще только начинают понимать справедливость и предвзятость, когда дело доходит до ИИ… Исследовательское сообщество ИИ может использовать случайные беседы как важный шаг на пути к нормализации измерения подгруппы и исследований справедливости», – Facebook написал в сообщении в блоге. «С помощью случайных разговоров мы надеемся стимулировать дальнейшие исследования в этой важной, развивающейся области».

В поддержку точки зрения Facebook существует масса свидетельств того, что модели компьютерного зрения, в частности, подвержены вредным и широко распространенным предрассудкам. Осенью прошлого года исследователи Университета Колорадо в Боулдере продемонстрировали, что ИИ от Amazon, Clarifai, Microsoft и других поддерживает уровень точности выше 95% для цисгендерных мужчин и женщин, но ошибочно идентифицирует трансгендерных мужчин как женщин в 38% случаев. Независимые тесты систем основных поставщиков, проведенные проектом Gender Shades и Национальным институтом стандартов и технологий (NIST), продемонстрировали, что технология распознавания лиц демонстрирует расовую и гендерную предвзятость, и предположили, что текущие программы распознавания лиц могут быть совершенно неточными, ошибочно классифицируя людей выше. 96% времени.

Помимо распознавания лиц, такие функции, как виртуальный фон Zoom и инструмент автоматической обрезки фотографий Twitter, исторически не одобряли людей с более темной кожей. Еще в 2015 году инженер-программист заметил, что алгоритмы распознавания изображений в Google Фото маркируют его черных друзей как «горилл». А некоммерческая организация AlgorithmWatch показала, что API Google Cloud Vision сразу автоматически пометил термометр, который держит темнокожий человек, как «пистолет», а термометр, который держит светлокожий человек, – как «электронное устройство».

Эксперты связывают многие из этих ошибок с недостатками наборов данных, используемых для обучения моделей. В ходе недавнего аудита популярных наборов данных машинного обучения под руководством Массачусетского технологического института было обнаружено в среднем 3,4% ошибок аннотаций, в том числе одна, где изображение чихуахуа было помечено как «боа из перьев». Более ранняя версия ImageNet, набор данных, используемых для подготовки систем искусственного интеллекта по всему миру, была обнаружена содержание фотографии голых детей, порно актриса, колледж сторон, и многой другой – все Царапины из сети Интернет без согласия тех лиц. В другом корпусе компьютерного зрения, 80 миллионов крошечных изображений, был обнаружен ряд расистских, сексистских и других оскорбительных аннотаций, таких как почти 2000 изображений, помеченных буквой N, и такие ярлыки, как «подозреваемый в изнасиловании» и «растлитель малолетних».

Но Casual Conversations – далеко не идеальный эталон. Facebook заявляет, что не собирал информацию о том, откуда родом участники. И, задавая вопрос об их поле, компания предоставила только варианты «мужской», «женский» и «другой», исключив гендеры, подобные тем, которые идентифицируют себя как небинарные.

Представитель также пояснил, что на сегодняшний день команда «Случайные беседы» доступна только командам Facebook и что сотрудники не будут обязаны – но будут поощряться – использовать их для целей оценки.

Разоблачения подходов Facebook к справедливости не очень помогли вызвать доверие в сообществе ИИ. Согласно исследованию Нью-Йоркского университета, опубликованному в июле 2020 года, системы машинного обучения Facebook совершают около 300 000 ошибок модерации контента в день, а проблемные сообщения продолжают проскальзывать через фильтры Facebook. В одной группе в Facebook, которая была создана в ноябре прошлого года и быстро выросла до почти 400000 человек, участники, призывающие к общенациональному пересчету президентских выборов в США 2020 года, обменялись необоснованными обвинениями в предполагаемых фальсификациях на выборах и подсчете голосов штата каждые несколько секунд.

Что касается Facebook, компания заявляет, что, хотя она считает повседневные беседы «хорошим, смелым» первым шагом, она продолжит продвигаться к разработке методов, позволяющих охватить большее разнообразие, в течение следующего года или около того. «В следующем году или около того мы надеемся изучить пути расширения этого набора данных, чтобы он стал еще более инклюзивным с представлениями, включающими большее количество географических мест, видов деятельности и более широкий диапазон гендерной идентичности и возраста», – сказал представитель. «Еще слишком рано комментировать будущее участие заинтересованных сторон, но мы, безусловно, открыты для общения с заинтересованными сторонами в технологической отрасли, академическими кругами, исследователями и другими».