Исследование показало, что даже лучшие системы распознавания речи демонстрируют предвзятость

Источник · Перевод автора

Даже самые современные алгоритмы автоматического распознавания речи (ASR, automatic speech recognition) с трудом распознают акцент людей из определенных регионов мира. Это главный вывод нового исследования, опубликованного исследователями из Амстердамского университета, Нидерландского института рака и Делфтского технологического университета, которые обнаружили, что система ASR для голландского языка распознает носителей определенных возрастных групп, полов, и страны происхождения лучше других.

Распознавание речи прошло долгий путь с момента появления машины IBM Shoebox и куклы Джули в Worlds of Wonder. Но, несмотря на прогресс, который стал возможен благодаря искусственному интеллекту, системы распознавания голоса сегодня в лучшем случае несовершенны, а в худшем – дискриминационны. Согласно исследованию, проведенному по заказу Washington Post, популярные умные колонки от Google и Amazon на 30% реже понимают неамериканский акцент, чем пользователи из числа коренных жителей. Совсем недавно в рамках проекта Voice Erasure, организованного Лигой алгоритмической справедливости, было обнаружено, что системы распознавания речи от Apple, Amazon, Google, IBM и Microsoft в совокупности достигают уровня ошибок в словах 35% для афроамериканских голосов по сравнению с 19% для белых голосов.

Соавторы этого последнего исследования намеревались изучить, насколько хорошо система ASR для голландского языка распознает речь разных групп говорящих. В серии экспериментов они выяснили, может ли система ASR бороться с разнообразием речи по параметрам пола, возраста и акцента.

Исследователи начали с того, что система ASR получила образцы данных из CGN, аннотированного корпуса, используемого для обучения языковых моделей ИИ распознаванию голландского языка. CGN содержит записи разговоров людей в возрасте от 18 до 65 лет из Нидерландов и региона Фландрия в Бельгии, охватывающие стили разговора, включая новостные трансляции и телефонные разговоры.

У CGN колоссальные 483 часа выступления 1185 женщин и 1678 мужчин. Но чтобы сделать систему еще более надежной, соавторы применили методы увеличения данных, чтобы увеличить общее количество часов обучения данных «в девять раз».

Когда исследователи запустили обученную систему ASR через набор тестов, полученных из CGN, они обнаружили, что она распознает женскую речь более надежно, чем мужскую, независимо от стиля речи. Более того, система изо всех сил пыталась распознавать речь пожилых людей по сравнению с младшими, возможно потому, что первая группа не была хорошо сформулирована. И ему было легче распознавать речь носителей языка по сравнению с носителями языка. Действительно, у самой плохо распознаваемой родной речи – речи голландских детей – коэффициент ошибок по словам был примерно на 20% выше, чем у лучшей возрастной группы неродных.

В целом, результаты показывают, что наиболее точно система интерпретировала речь подростков, за которыми следовали речи подростков (старше 65 лет) и детей. Это справедливо даже для тех, кто не является родным языком, но хорошо владеет голландской лексикой и грамматикой.

Как отмечают исследователи, хотя до некоторой степени невозможно устранить предвзятость, которая закрадывается в наборы данных, одно решение – смягчить эту предвзятость на алгоритмическом уровне.

«[Мы рекомендуем] сформулировать проблему, разработать состав команды и процесс реализации с точки зрения предвидения, упреждающего выявления и разработки стратегий смягчения последствий аффективных предубеждений [для устранения предвзятости в системах ASR]», – написали исследователи в статье, подробно описывающей их работу. «Стратегия прямого смягчения смещения связана с диверсификацией и стремлением к сбалансированному представлению в наборе данных. Стратегия смягчения косвенной предвзятости имеет дело с разнообразным составом команды: разнообразие по возрасту, регионам, полу и т. д. Дает дополнительные возможности для выявления потенциальных предвзятостей в дизайне. Вместе они могут помочь обеспечить более инклюзивную среду развития для ASR».