Исследователи предлагают LEAF, интерфейс для разработки алгоритмов классификации ИИ

Источник · Перевод автора

В машинном обучении наборы мел-фильтров – фиксированные, созданные вручную представления звука – часто используются для обучения алгоритмов, которые классифицируют звук. Спустя десятилетия после разработки наборов мел-фильтров исследования показывают, что они демонстрируют желаемые математические свойства для обучения репрезентативности; другими словами, они представляют собой сильные звуковые функции. Но конструкция наборов мел-фильтров также страдает предвзятостью, и эти предубеждения могут быть вредными для задач, требующих точного разрешения на высоких частотах.

Делая шаг к альтернативе искусственного интеллекта, исследователи из Google разработали LEAF, интерфейс, который разбивает мел-фильтры на несколько компонентов – фильтрацию, объединение и сжатие / нормализацию – для создания моделей классификации аудио якобы с минимальными искажениями. Исследователи утверждают, что LEAF может изучить единый набор параметров, который превосходит наборы мел-фильтров, предполагая, что его можно использовать для задач классификации аудио общего назначения.

По данным Grand View Research, LEAF имеет практические последствия, учитывая, что глобальный рынок распознавания звука в 2018 году оценивался в 66,5 млн долларов. Помимо распознавания голоса и речи, слух стал важным элементом искусственного интеллекта; звук позволяет ИИ понимать контекст и различать различные события, происходящие в окружающей среде. Например, в случае вторжения система управления событиями с технологией распознавания звука на базе искусственного интеллекта может включать свет и воспроизводить громкую музыку для предотвращения взлома, а также отправлять оповещения домовладельцам. LEAF может облегчить создание такого рода продуктов без кропотливой ручной обработки звуковых изображений.

В экспериментах исследователи использовали LEAF для разработки независимых однозадачных контролируемых моделей по восьми различным задачам классификации, включая классификацию акустических сцен, обнаружение пения птиц, распознавание эмоций, идентификацию говорящего, обнаружение музыкальных инструментов и высоты звука, определение ключевых слов и идентификацию языка. Они говорят, что модели, созданные с помощью LEAF, превзошли или почти превзошли все альтернативы или соответствовали точности других интерфейсов.

В ближайшем будущем команда планирует выпустить исходный код для своих моделей и базовых версий, а также предварительно обученных интерфейсов. «В этой работе мы утверждаем, что заслуживающая доверия альтернатива банкам фильтров для классификации должна быть оценена для многих задач, и предлагаем первое обширное исследование обучаемых интерфейсов для звука по широкому и разнообразному диапазону звуковых сигналов, включая речь, музыку, звуковые события и звуки животных », – написали они в статье, описывающей свою работу. «Разбивая наборы фильтров мел-фильтров на три компонента… мы предлагаем LEAF, новый интерфейс, который можно полностью изучить во всех своих операциях, но при этом он контролируется всего несколькими сотнями параметров. [T] эти результаты воспроизводятся при обучении различных моделей для каждой отдельной задачи. Мы также подтверждаем эти результаты на сложном крупномасштабном тесте».