ABC использует машинное обучение для улучшения результатов в обновленном поиске

ABC использует машинное обучение для улучшения результатов в обновленном поиске

Источник · Перевод автора

Австралийская радиовещательная корпорация использует машины для извлечения метаданных из текста, подкастов и других средств массовой информации, что облегчает их поиск с помощью новой поисковой системы.

Инженер машинного обучения Гарет Сенек (Gareth Seneque) сказал YOW! Данные 2019 года о том, что ABC вышла из бета-версии в феврале этого года с помощью новой поисковой системы, основанной на технологии от американского стартапа Algolia (который также запускает поиск подобных Twitch и Stripe).

Поисковый домен все еще использует бета-маркировку, но используется в полном объеме.

«У [url] есть причины для этого». «Я не отступаю – но мы находимся в процессе расширения и уменьшения масштабов», – сказал Сенек.

Существующий поисковый сервер ABC индексирует около 600 000 бит контента за последнее десятилетие, в том числе 230 000 статей, 270 000 аудио и 85 000 видео.

Но Сенек сказал, что в поисках был беден.

«В частности, типы контента не поддерживаются, скорость индексации была медленной, так как для показа в индексе потребуется некоторое время, а релевантность результатов была плохой», – сказал он.

«Аудитория, скорее всего, также найдет контент по причинам доступности».

Цифровые свойства ABC, в том числе iView и приложение прослушивания, теперь доступны в новой поисковой системе Algolia.

Но до того, как это произойдет, команда Сенека работает над улучшением метаданных, записанных для отдельных фрагментов контента, особенно подкастов и видео, чтобы сделать их более доступными для поиска.

«Наши задачи двоякие: как заставить людей использовать нашу поисковую систему? И как только они его используют, как мы доставляем наиболее релевантный контент?», – сказал Сенек.

Сенек отметил, что каждый разработчик цифровой недвижимости сталкивается с поиском – работает ли он так же, как Google.

«Люди используют Google каждый день», – сказал он.

Он устанавливает эталон того, что может сделать поисковая система, и соответственно обуславливает ожидания людей.

«У нас есть общедоступная форма обратной связи, и мы постоянно видим этого ребенка. Мы получаем комментарии типа «Почему вы не отвечаете на мой вопрос» или «Почему вы предоставляете результаты, которые включают биографии докладчиков».

Вторая проблема заключается в предоставлении релевантных результатов поисковикам, и в большинстве случаев это означает улучшение метаданных, записанных для каждого фрагмента контента.

Сенек сказал, что способ улучшить метаданные состоит в том, чтобы максимально автоматизировать выбор ключевых слов и тегов, а не полагаться на то, что журналисты это сделают вручную.

«У нас есть несколько различных контент-групп, каждая из которых имеет свои собственные стандарты для генерации метаданных на протяжении всего этого, многих лет, что означает изменение персонала и процессов», – сказал он.

«Эти люди заняты созданием контента, поэтому используют автоматизированные системы, чтобы помочь им иметь смысл.

«Наша команда находится рядом с конвейером разработки контента. Мы подбираем контент после того, как он был создан и опубликован, и переводим его в состояние поиска.

«Ясно, что если мы хотим предоставить релевантные результаты, нам нужна согласованность метаданных и охват максимально возможного количества атрибутов для всех объектов в нашем индексе.

«Если, по пути, мы сможем создать систему, которая говорит, что CMS может подключаться, чтобы предлагать метаданные для команд.

Подкасты с возможностью поиска

Но у ABC возникла отдельная проблема с поиском контента в виде подкастов.

«Они редко транскрибируются или переводятся в текст, и, следовательно», сказал Сенек.

Ответ, чтобы использовать некоторую форму речи в текст для транскрибирования контента подкаста.

Это обеспечит некоторые ключевые слова, чтобы сделать их доступными для поиска. Таким образом, стенограммы могут быть полезным сопровождением аудиофайлов, если они достаточно точны.

«Ответ – но, возможно, не решение – который очевиден: заставить машины делать это дешево», – сказал Сенек.

«Я подчеркиваю, дешево, потому что трудно получить большие суммы денег в одной организации.

Система Deep Speech от Baidu, рекламируемая как точный непатентованный инструмент преобразования речи в текст.

«Он также доступен на GitHub вместе с предварительно обученными моделями, поэтому он кажется разумной отправной точкой для наших экспериментов», – сказал он.

Однако один из недостатков модели заключается в том, какой «огромный объем памяти» требуется для выполнения операций.

Предварительно обученная модель борется с частями 30-секундного клипа из подкаста «Заднего видения» Национального радио.

«Создание слов для ожидаемых дат, но создание« хитрости »вместо« возможно »и« очага »вместо« земли », а также смешивание слов вместе указывают на более фундаментальные проблемы или проблемы, которые потребуют обучения наших собственные модели “, сказал Сенек.

«Это было бы поверх конвейера данных, который показывает и поддерживает отображения подкастов, которые работают до 90 минут плюс продолжительность.

«Таким образом, инженерия, необходимая для создания такой системы, очевидно, не тривиальна, и мы должны доказать нашу идею без вложений ресурсов».

Сенек изменил тактику и переключился на использование машины как услуги через AWS Transcribe.

«Короче говоря, мы обнаружили, что сервис очень эффективен для создания хороших стенограмм относительно дешево», – сказал он.

«Под этим подразумевается, что он достаточно хорош для метаданных, но недостаточно хорош для представления нашей аудитории – то, что вы могли бы считать очевидным следующим шагом.

«Существуют особые требования [к представлению аудитории] в контексте аудиоконтента, на которые Transcribe еще не способна, хотя я полностью верю в Amazon, чтобы со временем это выяснить».

Сенек нашел AWS Transcribe.

«Мы все еще получаем даты в виде слов, но в целом расшифровка выглядит намного лучше. Имена людей близки, пара верна, а пара нет», – сказал Сенек.

«Мы видим, что название программы неправильно записано, но AWS Transcribe предлагает функции для решения подобных проблем, включая пользовательские словари и идентификацию докладчиков.

«Мы хотим изучить возможности их использования в будущем».

Поощрение ранних результатов

Небольшая команда Seneque теперь имеет автоматизированную платформу метаданных из компонентов AWS.

Это используется для извлечения метаданных из контента и подачи в новую поисковую систему. Он также включает в себя процесс без сервера, который собирает подкасты, отправляет их на транскрипцию, копает в поиск и помещает в поисковый индекс.

«Что касается самых популярных статей на новостном веб-сайте, то мы видим, что среднее увеличение количества ключевых слов, прикрепленных к соответствующему поисковому объекту, составило 280 процентов», – сказал он.

«Таким образом, мы видим увеличение числа результатов на 22%».

«Это довольно нечеткая метрика. Но если вы ищете приложение в нашем приложении, в котором 91 процент нашей аудитории подкастов, у нас будет больше информации о достоверных данных».