Бизнес-ценность синтетических медиа-инструментов

Бизнес-ценность синтетических медиа-инструментов

Источник · Перевод автора

Roadrunner, документальный фильм об Энтони Бурдене, содержит сцену, в которой эпикюр произносит слова из писем, которые он написал художнику Дэвиду Чоу. Само по себе это не было бы необычным – если бы не тот факт, что Бурден никогда не читал письма. Скорее, клипы были созданы компанией, которую режиссер Морган Невилл нанял для моделирования голоса Бурдена.

Синтетические медиа, или подобия и голоса, генерируемые ИИ, почти пересекли жуткую долину. Ранее в этом месяце британская фирма Sonantic, которая клонирует голоса для актеров и студий, выпустила запись голоса, созданного искусственным интеллектом, по образцу актера Вэла Килмера. Подражание естественному голосу Килмера, который он потерял после операции по поводу рака горла в 2015 году, точно отражает интонацию актера.

Рост синтетических медиа вызвал опасения по поводу дипфейков или созданных искусственным интеллектом медиа, используемых для мошенничества и другой преступной деятельности. Множество этических вопросов – голос в Roadrunner был создан без разрешения Бурдена. Но при ответственном использовании синтетические медиа могут сократить расходы, позволяя актерам сосредоточиться на более интересной работе.

Синтетические медиа

Для создания синтетических голосов и видео компании используют комбинацию методов искусственного интеллекта и машинного обучения, включая генеративные состязательные сети (GAN). GAN – это модели машинного обучения, состоящие из двух частей, состоящие из генератора, который создает образцы, и дискриминатора, который пытается отличить эти образцы от реальных образцов. Самые эффективные сети GAN могут создавать реалистичные портреты несуществующих людей или даже снимки вымышленных многоквартирных домов.

ИИ может имитировать просодию человека всего за несколько секунд или минут. Последняя служба Baidu Deep Voice может клонировать голос с помощью всего 3,7 секунд аудио-образцов, а WellSaid Labs, запущенная в качестве исследовательского проекта в Институте искусственного интеллекта Аллена, может создать 10-секундный аудиофайл из примерно 4 секунд речи.

По мере того, как исследования и разработки совершенствуют технологию и становятся более масштабируемыми, синтез медиа превращается из новинки в расширяющийся рынок. Такие компании, как Amazon, Microsoft, Papercup, Deepdub и Synthesia, создали такие проекты, как рекламные кампании с использованием искусственного интеллекта Snoop Dogg и голоса Дэвида Бекхэма, переведенного почти на дюжину языков. Они также установили партнерские отношения с новостными организациями, включая Sky News, Discovery и Reuters, чтобы разработать прототипы для автоматизированных новостей и спортивных репортажей.

Платформы синтетических носителей предоставляют различные возможности в зависимости от их направленности. Например, Synthesia позволяет клиентам выбирать из ряда «голосовых аватаров» и создавать озвучку прямо из сценария с одним или несколькими голосами в зависимости от стиля, пола и типа постановки. С другой стороны, Amazon объединяет клиентов со своими инженерами для создания сгенерированных искусственным интеллектом голосов, представляющих определенные личности.

Такие стартапы, как Alethea AI, Genies и Possible Reality, попадают в отдельную категорию генерации синтетических медиа. Используя всего несколько изображений, их инструменты могут создавать высокоточные, выразительные и фотореалистичные аватары. Possible Reality использует свою технологию для превращения изображений людей в 3D-аватары в видеоиграх и виртуальных мирах. А Genies создает мультяшные 2D-аватары знаменитостей для социальных сетей.

Проблемы и возможности

Поскольку ограничения пандемии делают обычную съемку сложной и рискованной, преимущества видео, созданного с помощью искусственного интеллекта, возросли. Согласно Dogtown Media, образовательная кампания на предприятии при нормальных обстоятельствах может потребовать до 20 различных сценариев для работы с сотрудниками по всему миру, при этом каждое видео стоит десятки тысяч долларов. Синтетические носители могут сократить расходы до единовременной суммы около 100 000 долларов.

Голосам брендов, таким как Flo из Progressive, которую играет комик Стефани Кортни, часто поручают записывать телефонные деревья для интерактивных систем голосового ответа или создавать сценарии электронного обучения для корпоративных обучающих видео. Синтез может повысить продуктивность актеров за счет сокращения дополнительных записей и съемок – сессий записи для устранения ошибок, изменений или дополнений в сценариях озвучивания – при этом освобождая их для творческой работы и позволяя им собирать остатки.

Более того, синтетические медиа-платформы дают создателям, разработчикам продуктов и брендам возможность использовать широкий спектр стилей голоса, акцентов и языков. Генеральный директор Зохайб Ахмед предполагает, что разработчики игр будут создавать голоса актеров во время подготовки для скретчинга и повторения, а также голоса, адаптированные к характеру персонажа, и звуковые эффекты для голосовых помощников и приложений.

Есть еще аспект перевода. Поскольку качественное дублирование является непомерно дорогим – оценка 90-минутной программы варьируется от 30 000 до 100 000 долларов, – большинство видео в мире записано на одном языке. (В первую неделю 2019 года 33% популярных видео на YouTube были на английском языке.) Statista обнаружила, что 59% взрослого населения США заявили, что предпочли бы смотреть фильмы на иностранном языке, дублированные на английский, чем смотреть оригинальную функцию с субтитрами, что подчеркивает спрос. для технологий перевода синтетических медиа.

Минусы

Эксперты выразили обеспокоенность тем, что синтетические медиа-инструменты могут быть использованы для создания дипфейков – опасаются, что эти фейки могут быть использованы для таких вещей, как влияние на общественное мнение во время выборов или вовлечение человека в преступление. Уже сейчас дипфейки используются для создания порнографических материалов об актерах и для обмана крупного производителя энергии.

Борьба с дипфейками, вероятно, останется сложной задачей, особенно по мере того, как методы создания медиа продолжают совершенствоваться. Ранее в этом году Deepfake кадры Тома Круза, размещенные на непроверенной учетной записи TikTok, собрали 11 миллионов просмотров в приложении и еще миллионы на других платформах. По словам Vice, при сканировании с помощью нескольких лучших общедоступных инструментов обнаружения дипфейков они избежали обнаружения.

Некоторые компании приняли меры для предотвращения неправомерного использования своих платформ. Например, Synthesia заявляет, что проверяет своих клиентов и их сценарии и требует формального согласия от человека, прежде чем синтезирует их внешний вид, и компания отказывается касаться политического контента. WellSaid также не создает голосовых аватаров без разрешения актеров и подписывается на «Клятву Гиппократа для ИИ», предложенную руководителями Microsoft Брэдом Смитом и Гарри Шамом. Что касается Resemble, она выпустила инструмент с открытым исходным кодом, который обнаруживает дипфейки, выводя высокоуровневые представления голосовых образцов и предсказывая, настоящие они или сгенерированные.

Такие основатели, как Ахмед, считают, что плюсы перевешивают потенциальные минусы. Как он сказал VentureBeat в недавнем интервью: «Мы решили создать продукт, который поможет творческим людям преодолеть препятствия, связанные с созданием аудиоконтента. Год за годом создается все больше аудиоконтента – умные колонки… AirPods, подкасты, аудиокниги и цифровые персонажи в виртуальной и дополненной реальности – существует большая и растущая потребность в быстром и точном клонировании голоса».