Кодек Google SoundStream одновременно подавляет шум и сжимает звук

Кодек Google SoundStream одновременно подавляет шум и сжимает звук

Источник · Перевод автора

Сегодня Google подробно рассказал о SoundStream, сквозном «нейронном» аудиокодеке, который может обеспечить более высокое качество звука при кодировании различных типов звука, включая чистую речь, шумную и реверберирующую речь, музыку и звуки окружающей среды.

Компания утверждает, что это первый кодек на базе искусственного интеллекта, который работает с речью и музыкой и может одновременно работать в реальном времени на процессоре смартфона.

Аудиокодеки сжимают звук, чтобы уменьшить потребность в большом объеме памяти и пропускной способности. В идеале декодированный звук должен быть визуально неотличим от оригинала и иметь небольшую задержку.

В то время как большинство кодеков используют опыт в предметной области и тщательно спроектированные конвейеры обработки сигналов, существует интерес к замене созданных вручную спецификаций на ИИ, который может научиться кодировать на лету.

Ранее в этом году Google выпустил Lyra, нейронный аудиокодек, обученный сжатию речи с низким битрейтом. SoundStream расширяет эту работу с помощью системы, состоящей из кодировщика, декодера и квантователя. Кодер преобразует звук в кодированный сигнал, который сжимается с помощью квантователя и преобразуется обратно в звук с помощью декодера.

После обучения кодер и декодер могут работать на разных клиентах для передачи звука через Интернет, а декодер может работать с любой скоростью передачи данных.

Сжатие аудио

В традиционных конвейерах обработки звука сжатие и улучшение, то есть удаление фонового шума, обычно выполняются разными модулями. Но SoundStream предназначен для одновременного сжатия и улучшения. По заявлению Google, при скорости 3 кбит / с SoundStream превосходит популярный кодек Opus на скорости 12 кбит / с и приближается к качеству EVS на скорости 9,6 кбит / с, используя в 3,2–4 раза меньше битов. Более того, SoundStream работает лучше, чем текущая версия Lyra, по сравнению с тем же битрейтом.

Google предупреждает, что SoundStream все еще находится на экспериментальной стадии. Однако компания планирует выпустить обновленную версию Lyra, которая включает в себя ее компоненты для обеспечения как более высокого качества звука, так и «меньшей сложности».