Дмитрий Оноприенко

ИИ может сосредоточиться на одном голосе в толпе

Используя как визуальные, так и звуковые сигналы, новая программа может выделить из шума один голос и сосредоточиться на нем, подавляя звуковые загрязнители.

© Geometria.ru
© Geometria.ru

Новый ИИ может успешно отфильтровать разговоры и другой шум на видео, чтобы изолировать речь одного человека. Эта способность подобна тому, как люди слушают друг друга на шумной вечеринке.


До сих пор программы для прослушивания конкретных звуковых дорожек лишь пытались имитировать выборочное восприятие, которым обладает человек, но теперь все изменилось — такую же способность получил искусственный интеллект.

Полученный ИИ успешно использует как акустические, так и визуальные сигналы, такие как движение губ, для разделения звуков, издаваемых различными источниками на видео.

Для тестирования своего нового изобретения исследователи из Google использовали видеозаписи общения с коктейльной вечеринки. В видео два или три человека общалось между собой на фоне всеобщего шума.

Наблюдая за участниками видео и прослушивая их, ИИ смог точнее отличить, какие из звуков издавались каждым из источников, чем алгоритм, которому была предоставлена только аудиозапись.

Область применения ИИ — более точная расшифровка видеозаписей, чем существующие системы транскрипции.

Кроме того, программа сможет отфильтровывать фоновый шум от речи, что поможет говорящим лучше слышать друг друга во время видеообщения и конференций. Об этом заявил Шмуэль Пелег, ученый-компьютерщик в Еврейском университете в Иерусалиме.

Такой алгоритм также может найти применение в голосовых помощниках, способствуя еще более четкому распознаванию команд, добавляет Джен-Чэн Хоу, инженер Научно-исследовательского центра инноваций в области информационных технологий Академии Синика, Тайвань.

По материалам Science News