Олика Янат
Абориген Hype.ru. Вдохновляюсь роком, футболом и творческими людьми.

Как ИИ может использовать наши голоса против нас

© The Conversation
© The Conversation

Гаджеты, управляемые голосом, такие как Alexa, Google Home или Homepod от Apple, становятся все более популярными, но люди должны задуматься о достижениях в машинном обучении, которые могут привести к тому, что приложения будут понимать разные эмоции в речи.

Генеральный директор Google, Сундар Пичаи, недавно сказал, что 20% запросов компании инициируются через смартфоны с помощью голоса. И в конце 2017 года анализ американского рынка показал, что было продано в общей сложности 44 миллиона устройств Amazon Alexa и Google Home.

Технология обладает все более впечатляющими способностями распознавать слова, но профессор акустической инженерии из Университета Салфорда Тревор Кокс уверяет, что устное общение намного сложнее. То, КАК человек говорит, может быть столь же важным, как и сами слова. Когда кто-то говорит: «Я в порядке», тон голоса может сказать вам, что настроение и состояние человека противоположно тому, что он утверждают.

Профессор акустической инженерии из Университета Салфорда Тревор Кокс © sounDesign
Профессор акустической инженерии из Университета Салфорда Тревор Кокс © sounDesign

Гаджеты, управляемые голосом, также известные как умные динамики или виртуальные помощники, могут разочаровывать, потому что они обращают внимание только на слова и игнорируют эмоциональную окраску речи. Технологические гиганты надеются, что следующий рубеж для устройств, таких как Amazon Echo, будет определять, как человек чувствует себя по его голосу, чтобы сделать взаимодействие более естественным.

Человеческий голос может давать информацию о том, кто этот человек, откуда он и как себя чувствует. Когда незнакомец говорит, люди немедленно считывают акцент и интонацию (даже подсознательно) и делают предположения о его происхождении и образовании, к примеру.

Если гаджеты голосового управления получат такую информацию, речевые интерфейсы могут быть улучшены. Но стоит опасаться непреднамеренных последствий. Технология опирается на машинное обучение — отрасль искусственного интеллекта, которая объединяет алгоритмы и статистику, полученные машиной и переданные в виде данных, и поэтому ее поведение не вполне предсказуемо.

Будущее умное или немое?

Исследования показывают, что речевые примеры, используемые для машинного обучения, могут привести к предвзятости. Проблемы с технологией были очевидны в популярных инструментах, таких как Google Translate.

При использовании, например, для перевода турецких фраз «o bir doktor» и «o bir hemşire» на английский язык служба Google выдает результаты «он врач» и «она медсестра». Но «о» — это местоимение третьего лица на турецком языке, нейтральное по признаку пола. Предположение, что врач — мужчина и медсестра — женщина, отражает культурные предрассудки и искаженное распределение пола в медицинской профессии.

Google Translate взял человеческие культурные предрассудки, которые были в данных, алгоритмы изучили их, и конечным результатом стала система сексистского перевода.

Нелегко решать такие проблемы, потому что машинное обучение перекликается с человеческими стереотипами. Когда люди слушают голоса, они упрощают варианты того, как реагировать на кого-то, используя эмпирические правила.

Исследования показывают, что, когда люди слышат, как женщина заканчивает большинство своих предложений с восходящей интонацией, типичное предположение состоит в том, что она молода. Если мужчина говорит низким голосом, все предполагают, что он большой и сильный. Такие упрощенные предположения о речи могут привести к предвзятым суждениям.

Подозреваемые по уголовным делам с акцентом, по результатам одного исследования, были оценены, как скорее всего виновные, по сравнению с лицами без акцента. Исследования также показали, что слова людей, говорящих с акцентом, воспринимались, как более неправдивые.

Обработка эмоциональной окраски речи может быть действительно полезна для тех, кто использует устройства с голосовым управлением. Но вокальные сигналы людей варьируются от человека к человеку, а также различаются для разных языков и культур.

Исследование слухового «гейдара» — разговорный термин, используемый некоторыми, кто утверждает, что они могут интуитивно определить, является ли кто-то геем, лесбиянкой или бисексуалом, — хороший пример двусмысленных и даже фиктивных сигналов. Слушатели делают предположения, например, о том, как звучит голос гея (имеет более высокий тембр, по мнению большинства), но часто они ошибаются.

Индивидуальная, естественная неоднозначность голосовых сигналов, вероятно, приведет к ошибкам, если технологические компании не признают свои неудачи. Закоренелые предрассудки могут быть изучены приложениями, которые пытаются интерпретировать человеческие голоса, учитывая, что технология так сильно зависит от данных, которыми она наполнена.

Технологические компании, разрабатывающие устройства и услуги с голосовым управлением, должны прислушиваться к предупреждениям акустических экспертов, прежде чем применять машинное обучение для декодирования человеческого голоса. Это поможет избежать многих подводных камней в будущем.

По материалам The Conversation