Александр Навагин
Пастор секты свидетелей Xiaomi, любитель металла, футбола, рыбалки, истории. Почти инженер и историк по образованию, шут по призванию, чудак по жизни

Как перевести речь с видео или аудио в текст без микрофона

Как перевести речь в текст без микрофона © Александр Навагин
Как перевести речь в текст без микрофона © Александр Навагин

Бывают разные ситуации, когда нужно срочно перевести в текстовый формат звуковую дорожку видео или аудиозапись. Представьте, что вы записывали лекции на диктофон, а теперь из них нужно выделить самое ценное. Прослушивать многочасовые записи в условиях ограниченного времени – явно не вариант, в то время как пробежать глазами текст намного быстрее.

Или, допустим, вы – журналист, записавший интервью, которое нужно перевести из аудио в текст. Можно включить запись в фоновом режиме, параллельно набирая ее в текстовом редакторе, но есть одна проблема. Скорость речи составляет порядка 150 слов в минуту, и при средней длине слова в 7 знаков нужно набирать около 1000 знаков в минуту. Такой темп по силам только отдельным уникумам, тогда как обычные профессионалы набирают тексты в 2,5-4 раза медленнее.

Это всего лишь пара примеров, но на самом деле их гораздо больше. Выделение фрагментов из видео на непонятном вам языке с помощью машинного перевода, запись важной информации из познавательного ролика, анализ записи телефонного разговора на предмет нужных сведений и т.д. – во всех этих случаях перевести голос в текстовый вид можно с помощью систем распознания речи.

К счастью, в наше время существуют различные инструменты для распознания голоса, но они не лишены недостатков. К примеру, если работать приходится не в тишине – посторонние шумы мешают программе правильно «слушать». Бывает также, что нежелательны шумы с вашего рабочего места, так как они могут мешать другим. Также не у всех компьютер оборудован микрофоном, и тогда он вообще не способен регистрировать звуки.

Выход из всех упомянутых ситуаций есть, причем, перевести в текст голос с видео или аудиозаписи несложно. Для этого требуются сторонние инструменты, но обзавестись ими не составит труда.

Как перевести речь в текст с микрофоном

При наличии микрофона задача перевода голоса в текст решается просто. Все, что для этого нужно – компьютер, оборудованный микрофоном и колонками, а также программа распознания речи. На роль таковой вполне сгодится «Google Документы», где голосовой ввод представлен в качестве штатного инструмента. К сожалению, работает он только в браузере Chrome, но это не проблема.

Для перевода речи в текст зайдите в Chrome на сайт «Google Документы», создайте новый документ и в разделе меню «Инструменты» выберите опцию «Голосовой ввод». Также ее можно активировать сочетанием горячих клавиш Ctrl+Shift+S.

Перевести речь в текст можно в "Google Документы" © Александр Навагин
Перевести речь в текст можно в "Google Документы" © Александр Навагин

После активации голосового ввода на экране появится кнопка со значком микрофона. Нажав ее, вы активируете систему распознания. Также там можно выбрать язык, на котором будет произноситься вводимый текст. Запустите на компьютере аудиозапись или видео, установите достаточный уровень громкости на динамиках, чтобы программа могла распознавать слова.

Значок активации голосового ввода © Александр Навагин
Значок активации голосового ввода © Александр Навагин

Дальнейшее развитие событий не требует вмешательства, хотя можно следить за процессом и в моменты пауз между приложениями говорить команды «точка» для их разделения. Это не обязательно, вы можете оставить звук воспроизводиться, а сами заняться своими делами где-то в другом месте (чтобы не шуметь).

После того, как текст будет введен, все что остается – разметить его, расставив знаки препинания и большие буквы в начале предложений, именах собственных и т.д. Если текст нужен не полностью – можно найти необходимые фрагменты и отредактировать только их. Такой подход существенно экономит время и облегчает задачу.

Как перевести речь в текст без микрофона

Отсутствие микрофона усложняет задачу, но не делает ее нереальной. Если ПК не оборудован средствами звукозаписи, не способен одновременно воспроизводить и записывать аудио, или фиксация речи с динамиков невозможна физически (обстановка шумная или требует соблюдения тишины) – нужно подготовить кое-что, кроме компьютера.

Для перевода голоса в текст требуется все тот же инструмент голосового ввода (в нашем случае «Google Документы»), а также устройство, воспроизводящее видео или аудио. На роль такого устройства вполне подойдет смартфон, который сейчас есть почти у каждого, хотя также можно использовать планшет, диктофон, медиаплеер. Главное, чтобы у этого гаджета был разъем для подключения проводных наушников (желательно 3,5 мм, так как в ином случае понадобится еще и переходник).

Передача звука с воспроизводящего устройства (смартфон) на записывающее (компьютер) осуществляется по кабелю с разъемами 3,5 мм «папа» на обоих концах. Купить такой можно за пару долларов. Мне, например, подобный достался в комплекте с монитором, оборудованным динамиками. Также эти провода встречаются в комплекте с наушниками, которые умеют работать и по Bluetooth, и через кабель.

Кабель для вывода звука со смартфона на компьютер © Александр Навагин
Кабель для вывода звука со смартфона на компьютер © Александр Навагин

Перед началом работы соедините смартфон с гнездом звукового входа на компьютере через кабель. Для этого нужно использовать разъем линейного входа (обычно голубой) или (при отсутствии такового) микрофона (голубой) на компьютере. Многие современные компьютеры умеют менять назначение гнезд 3,5 мм, предлагая выбор. В таких случаях можно подключать провод в любой разъем, просто выбрав во всплывающем меню вариант «линейный вход» или «микрофон».

Выбор типа звукового входа © Александр Навагин
Выбор типа звукового входа © Александр Навагин

Внимание: перед воспроизведением (особенно если использован тип входа «микрофон») установите громкость смартфона на минимум! Слишком сильные токи на высокой громкости в таком режиме способны повредить звуковую карту! Именно поэтому использование линейного входа предпочтительно.

После соединения устройств для перевода речи в текст достаточно открыть «Google Документы», активировать голосовой ввод в браузере и запустить на смартфоне воспроизведение нужного вам трека.

Как и в первом случае, запись требует редактирования: расстановки знаков препинания, заглавных букв, разбиения на абзацы и т.д. Не всегда результат в тексте на 100% соответствует произнесенному, поэтому желательно использовать качественные записи, где слова говорящего хорошо разборчивы.

Ниже на скриншоте приведен пример фрагмента текста, распознанного из речи описанным выше способом, а также сам ролик, с которого велась запись.

Текст, переведенный из речи до редактирования © Александр Навагин
Текст, переведенный из речи до редактирования © Александр Навагин

Как можно обнаружить, результат распознания не идеален, но это скорее проблема недостаточного уровня развития технологий распознания речи, чем самого способа. Для перевода в читабельный вид текст еще нужно оформлять, исправить ошибки и т.д.

Однако даже в таком виде результат пригоден для выделения каких-то главных фрагментов. К примеру, при обработке телефонного разговора вы сразу увидите в тексте адреса, какие-то цифры, имена и т.д. Я не раз пользовался данным методом на практике. К примеру, вот этот перевод следующего англоязычного видео осуществлялся именно так, потому что письменную иностранную речь мне переводить гораздо легче, чем устную.

При использовании более совершенной программы для распознания речи результат может быть гораздо лучше. Однако в силу того, что я не тестировал подобный софт (а хорошие программы зачастую еще и платные, в отличие от Google) – порекомендовать наилучший вариант не могу.