«Речь в текст» — в России создана система автоматического преобразования голоса в читаемый текст

«Речь в текст» - в России создана система автоматического преобразования голоса в читаемый текст

Всего три года назад компании DSS Lab и InfoQubes объединились в консорциуме 3i Technologies (3i — Information. Integration. Intelligence) для концентрации усилий в разработке инновационных компьютерных систем для обработки и анализа текстовой, аудио- и видеоинформации. В прошлом году в это научно-производственное объединение вошла еще одна российская компания — PROMT, известная выпускаемыми ею системами компьютерного перевода для английского, немецкого, французского, испанского, итальянского, португальского и русского языков.

И вот в конце лета консорциум выдал свою первую продукцию — облачный сервис 3i Speech Recognition, обеспечивающий «трансформацию» человеческой речи в тексты на экране компьютера. В текстах могут присутствовать не более 10% ошибок, которые в системе 3i Speech Recognition редактируются оператором на компьютере вслед за появлением фраз на его экране.

Кроме редакторского интерфейса в 3i Speech Recognition имеются личный кабинет пользователя, а также хранилище голосовых аудиозаписей и соответствующих им текстов. Сервис способен быстро преобразовать в читаемый текст аудиозаписи теле- и радиопрограмм, видеороликов, разговоров операторов контакт-центров с клиентами и т. д. Для этого пользователь сервиса может загрузить в облачное хранилище планируемую для преобразования аудиозапись (длительностью до 18 часов), а затем дать команду на ее «трансформацию» в текст, который будет получен в интервал времени, намного более короткий, чем время звучания исходной аудиозаписи. 3i Speech Recognition создает структурированный текст по всем правилам орфографии и пунктуации. А при одновременном прослушивании речи и просмотре соответствующего текста сервис выделяет на экране произносимые фразы.

В системе «трансформации» голоса в текст применены разработанные специалистами консорциума языковые и акустические модели, в которые включены технологии машинного обучения и нейронных сетей. При этом для повышения точности распознавания речи предусмотрена их быстрая адаптация к терминологиям, применяемым в узких областях знаний, например, для специализированных телепрограмм (спортивных, финансово-экономических, научно-популярных), которые прозвучали на русском, английском, китайском, немецком или испанском языках. При необходимости получаемые тексты могут быть переведены с языка оригинала на любой из указанных языков с помощью технологии компьютерного перевода.

Сервис, безусловно, станет очень полезным профессиональным инструментом для служб контроля качества обслуживания клиентов в контакт-центрах, для сотрудников предприятий телерадиовещания, обязанностью которых является расшифровка эфиров (своих, партнеров и конкурентов), для журналистов печатных и интернет-изданий, затрачивающих дорогостоящие часы рабочего времени на преобразование записей интервью на диктофонах в тексты, а также для множества компаний и организаций, в которых производство продукции базируется на использовании речевой информации.

См. также:

Добавить комментарий