ОБЗОР СОВРЕМЕННЫХ ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ РЕЧИ

21 мая 11:16

Система распознавания речи становятся все популярнее с каждым днём, а особенно в приложениях, где разговорный диалог становится средством управления и обмена информацией с техническими средствами. Уже сейчас мы знаем о таких системах, как «умная розетка» и система «умный дом». 

Система распознавания речи представляет алгоритм последовательности: источник произносит речь —  система реагирует либо выполняет команду,  а может и набирает диктуемый текст. Возможности современных технологий помогли создать программы с функцией распознавания речи. Среди таких программ можно отметить Microsoft Voice Command, Siri, голосовой переводчик Google Translate, Алиса. Приложения распознают фразы, выполняют команды, могут переводить их на другие языки.

Системы с функцией распознавания речи существенно упрощают взаимодействие человека и машины

Аппаратная реализация систем распознавания речи.

Хочу предложить возможность управления функциями автомобиля с помощью голосового управления. 

http://meridian-journal.ru/uploads/2020/02/3665-2.PNG
Рисунок 1. Структура системы

Где: 1 — электронный блок управления автомобилем, 2 — микросхемы МСР 2515 и МСР2551, 3 — вычислительный блок, 4 — микрофон, 5 — двухстрочный дисплей.

Для взаимодействия с CAN будем использовать 2 микросхемы MCP2515 и MCP2551. К разъему подключаются 2 провода CAN-High и CAN-Low. Необходимо убедится что Raspbian  имеет поддержку CAN для работы с CAN шиной, потребуется установить пакет утилит can-utils , после этого загрузить модули и  can интерфейс. Перед подключением к CAN шине авто, необходимо изучить документацию по can шине вашего автомобиля. Во многих автомобилях используется две can шины. Получив доступ к требуемой вами шине можно управлять ее функциями.  После изучения протокола CAN шины, мы сможем получить доступ к прослушиванию, мне нужно расшифровать кто кому и что передает. Для передачи голосовой команды нам потребуется звуковая карта, к которой мы подключим микрофон и динамик через усилитель. В качестве экрана можно подключить LED дисплей. Что бы Raspberry Pi работал нам необходимо на microSD карту установить операционную систему и далее мы установим все компоненты необходимые для голосового ассистента. Питание для электроприборов можно взять от блока предохранителей.

Принцип работы Raspberry Pi : говорите в микрофон необходимые, заранее описанные в словаре слова, Raspberry распознает предложение, после чего происходит интерпретация в соответствующую команду. Как вариант, включается заданная вами операция. Данный процесс не требует подключения к интернету и весьма быстр (на небольшом словаре — менее секунды на распознание). Для осуществления нашей затеи понадобится Raspberry pi, USB-микрофон и, желательнo, какой-нибудь диод или реле.

Кратко, что и как работает:

  1. Установим движок PocketSphinx.
  2. Использовать акустическую модель (hmm) и статическую модель (lm).  Будет свой словарь произносимых слов (dict)
  3. Создадим разрешенную последовательность слов в произносимых фразах (jsgf).

Заключение

В заключении статьи, рекомендую подумать о использовании систем распознавания речи в приложениях которые позволяют сделать вывод о необходимости поиска потенциально новых решений в распознавании речи. Проще стало использовать простые и быстрые алгоритмы. Таким образом, получение эффективной системы голосового управления является важной задачей, которая требует создание методов, позволяющих получать высокую достоверность распознавания речевых команд. Интеллектуальные речевые системы, позволяющие автоматически синтезировать и распознавать речевой сигнал, являются следующей ступенью развития интерактивных голосовых систем.

Список литературы:

  1. Куц А.В., Пискаев К.Ю., Юрманов В.А. Реализация весового интегрирования в высокоточных интегрирующих АЦП // Вопросы радиоэлектроники. 2010. Т. 3. № 5. С. 157-165.
  2. Пискаев К.Ю. Анализ проблемы повышения точности интегрирующих аналого-цифровых преобразователей // Вестник Самарского государственного технического университета. Серия: Технические науки. 2013. № 1 (37). С. 227-231.
  3. Щербань А.Б., Братцев К.Е., Жашкова Т.В., Михеев М.Ю. Обобщенные структурные модели информационных объектов // Известия высших учебных заведений. Поволжский регион. Технические науки. 2009. № 1. С. 12-22.
  4. Мещерякова Е.Н. Концепция построения подсистемы идентификации и структурирования информации сигналов с датчиков на поверхностно-акустических волнах в виде информационных объектов // XXI век: итоги прошлого и проблемы настоящего плюс. 2015. № 4 (26). С. 217-222.
  5. Жашкова Т.В. Процедура идентификационно-структурного синтеза моделей для анализа критических состояний сложных систем // Современные проблемы науки и образования. 2013. № 6. С. 55.