МЕТОДЫ ОЦЕНИВАНИЯ КАЧЕСТВА ПЕРЕДАВАЕМОЙ РЕЧЕВОЙ ИНФОРМАЦИИ. ОБЪЕКТИВНЫЕ ИНТРУЗИВНЫЕ МЕТОДЫ

METHODS FOR ASSESSING THE QUALITY OF TRANSMITTED SPEECH INFORMATION. OBJECTIVE UNTRUSIVE METHODS

Разборчивость речи – это относительное количество правильно принятых элементов (слогов, слов, фраз) артикуляционных таблиц. Все методы и методики оценивания качества передачи и обработки речи можно разделить на две группы: субъективные и объективные.

Субъективные методы заключаются в измерении разборчивости речи артикуляционными бригадами. Для субъективных методов характерно то, что составной частью измерительной системы является слуховой и речевой аппараты человека. Отсюда следует, что у данных методов есть ряд своих недостатков. К таким можно отнести то, что к артикуляционной бригаде предъявляются достаточно высокие требования: речь дикторов не должна иметь селективных признаков (картавость, плаксивость, гнусавость и др.); отсутствие у аудиторов дефектов слуха; возраст участвующих в артикуляционных измерениях от 18 до 30 лет; в составе бригады должно быть не менее 3 дикторов, а точнее не менее двух мужчин и одной женщины и 3 аудиторов. Продолжительность артикуляционных измерений может занимать достаточно большой промежуток времени и составлять несколько недель при работе бригады не более 4 часов в  сутки. Громоздкость процедуры измерений заключающейся в передаче по испытуемому тракту серии артикуляционных таблиц и само составление таблиц.

Объективные методы являются альтернативой, которая не требует непосредственного участия в ходе измерений артикуляционных бригад. Объективные методы основаны на специальных алгоритмах автоматизированной оценки качества принимаемой речи. К объективным методам относятся моделируемые, неинтрузивные и интрузивные.

Моделируемые методы, базирующиеся на E-модели, разработанные для проектирования сетей и систем связи, успешно применяются при мониторинге качества передачи речи. Фундаментальный принцип, который лежит в основе Е-модели, гласит: «Психологические факторы на психологической шкале являются аддитивными». То есть, Е-модель учитывает все факторы, влияющие на качество речевого обмена в телефонных сетях, основными из которых являются уровень речевого сигнала, амплитудно-частотные искажения, задержка передачи, задержка и ослабление эхо-сигнала, уровень шума, нелинейные искажения, а в случае IP-телефонии – пропадание пакетов и непостоянство задержки передачи. Е-модель имеет два вида: версия для оценки пропускной способности сети на участке «конечный пользователь – конечный пользователь» и версия для сетевого планирования. Использование Е-модели при планировании сетей мобильной связи дает возможность прогнозировать качество предоставляемых услуг речевого связи. Однако, если в тракте имеется несколько низкоскоростных кодеков, то прогнозирование качества речи не является возможным. В реально существующих трактах нельзя исключать потенциал включения нескольких участков с низкоскоростными кодеками и в таком случае результирующее качество речи становится непредсказуемым.

Неинтрузивные решения построены на оценках качества живой речи в реальном времени только на принимающей стороне. Для неинтрузивных методов созданы и рекомендованы методы  PSQM (Perceptual Speech Quality Measurement) рекомендация ITU – TP.563 и Е-модель, рекомендация ITU – T G.107. PSQM разработана для контроля качества телефонных сигналов реального времени, не затрагивая эталонный сигнал, также он не воспроизводит причины изменения качества сигнала. Е-модель – вычислительная модель, которая применяется на этапе планирования передачи и устанавливает коэффициент рейтинга передачи R – качество телефонного соединения.  

Интрузивные решения, также относящиеся к объективным, основаны на передаче по каналу связи специального образца речи, после чего производится сравнение принятого и исходного образцов речи с помощью определенного математического алгоритма. Данные методы содержат в себе такие этапы, как: выравнивание по мощности и усиление до уровня 79 дБ входного и выходного речевых сигналов, равного звуковому давлению в точке; фильтрацию входного сигнала, соответствующую стандартной АЧХ; выравнивание по времени относительно друг друга входного и выходного сигналов, для устранения переменной задержки при передаче сигналов. Каждый фрагмент выделенной речи отдельно выравнивается по времени. Среднее значение временных отклонений показывается вместе с их дисперсией и среднеквадратическим отклонением. Далее производится расчет показателя и вывод оценки качества передаваемой речевой информации. Интрузивные методы явно опережают неинтрузивные касательно точности оценки и обеспечивают результаты, наиболее коррелирующие с результатами субъективных оценок в связи с чем им и уделено основное внимание. К интрузивным методам оценки качества речевых сигналов относятся PESQ (Perceptual evaluation of speech quality) и POLQA (Perceptual objective listening quality assessment). Интрузивные методы обладают высокой точностью и корреляцией с результатами субъективных методов. Их главный минус – рост трафика (в два и более раз) в сети связи, что может провоцировать ухудшение качества речевого сигнала.

Метод PESQ представляет собой объективный алгоритм определения качества речевого сигнала в телефонных системах, который прогнозирует результаты субъективный результаты субъективной оценки качества этого вида связи слушателями-экспертами. Для определения качества передачи речи в PESQ предусмотрено сравнение исходного или эталонного сигнала с его искаженной версией. Результатом сравнения входного и выходного сигналов является оценка качества связи, которая аналогична усредненной субъективной оценке MOS (Mean Opinion Score), определяемой группой слушателей-экспертов согласно спецификации МСЭ-Т Р.800. Оценки PESQ калибруются с использованием огромной базы данных оценок MOS. В PESQ заложено множество новых разработок, что выгодно отличает его от предыдущих алгоритмов оценки качества передачи речевого сигнала. Это позволяет использовать PESQ как для определения качества сквозной (end – to – end) передачи речи, так и для оценки влияния на качество связи отдельных элементов сетевого оборудования, включая кодеки. В алгоритме PESQ учитываются следующие причины ухудшения качества сигнала: искажение его при кодировании, ошибки при передаче, потеря пакетов, время задержки передачи пакетов и флуктуация этого времени, фильтрация сигнала в аналоговых сетевых компонентах. В PESQ не учитывается влияние на качество связи изменений уровня сигнала в сети, наличия эхо-сигнала и круговой задержки (round-trip delay).

Метод POLQA является продолжением метода PESQ. Данный алгоритм устраняет такие недостатки как: неправильная оценка воздействия линейной частотной реакции искажения, растяжения времени или же его сжатия, как это имеется в Voice over IP, а также определенные типы искажений. Помимо этого, POLQA позволяет оценить влияние уровня воспроизведения и может работать с супер-широкой речью (14 кГц аудио пропускной способности). Алгоритм POLQA был принят в январе 2011 года комитетом ITU-T как рекомендация Р.863. Используемый, в алгоритме POLQA, метод является альтернативой методу PESQ. Он дает возможность оценивать качество при передаче речевого сигнала по сетям как старого, так и нового поколения.

Разработка POLQA потребовала больших объемов надежных субъективных данных для узких, широких и супер-широких сигналов речевой полосы. Для того, чтобы возможность высоко оценивать качество голосовых систем, справочные записи, которые используются как субъективных, так и в объективных тестах, должны быть самого высокого качества. Этот справочный материал должен быть записан в комнате с хорошей реверберацией. Записи должны быть сделаны с использованием всенаправленного микрофона, расстояние от которого до рта говорящего должно быть порядка 10 сантиметров. Каждый справочный речевой файл состоит из двух предложений на разрыв, по крайней мере одной секундой, но не более двух. Минимальной количество активной речи в каждом файле составляет 3 секунды, а первая речевая активность начинается от 0,5 до 2 секунд. Последняя речевая активность заканчивается между 0,5 и 2,5 секундами до конца речевого файла.

Как правило, большинство субъективных тестов использовали узкую полосу речи (максимальная пропускная способность звука 100-3500 Гц) в качестве наилучшего качества, что приводило к завышению требований качества деградированной речи. При широкополосных испытаниях лучшее качество речи имеет пропускную способность звука 50-70000 Гц, в то время как в супер-широкополосных тестах это распространяется на 50-14000 Гц. Следует уточнить, что, как правило, рейтинг мнений экспертов, используемый в субъективных тестах, адаптирован к максимальному качеству. Это приводит к эффекту того, что высококачественный узкополосный речевой файл в узкополосном тесте получит более высокий балл MOS по сравнению с тем, когда этот файл представлен в супер-широкополосном эксперименте.

Основной подход POLQA такой же, как и используемый в PESQ, т.е. справочный ввод и выход речевого сигнала отображаются как представление модели человеческого восприятия. Разница между двумя внутренними представлениями используется моделью для предсказания восприятия качества речевого деградированного сигнала. Важная новая идея, реализованная в POLQA, это идеализация подхода, который удаляет низкий уровень шума во входном сигнале и оптимизирует тембр речи.

Однако, помимо положительных моментов, имеются и отрицательные. В дополнении к рекомендации ITU-T P.863 (от 21 января 2016 года) недостаток метода POLQA описывается следующим образом: «Плохое состояние канала, новые технологии, такие как пакетная телефония, настройка джиттер-буфера и детектор речевой активности способны помещать паузы в активную речь посредством увеличения очень коротких естественных речевых замираний (микро-пауз) длиной от десятков до нескольких сотен миллисекунд. Рекомендация ITU-T P.863 считает недостаточным качество этих условий, поскольку увеличенные микро-паузы воспринимаются как пробелы в процессе активной речи. Данные условия не вошли в материалы Рекомендации ITU-T P.863». В связи с тем, что все виды артикуляции связаны между собой, то не имеет существенной разницы какой из них использовать для оценки правильности восприятия речи. Но нужно помнить, что именно фразы несут законченную мысль, поэтому, соответственно, только они должны анализироваться как конечный результат систем телефонной связи.

Другой перспективный алгоритм оценки качества речи на основе модели восприятия – ViSQOL (Virtual Speech Quality Objective Listener). Он представляет собой перспективное направление в развитии интрузивных психоакустических методов оценивания качества передачи речи – результат компьютерной модели среднего и внутреннего человеческого уха.

Алгоритм ViSQOL отличен тем от своих предыдущих аналогов (PESQ и POLQA), которые позволяют получить количественную оценку ухудшения сигнала, что концентрируется на подобии эталонного и искаженного сигналов за счет метрики расстояния, называемой индексом схожести нейрограмм (NSIM – Neurogramm Similarity Index Measure).

Список используемых источников

  1. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. – Москва: Изд-во стандартов, 1995;
  2. Колготин П.В. Оценка параметров каналов и развитие измерительных технологий в сетях связи специального назначения // Молодой ученый. 2011 №10. Т.1;
  3. Хромой Б.П, Аджемов А.С. Оценка качества передачи речи в сотовой связи // Сборник «Мобильный бизнес: перспективы развития и реализации систем радиосвязи в России и за рубежом» XXXIV международная конференция РАЕН. – 2013;
  4. ITU-T. Рекомендация Р.862. Perceptual evaluation of speech quality. An objective method for end – to – end speech quality assessment of narrow-band telephone networks and speech codecs, 2001.
  5. ITU-T. Рекомендация Р.563. Single-ended method for objective speech quality assessment in narrow-band telephony applications, 2004.
  6. ITU-T. Рекомендация107: The E-model: a computational model for use in transmission planning, 2011.
  7. Григорьев И.А. Экспериментальная оценка влияния шумоочистки на разборчивость речи // Вестник Воронежского государственного технического университета. – 2010, №5;
  8. Меркулов А.Г. Оценка качества передачи речи VOIP через цифровые высокочастотные каналы связи // Перспективы науки – 2014. - №1(52);
  9. Рекомендация МСЭ-Т Р.800.

 

 

List of sources used 

  1. GOST R 50840-95. Peredacha rechi po traktam svjazi. Metody ocenki kachestva, razborchivosti i uznavaemosti. – Moskva: Izd-vo standartov, 1995;
  2. Kolgotin P.V. Ocenka parametrov kanalov i razvitie izmeritel'nyh tehnologij v setjah svjazi special'nogo naznachenija // Molodoj uchenyj. 2011 №10. T.1;
  3. Hromoj B.P, Adzhemov A.S. Ocenka kachestva peredachi rechi v sotovoj svjazi // Sbornik «Mobil'nyj biznes: perspektivy razvitija i realizacii sistem radiosvjazi v Rossii i za rubezhom» XXXIV mezhdunarodnaja konferencija RAEN. – 2013;
  4. ITU-T. Rekomendacija R.862. Perceptual evaluation of speech quality. An objective method for end – to – end speech quality assessment of narrow-band telephone networks and speech codecs, 2001.
  5. ITU-T. Rekomendacija R.563. Single-ended method for objective speech quality assessment in narrow-band telephony applications, 2004.
  6. ITU-T. Rekomendacija G.107: The E-model: a computational model for use in transmission planning, 2011.
  7. Grigor'ev I.A. Jeksperimental'naja ocenka vlijanija shumoochistki na razborchivost' rechi // Vestnik Voronezhskogo gosudarstvennogo tehnicheskogo universiteta. – 2010, №5;
  8. Merkulov A.G. Ocenka kachestva peredachi rechi VOIP cherez cifrovye vysokochastotnye kanaly svjazi // Perspektivy nauki – 2014. - №1(52);
  9. Rekomendacija MSJe-T R.800.