6.5.1. Преобразование команд в изображения

Прежде всего нужно выбрать преобразование команд в изображение, подходящее для целей распознавания. Получаемое И (портрет) должно отражать индивидуальность команды. Кроме того, сравнение портретов должно быть возможным при наличии шумов, изменении громкости и темпа речи.

Подходящими для рассматриваемой цели являются автокорреляционные портреты, т. е. И, строки которых соответствуют выборочным НКФ

отрезков РС . В пользу такого выбора преобразования можно привести следующие аргументы.

1. НКФ инвариантна к равномерному изменению громкости незашумленного РС и незначительно изменяется при плавном изменении громкости.

2. Если сигнал имеет постоянную (на отрезке) дисперсию , а шум – белый с дисперсией , то наблюдения имеют НКФ

(6.22)

т. е. наличие белого шума приводит к пропорциональному изменению НКФ чистого сигнала при всех значениях k, кроме k = 0. Таким образом, получаемые при разных шумах портреты будут отличаться только постоянным множителем во всех столбцах, кроме первого. Этот первый столбец вообще следует исключить, так как он состоит из единиц () для любого РС. Тогда при разных громкостях портреты будут чисто пропорциональны.

3. Если шум коррелирован, но имеет значительно меньший интервал корреляции, чем сигнал , то соотношение (6.22) будет практически выполняться при значениях k, выходящих за интервал корреляции шума. Поэтому при таких шумах портреты будут практически пропорциональны, за исключением нескольких первых столбцов.

4. Изменение темпа речи приводит к простому растяжению или сжатию портрета, возможно, неравномерному, что не вызывает особых затруднений при идентификации изображений – нужно только учесть возможность их геометрических искажений.

5. НКФ инвариантна к постоянным аддитивным добавкам к сигналу и малочувствительна к медленно изменяющимся аддитивным добавкам. Это свойство делает портреты устойчивыми к нецентрированности сигнала.

6. Вычисление НКФ можно организовать рекуррентно по возрастающим значениям k. Поэтому формирование портрета требует вполне приемлемых вычислительных затрат.

7. И самое главное. Выборочная НКФ сигнала в значительной мере отражает его индивидуальность. Она почти столь же информативна, как и спектр сигнала – по точной НКФ стационарного сигнала его спектр определяется однозначно. Имеется ряд работ, в которых НКФ использовалась для распознавания отдельных фонем.

Итак, будем для распознавания использовать выборочные автокорреляционные портреты команд. А именно, пусть – цифровые отсчеты слова. Его портретом является И , i-я строка которого есть

(6.23)

где – выборочная НКФ последовательности т. е. выборочный коэффициент корреляции между и :

, (6.24)

где

(6.25)

– выборочные средние и

(6.26)

выборочные дисперсии.

На рис. 6.6 показаны примеры портретов разных слов при различной зашумленности исходных слов. На рис. 6.6,а – незашумленное слово «координаты»; на рис. 6.6,б – слово «координаты» на фоне белого шума с отноше-

а б

в г

д е

ж з

Рис. 6.6.

нием шум/сигнал ; на рис. 6.6,в – слово «координаты» при q=2; на рис. 6.6,г – слово «координаты» на фоне имитации шума авиационного двигателя; на рис. 6.6,д-з – то же самое для слова «выпустить». Можно констатировать индивидуальность портретов различных слов и устойчивость портретов к искажению слов шумами.

На рис. 6.7 показаны портреты слова «восемнадцать», произнесенного одним и тем же диктором в разное время, при этом темп, громкость и некоторые другие особенности произношения раз от разу менялись. Поэтому портреты имеют различия – разное количество строк и геометрические искажения. Однако заметно и существенное сходство.

Рис. 6.7.