6.5.1. Преобразование команд в изображенияПрежде всего нужно выбрать преобразование команд в изображение, подходящее для целей распознавания. Получаемое И (портрет) должно отражать индивидуальность команды. Кроме того, сравнение портретов должно быть возможным при наличии шумов, изменении громкости и темпа речи. Подходящими для рассматриваемой цели являются автокорреляционные портреты, т. е. И, строки которых соответствуют выборочным НКФ
1. НКФ инвариантна к равномерному изменению громкости незашумленного РС и незначительно изменяется при плавном изменении громкости. 2. Если сигнал
т. е. наличие белого шума приводит к пропорциональному изменению НКФ чистого сигнала при всех значениях k, кроме k = 0. Таким образом, получаемые при разных шумах портреты будут отличаться только постоянным множителем во всех столбцах, кроме первого. Этот первый столбец вообще следует исключить, так как он состоит из единиц ( 3. Если шум 4. Изменение темпа речи приводит к простому растяжению или сжатию портрета, возможно, неравномерному, что не вызывает особых затруднений при идентификации изображений – нужно только учесть возможность их геометрических искажений. 5. НКФ инвариантна к постоянным аддитивным добавкам к сигналу и малочувствительна к медленно изменяющимся аддитивным добавкам. Это свойство делает портреты устойчивыми к нецентрированности сигнала. 6. Вычисление НКФ можно организовать рекуррентно по возрастающим значениям k. Поэтому формирование портрета требует вполне приемлемых вычислительных затрат. 7. И самое главное. Выборочная НКФ сигнала в значительной мере отражает его индивидуальность. Она почти столь же информативна, как и спектр сигнала – по точной НКФ стационарного сигнала его спектр определяется однозначно. Имеется ряд работ, в которых НКФ использовалась для распознавания отдельных фонем.
Итак, будем для распознавания использовать выборочные автокорреляционные портреты команд. А именно, пусть
где
где
– выборочные средние и
выборочные дисперсии. На рис. 6.6 показаны примеры портретов разных слов при различной зашумленности исходных слов. На рис. 6.6,а – незашумленное слово «координаты»; на рис. 6.6,б – слово «координаты» на фоне белого шума с отноше-
а б
в г
д е
ж з Рис. 6.6.
нием шум/сигнал На рис. 6.7 показаны портреты слова «восемнадцать», произнесенного одним и тем же диктором в разное время, при этом темп, громкость и некоторые другие особенности произношения раз от разу менялись. Поэтому портреты имеют различия – разное количество строк и геометрические искажения. Однако заметно и существенное сходство.
Рис. 6.7.
|