6.5.2. Идентификация автокорреляционных портретов команд

Рассмотренные выше портреты являются И, причем случайными, поскольку они зависят от множества случайных факторов – шума, темпа и тембра речи и т. д. Поэтому портреты даже одной и той же команды, произнесенной одним и тем же диктором в разное время и в разных условиях, отличаются друг от друга геометрическими и яркостными искажениями.

Искажение яркостей. Взаимные яркостные (межкадровые) искажения двух портретов (кадров), как это было показано в п. 6.5.1, приближенно описываются линейной функцией y = ax+b, причем параметры a и b зависят от шума и других помех, поэтому они неизвестны и могут изменяться по полю кадра. В силу этого межкадровые разности двух портретов одного и того же слова могут быть большими. Поэтому в качестве критерия схожести или различия портретов возьмем выборочный коэффициент корреляции.

Таким образом, естественным является решающее правило, основанное на выборочном коэффициенте корреляции между идентифицируемым портретом Р и эталонными портретами : выбирается тот из эталонов , для которого

(6.27)

Это правило целесообразно дополнить условием, чтобы

, (6.28)

где – минимальное значимое значение коэффициента корреляции. Если (6.28) не выполняется, то портрет Р считается не идентифицированным. Таким образом, получаем комбинированное решающее правило

(6.29)

Решающее правило (6.29) имеет существенный недостаток – в нем используется усредненный выборочный коэффициент корреляции по всей паре сравниваемых портретов. Однако этот коэффициент может быть большим для разных слов, которые относительно мало отличаются по звучанию, например, «девять» и «десять». Поэтому целесообразно ввести в решающее правило локальный выборочный коэффициент по скользящему вертикально (т. е. по времени) прямоугольному окну. Это правило можно применять не ко всему набору эталонов, а только к тем из них, которые наиболее близки к P по усредненному критерию .

Геометрические искажения и совмещения портретов. Рассмотрим теперь влияние взаимных (межкадровых) геометрических искажений двух портретов Х и Y одной и той же команды. Они приводят к тому, что одни и те же элементы некоторого «истинного портрета» находятся в разных местах на кадрах Х и Y. Поэтому рассмотренные выше критерии идентификации команд будут неработоспособными. Отсюда возникает задача совмещения портрета распознаваемой команды с эталонными портретами, что является частным случаем рассматриваемой в этой главе задачи совмещения И.

Определяющим моментом в постановке задачи совмещения изображений является выбор критерия качества совмещения. В нашем случае специфика яркостных искажений и вид решающего правила предопределяют этот критерий – изображения нужно совместить так, чтобы коэффициент корреляции по совмещенной (общей) части портретов был максимально возможным, т. е. получаем известный корреляционно-экстремальный критерий.

В нашем случае геометрические трансформации АКП могут быть общего вида, поэтому приходится оценивать смещения во всех возможных точках изображения, то есть фильтровать векторное поле смещений. При решении таких задач хорошо зарекомендовали себя адаптивные ПГ алгоритмы.

При этом одновременно с совмещением может решаться и задача идентификации, поскольку по ходу совмещения вычисляется текущее значение критерия качества совмещения, а он же используется в решающем правиле идентификации.

В рассматриваемой задаче совмещения и идентификации АКП слов взаимные геометрические искажения портретов сводятся к локальным растяжениям и сжатиям, вызываемым изменением темпа речи. В нашем случае повороты всего изображения отсутствуют. Возможны только локальные (псевдо) повороты, вызываемые неравномерностью сжатий и растяжений, которыми будем пренебрегать, так как они малы. Эти предположения дают возможность применить следующий алгоритм совмещения, основанный на сравнении фрагментов изображений по двум скользящим окнам (по одному на каждом из двух сравниваемых изображений). При относительно небольших размерах окон неравномерностью сжатий и растяжений в них можно пренебречь.

На рис 6.8 показан пример сравнения портрета слова «выпустить» (рис. 6.8,б) с его эталонным портретом (рис. 6.8,а). На рис. 6.8,в представлен результат совмещения-сравнения. На этом рисунке показано визуальное изображение локального выборочного коэффициента корреляции между фрагментом эталонного портрета в скользящем окне и фрагментом сравниваемого портрета в оцененном положении окна. Минимально возможному значению коэффициента корреляции –1 соответствует минимальная яркость изображения, а максимальная яркость соответствует максимальной корреляции +1. Таким образом, темные участки на рис. 6.8,в соответствуют большим различиям между сравниваемыми участками двух портретов, а светлые участки – малым различиям. В этом примере минимальное значение межкадровой корреляции было около 0.2. Из рисунка видно, что точек с малыми значениями коэффициента корреляции относительно мало, поэтому делается вывод о том, что портет на рис. 6.8,б близок к эталонному портрету на рис.6.8,а, т.е. было произнесено слово «выпустить».

Положение резко меняется при сравнениии портретов разных слов, например, слова «крыло» ( 6.9,б) с эталонным портретом слова «выпустить» (рис. 6.9,а). Гораздо более темное И на рис. 6.9,в (минимальное значение межкадровой корреляции около -0.5, и темных точек очень много) показывает, что локальные коэффициенты корреляции между этими портретами значительно меньше, чем на рис. 6.8. Это говорит о большой разнице между портретами, поэтому произнесенное слово «крыло» не будет распознано как слово «выпустить».

В результате такого сравнения портретов распознаваемая команда с большой вероятностью относится именно к своему эталону, т. е. распознается правильно.

Рис. 6.8.

Рис. 6.9.

Таким образом, описанный алгоритм позволяет осуществлять распознавание речевых команд при относительно небольших вычислительных затратах и может быть реализован в реальном времени.