Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 2. Метод скрытых марковских процессов (СМП)

Пусть эталонное слово  состоит из трех фонем, а распознаваемое слово  может состоять из нескольких фонемоподобных сегментов — от одного до шести. Так может выглядеть короткое слово, если некоторые его соседние сегменты (два или больше) являются представителями одной и той же фонемы. С другой стороны, короткая последовательность  может быть порождена и длинным словом, если некоторые его фонемы оказались отсутствующими («проглоченными» в скороговорке). Все возможные варианты событий показаны на рис. 42.

Рис. 42

Процесс, начатый в точке , с вероятностью  может оказаться в вершине . Здесь происходит сравнение характеристик  первого сегмента с характеристиками эталона первой фонемы и выясняется, что вероятность принадлежности первого сегмента к первой фонеме равна . Но процесс из начальной точки может с вероятностью  перейти сразу в вершину . Для этого случая получается, что вероятность принадлежности первого сегмента второй фонеме равна .

Из вершины  процесс в форме второго сегмента  может перейти снова в эту же вершину. Вероятность этого события равна , а вероятность принадлежности такого сегмента к первой фонеме равна . Но процесс может перейти в вершину  или, пропустив ее, оказаться в вершине . Вероятности этих событий равны  и , а вероятности того, что этот сегмент будет распознан в качестве представителя второй и третьей фонемы, равны  и  соответственно. Из вершины  есть три выхода: снова на себя, на вершину  или на окончание слова (паузу). Из вершины  имеется два допустимых перехода: цикл на себя и выход на паузу. Таким образом, самый короткий возможный путь от начала до конца слова пролегает через точки . Самый длинный путь от  до  можно пройти многими маршрутами; они показаны на рис. 43. Здесь вдоль вертикальной оси размещены фонемы эталона, а вдоль горизонтальной оси — сегменты контрольного слова. Точка  обозначает начальную паузу перед словом, а точки  — паузу после окончания слова соответствующей длины.

Рис. 43

Теперь вспомним, что марковской называется последовательность состояний (процесса или автомата), в которой текущее состояние зависит от последнего предыдущего и не зависит от будущего. Это значит, что решение о принадлежности сегмента  к той или иной фонеме нужно принимать не только по похожести характеристик  на эталон данной фонемы, но и с учетом того, какой фонеме принадлежал предыдущий сегмент. В соответствии с этой стратегией, если процесс в момент времени  находился в состоянии  с вероятностью , а в момент  приобрел характеристики , то вероятность того, что он находится в состоянии , имеет значение

Эталоны событий (фонем), по которым вычисляются величины , а также вероятности переходов  определяются на материале обучающей выборки. Вероятности событий  вычисляются по мере продвижения процесса (т. е. поступления сегментов). Вероятность  того, что процесс начинается с точки  (с паузы), естественно считается равным единице. Аналогично, вероятности перехода от последнего сегмента к паузе  и возникновения паузы после последнего сегмента  также приравниваются к единице. Этих исходных данных достаточно для начала процесса распознавания.

Поясним это на примере распознавания контрольного слова, состоящего из 4-х сегментов, путем сравнения его с эталонным трехфонемным словом. Таблица происходящих при этом событий приведена на рис. 43. Числа вдоль ребер соответствуют переходным вероятностям , а числа в кружочках — величинам .

При появлении первого сегмента с характеристиками  программа вычисляет его принадлежность  к первой (0,5) и второй (0,4) фонеме. То, что их сумма меньше единицы, означает, что с ненулевой вероятностью сегмент  принадлежит и некоторым другим эталонам. С учетом вероятностей переходов  (0,8 и 0,2) находятся вероятности событий  и : , .

Сумма вероятностей перехода из вершины 1 в вершины 3, 4 и 5 равна единице. Если для распознавания предъявлен всего один сегмент, возможен только один маршрут: . В этом случае вероятность перехода из вершины 2 в конечную вершину  равна единице, а вероятности других переходов равны нулю. Если же первый сегмент не является и последним, то тогда вероятность , а сумма вероятностей  и  равна единице.

Второй сегмент  сравнивается с эталонами всех трех фонем данного слова. Учет полученных значений , вероятностей переходов  и вероятностей событий  в предыдущий момент времени позволяет определить вероятности событий :

Если бы второй сегмент был последним, то переходные вероятности  и  приравнивались к единице. Но он не последний, и потому вероятность единственно возможного перехода из вершины 5 в вершину 7 равна единице. Единице же равна и сумма вероятностей перехода из вершины 4 в вершины 6 и 7. С учетом этого находим

Четвертый сегмент сравнивается также с эталонами второй и третьей фонем, что позволяет найти вероятности событий  и :

Последовавшая затем пауза означает, что процесс текущего посегментного распознавания окончен, и нужно переходить к оценке вероятности данного эталонного слова в целом. Вероятность достижения конечной вершины  равна . Чтобы можно было сравнивать такие вероятности для слов с разным числом сегментов, из полученного значения  нужно извлечь корень -й степени, где  — максимальное число сегментов в эталонном или контрольном слове. В нашем случае более длинным оказалось контрольное слово, и потому из  нужно извлечь корень четвертой степени. В результате вероятность принадлежности слова к данному эталону оказывается равной 0,424.

Впервые сетевой метод для распознавания устных слов по последовательности сегментов был применен в работах [33,34]. В завершенном виде в форме описанного выше алгоритма Виттерби метод СМП приведен в [110,142].

Сравнивая методы ДП и СМП, можно отметить, что метод СМП учитывает природу речевого сигнала более полно, чем ДП: переходные вероятности соответствуют закономерностям сочетания разных фонем в речевом языке; эталоны, зависящие от предшествующей фонемы, отражают коартикуляцию. Эксперименты показали, что метод СМП дает более высокие результаты. Однако эта полнота дается не даром. Для обучения по методу ДП достаточно однократного произнесения слов распознаваемого словаря. Для обучения же по методу СМП приходится анализировать большое количество реализаций каждого слова. После обучения нужно помнить матрицы вероятностей переходов и эталоны каждой фонемы в виде вариантов, зависящих от предшествовавшей фонемы. В итоге для СМП требуется гораздо больший объем обучающего материала, времени на обучение, памяти и времени на распознавание. В системах с подстройкой под диктора громоздкую процедуру обучения автомата приходится делать заново для каждого нового диктора. По этой причине в современных системах распознавания речи применяются как методы СМП, так и методы ДП.

 



<< ПредыдущаяОглавлениеСледующая >>