Таксономия: 8.5. Задачи распознавания речевых сигналов («кодовая книга»)

8.5. Задачи распознавания речевых сигналов («кодовая книга»)

В системах распознавания речи часто используются спектральные характеристики, измеряемые на коротких участках сигнала, следующих друг за другом. Каждый участок отображается в -мерном пространстве спектральных признаков точкой, а слово можно представить в виде траектории, помеченной этими точками. После накопления обучающего материала пространство признаков может содержать сотни тысяч точек, и естественно было бы хранить в памяти не все точки, а описывающие их таксоны.

Методами таксономии делается таксономия точек на таксонов и вычисляются все парные расстояния между ними. Такая матрица парных расстояний называется кодовой книгой. Каждый участок произносимого слова попадает в окрестности центра того или иного таксона. Если фиксировать номера (коды) этих самых близких таксонов, то слово можно представить последовательностью таких кодов. После обучения в памяти машины появляются эталоны слов в виде кодовых последовательностей.

Для распознавания контрольного слова его кодовая последовательность сравнивается со всеми эталонными последовательностями и выбирается самый похожий эталон. При этом используется динамическое программирование, которое требует знания расстояний от всех кодов эталона до всех кодов распознаваемого слова. Наличие кодовой книги позволяет существенно упростить этот трудоемкий этап. Теперь достаточно лишь указать номера двух кодов и расстояние между ними будет извлечено из кодовой книги.

Первичное векторное описание большого числа участков речи требует чрезмерно больших затрат машинной памяти. В связи с этим для таксономии такого массива данных применяется алгоритм типа описанного выше алгоритма DINA. Для формирования кодовых последовательностей может оказаться полезным алгоритм SETTIP.