4.5. Применение методов фильтрации изображений к фильтрации речевых и других квазипериодических сигналов

Алгоритмы фильтрации изображений могут быть применены к фильтрации скалярных случайных процессов, т. е. сигналов, например, речевых сигналов (РС). Для этого они преобразовываются в И, полученное И фильтруется и снова преобразуется в сигнал. Это делается для того, чтобы улучшить фильтрацию сигналов за счет применения методов обработки изображений. Рассмотрим один из таких подходов [9].

На рис. 4.3 представлен график записи звука «а», оцифрованного с частотой 11025 Гц. Заметно, что РС имеет квазипериодическую структуру, он состоит из участков (квазипериодов), очень близких по форме и продолжительности. Это свойство проявляется на участках вокализованных звуков и особенно на участках гласных звуков. Столь существенное свойство РС должно быть учтено в алгоритмах их обработки.

Построим математическую модель квазипериорического сигнала, подобного РС. Рассмотрим спиралевидную сетку, показанную на рис. 4.4. Строки этой сетки представляют собой витки спирали (винтовой линии), и это сеточное И естественным образом может быть развернуто в последовательность своих отсчетов, т. е. в сигнал.

Для описания И, заданного на спиралевидной сетке, применим аналог авторегрессионной модели Хабиби плоского И:

, (4.22)

где – номер витка спирали и – номер узла в витке. При этом ; при ; – период. Эта модель цилиндрического И также может быть представлена в эквивалентном виде как модель случайного процесса, представляющего собой развертку И вдоль спирали:

, (4.23)

где .

Можно показать, что КФ модели (4.23) имеет вид

, (4.24)

где ; .

На рис. 4.5 представлен график квазипериодического процесса, имитированного с помощью описанной модели. Визуально такие реализации похожи на графики реальных РС.

Рис. 4.5.

Если такой имитированный квазипериодический процесс рассматривать как звуковой сигнал, то при воспроизведении он по звучанию похож на музыкальные тона или речевые вокализованные звуки, чего не наблюдается при прослушивании процесса, имитированного при помощи модели Хабиби. При изменении параметров , и можно получить различные тона звучания.

Однако у модели (4.22) имеется существенный недостаток – постоянство продолжительности квазипериода . В реальных же сигналах эта продолжительность флуктуирует. Анализ РС показывает, что на отрезках отдельных фонем форма сигнала в соседних квазипериодах примерно постоянна, а отличие в основном состоит во временном растяжении или сжатии. Поэтому сигнал с флуктуирующей продолжительностью квазипериодов можно получить из непрерывного сигнала с постоянной продолжительностью квазипериодов, но с изменяющимся шагом между отсчетами. Поэтому для имитации дискретного сигнала с флуктуирующим квазипериодом имитируется процесс с более густой сеткой отсчетов.

Эксперименты показали, что с помощью описанной модели (с флуктуацией продолжительности квазипериода) можно получить звуковые сигналы, более богатые по тембру и более похожие на реальные РС или музыкальные тона.

Для применения методов фильтрации И к фильтрации РС преобразуем РС в И. Для этого РС разбивается на отрезки, которые соответствуют отдельным квазипериодам (рис. 4.6,а). Первый отрезок сигнала принимается за первую строку И, второй отрезок – за вторую строку И и т. д. В результате получается изображение, которое будем называть портретом данного РС. Пример портрета гласного звука «а» приведен на рис. 4.6,б.

При таком представлении сигнала элементы столбцов И соответствуют элементам сигнала, отстоящим на квазипериод. Поэтому в И, кроме внутристрочной корреляции, будет и межстрочная, визуально проявляющаяся в виде вертикальных полос приблизительно постоянной яркости.

Рис. 4.6.

Полученные портреты РС имеют строки различной длины. Для фильтрации удобнее И прямоугольной формы. Поэтому нужно привести строки портрета к одинаковой длине, например, дублируя начальные элементы следующей строки в конце предыдущей. На рис. 4.7 показаны примеры исходного и выровненного портретов.

Рис. 4.7.

Сформированные портреты зашумленных РС могут быть отфильтрованы как И. Затем отфильтрованный портрет развертывается в последовательность, что и является результатом фильтрации. Преимущество этой методики состоит в том, что при фильтрации портретов учитывается сильная корреляция между отсчетами РС, отстоящими на квазипериод, что трудно сделать при обычной последовательной фильтрации РС как случайного процесса. В результате качество фильтрации РС значительно повышается по сравнению с последовательной обработкой. Хорошие результаты при фильтрации портретов РС показал описанный в п. 4.4 ПГ аппроксимированный фильтр Калмана.

Вокализованные звуки имеют значительно большие квазипериоды и более коррелированное представление в портрете, чем невокализованные. Эти различия влекут за собой разные оптимальные значения параметров фильтра. Если эти различия не учитывать, то при переходе к звуку другого класса адаптивный фильтр некоторое время перестраивает свои параметры, а фильтрация в это время неэффективна. Поэтому для повышения качества фильтрации по ходу обработки определяются моменты начала звука другого класса и в эти моменты в фильтр вводятся начальные значения параметров, характерные для звуков соответствующего класса. Признаком смены класса звука является резкое изменение величины очередного квазипериода. При такой «помощи» фильтру он будет обрабатывать сигналы с параметрами, более близкими к их оптимальным значениям.