Адаптивные фильтры: 9.3.3. Обработка речи

9.3.3. Обработка речи

Методы спектрального оценивания применяются также для обработки речи, особенно в вокодерах [32], где используется избыточность речевых колебаний для получения низких скоростей передачи данных. В настоящее время существуют два основных типа: вокодер линии связи и линейный предсказывающий кодер (ЛПК). Вокодер линии связи передает грубую информацию о спектре и высоте звуков, обычно получаемую с помощью общепринятых методов аналоговой или цифровой полосовой фильтрации или метода ДПФ. Хотя коррекция ЛПК была реализована с помощью автокорреляционного метода [211], в котором используются адаптивные трансверсальные фильтры, более предпочтительным оказывается подход на основе каскада линейных фильтров ошибки предсказания, поскольку он менее чувствителен к погрешностям коэффициентов. Фильтры ошибки предсказания устраняют из сигнала составляющие, которые можно предсказать [216] из предыдущих данных с помощью моделирования голосового тракта в виде фильтра (АР), характеристика которого содержит только полюсы (гл. 5).

В ЛПК – вокодере анализатор и кодер обычно обрабатывают сигнал на интервалах длительностью 30 мс и последовательно передают приближенную спектральную информацию об интервалах в виде коэффициентов фильтра. Остаточная ошибка (шум на выходе обеляющего фильтра ошибки предсказания) не передается; она используется для получения оценки уровня мощности входного сигнала, посылаемого вместе с информацией о высоте тона, и для указания, содержит ли входной сигнал звук голоса или нет (рис. 9.8). Последнее можно установить, проанализировав выше или ниже некоторого порога первый лепесток автокорреляционной функции сигнала. В первом случае величина слагаемого, характеризующего автокорреляцию, дает информацию о высоте звука. С декодера и синтезатора принятые коэффициенты фильтра поступают на АР – синтезирующий фильтр, который возбуждается импульсами частоты тона, если речевой сигнал на входе присутствует, или импульсами белого шума, если он отсутствует. Амплитуда возбуждения определяется значением оценки входной мощности.

Для реализации физической модели голосового тракта в виде акустической трубы без потерь может эффективно применяться адаптивная решетчатая структура (гл. 5) на основе фильтра, характеристика которого содержит только полюсы (см. разд. 5.3.2 и 5.6). Данный подход [157], позволяющий получить на выходе непрерывное представление коэффициентов фильтра ошибки предсказания, приобрел к настоящему времени особенно большое значение, вследствие свой регулярной структуры, которую можно реализовать с помощью цифровых БИС [10].

Дополнительно к результатам, показанным на рис. 5.14 и 5.15, на рис. 9.9 и 9.10 проводится сравнение характеристик обычного анализатора спектра с разверткой по частоте (непараметрического) с характеристиками авторегрессивного (параметрического) устройства оценки, на примере образца речи мужчины. На магнитную ленту записывалось пение звука «и – и» (как в слове «feed») для поддержания основной частоты, по мере возможности, постоянной. Затем звук воспроизводился на коммерчески доступном анализаторе спектра.

Рис. 9.7. Действие адаптивного фильтра в качестве усилителя спектральных линий при входном сигнале в виде суммы неизвестной синусоиды и широкополосного шума; а – входной сигнал, содержащий синусоиду с частотой 1 МГц и широкополосный шум с отношением сигнал – шум, равным 0 дБ; б – выходной сигнал; в – соответствующий спектр при коэффициенте установления адаптивного фильтра, равном 0,01; г – выходной сигнал; д – соответствующий спектр выходного сигнала при коэффициенте сходимости, равном 0,0001. (Из работы [236] .)

Рис. 9.8. Линейный предсказывающий вокодер речевых сигналов.

Независимо проводилось моделирование параметрического устройства оценки, применяемого для получения результатов, показанных на рис. 9.5, для сравнения с упомянутыми результатами. Выходные сигналы показаны на рис. 9.9 и 9.10 соответственно, где для получения изображения, заполненного без пробелов, производилась интерполяция отдельных параметрических оценок вплоть до 16 порядка.

При визуальном сравнении впечатляет сходство результатов для параметрических устройств оценки порядка от 12 до 16 с изображением, полученным для обычного анализатора. Оба имеют подобную, в целом, форму с затуханием по частоте величиной 6 дБ/октаву, вызываемым характеристикой голосового тракта. Однако параметрическое устройство оценки не обладает положительными качествами устройства оценки с разверткой по частоте из-за существенно меньшего времени анализа. Дальнейшие исследования [277] свидетельствуют о хорошем согласии между подходами при оценивании полной спектральной плотности, но параметрический анализатор менее точен при оценке абсолютных частот максимумов, поэтому малый максимум при частоте 4,2 кГц не обнаруживается. Тестовый сигнал, изображенный на рис. 9.5 имеющий явно выраженный спектр с резкими максимумами, моделировался с помощью точно размещенных вблизи единичного круга нулей. И наоборот, используемый в данном случае речевой сигнал имел слабо выраженный спектр, что сказалось в менее точном размещении нулей.

Рис. 9.9. Диаграмма напряжения на выходе анализатора спектра с разверткой по частоте при произнесении мужчиной звука «и – и», как в слове «feed». Масштаб по вертикали – 10дБ/деление, Масштаб по горизонтали – 1кГц/деление. (Предоставлено М. Руттером. [277].)

Рис. 9.10. Авторегрессивная оценка спектра при порядках фильтра, не превышающих 16, для случая входного сигнала, изображенного на рис. 9.9. (Предоставлено М. Руттером [277].)

На рис. 9.9 и 9.10 проведено подробное сравнение этих двух подходов, из которого видно, что адаптивная подгонка нуля в более простом авторегрессивном устройстве оценки дает достаточно точное спектральное представление о передаче синтезированной речи и, возможно, о получении качественной передачи. Для высококачественной передачи требуются более точные методы дискретизации, например, импульсно-кодовая модуляция.

Решетчатые адаптивные фильтры ошибки предсказания дают рабочую характеристику, которая, с точки зрения сложности и быстродействия, лежит между методами спектрального оценивания: более сложным ММЭ и сравнительно простым АУСЛ. Основные преимущества решетчатого подхода вновь основаны на независимой оптимизации искомых составляющих, в сочетании с компромиссом между коэффициентом сходимости, остаточной ошибкой и временем анализа фильтра. При задержках в голосовом тракте около 1 мс и типичных частотах дискретизации речи от 8 до 10 кГц число каскадов решетчатого фильтра обычно лежит в диапазоне от 8 до 12, причем 10 будет числом, принятым в стандарте для интегральных ЛПК – вокодеров со скоростью передачи 2,4 кбод. Имеются также вокодеры на основе многокристальных микропроцессоров [325]. Кроме этих применений в вокодерах, цифровые решетчатые фильтры используются в некоторых коммерческих системах синтеза речи [104].