3.5.3. Модельное кодирование источникаВ отличие от методов кодирования сигналов, описанных выше, модельное кодирование источника основано на совершенно ином подходе. В нём источник моделируется линейным порождающим фильтром, который при возбуждении подходящим входным сигналом выдаёт наблюдаемый выход реального источника. Вместо передачи отсчётов реальных сигналов к приёмнику передаются параметры порождающего фильтра вместе с подходящим возбуждающим сигналом. Если число параметров достаточно мало, методы модельного кодирования обеспечивают большое сжатие данных. Наиболее широко используется метод кодирования источника, который называют линейным кодированием с предсказанием (ЛКП). В нём стробированная последовательность, обозначенная , , предполагается выходом порождающего фильтра с дискретным временем и с передаточной функцией, имеющей только полюсы (всеполюсный фильтр): (3.5.18) Подходящими возбуждающими функциями для порождающего фильтра являются: импульс, последовательность импульсов или последовательность отсчётов белого гауссовского шума с единичной дисперсией. В любом случае предположим, что входная последовательность обозначается , . Тогда выходная последовательность порождающего фильтра удовлетворяет разностному уравнению , (3.5.19) В общем, реально наблюдаемый выход источника , не удовлетворяет разностному уравнению (3.5.19), удовлетворяет этому уравнению только модель. Если вход является последовательностью отсчётов белого центрированного гауссовского шума, мы можем из (3.5.19) формировать оценку при помощи взвешенной линейной комбинации , . (3.5.20) Разность между и , а именно , (3.5.21) определяет ошибку между наблюдаемым и его оценкой . Фильтровые коэффициенты можно выбрать так, чтобы минимизировать средний квадрат этой ошибки. Предположим, что входом является последовательность отсчётов белого центрированного шума с единичной дисперсией. Тогда выход фильтра является случайной последовательностью и такой же является разность . Средний по ансамблю квадрат ошибки равен , (3.5.22) где - автокорреляционная функция последовательности , . Но идентична СКО, определённой (3.5.8) для предсказателя, используемого в ДИКМ. Следовательно, минимизация в (3.5.22) даёт систему линейных уравнений, данных ранее формулой (3.5.9). Для полного описания системной функции фильтра мы должны определить помимо коэффициент усиления фильтра . Из (3.5.19) и (3.5.21) имеем , (3.5.23) где - минимальная (остаточная) среднеквадратическая ошибка (СКО) предсказания, получаемая из (3.5.22) путём подстановки оптимальных Предсказанных коэффициентов, которые следуют из решения (3.5.9). С помощью этой подстановки выражение для и, следовательно, для упрощается: . (3.5.24) На практике мы не знаем точно априори действительную автокорреляционную функцию выхода источника. Следовательно, вместо мы подставим оценки , даваемые (3.5.10), которые получены из ряда отсчётов , , выдаваемых источником. Как указано ранее, алгоритм Левинсона-Дурбина, приведённый в приложении А, можно использовать для итеративного определения коэффициентов предсказания , начиная с предсказания первого порядка и выполняя итерацию до порядка предсказания . Рекуррентные уравнения для можно выразить следующим образом: , , , , , , , (3.5.25) где , , - коэффициенты предсказателя -го порядка. Определяемые коэффициенты для предсказателя порядка равны , , (3.5.26) и остаточная СКО равна . (3.5.27) Заметим, что рекуррентные соотношения (3.5.25) дают нам не только коэффициенты предсказателя порядка , но также коэффициенты предсказателя всех порядков, меньших . Остаточная СКО , , формирует монотонно убывающую последовательность, т.е. и коэффициенты предсказания удовлетворяют условию , . (3.5.28) Это условие необходимо и достаточно для того, чтобы все полюсы передаточной функции находились внутри единичной окружности с центром в начале координат. Таким образом, условие (3.5.28) обеспечивает и устойчивость модели. ЛКП успешно используется при моделировании источников речи. В этом случае коэффициенты , , названы коэффициентами отражения вследствие их соответствия коэффициентам отражения в акустической трубной модели голосового тракта (см. Рабинер и Шафер, 1978; Деллер и др., 1993). Когда коэффициенты порождающего фильтра и усиление оценены по выходам источника , каждый из этих параметров кодируется последовательностью двоичных символов и передаётся к приёмнику. Декодирование источника или синтез сигналов речи могут быть выполнены в приёмнике, как показано на рис. 3.5.10. Генератор сигнала используется для создания отсчётов возбуждения , которые масштабируются посредством для получения необходимого входа фильтра с передаточной функцией , содержащей только полюсы и синтезированной по принимаемым коэффициентам отражения. Аналоговый сигнал источника может быть восстановлен и путём пропускания выхода через аналоговый фильтр, который выполняет функцию интерполяции сигнала между отсчётными точками. В этой реализации синтезатора сигнала источника возбуждающая функция и параметр усиления должны быть переданы вместе с коэффициентами отражения к приёмнику. Рис. 3.5.10. Блок-схема синтезатора сигнала (декодера источника) для ЛКП системы Рис. 3.5.11. Блок-схема модели генерации сигнала речи Когда выход источника стационарен, параметры порождающего фильтра должны быть определены лишь однажды. Однако большинство источников, встречающихся на практике, в лучшем случае квазистационарны. В связи с этим обстоятельством необходимо периодически получать новые оценки для коэффициентов фильтра, для усиления , вида возбуждающей функции и передавать эти данные к приёмнику. Пример 3.5.1. Блок-схема рис. 3.5.11 иллюстрирует модель источника речи. Здесь имеются две взаимоисключающе возбуждающие функции для моделирования голосовых (вокализованных) и неголосовых (невокализованных) звуков речи. В пределах короткого интервала времени голосовая речь является периодической с основной частотой или с периодом повторения (основной тон), который зависит от говорящего. Таким образом, речь генерируется возбуждением модели (голосового тракта) фильтра с одними полюсами посредством периодической импульсной последовательности с периодом, равным требуемому периоду повторения. Невокализованные звуки генерируются путём возбуждения модели фильтра случайным шумом. Кодер речи в передатчике должен определить правильный тип возбуждающей функции, основной тон, параметр усиления и коэффициенты предсказания. Эти параметры кодируются двоичными символами и передаются приёмнику. Как правило, информация о типе звука (вокализованный или невокализованный) требует для передачи 1 бит, период повторения основного тона адекватно представляется 6 битами, параметр усиления может быть представлен 5 битами после того, как его динамический диапазон логарифмически сжат. Коэффициенты предсказания требуют 8...10 бит/коэфф. для адекватного представления (см. Рабинер и Шафер, 1978). Смысл в такой высокой точности представления тот, что относительно малые изменения в коэффициентах предсказания ведут к большим изменениям в положении полюсов фильтра . Требования к точности могут быть ослаблены путём передачи коэффициентов отражения , которые имеют меньший динамический диапазон. Они могут быть адекватно представлены 6 битами. Таким образом, для предсказателя порядка [пять полюсов в ] общее число битов равно 72. С учётом квазистационарной природы сигналов речи линейная модель системы должна обновляться периодически, как правило, один раз каждые 15...30 мс. Поэтому битовая скорость кодера источника находится в диапазоне 4800...2400 бит/с. Рис. 3.5.12. Всеполюсный решётчатый фильтр для синтеза сигнала речи Если к декодеру передаются коэффициенты отражения, нет надобности пересчитывать их в коэффициенты предсказания для того, чтобы реализовать синтезатор речи. Синтез выполняется путём реализации лестничного фильтра, показанного на рис. 3.5.12, который использует коэффициенты отражения непосредственно и который эквивалентен линейному фильтру предсказания. Линейная модель с одними полюсами, для которой коэффициенты фильтра оцениваются посредством линейного предсказания, являются простейшей линейной моделью для источника. Более общая модель источника - линейный фильтр, который содержит и полюса, и нули. В нуль-полюсной модели выход источника удовлетворяет разностному уравнению , где - входная возбуждающая последовательность. Задача теперь заключается в оценке параметров фильтра и на основе данных , , выдаваемых источником. Однако критерий СКО, использованный для минимизации ошибки , где - оценка , сводится теперь к решению совокупности нелинейных уравнений относительно параметров и что выполняется громоздко и математически трудно. Чтобы избежать решения нелинейных уравнений, разработан ряд субоптимальных методов для нуль-полюсного моделирования. Обсуждение этой техники, однако, уведёт нас далеко от предмета. ЛКП, описанные выше, формируют основу для более сложных модельных методов кодирования источника. Модельные методы, используемые для кодирования речи, обычно называют вокодерами (voice coders). В дополнение к традиционным ЛКП вокодерам, описанным выше, разработаны другие типы вокодеров: остаточно возбуждённые ЛКП (ЛКОВ), многоимпульсные ЛКП вокодеры, кодовозбуждаемый ЛКП (ЛККВ) вокодер, и векторно-суммарно-возбуждаемый ЛКП (ЛКВСВ) вокодер. ЛККВ и ЛКВСВ вокодеры используют векторно-квантованные возбуждающие кодовые слова для достижения высокого качества передачи речи при низкой битовой скорости кодирования. Перед тем как закончить этот раздел, рассмотрим использование кодирования сигналов и ЛКП для кодирования сигналов речи и сравним битовые скорости этих методов кодирования. Методы кодирования, применяемые для речевых сигналов. Передача речевых сигналов по телефонным линиям, радиоканалам и спутниковым каналам составляет наибольшую часть наших ежедневных связей. Поэтому понятно, что за последние три десятилетия большинство исследований было направлено на кодирование речи, а не на другие типы сигналов, передающих информацию. Действительно, вся техника кодирования, описанная в этом разделе, была использована для кодирования сигналов речи. Поэтому полезно сравнить эффективность этих методов через битовую скорость, требуемую для передачи сигнала речи. Предполагается, что сигнал речи ограничен полосой частот 200...3200 Гц и стробируется с номинальной скоростью 8000 отсч./с для всех кодеров, исключая ДМ, для которой скорость стробирования равна битовой скорости. Предполагается, что в ЛКП кодере используются параметры, данные в примере 3.5.1. Таблица 3.5.2 суммирует средние характеристики методов кодирования, описанные в этом разделе, и требуемые битовые скорости. Таблица 3.5.2. Техника кодирования, применяемая для сигналов речи
С учётом качества синтеза сигнала речи в приёмнике посредством двоичных последовательностей, переданных по каналу без ошибок, все методы кодирования речи (ИКМ, ДИКМ, АДИКМ, ДМ, АДМ) обеспечивают по телефону качественную речь. Другими словами, слушателю будет затруднительно заметить разницу между цифровой речью и аналоговой формой речи. АДИКМ и АДМ являются особенно эффективной техникой кодирования. Статистическое кодирование позволяет снизить скорость передачи до 9600 бит/с с заметным искажением. Действительно, на скоростях ниже 16 000 бит/с искажения, обусловленные кодерами сигнала, возрастают существенно. Следовательно, эта техника не используется на скоростях ниже 9600 бит/с. Для скоростей ниже 9600 бит/с обычно используется техника кодирования типа ЛКП, которая базируется на линейных моделях источника. Синтезированная речь, полученная посредством техники кодирования этого класса, понятна. Однако сигнал речи имеет синтетическое качество, и искажения заметны.
|