MPEG-1: 6.5.3. Психоакустические модели

6.5.3. Психоакустические модели

Психоакустические модели дают возможность кодеру определить порог допустимого шума квантования на каждой подполосе. Эта информация будет использоваться алгоритмом назначения битов, что в сочетании с количеством имеющихся битов задаст число уровней квантования для каждой подполосы. Стандарт MPEG устанавливает две психоакустические модели. Обе модели могут использоваться любым слоем, но только модель II выдает особую информацию для слоя III. На практике модель I используется только слоями I и II. Слой III может работать с любой моделью, но лучшие результаты получаются с моделью II.

Стандарт сжатия звука MPEG разрешает значительную свободу при реализации моделей. Изощренность этой реализации в конкретном кодере зависит от требуемой степени сжатия. В приложениях широкого потребления, в которых не требуется высокий фактор сжатия, психоакустическая модель может вовсе отсутствовать. В этом случае алгоритм назначения битов не использует соотношение SMR (signal to mask ratio, соотношение сигнал/маскирование).

Полное описание психоакустических моделей выходит за рамки этой книги. Его можно найти в разных материалах по аудиостандарту MPEG (см., например, [ISO/IEC 93], стр. 109-139). Основные шаги двух моделей состоят в следующем:

1. С помощью преобразования Фурье делается переход от исходных звуковых сэмплов к их частотным коэффициентам. Это делается отдельно и не так, как в многофазным фильтрах, поскольку для моделей требуется более высокое разрешение для более аккуратного определения порогов маскирования.

2. Полученные частоты группируются по критическим полосам, но не по тем 32, что использовались в основной части кодера.

3. Спектральные значения критических полос разделяются на тональные (подобные синусоиде) и нетональные (шумоподобные) компоненты.

4. Перед определением порогов маскирования шумов для различных критических полос, модель применяет функцию маскирования к сигналам из разных критических полос. Эта функция находится эмпирически, то есть, из экспериментов.

5. Модель вычисляет пороги маскирования для каждой подполосы.

6. Значение SMR (signal to mask ratio, соотношение сигнал/маскирование) вычисляется для каждой подполосы. Оно равно частному от деления энергии сигнала подполосы на минимальный порог маскирования этой подполосы. Множество из 32 значений SMR, по одному на подполосу, образует выходные данные модели.