Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


6.5. Сжатие звука в стандарте MPEG-1

Стандарт MPEG-1 сжатия видеофильмов состоит из двух основных частей: сжатия видео и сжатия звука. В этом параграфе обсуждается принципы компрессии звука в MPEG-1, а именно, его третий слой, который широко известен по аббревиатуре МР3. Мы советуем читателям обязательно прочитать первую часть этой главы перед тем, как пытаться освоить этот материал.

Формальное имя стандарта MPEG-1 - international standard for moving picture video compression IS 11172 (международный стандарт для сжатия движущихся изображений). Он состоит из 5 частей, среди которых часть 3 [ISO/IEC 93] определяет алгоритм сжатия звука. Как любой стандарт, выработанный ITU или ISO, документ, описывающий MPEG-1, имеет нормативный и описательный разделы. Нормативный раздел содержит спецификации стандарта. Он написан строгим языком для тех, кто будем создавать программные реализации метода для конкретных машинных платформ. Описательный раздел иллюстрирует выбранные концепции, объясняет причины выбора того или иного подхода, содержит необходимые базовые сведения.

Примером нормативного раздела являются таблицы с различными параметрами и с кодами Хаффмана, которые используются в стандарте MPEG. А примером описательного раздела служит алгоритм, задающий психоаккустическую модель. MPEG не дает конкретного алгоритма, и кодер MPEG свободен в выборе метода реализации модели. В этом параграфе просто рассматриваются некоторые возможные альтернативы.

Аудиостандарт MPEG-1 описывает три метода сжатия, называемые слоями (layer), которые обозначаются римскими числами I, II и III. Все три слоя входят в стандарт MPEG-1, но здесь будет описан только слой III. При сжатии видеофильмов используется только один слой, который обозначается в заголовке сжатого файла. Любой из этих слоев можно независимо использовать для сжатия звука без видео. Функциональные модули младших слоев могут быть использованы старшими слоями, но более высокие слои используют дополнительные возможности для лучшего сжатия. Интересной особенностью слоев является их иерархическая структура, то есть, декодер слоя III может декодировать файлы сжатые слоями I и II.

Результатом разработки трех слоев было возрастание популярности слоя III. Кодер этого метода очень сложен, но он производит замечательную компрессию, это обстоятельство в сочетании с тем, что декодер существенно проще кодера, породило небывалый взрыв популярности звуковых файлов, которые называются МР3-файлами. Очень легко добыть декодер слоя III, с помощью которого можно прослушивать записи формата МР3, которые в огромном количестве находятся во всемирной паутине. Это был настоящий триумф аудиочасти проекта MPEG.

Аудиостандарт MPEG [ISO/IEC 93] начинается нормативным описанием формата сжатого файла для каждого из трех слоев. Затем следует нормативное описание декодера. Описание кодера (оно разное для всех слоев), а также двух психоакустических моделей содержится в описательном разделе; любой кодер, способный сгенерировать корректно сжатый файл, может считаться допустимым кодером MPEG. Имеется также несколько приложений, в которых обсуждаются смежные вопросы, например, защита от ошибок.

По контрасту с MPEG-видео, где имеется большое число информационных ресурсов, читателю доступно относительно малое число источников технической литературы по MPEG-аудио. Вместе со ссылками следующего абзаца можно порекомендовать MPEG консорциум [MPEG 2000]. На этом сайте имеется масса ссылок на другие ресурсы, которые время от времени обновляются. Другим источником информации может служить Ассоциация аудиоинженеров (Association of Audio Engineers, AES). Большинство идей и технических решений, использованных в аудиостандарте MPEG были опубликованы в трудах многих конференций этой организации. Однако эти материалы не являются свободно доступными и их можно получить только из AES.

Для дополнительной информации по трем слоям см. [Brandenburg, Stoll 94], [ISO/IEC 93], [Pan 95], [Rao, Hwang 96] и [Shlien 94].

При оцифровывании видеофильмов звуковая часть может состоять из двух звуковых дорожек (стереозвук), каждая из которых сэмплирована при 44.1 кГц с 16-битными звуковыми фрагментами. Это приводит к битовой скорости аудиоданных  бит/сек, близкой к 1.5 Мбит/сек. Кроме скорости сэмплирования в 44.1 кГц предусмотрены скорости 32 кГц и 48 кГц. Важным свойством MPEG аудио является возможность задания пользователем коэффициента сжатия. Стандарт позволяет получить битовую скорость сжатого звукового файла в диапазоне от 32 до 224 Кбит/сек на один аудиоканал (их обычно два для стереозвука). В зависимости от исходной частоты сэмплирования, эти битовые скорости означают фактор сжатия от 2.7 (низкий) до 24 (впечатляющий)! Причина жесткой заданности битовой скорости сжатого файла связана с необходимостью синхронизации звука и сжатого видеоряда.

В основе сжатия звука в MPEG лежит принцип квантования. Однако, квантуемые величины берутся не из звуковых сэмплов, а из чисел (называемых сигналами) которые выделяются из частотной области звука (это обсуждается в следующем абзаце). Тот факт, что коэффициент сжатия (или битовая скорость) известен кодеру означает, что кодер в каждый момент времени знает, сколько бит можно назначить квантуемому сигналу. Следовательно важной частью кодера является (адаптивный) алгоритм назначения битов. Этот алгоритм использует известную битовую скорость и частотный спектр самых последних аудиосэмплов для определения размера квантованного сигнала так, чтобы шум квантования (разность между исходным сигналом и его квантованным образом) была неслышимой (т.е., она находится ниже порога маскирования, который обсуждался в § 6.3).

Психоакустические модели используют частоту сжимаемого звука, но входной файл содержит звуковые сэмплы, а не звуковые частоты. Эти частоты необходимо вычислить с помощью сэмплов. По этой причине первым шагом аудиокодера MPEG является дискретное преобразование Фурье, при котором 512 последовательных звуковых сэмплов преобразуется в частотную область. Поскольку количество частот может быть большим, их группируют в 32 подполосы одинаковой ширины. Для каждой подполосы вычисляется число, которое указывает на интенсивность звука в данной подполосе. Эти числа, называемые сигналами, затем квантуются. Грубость квантования на каждой подполосе определяется с помощью порога маскирования этой подполосы, а также с помощью числа оставшихся для кодирования битов. Порог маскирования для каждой подполосы вычисляется с помощью психоакустической модели.

MPEG использует две психоакустические модели для частотного и временного маскирования. Каждая модель описывает, как громкий звук маскирует другие звуки, которые близки к этому звуку по частоте или по времени. Модель разделяет область частот на 24 критические полосы и определяет, как эффекты маскирования проявляются в каждой из полос. Эффект маскирования, конечно, зависит от частот и амплитуд тонов. Когда звук разжимается и воспроизводится, пользователь (слушатель) может выбрать любую амплитуду звучания, поэтому психоакустическая модель должна быть разработана для наихудшего случая. Эффекты маскирования также зависят от природы источника сжимаемого звука. Источник может быть музыкальноподобным или шумоподобным. Две психоакустические модели основаны на результатах экспериментальной работе исследователей за многие годы.

Декодер должен быть быстрым, поскольку ему, возможно, предстоит декодировать видео и аудио в режиме реального времени. Поэтому он должен быть простым. Значит, у него нет времени использовать психоакустическую модель или алгоритм назначения битов. То есть, сжатый файл должен содержать исчерпывающую информацию, которую декодер будет использовать при деквантовании сигналов. Эта информация (размер квантованных сигналов) должна быть записана кодером в сжатый файл и она требует некоторое дополнительные расходы, которые будут удовлетворены за счет оставшихся битов.

318.jpg

Рис. 6.8. Кодер звука MPEG (а) и его декодер (b).

На рис 6.8 приведена блок-схема основных компонентов кодера и декодера звука в MPEG. Вспомогательные данные определяются пользователем; обычно они связаны с конкретными приложениями. Эти данные не являются обязательными.

 



<< ПредыдущаяОглавлениеСледующая >>