Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


6.3. Органы слуха человека

Как уже говорилось, человеческое ухо способно воспринять звуки с частотой от 20 до 22000 Гц, но его чувствительность не является одинаковой в этом интервале. Она зависит от частоты звука. Эксперименты указывают на то, что в тихой окружающей обстановке чувствительность уха максимальна при частотах от 2 до 4 кГц. На рис. 6.4а показан порог слышимости для тихого окружения.

Стоит отметить, что частотный диапазон человеческого голоса также весьма ограничен. Он располагается в интервале от 500 Гц до 2 кГц.

Существование порога слышимости дает основу для построения методов сжатия звука с потерями. Можно удалять все сэмплы, величина которых лежит ниже этого порога. Поскольку порог слышимости зависит от частоты, кодер должен знать спектр сжимаемого звука в каждый момент времени. Для этого нужно хранить несколько предыдущих входных сэмплов (обозначим это число ; оно или фиксировано, или задается пользователем). При вводе следующего сэмпла необходимо на первом шаге сделать преобразование  сэмплов в частотную область. Результатом служит вектор, состоящий из  числовых компонент, которые называются сигналами. Он определяет частотное разложение сигнала. Если сигнал для частоты  меньше порога слышимости этой частоты, то его следует отбросить.

Кроме того, для эффективного сжатия звука применяются еще два свойства органов слуха человека. Эти свойства называются частотное маскирование и временное маскирование.

Частотное маскирование (его еще называют слуховое маскирование) происходит тогда, когда нормально слышимый звук накрывается другим громким звуком с близкой частотой. Толстая стрелка на рис. 6.4b обозначает громкий источник звука с частотой 800 Гц. Этот звук приподнимает порог слышимости в своей окрестности (пунктирная линия). В результате звук, обозначенный тоненькой стрелкой в точке «х» и имеющий нормальную громкость выше своего порога чувствительности, становится неслышимым; он маскируется более громким звуком. Хороший метод сжатия звука должен использовать это свойство слуха и удалять сигналы, соответствующие звуку «х», поскольку они все равно не будут услышаны человеком. Это один возможный путь сжатия с потерями.

Частотное маскирование (область под пунктирной линией на рис. 6.4b) зависит от частоты сигнала. Оно варьируется от 100 Гц для низких слышимых частот до более, чем 4 кГц высоких частот. Следовательно, область слышимых частот можно разделить на несколько критических полос, которые обозначают падение чувствительности уха (не путать со снижением мощности разрешения) для более высоких частот.

309.jpg

Рис. 6.4. Порог и маскирование звука.

Можно считать критические полосы еще одной характеристикой звука, подобной его частоте. Однако, в отличие от частоты, которая абсолютна и не зависит от органов слуха, критические полосы определяются в соответствии со слуховым восприятием. В итоге они образуют некоторые меры восприятия частот. В табл. 6.5 перечислены 27 приближенных критических полос.

полоса

область

полоса

область

полоса

область

0

0-50

9

800-940

18

3280-3840

1

50-95

10

940-1125

19

3840-4690

2

95-140

11

1125-1265

20

4690-5440

3

140-235

12

1265-1500

21

5440-6375

4

235-330

13

1500-1735

22

6375-7690

5

330-420

14

1735-1970

23

7690-9375

6

420-560

15

1970-2340

24

9375-11625

7

560-660

16

2340-2720

25

11625-15375

8

660-800

17

2720-3280

26

15375-20250

Табл. 6.5. 27 приближенных критических полос.

Критические полосы можно описать следующим образом: из-за ограниченности слухового восприятия звуковых частот порог слышимости частоты  приподнимается соседним звуком, если звук находится в критической полосе . Это свойство открывает путь для разработки практического алгоритма сжатия аудиоданных с потерями. Звук необходимо преобразовать в частотную область, а получившиеся величины (частотный спектр) следует разделить на подполосы, которые максимально приближают критические полосы. Если это сделано, то сигналы каждой из подполос нужно квантовать так, что шум квантования (разность между исходным звуковым сэмплом и его квантованными значениями) был неслышимым.

Еще один возможный взгляд на концепцию критической полосы состоит в том, что органы слуха человека можно представить себе как своего рода фильтр, который пропускает только частоты из некоторой области (полосы пропускания) от 20 до 20000 Гц. В качестве модели ухо- мозг мы рассматриваем некоторое семейство фильтров, каждый из которых имеет свою полосу пропускания. Эти полосы называются критическими. Они пересекаются и имеют разную ширину. Они достаточно узки (около 100 Гц) в низкочастотной области и расширяются (до 4 - 5 кГц) в области высоких частот.

Ширина критической полосы называется ее размером. Для измерения этой величины вводится новая единица «барк» («Bark» от H.G.Barkhausen). Один барк равен ширине (в герцах) одной критической полосы. Эта единица определяется по формуле

На рис. 6.4с показаны несколько критических полос с величиной барк от 14 до 25 единиц, которые помещены над кривой порогов слышимости.

311.jpg

Рис. 6.6. Порог и маскирование звука.

Временное маскирование происходит, когда громкому звуку  частоты  по времени предшествует или за ним следует более слабый звук  близкой частоты. Если интервал времени между этими звуками не велик, то звук  будет не слышен. Рис. 6.6 иллюстрирует пример временного маскирования. Порог временного маскирования от громкого звука в момент времени 0 идет вверх сначала круто, а потом полого. Более слабый звук в 30 дБ не будет слышен, если он раздастся за 10 мсек до или после громкого звука, но будет различим, если временной интервал между ними будет больше 20 мсек.

 



<< ПредыдущаяОглавлениеСледующая >>