1.4. Энтропия и производительность источника сообщенийДля построения теории связи основное значение имеет не количество информации, содержащееся в некотором конкретном сообщении, а средняя величина (математическое ожидание) количества информации, содержащегося в одном элементарном сообщении источника:
Здесь, как и всюду в дальнейшем, горизонтальная черта обозначает математическое ожидание. Величина В простейшем случае источника независимых сообщений, в котором вероятность выбора того или иного элемента сообщения не зависит от ранее выбранных элементов,
где Обычно отмечают, что энтропия характеризует заданное распределение вероятностей с точки зрения степени неопределенности исхода испытания, т. е. неопределенности выбора того или иного сообщения. Действительно, легко убедиться, что энтропия равна нулю тогда и только тогда, когда одна из вероятностей
При этом степень неопределенности выбора, понимаемая интуитивно, больше, чем при не равных вероятностях После того как источник произвел выбор некоторого конкретного элемента сообщения, существовавшая неопределенность устраняется. С этой точки зрения количество информации, содержащееся в среднем в элементе, измеряется неопределенностью, которая оказалась устраненной в результате выбора этого элемента, т. е. энтропией источника. Возможна и другая наглядная интерпретация понятия энтропии как меры «разнообразия» сообщений, создаваемых источником. Легко убедиться, что приведенные выше свойства энтропии вполне согласуются с интуитивным представлением о мере разнообразия. Также естественно считать, что количество информации, содержащееся в элементе сообщения, тем больше, чем более разнообразны возможности выбора этого элемента. Определим теперь энтропию для более общего класса источников сообщений, в котором вероятность выбора элемента зависит от того, какие элементы были выбраны ранее. Ограничимся при этом источниками, в которых вероятностные связи выражены только для элементов, 24 не очень далеко отстоящих друг от друга. Именно с такими источниками сообщений чаще всего приходится встречаться в реальной действительности. Так, например, если источник выдает сообщение в виде текста, написанного на русском (или каком-либо ином) языке, то вероятность появления некоторой буквы сильно зависит от нескольких предшествующих букв, но почти не зависит от той части текста, которая отстоит от нее, скажем, на несколько десятков слов. Действительно, если в каком-либо тексте мы найдем сочетание букв «распределе...», то с большой степенью уверенности можно ожидать, что за ними последуют буквы «ние». Далее, если текст математический, то вслед за словом «распределение» с большой вероятностью последует слово «вероятностей». Однако вероятность того, какие буквы или слова будут на следующей строке, практически не зависит от букв, написанных в начале предыдущей строки. Несколько более протяженные вероятностные связи можно обнаружить в стихотворном тексте (вследствие ритма и рифмы), но и здесь они, как правило, не простираются дальше, чем на одну строфу. Другим примером может служить источник, измеряющий с заданной точностью через определенные промежутки времени атмосферное давление в каком-либо пункте. В этом примере вероятностные связи между результатами наблюдений распространяются на большие промежутки времени, порядка нескольких дней или недель, и, следовательно, охватывают много элементарных сообщений (если измерения производятся достаточно часто, например каждый час). Однако и здесь можно указать достаточно большой отрезок времени (несколько месяцев или лет), на который эти связи практически совсем не распространяются. Математическим представлением сообщений, создаваемых такими источниками, являются цепи Маркова. Цепью Маркова
В марковском источнике Число различных возможных последовательностей из
Выражение
Выражение (1.7а) является частным случаем (1.10) при
В теории информации доказывается, что всегда Для характеристики алфавита источника сообщения представляет интерес сравнение энтропии
Из сказанного выше ясно, что причинами избыточности могут являться неодинаковые вероятности элементов сообщения и наличие вероятностных связей между близко расположенными элементами.
Для многих практических задач интерес представляют источники, выдающие сообщения в виде текста, написанного на каком-либо языке. В частности, для русского языка, считая число букв в алфавите равным 32, имеем Если учесть неравные вероятности появления букв в тексте и зависимость этих вероятностен от ранее предшествовавших букв, то по данным различных авторов энтропия, приходящаяся на одну букву, находится в пределах от 1 до 2,5 дв. ед. Такой значительный разброс результатов вызван трудностью учета всех вероятностных связей, простирающихся на значительное число последовательных букв. К тому же величина энтропии в некоторой степени зависит от характера текста. Исходя из этих данных, избыточность русского алфавита лежит в пределах от 0,5 до 0,8. По-видимому, вторая цифра ближе к действительности. Близкие к этим данные получены и для алфавитов многих других языков. Определенная выше энтропия источника на элемент сообщения зависит от того, каким образом сообщения расчленяются на элементы, т. е. от выбора алфавита. Однако энтропия обладает важным свойством аддитивности. Пусть источник сообщения с объемом алфавита
Определим избыточность вторичного алфавита
откуда, учитывая (1.13),
Из выражения (1.4) следует, что избыточность при укрупнении алфавита не изменяется. Отметим, что при укрупнении алфавита ослабляются взаимные вероятностные связи между элементами сообщения. Если выбрать величину Для источников с фиксированной скоростью важной характеристикой является производительность, т. е. среднее количество информации, выдаваемое в единицу времени. Если в среднем каждое элементарное сообщение занимает время
Если в системе связи передаются сообщения от источника с управляемой скоростью, то среднее время Легко убедиться, что производительность источника не изменяется при операции укрупнения алфавита.
|