Взаимная информация и условная энтропия
Пусть имеются два ансамбля и с известным совместным распределением вероятностей . Разумеется, последнее позволяет получить и распределения вероятностей для каждого из ансамблей , . Хотя вводимые ниже категории взаимной информации и условной энтропии в принципе не требуют отождествления с какими-либо физическими явлениями, для наглядности удобно закрепить за входными сообщениями, а – за выходными сообщениями (наблюдениями) канала. Зафиксируем некоторое наблюдение и рассмотрим условную вероятность на множестве . Данная вероятность называется апостериорной, говоря о предсказуемости с учетом известности результата наблюдения (т.е. после того, как этот результат получен). Апостериорная вероятность определяет (условное) количество информации в сообщении при фиксированном наблюдении : . (3.1) Разность . (3.2) между безусловным и условным количествами информации называется количеством информации в сообщении (наблюдении) о сообщении . Поскольку для любых и , соотношению (3.2) можно придать следующую симметричную форму , т. е. количество информации в сообщении о сообщении равно количеству информации в сообщении о сообщении . Следовательно, количество информации – симметрическая функция аргументов и , и поэтому величину называют количеством взаимной информации между сообщениями и или просто взаимной информацией сообщений и . Из (3.2) легко понять, что взаимная информация сообщений и есть ни что иное, как некоторая мера их статистической зависимости. Действительно, для независимых и и, значит, . Детерминированная же взаимно-однозначная зависимость между и приведет к тому, что и для единственного , связанного с соответствием , тогда как для остальных и . В отличие от обычного количества информации, взаимная информация может принимать как положительные, так и отрицательные значения. Этим отражается возможность, как возрастания , так и убывания ожидаемости , после того, как произошло. Иными словами, количество информации о после наблюдения может быть и меньшим, и большим, чем до наблюдения - . Математическое ожидание случайной величины на множестве при фиксированном сообщении . (3.3) называется средней взаимной информацией между ансамблем и сообщением . Математическое ожидание случайной величины на множестве . (3.4) называется средней взаимной информацией между ансамблями и . Если в (3.3) усреднение осуществляется только по ансамблю , а элемент фиксирован, то в (3.4) усреднение проводится и по , и по . Аналогичные операции могут быть осуществлены и над условной собственной информацией . Результат усреднения условной собственной информации по при фиксированном называется условной энтропией ансамбля относительно сообщения . (3.5) Продолжив усреднение далее и по придем к условной энтропии ансамбля относительно ансамбля . (3.6) Согласно (3.4) и (3.2) , т.е. с учетом (1.3) и (3.6) . (3.7) Действуя аналогично, не составляет труда показать, что . Последние два результата позволяют дать ясную трактовку понятию средней взаимной информации, характеризующей взаимозависимость ансамблей и . До того, как наблюдение некоторого сообщения оказалось доступным, неопределенность ансамбля , т.е. средняя информация, содержащаяся в его сообщениях, измерялась безусловной энтропией . Наблюдение сообщения дает новые сведения о сообщениях из , заменяя их безусловные вероятности условными. При этом в среднем неопределенность сообщений из после наблюдения характеризуется условной энтропией . Уменьшение неопределенности за счет наблюдения и есть та информация об , которая извлекается из сообщений ансамбля . В случае канала связи, как было условлено, ансамбль отвечает множеству передаваемых сообщений, а – множеству наблюдений на выходе канала. При этом оценивает в среднем неопределенность относительно того, какое из сообщений было передано, остающуюся после получения сигнала на выходе канала (т.е. наблюдения). В этом свете условная энтропия входного ансамбля относительно выходного может быть названа остаточной энтропией. Содержание понятий средней взаимной информации и условной энтропии станет еще яснее после установления ряда их замечательных свойств. Теорема 3.2.1. Средняя взаимная информация между сообщением и ансамблем, а также средняя взаимная информация между двумя ансамблями всегда неотрицательна: и . (3.8) Доказательство. Применив к (3.3) неравенство (1.5), получаем , что доказывает первое из неравенств (3.8). Справедливость второго следует из того, что согласно определению получается усреднением по . Учитывая условия обращения логарифмического неравенства в равенство, можно заключить, что средняя взаимная информация равна нулю тогда и только тогда, когда для всех , т.е. для независимых ансамблей. Тем самым подтверждается надежность как меры информации об одном ансамбле, содержащейся в другом. Как уже отмечалось, зависимость между ансамблями и означает возможность извлечения новых сведений об ансамбле из , и в силу доказанного любое проявление зависимости автоматически делает среднюю взаимную информацию положительной. Следствие 3.2.1. Условная энтропия ансамбля сообщений относительно ансамбля не превосходит безусловную энтропию того же ансамбля, т. е. . (3.9) Доказательство. Из (3.7) следует , что, с учетом теоремы 3.2.1, означает выполнение (3.9). Неравенство (3.9) можно обобщить на случай произвольного числа ансамблей сообщений, например : . (3.10) Смысл этого вывода вновь легко постижим: дополнительные наблюдения могут лишь увеличивать информированность о предмете интереса (или, по меньшей мере, оставлять ее без изменений), но никогда не приведут к возрастанию неопределенности. Следствие 3.2.2. Пусть заданы три ансамбля сообщений и , причем ансамбль является отображением ансамбля , т.е. . Тогда выполняется неравенство , (3.11) причем равенство имеет место при обратимом отображении, когда каждому элементу соответствует единственный элемент . Доказательство. Запишем разность взаимных информаций . Раскроем выражение в соответствии с (3.6): . Поскольку получается преобразованием , то и , следовательно, с учетом (3.10) . При обратимом преобразовании точно так же и последняя разность обращается в нуль, что и утверждалось. Доказанное следствие весьма содержательно. Оно свидетельствует, что никакие манипуляции с результатами наблюдений из ансамбля не увеличивают осведомленности об ансамбле . Иными словами, максимум информации об содержится в самих наблюдениях и любые преобразования наблюдений могут в лучшем случае лишь сохранить эту информацию, а в худшем – привести к потере какой-то ее части. Подобных потерь не будет, в частности, при взаимно однозначных (обратимых) преобразованиях наблюдений. Обратимость однако, не является необходимым условием сохранения информации и можно привести множество примеров, когда необратимые преобразования также не приводят к потере информации об интересующем наблюдателя ансамбле . Так, пусть ансамбль образован из путем присоединения сообщений другого источника, не связанных с сообщениями . Понятно, что преобразование , заключающееся в отбрасывании посторонних для ансамбля сообщений, сохранит информацию об , содержащуюся в , и в преобразованном . В параграфе 1.3 была рассмотрена энтропия ансамбля, образованного двумя статистически независимыми источниками сообщений. Определив понятие условной энтропии, рассмотрим теперь энтропию совместного ансамбля, составленного из двух исходных. Теорема 3.2.2. Пусть два ансамбля и рассматриваются совместно, образуя новый ансамбль . Тогда энтропия ансамбля . (3.12) Доказательство. Согласно (1.3) , откуда с учетом (1.3) и (3.6) следует первое из равенств в (3.12). Второе является лишь результатом переобозначения и . Соотношение (3.12) легко обобщается на произвольное число ансамблей . Пусть ансамбль . Тогда цепное правило исчисления вероятностей , как и при , трансформируется в правило аддитивности энтропии: . (3.13) Последнее соотношение позволяет взглянуть на источник сообщений с несколько иной точки зрения. Все предыдущие рассуждения проводились в предположении, что источник выдает сообщения побуквенно, т.е. каждое элементарное сообщение можно отождествлять с буквой из некоторого алфавита. В действительности реальный источник обычно генерирует элементарные сообщения (буквы) одно за другим последовательно во времени. Рассмотрим блок из последовательных букв , где верхний индекс (i), т.е. номер элемента последовательности, как и ранее, отвечает дискретному времени. В случае дискретного стационарного источника указанный блок может трактоваться как новое укрупненное сообщение , где . При мощности множества мощность множества , образованного всеми возможными векторами , равна . Тогда, согласно (1.3) и с учетом (3.13), энтропия определится как . Учитывая неотрицательность условной энтропии , очевидным образом следует, что при неограниченном увеличении длины последовательности энтропия также может принять бесконечно большое значение. По этой причине неопределенность подобного источника характеризуют энтропией, приходящейся на одну букву блока длины m , (3.14) получившей также наименование удельной энтропии. Конечность этой величины гарантирована следующей теоремой. Теорема 3.2.3. Для любого дискретного стационарного источника последовательность значений сходится к некоторому пределу : . Следует отметить, что для стационарного ДИБП, генерирующего буквы из ансамбля , и, значит, .
|