Пусть имеются два ансамбля
и
с известным совместным распределением вероятностей
. Разумеется, последнее позволяет получить и распределения вероятностей для каждого из ансамблей
,
.
Хотя вводимые ниже категории взаимной информации и условной энтропии в принципе не требуют отождествления
с какими-либо физическими явлениями, для наглядности удобно закрепить
за входными сообщениями, а
– за выходными сообщениями (наблюдениями) канала. Зафиксируем некоторое наблюдение
и рассмотрим условную вероятность
на множестве
. Данная вероятность называется апостериорной, говоря о предсказуемости
с учетом известности результата наблюдения
(т.е. после того, как этот результат получен). Апостериорная вероятность определяет (условное) количество информации в сообщении
при фиксированном наблюдении
:
. (3.1)
Разность
. (3.2)
между безусловным и условным количествами информации называется количеством информации в сообщении (наблюдении)
о сообщении
.
Поскольку для любых
и
, соотношению (3.2) можно придать следующую симметричную форму
,
т. е. количество информации в сообщении
о сообщении
равно количеству информации в сообщении
о сообщении
. Следовательно, количество информации
– симметрическая функция аргументов
и
, и поэтому величину
называют количеством взаимной информации между сообщениями
и
или просто взаимной информацией сообщений
и
.
Из (3.2) легко понять, что взаимная информация сообщений
и
есть ни что иное, как некоторая мера их статистической зависимости. Действительно, для независимых
и
и, значит,
. Детерминированная же взаимно-однозначная зависимость между
и
приведет к тому, что
и
для единственного
, связанного с
соответствием
, тогда как для остальных
и
. В отличие от обычного количества информации, взаимная информация
может принимать как положительные, так и отрицательные значения. Этим отражается возможность, как возрастания
, так и убывания
ожидаемости
, после того, как
произошло. Иными словами, количество информации
о
после наблюдения
может быть и меньшим, и большим, чем до наблюдения -
.
Математическое ожидание случайной величины
на множестве
при фиксированном сообщении 
. (3.3)
называется средней взаимной информацией между ансамблем
и сообщением
.
Математическое ожидание случайной величины
на множестве 
. (3.4)
называется средней взаимной информацией между ансамблями
и
.
Если в (3.3) усреднение
осуществляется только по ансамблю
, а элемент
фиксирован, то в (3.4) усреднение проводится и по
, и по
.
Аналогичные операции могут быть осуществлены и над условной собственной информацией
. Результат усреднения условной собственной информации
по
при фиксированном
называется условной энтропией ансамбля
относительно сообщения 
. (3.5)
Продолжив усреднение далее и по
придем к условной энтропии ансамбля
относительно ансамбля 
. (3.6)
Согласно (3.4) и (3.2)

,
т.е. с учетом (1.3) и (3.6)
. (3.7)
Действуя аналогично, не составляет труда показать, что
.
Последние два результата позволяют дать ясную трактовку понятию средней взаимной информации, характеризующей взаимозависимость ансамблей
и
. До того, как наблюдение некоторого сообщения
оказалось доступным, неопределенность ансамбля
, т.е. средняя информация, содержащаяся в его сообщениях, измерялась безусловной энтропией
. Наблюдение сообщения
дает новые сведения о сообщениях из
, заменяя их безусловные вероятности условными. При этом в среднем неопределенность сообщений из
после наблюдения
характеризуется условной энтропией
. Уменьшение неопределенности
за счет наблюдения
и есть та информация об
, которая извлекается из сообщений ансамбля
. В случае канала связи, как было условлено, ансамбль
отвечает множеству передаваемых сообщений, а
– множеству наблюдений на выходе канала. При этом
оценивает в среднем неопределенность относительно того, какое из сообщений было передано, остающуюся после получения сигнала на выходе канала (т.е. наблюдения). В этом свете условная энтропия
входного ансамбля относительно выходного может быть названа остаточной энтропией.
Содержание понятий средней взаимной информации и условной энтропии станет еще яснее после установления ряда их замечательных свойств.
Теорема 3.2.1. Средняя взаимная информация между сообщением и ансамблем, а также средняя взаимная информация между двумя ансамблями всегда неотрицательна:
и
. (3.8)
Доказательство. Применив к (3.3) неравенство (1.5), получаем
,
что доказывает первое из неравенств (3.8). Справедливость второго следует из того, что согласно определению
получается усреднением
по
.
Учитывая условия обращения логарифмического неравенства в равенство, можно заключить, что средняя взаимная информация
равна нулю тогда и только тогда, когда
для всех
, т.е. для независимых ансамблей. Тем самым подтверждается надежность
как меры информации об одном ансамбле, содержащейся в другом. Как уже отмечалось, зависимость между ансамблями
и
означает возможность извлечения новых сведений об ансамбле
из
, и в силу доказанного любое проявление зависимости автоматически делает среднюю взаимную информацию положительной.
Следствие 3.2.1. Условная энтропия ансамбля сообщений
относительно ансамбля
не превосходит безусловную энтропию того же ансамбля, т. е.
. (3.9)
Доказательство. Из (3.7) следует
, что, с учетом теоремы 3.2.1, означает выполнение (3.9).
Неравенство (3.9) можно обобщить на случай произвольного числа ансамблей сообщений, например
:
. (3.10)
Смысл этого вывода вновь легко постижим: дополнительные наблюдения могут лишь увеличивать информированность о предмете интереса (или, по меньшей мере, оставлять ее без изменений), но никогда не приведут к возрастанию неопределенности.
Следствие 3.2.2. Пусть заданы три ансамбля сообщений
и
, причем ансамбль
является отображением ансамбля
, т.е.
. Тогда выполняется неравенство
, (3.11)
причем равенство имеет место при обратимом отображении, когда каждому элементу
соответствует единственный элемент
.
Доказательство. Запишем разность взаимных информаций
.
Раскроем выражение
в соответствии с (3.6):
.
Поскольку
получается преобразованием
, то
и
, следовательно, с учетом (3.10)
.
При обратимом преобразовании точно так же
и последняя разность обращается в нуль, что и утверждалось.
Доказанное следствие весьма содержательно. Оно свидетельствует, что никакие манипуляции с результатами наблюдений из ансамбля
не увеличивают осведомленности об ансамбле
. Иными словами, максимум информации об
содержится в самих наблюдениях и любые преобразования наблюдений могут в лучшем случае лишь сохранить эту информацию, а в худшем – привести к потере какой-то ее части. Подобных потерь не будет, в частности, при взаимно однозначных (обратимых) преобразованиях наблюдений. Обратимость однако, не является необходимым условием сохранения информации и можно привести множество примеров, когда необратимые преобразования также не приводят к потере информации об интересующем наблюдателя ансамбле
. Так, пусть ансамбль
образован из
путем присоединения сообщений другого источника, не связанных с сообщениями
. Понятно, что преобразование
, заключающееся в отбрасывании посторонних для ансамбля
сообщений, сохранит информацию об
, содержащуюся в
, и в преобразованном
.
В параграфе 1.3 была рассмотрена энтропия ансамбля, образованного двумя статистически независимыми источниками сообщений. Определив понятие условной энтропии, рассмотрим теперь энтропию совместного ансамбля, составленного из двух исходных.
Теорема 3.2.2. Пусть два ансамбля
и
рассматриваются совместно, образуя новый ансамбль
. Тогда энтропия ансамбля 
. (3.12)
Доказательство. Согласно (1.3)

,
откуда с учетом (1.3) и (3.6) следует первое из равенств в (3.12). Второе является лишь результатом переобозначения
и
.
Соотношение (3.12) легко обобщается на произвольное число
ансамблей
. Пусть ансамбль
. Тогда цепное правило исчисления вероятностей
,
как и при
, трансформируется в правило аддитивности энтропии:
. (3.13)
Последнее соотношение позволяет взглянуть на источник сообщений с несколько иной точки зрения. Все предыдущие рассуждения проводились в предположении, что источник выдает сообщения побуквенно, т.е. каждое элементарное сообщение
можно отождествлять с буквой из некоторого алфавита. В действительности реальный источник обычно генерирует элементарные сообщения (буквы) одно за другим последовательно во времени. Рассмотрим блок из
последовательных букв
, где верхний индекс (i), т.е. номер элемента последовательности, как и ранее, отвечает дискретному времени. В случае дискретного стационарного источника указанный блок может трактоваться как новое укрупненное сообщение
, где
. При мощности
множества
мощность множества
, образованного всеми возможными векторами
, равна
. Тогда, согласно (1.3) и с учетом (3.13), энтропия
определится как
.
Учитывая неотрицательность условной энтропии
, очевидным образом следует, что при неограниченном увеличении длины последовательности
энтропия также может принять бесконечно большое значение. По этой причине неопределенность подобного источника характеризуют энтропией, приходящейся на одну букву блока длины m
, (3.14)
получившей также наименование удельной энтропии. Конечность этой величины гарантирована следующей теоремой.
Теорема 3.2.3. Для любого дискретного стационарного источника последовательность значений
сходится к некоторому пределу
:
.
Следует отметить, что для стационарного ДИБП, генерирующего буквы из ансамбля
,
и, значит,
.