Количество информации, расчет количества информации. – Ракаев
При алфавитном подходе к подсчёту количества информации необходимо подсчитать количество символов, содержащихся в текстовом сообщении (включая цифры, пробелы, знаки препинания и пунктуации). Один символ текстового сообщения будет соответствовать определённому количеству байт, принятому в данной кодировке. В русскоязычном тексте один символ, как правило, кодируется одним байтом. Поэтому количество информации в тексте будет соответствовать количеству подсчитанных символов. В теории информации понятие количества информации связано со степенью новизны сведений об объекте, которая, в свою очередь, является следствием их неопределенности. Однако, если сообщение указывает на один из N равновероятных вариантов, то количество информации, которое содержится в нём, можно вычислить по формуле Хартли: где N - количество равновероятных вариантов в каком-либо событии. Иными словами при равновероятных вариантах исхода какого-либо события количество информации равно степени, в которую необходимо возвести 2, чтобы получить число равноправных вариантов выбора, т. е. 2x = N. Кроме того, в этом случае, для того чтобы определить количество информации, содержащейся в каком-либо сообщении, достаточно задать минимальное количество элементарных вопросов, для того чтобы выведать эту информацию. Ответ, на задаваемый вопрос, «да», или «нет» будет являться 1 битом информации. При расчёте количества информации очень важно понимать различие, которое связано с количеством хранимой или переданной информации, представленной в двоичных единицах, и количеством информации, заключенным в данном сообщении. Действительно, при расчётах по формуле Хартли ответ может получиться дробным и не учитывается возможность того, что варианты исходов какого-либо события могут иметь разную вероятность. Так при подбрасывании монеты существует вероятность, хотя и незначительная, что монета может встать на ребро. Ответы на поставленные вопросы даёт вероятностный подход к расчёту количества информации, содержащейся в заданном сообщении, который основан на понятии энтропии в смысле К. Шеннона. Энтропия дискретной случайной величины (мера неопределённости) - это минимум среднего количества бит, которое нужно передать по каналу связи о текущем состоянии данной дискретной случайной величины. Рассчитывается по формуле: где pi - вероятность события. При вероятностном подходе для расчёта количества информации используются следующие формулы. Для одной дискретной случайной величины X, заданной законом распределения pi: Для дискретных случайных величин X и Y, заданных законами распределения pi, qj и их совместным распределением pij, количество информации содержащейся в X относительно Y равно: Данная формула учитывает то обстоятельство, что в каком-либо сообщении некоторые символы или слова могут иметь разную вероятность их появления, зависящую от предыдущего символа или слова. Например, в некотором предложении после слова «передовик», вероятнее всего, последует слово «производства».
|