ЛИЗ Мера количества информации

12 3 Следующая ⇒

ТЕМА 5. ИНФОРМАЦИЯ И ЭНТРОПИЯ

Основные понятия и определения:

Ансамбль сообщений. Энтропия. Избыточность источника. Коэффициент сжатия.

6. Способы измерения информации

Понятие количества информации естественно возникает, например, в следующих типовых случаях:

1. Равенство вещественных переменных a = b, заключает в себе информацию о том, что a равно b. Про равенство

a2 = b2 можно сказать, что оно несет меньшую информацию, чем первое, т.к. из первого следует второе, но не наоборот.

Равенство a3 = b3 несет в себе информацию по объему такую же, как и первое;

2. Пусть происходят некоторые измерения с некоторой погрешностью. Тогда чем больше будет проведено изме-

рений, тем больше информации об измеряемой сущности будет получено;

3. М. о. некоторой сл. в. содержит в себе информацию о самой сл. в. Для сл. в., распределенной по нормальному

закону, с известной дисперсией знание м.о. дает полную информацию

4. Рассмотрим схему передачи информации. Пусть передатчик описывается сл.в. X, тогда из-за помех в канале

связи на приемник будет приходить сл.в. Y = X + Z, где Z | это сл.в., описывающая помехи. В этой схеме можно

говорить о количестве информации, содержащейся в сл.в. Y, относительно X. Чем ниже уровень помех (дисперсия Z

мала), тем больше информации можно получить из Y. При отсутствии помех Y содержит в себе всю информацию об

В 1865 г. немецкий физик Рудольф Клаузиус ввел в статистическую физику понятие энтропии или меры уравно-

вешенности системы.

В 1921 г. английский математик Рональд Фишер впервые ввел термин \информация" в математическую стати-

стику, но полученные им формулы носят очень специальный характер.

В 1948 г. Клод Шеннон в своих работах по теории связи выписывает формулы для вычисления количества инфор-

мация и энтропии. Термин энтропия используется Шенноном по совету патриарха компьютерной эры фон Неймана,

отметившего, что полученные Шенноном для теории связи формулы для ее расчета совпали с соответствующими

формулами статистической физики, а также то, что \точно никто не знает", что же такое энтропия.

I Упражнение 4

Какое из соотношений несет в себе больше информации x = 5 или x > 3?

7. Вероятностный подход к измерению дискретной и

непрерывной информации

В основе теории информации лежит предложенный Шенноном способ измерения количества информации, содер-

жащейся в одной сл.в. относительно другой сл.в. Этот способ приводит к выражению количества информации числом.

Для д. с.в. X и Y, заданных законами распределения P(X = Xi) = pi, P(Y = Yj) = qj и совместным распределе-

нием P(X = Xi; Y = Yj) = pij, количество информации, содержащейся в X относительно Y, равно

I(X; Y) =

i;j

pij log2

pij

piqj

Для непрерывных сл. в. X и Y, заданных плотностями распределения вероятностей pX(t1), pY (t2) и pXY (t1; t2),

аналогичная формула имеет вид

I(X; Y) =

pXY (t1; t2) log2

pXY (t1; t2)

pX(t1)pY (t2)

dt1dt2:

Очевидно, что

P(X = Xi;X = Xj) =

0; при i 6= j

P(X = Xi); при i = j

и, следовательно,

I(X;X) =

pi log2

pipi

= 􀀀

pi log2 pi:

Энтропия д.с.в. X в теории информации определяется формулой

H(X) = HX = I(X;X):

Свойства меры информации и энтропии:

1) I(X; Y) > 0, I(X; Y) = 0, X и Y независимы;

2) I(X; Y) = I(Y;X);

3) HX = 0, X | константа;

4) I(X; Y) = HX + HY 􀀀 H(X; Y), где H(X; Y) = 􀀀

i;j pij log2 pij;

5) I(X; Y) 6 I(X;X). Если I(X; Y) = I(X;X), то X | функция от Y.

8. Смысл энтропии Шеннона

Энтропия д.с.в. | это минимум среднего количества бит, которое нужно передавать по каналу связи о текущем

значении данной д.с.в.

Рассмотрим пример (скачки). В заезде участвуют 4 лошади с равными шансами на победу, т. е. вероятность

победы каждой лошади равна 1/4. Введем д.с.в. X, равную номеру победившей лошади. Здесь HX = 2. После каждого

заезда по каналам связи достаточно будет передавать два бита информации о номере победившей лошади. Кодируем

номер лошади следующим образом: 1|00, 2|01, 3|10, 4|11. Если ввести функцию L(X), которая возвращает длину

сообщения, кодирующего заданное значение X, то м. о. ML(X) | это средняя длина сообщения, кодирующего X.

Можно формально определить L через две функции L(X) = len(code(X)), где code(X) каждому значению X ставит

в соответствие некоторый битовый код, причем, взаимно однозначно, а len возвращает длину в битах для любого

конкретного кода. В этом примере ML(X) = HX.

Пусть теперь д.с.в. X имеет следующее распределение

P(X = 1) =

; P(X = 2) =

; P(X = 3) = P(X = 4) =

;

т.е. лошадь с номером 1 | это фаворит. Тогда

HX =

log2

log2 8 +

log2 16 =

􀀀

log2 3 _ 1:186 бит/сим:

Закодируем номера лошадей: 1|0, 2|10, 3|110, 4|111, | т. е. так, чтобы каждой код не был префиксом другого

кода (подобное кодирование называют префиксным). В среднем в 16 заездах 1-я лошадь должна победить в 12 из них,

2-я | в 2-х, 3-я | в 1-м и 4-я | в 1-м. Таким образом, средняя длина сообщения о победителе равна (1 _ 12 + 2 _

2 + 3 _ 1 + 3 _ 1)=16 = 1:375 бит/сим или м.о. L(X). Действительно, L(X) сейчас задается следующим распределением

вероятностей: P(L(X) = 1) = 3=4, P(L(X) = 2) = 1=8, P(L(X) = 3) = 1=8. Следовательно,

ML(X) =

= 1:375 бит/сим:

Итак, ML(X) > HX.

Можно доказать, что более эффективного кодирования для двух рассмотренных случаев не существует.

То, что энтропия Шеннона соответствует интуитивному представлению о мере информации, может быть проде-

монстрировано в опыте по определению среднего времени психических реакций. Опыт заключается в том, что перед

испытуемым человеком зажигается одна из N лампочек, которую он должен указать. Проводится большая серия ис-

пытаний, в которых каждая лампочка зажигается с определенной вероятностью pi (

i pi = 1), где i | это номер

лампочки. Оказывается, среднее время, необходимое для правильного ответа испытуемого, пропорционально величине

энтропии 􀀀

i=1 pi log2 pi, а не числу лампочек N, как можно было бы подумать. В этом опыте предполагается, что

чем больше информации будет получено человеком, тем дольше будет время ее обработки и, соответственно, реакции

на нее.

I Упражнение 13

Найти энтропию д.с.в. X и среднюю длину каждого из приведенных кодов для этой д.с.в.

X 1 3 4 5 6

p 0.4 0.2 0.1 0.2 0.1

code1(X) 000 001 010 011 111

code2(X) 0 100 101 110 111

code3(X) 00 01 110 10 111

code4(X) 0 10 1110 110 1111.

НОВ Теория информации и ее многочисленные приложения базируются на универсальной количественной мере информации, пригодной для сообщений любой природы.

Получение информации о событиях, процессах или объектах, как правило, изменяет уровень наших знаний и понимания. Сообщение
о хорошо известном событии не пополняет наш тезаурус (не информативно), тогда как сообщение о малоизвестном или предстоящем событии потенциально заключает в себе много информации. Пример 1: для современного человека фраза типа “все материальные объекты состоят из атомов и молекул” представляется очевидной и неинформативной. Пример 2: для потенциального инвестора сообщение о разработке некоторого программного продукта, который может эффективно использоваться в процессе реализации проекта и должен привести
к получению больших прибылей, чрезвычайно информативно
с прагматической точки зрения.

Предположение о том, что количество информации в сообщении
о некотором событии связано с вероятностью этого события, было впервые сделано в работе Хартли (1928 г.). В современной теории информации, использующей вероятностный подход, количество информации в сообщении исчисляют в логарифмических единицах

где - вероятность сообщения. Так как , то величина положительна и конечна. В случае количество информации равно нулю.

Важнейшим свойством информации является аддитивность, т.е. ее количество в нескольких независимых сообщениях равно сумме количеств информации в каждом из них. Это легко показать, используя известное свойство вероятности произведения независимых событий. Так как совместная вероятность независимых сообщений

то количество информации в этих сообщениях

Основание логарифма обычно принимают равным 2, и тогда количество информации выражается в двоичных единицах (“binary digit” - битах).

В двоичных системах передачи информации используется лишь два символа, условно обозначаемых как 0 и 1. При независимых и равновероятных символах, когда , каждый из них несет одну двоичную единицу информации

В случае ограниченного числа дискретных сообщений вводится понятие ансамблясообщений, - совокупности возможных сообщений и их вероятностей

Так как ансамбль сообщений образует полную группу событий, то

Если все сообщения равновероятны:

то количество информации в каждом из них равно

Имеющаяся до передачи сообщения неопределенность относительно того, какое конкретно из сообщений будет передаваться, после его приема исчезает. При этом, чем больше величина , тем больше неопределенность и тем большее количество информации содержится
в переданном сообщении.

Пример. Пусть при передаче сообщений используется алфавит из букв. Определим количество информации в передаваемом слове из букв, если вероятности их появления одинаковы и они следуют независимо друг от друга. Количество информации при передаче одной буквы равно

В связи с тем, что все буквы равновероятны и количество информации в каждой букве . При независимом появлении букв количество информации в слове определяется соотношением

В простейшем случае двоичного кода ансамбль элементарных сообщений включает лишь два элемента: 0 и 1 (m = 2) и сообщение из n символов несет информацию

На практике при передаче сообщений неопределенность обычно снимается не полностью из-за шумов в канале передачи информации и связанных с ними ошибок. По принятому сигналу лишь с некоторой вероятностью можно судить о том, что передавалось сообщение , т.е. после получения сообщения остается некоторая неопределенность.

12 3 Следующая ⇒

Дата добавления: 2015-03-11; просмотров: 1498. Нарушение авторских прав; Мы поможем в написании вашей работы!

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Потенциометрия. Потенциометрическое определение рН растворов Потенциометрия - это электрохимический метод исследования и анализа веществ, основанный на зависимости равновесного электродного потенциала Е от активности (концентрации) определяемого вещества в исследуемом растворе...

Гальванического элемента При контакте двух любых фаз на границе их раздела возникает двойной электрический слой (ДЭС), состоящий из равных по величине, но противоположных по знаку электрических зарядов...

Сущность, виды и функции маркетинга персонала Перснал-маркетинг является новым понятием. В мировой практике маркетинга и управления персоналом он выделился в отдельное направление лишь в начале 90-х гг.XX века...

Подкожное введение сывороток по методу Безредки. С целью предупреждения развития анафилактического шока и других аллергических реакций при введении иммунных сывороток используют метод Безредки для определения реакции больного на введение сыворотки...

Принципы и методы управления в таможенных органах Под принципами управления понимаются идеи, правила, основные положения и нормы поведения, которыми руководствуются общие, частные и организационно-технологические принципы...

ПРОФЕССИОНАЛЬНОЕ САМОВОСПИТАНИЕ И САМООБРАЗОВАНИЕ ПЕДАГОГА Воспитывать сегодня подрастающее поколение на современном уровне требований общества нельзя без постоянного обновления и обогащения своего профессионального педагогического потенциала...

Studopedia.info - Студопедия - 2014-2024 год . (0.008 сек.) русская версия | украинская версия