Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации
Как измерить информацию? Часто мы говорим, что, прочитав статью в журнале или просмотрев новости, не получили никакой информации, или наоборот, краткое сообщение может оказаться для нас информативным. В то же время для другого человека та же самая статья может оказаться чрезвычайно информативной, а сообщение — нет. Информативными сообщения являются тогда, когда они новы, понятны, своевременны, полезны. Но то, что для одного понятно, для другого — нет. Вопрос «как измерить информацию?» очень непростой. Существует два подхода к измерению количества информации. Первый подход называется содержательным. В нем информация рассматривается с субъективной точки зрения, т.е. с точки зрения конкретного человека. В этом случае количество информации в сообщении не равно нулю, если сообщение пополняет знания человека. Второй подход называется алфавитным. Этот способ не связывает количество информации с содержанием сообщения, и называется он алфавитным подходом. Алфавитный подход является объективным способом измерения информации в отличие от субъективного, содержательного, подхода. Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте). Содержательный подход к измерению информации Если рассматривать информацию с субъективной точки зрения, то информация – это знания человека. Отсюда следует вывод, что сообщение информативно (содержит ненулевую информацию), если оно пополняет знания человека. Например, прогноз погоды на завтра – информативное сообщение, а сообщение о вчерашней погоде неинформативно: нам это уже известно. Нетрудно понять, что информативность одного и того же сообщения может быть разной для разных людей. Например: 2×2=4 информативно для первоклассника, изучающего таблицу умножения, и неинформативно для старшеклассника. Если сообщение написано на непонятном человеку языке, оно тоже не будет нести информацию. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными Для измерения информации нужна единица измерения, тогда мы сможем определять, в каком сообщении информации больше, в каком меньше. Сообщение, уменьшающее неопределенность знаний в два раза, несет 1 бит информации. Что такое «неопределенность знаний»? Лучше всего это пояснить на примерах. Игральный кубик с шестью гранями может с равной вероятностью упасть на любую из них. Значит, неопределенность знаний о результате бросания кубика равна шести. Следовательно, можно сказать так: Неопределенность знаний о некотором событии – это количество возможных результатов события Вернемся к примеру с монетой. После того, как вы бросили монету и посмотрели на нее, вы получили зрительное сообщение, что выпал, например, орел. Произошло одно из двух возможных событий. Неопределенность знаний уменьшилась в два раза: было два варианта, остался один. Значит, узнав результат бросания монеты, вы получили 1 бит информации. Сообщение о том, что произошло одно событие из двух равновероятных, несет один бит информации. Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход. Данный подход применяется в тех случаях, когда речь идет о том, что произошло одно из конечного множества (N) возможных событий. Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных (равновозможных) событий. Тогда количество информации i, заключенное в этом сообщении, и число событий N связаны формулой: 2i = N. Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то вычисления легко произвести "в уме". В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее). Например, если из 256 одинаковых, но разноцветных шаров наугад выбрали один, то сообщение о том, что выбрали красный шар, несет 8 бит информации (28=256). Количество информации i, содержащейся в сообщении о том, что произошло одно из N равновероятных событий, определяется из решения показательного уравнения: 2i=N Алфавитный подход к измерению информации Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавит — упорядоченный набор символов, используемый для кодирования сообщений на некотором языке. Мощность алфавита — количество символов алфавита. Двоичный алфавит содержит 2 символа, его мощность равна двум. Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов. Чтобы определить объем информации в сообщении при алфавитном подходе, нужно последовательно решить задачи: 1. Определить количество информации (i) в одном символе по формуле 2i = N, где N — мощность алфавита 2. Определить количество символов в сообщении (m) 3. Вычислить объем информации по формуле: I = i * K. Количество информации во всем тексте (I), состоящем из K символов, равно произведению информационного веса символа на К: I = i * К. Эта величина является информационным объемом текста. Например, если текстовое сообщение, закодированное по системе ASCII, содержит 100 символов, то его информационный объем составляет 800 бит. 2i = 256; I = 8 I = 8 * 100 = 800 Единицы измерения информации Как уже было сказано, основная единица измерения информации — бит. 8 бит составляют 1 байт.
|