Другие подходы к измерению количества информации
Введенная количественная статистическая мера информации широко используется в теории информации для оценки собственной, взаимной, условной и других видов информации. Следует отметить, что статистический подход к количественной оценке информации был рассмотрен для дискретных систем, случайным образом переходящих из состояния в состояние, и, следовательно, сообщение об этих состояниях также возникает случайным образом. Кроме того, статистический метод определения количества информации практически не учитывает семантического и прагматического аспектов информации. Семантический подход определения количества информации является наиболее трудно формализуемым и до сих пор окончательно не определившимся. Наибольшее признание для измерения смыслового содержания информации получила тезаурусная мера, предложенная Ю.И. Шнейдером. Идеи тезаурусного метода были сформулированы еще основоположником кибернетики Н. Винером. Для понимания и использования информации ее получатель должен обладать определенным запасом знаний. Если индивидуальный тезаурус потребителя отражает его знания о данном предмете, то количество смысловой информации , содержащееся в некотором сообщении, можно оценить степенью изменения этого тезауруса, произошедшего под воздействием данного сообщения. Очевидно, что количество информации нелинейно зависит от состояния индивидуального тезауруса пользователя, и, хотя смысловое содержание сообщения постоянно, пользователи, имеющие различные тезаурусы, будут получать неодинаковое количество информации. В самом деле, если индивидуальный тезаурус получателя информации близок к нулю , то в этом случае и количество воспринятой информации равно нулю: . Иными словами, получатель не понимает принятого сообщения и, как следствие, для него количество воспринятой информации равно нулю.
Рисунок 2.1– Кривая функции
Такая ситуация эквивалентна прослушиванию сообщения на неизвестном иностранном языке. Несомненно, сообщение не лишено смысла, однако оно не понятно, и значит, не имеет информативности. Количество семантической информации в сообщении также будет равно нулю, если пользователь информации абсолютно все знает о предмете, т.е. его тезаурус и сообщение не дают ему ничего нового. Интуитивно мы чувствуем, что между этими полярными значениями тезауруса пользователя существует некоторое оптимальное значение , при котором количество информации, извлекаемое из сообщения, становится для получателя максимальным. Эта функция зависимости количества информации от состояния индивидуального тезауруса пользователя приведена рисунке 2.1. Тезаурусный метод подтверждает тезис о том, что информация обладает свойством относительности и имеет, таким образом, относительную, субъективную ценность. Для того чтобы объективно оценивать научную информацию, появилось понятие общечеловеческого тезауруса, степень изменения которого и определяла бы значительность получаемых человечеством новых знаний. Прагматический подход определяет количество информации как меры, способствующей достижению поставленной цели. Одной из первых работ, реализующей этот подход, явилась работа А.А. Харкевича. В ней он предлагал принять за меру ценности информации количество информации, необходимое для достижения поставленной цели. Этот подход базируется на статистической теории Шеннона и рассматривает количество информации как приращение вероятности достижения цели. Так, если принять вероятность достижения цели, до получения информации равной , а после ее получения , прагматическое количество информации определяется как
Если основание логарифма сделать равным двум, то будет измеряться в битах, как и при статистическом подходе. При оценке количества информации в семантическом и прагматическом аспектах необходимо учитывать и временную зависимость информации. Дело в том, что информация, особенно в системах управления экономическими объектами, имеет свойство стареть, т.е., ее ценность со временем падает, и важно использовать ее в момент наибольшей ценности. Объёмный или алфавитный подход. При определении количества информации с помощью вероятностного подхода количество информации зависит от ее содержания, понятности и новизны. Однако любое техническое устройство не воспринимает содержание информации. Поэтому с этой точки зрения используется другой подход к измерению информации – объёмный или алфавитный. В этом подходе объём информации в сообщении определяется количеством символов в нём. Поскольку одна и также информация (например, число) может быть записано многими разными способами (с использованием разных алфавитов), то этот способ чувствителен к форме представления сообщения. Предположим, что у нас есть текст, написанный на русском языке. Он состоит из букв русского алфавита, цифр, знаков препинания. Для простоты будем считать, что символы в тексте присутствуют с одинаковой вероятностью. Множество используемых в тексте символов называется алфавитом. В информатике под алфавитом понимают не только буквы, но и цифры, и знаки препинания, и другие специальные знаки. У алфавита есть размер (полное количество его символов), который называется мощностью алфавита. Обозначим мощность алфавита через N. Тогда воспользуемся формулой для нахождения количества информации из вероятностного подхода: I = log2N. Для расчета количества информации по этой формуле нам необходимо найти мощность алфавита N.
Пример 4. Найти объем информации, содержащийся в тексте из 3000 символов, и написанном русскими буквами. 1. Найдем мощность алфавита: N = 33 русских прописных буквы + 33 русских строчных буквы + 21 специальный знак = 87 символов. 2. Подставим в формулу и рассчитаем количество информации: I = log287 = 6,4 бита. Такое количество информации – информационный объем – несет один символ в русском тексте. Теперь, чтобы найти количество информации во всем тексте, нужно найти общее количество символов в нем и умножить на информационный объем одного символа. Пусть в тексте 3000 символов. 3. Найдем объем всего текста: 6,4 × 3000 = 19140 бит. Теперь дадим задание переводчику перевести этот текст на немецкий язык. Причем так, чтобы в тексте осталось 3000 символов. Содержание текста при этом осталось точно такое же. Поэтому с точки зрения вероятностного подхода количество информации также не изменится, т. е. новых и понятных знаний не прибавилось и не убавилось.
Пример 5. Найти количество информации, содержащейся в немецком тексте с таким же количеством символов. 1. Найдем мощность немецкого алфавита: N = 26 немецких прописных буквы + 26 немецких строчных букв + 21 специальный знак = 73 символам. 2. Найдем информационный объем одного символа: I = log273 = 6,1 бит. 3. Найдем объем всего текста: 6,1 × 3000 = 18300 бит. Сравнивая объемы информации русского текста и немецкого, мы видим, что на немецком языке информации меньше, чем на русском. Но ведь содержание не изменилось! Следовательно, при алфавитном подходе к измерению информации ее количество не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте. С точки зрения алфавитного подхода в толстой книге информации больше, чем в тонкой. При этом содержание книги не учитывается. Правило для измерения информации с точки зрения алфавитного подхода: 1. Найти мощность алфавита – N. 2. Найти информационный объем одного символа – I = log2N. 3. Найти количество символов в сообщении – K. 4. Найти информационный объем всего сообщения – K × I.
Пример 6. Найти информационный объем страницы компьютерного текста. Примечание. В компьютере используется свой алфавит, который содержит 256 символов. 1. Найдем информационный объем одного символа: I = log2N, где N = 256. I = log2256 = 8 бит = 1 байт. 2. Найдем количество символов на странице (примерно, перемножив количество символов в одной строке на количество строк на странице). 40 символов на одной строке × 50 строк на странице = 2000 символов. 3. Найдем информационный объем всей страницы: 1 байт × 2000 символов = 2000 байт. Информационный объем одного символа несет как раз 1 байт информации. Поэтому достаточно подсчитать количество символов в тексте, которое и даст объем текста в байтах. Например, если в тексте 3000 символов, то его информационный объем равен 3000 байтам. Алгоритмический метод оценки количества информации предлагается в теории алгоритмов. Этот подход можно кратко охарактеризовать следующими рассуждениями. Все согласятся, что сообщение 0101…01 сложнее сообщения 0000…00, а сообщение о результатах эксперимента – бросания монеты, (где 0 – герб, 1 – решка) сложнее обоих предыдущих. Компьютерная программа, воспроизводящая сообщение только из нулей проста – печатать один ноль. Для получения второго из приведённых сообщений – 0101…01 нужна более сложная программа, печатающая символ противоположный только что напечатанному. Случайная, не обладающая никакими закономерностями последовательность (как в случае с бросанием монеты) не может быть произведена никакой «короткой» программой. Длинна программы, производящей конкретную хаотическую последовательность, должна быть близка к длине последней. Эти рассуждения позволяют предположить, что любому сообщению можно сопоставить количественную характеристику, отражающую размер или сложность программы, которая позволяет её воспроизвести. Поскольку имеется много разных вычислительных машин и разных языков программирования, то для определённости задаются некоторой конкретной вычислительной машиной, например машиной Тьюринга (смотри раздел «алгоритмизация»). В этом случае предполагаемой количественной характеристикой, соответствующей количеству информации является минимальное число внутренних состояний машины Тьюринга, требующейся для его воспроизведения.
|