Понятия энтропии и избыточности языка
Глубокие свойства текстов изучаются методами теории информации, разработанной К.Шенноном[3]. Речь идет о " количестве информации", содержащейся в сообщении. Для выяснения этого необходимо ввести меру количества информации. Определение меры количества информации связано с понятием энтропии, как функции от вероятностного распределения, характеризующей количество неопределенности или информации в случайном эксперименте. К. Шеннон предложил признать формулу: прирост информации равен устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой. К такому выводу можно прийти на примере эксперимента со случайным бросанием монеты. Какова неопределенность того, что в результате очередного бросания монеты выпадет «орел»? Если монета дефектна и при бросании всегда выпадает орлом, никакой неопределенности нет — наоборот, есть полная определенность: обязательно выпадет «орел». Максимальной же неопределенность будет, очевидно, в случае, когда монета не имеет дефектов, то есть с равными вероятностями выпадают обе ее стороны. Результат бросания монеты можно трактовать иначе. Если монета всегда выпадает «орлом», то при проведении очередного эксперимента мы не получим никакой информации: мы заранее знали об исходе эксперимента. Другими словами, количество информации, извлекаемой из эксперимента, равно нулю. Максимальным количество получаемой информации будет, очевидно, в случае, когда «орел» и «решка» равновероятны. Пример количественной меры неопределенности случайного эксперимента дает теоретическая физика — такой мерой служит энтропия. Применительно к независимым испытаниям случайной величины x с распределением вероятностей
энтропия H(x) формально определяется формулой
Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования [4], утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к H (x). На основании этого единицей количества информации естественно считать 1 бит. Например, количество информации, получаемое при бросании монеты, равно 1 бит, так как «орел» можно закодировать единицей, а «решку» — нулем. Легко видеть, что если pi = 1/ п при всех i =1, …, n, то H 0 = H (x)=log2 n. Кроме того, в общем случае имеет место неравенство H (x)³ 0, причем H (x)= 0 в том и только том случае, когда pi =1 для некоторого i и pj =0 для всех j ¹ i. Мерой средней информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина HL, называемая энтропией языка L. Естественно вычислять ее последовательными приближениями: Н 0, H 1, где Н 1 — энтропия позначной модели открытого текста, то есть величина (2), в которой pi, совпадает с вероятностью появления буквы аi в открытом тексте. Для английского языка, Н 0»4, 70, Н 1 = H (x)»4, 14. В качестве следующего, более точного приближения, возьмем энтропию вероятностного распределения биграмм, которую разделим на 2 (нас интересует энтропия на знак). В общем случае следует взять энтропию вероятностной схемы на r -граммах, деленную на r. Соответствующие вычисления для английского языка дают отношения
При этом выражение
определяет так называемую избыточность языка RL. Термин избыточность языка возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н 0 = Iog2 n (где n — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время, средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log2 n. Величина log2 n - HL характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение
в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка. К. Шеннон предложил метод оценивания отношения Нr / r для осмысленных текстов с позиции меры неопределенности опыта, состоящего в угадывании r -й буквы текста, при условии, что предшествующие его буквы известны [3]. Эксперимент по угадыванию r -й буквы текста легко может быть поставлен. Для этого достаточно выбрать осмысленный отрезок открытого текста длины r -1 и предложить кому-либо угадать следующую букву. Подобный опыт может быть повторен многократно, при этом сложность угадывания r -й буквы может быть оценена с помощью среднего значения числа попыток Fr, требующихся для нахождения правильного ответа. Ясно, что величины Fr для разных значений r являются определенными характеристиками статистической структуры языка. Очевидно, что среднее число попыток Fr с ростом r может лишь уменьшаться. Прекращение этого уменьшения будет свидетельствовать о том, что соответствующие опыты имеют одинаковую неопределенность, то есть что отвечающая им величина Нr / r практически уже достигла своего предельного значения HL. Исходя из этих рассуждений, К. Шеннон произвел ряд подобных экспериментов, в которых r принимало значения 1, …, 15 и 100. При этом он обнаружил, что отгадывание сотой буквы по 99 предшествующим заметно более просто, чем угадывание 15-й буквы по 14-предыдущим. Опыты показали, что с ростом r величина Нr / r убывает вплоть до r»30, а при дальнейшем росте r она уже практически не меняется. Согласно исследованиям Б. Б. Пиотровского [4], имеют место следующие приближения величины HL:
Таблица 1
Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Однако, избыточность, составляющая 75%не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фаноили другого оптимального кода [3]) его можно сжать до четверти длины без потери смысла. Другой, так называемый комбинаторный подход [4] к определению величины HL для литературных текстов предложил А. Н. Колмогоров, не согласившись с тем, что теоретико-информационные рассмотрения игнорируют вопрос о смысловом содержании литературных текстов. Суть такого подхода к определению энтропии текста состоит в следующем: Шенноновскую энтропию HL, приходящуюся на букву текста, можно определить тем условием, что для n -буквенного алфавита число текстов длины L, удовлетворяющих заданным статистическим ограничениям, равно (при достаточно больших L) не nL =2 L log2 n =2 LH 0, как это было бы, если брать любые наборы из L букв, а всего лишь M (L)=2 LHL (5). По сути, это и есть асимптотика числа осмысленных открытых текстов длины L для данного языка L. Исходя из этого, можно определить энтропию HL языка выражением
не зависящим ни от каких теоретико-вероятностных представлений. Величину M (L) можно оценивать с помощью подсчета числа возможных продолжений литературного текста.
|