Понятия энтропии и избыточности языка

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Глубокие свойства текстов изучаются методами теории информации, разработанной К.Шенноном[3]. Речь идет о " количестве информации", содержащейся в сообщении. Для выяснения этого необходимо ввести меру количества информации.

Определение меры количества информации связано с понятием энтропии, как функции от вероятностного распределения, характеризующей количество неопределенности или информации в случайном эксперименте. К. Шеннон предложил признать формулу:

прирост информации равен устраненной неопределенности,

на основании которой неопределенность и информация должны измеряться одной и той же мерой.

К такому выводу можно прийти на примере эксперимента со случайным бросанием монеты. Какова неопределенность того, что в результате очередного бросания монеты выпадет «орел»? Если монета дефектна и при бросании всегда выпадает орлом, никакой неопределенности нет — наоборот, есть полная определенность: обязательно выпадет «орел». Максимальной же неопределенность будет, очевидно, в случае, когда монета не имеет дефектов, то есть с равными вероятностями выпадают обе ее стороны.

Результат бросания монеты можно трактовать иначе. Если монета всегда выпадает «орлом», то при проведении очередного эксперимента мы не получим никакой информации: мы заранее знали об исходе эксперимента. Другими словами, количество информации, извлекаемой из эксперимента, равно нулю. Максимальным количество получаемой информации будет, очевидно, в случае, когда «орел» и «решка» равновероятны. Пример количественной меры неопределенности случайного эксперимента дает теоретическая физика — такой мерой служит энтропия. Применительно к независимым испытаниям случайной величины x с распределением вероятностей

(1)

энтропия H(x) формально определяется формулой

(2)

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования [4], утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к H (x). На основании этого единицей количества информации естественно считать 1 бит. Например, количество информации, получаемое при бросании монеты, равно 1 бит, так как «орел» можно закодировать единицей, а «решку» — нулем.

Легко видеть, что если p_i = 1/ п при всех i =1, …, n, то H ₀ = H (x)=log₂ n. Кроме того, в общем случае имеет место неравенство H (x)³ 0, причем H (x)= 0 в том и только том случае, когда p_i =1 для некоторого i и p_j =0 для всех j ¹ i.

Мерой средней информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина H_L, называемая энтропией языка L. Естественно вычислять ее последовательными приближениями: Н ₀, H ₁, где Н ₁ — энтропия позначной модели открытого текста, то есть величина (2), в которой p_i, совпадает с вероятностью появления буквы а_i в открытом тексте. Для английского языка, Н ₀»4, 70, Н ₁ = H (x)»4, 14.

В качестве следующего, более точного приближения, возьмем энтропию вероятностного распределения биграмм, которую разделим на 2 (нас интересует энтропия на знак). В общем случае следует взять энтропию вероятностной схемы на r -граммах, деленную на r. Соответствующие вычисления для английского языка дают отношения и так далее. Исследования показывают, что с ростом r отношение стремится к некоторому пределу. Этот предел и принимается за определение энтропии H_L языка L:

(3)

При этом выражение

(4)

определяет так называемую избыточность языка R_L.

Термин избыточность языка возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н ₀ = Iog₂ n (где n — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время, средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log₂ n. Величина log₂ n - H_L характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

К. Шеннон предложил метод оценивания отношения Н_r / r для осмысленных текстов с позиции меры неопределенности опыта, состоящего в угадывании r -й буквы текста, при условии, что предшествующие его буквы известны [3]. Эксперимент по угадыванию r -й буквы текста легко может быть поставлен. Для этого достаточно выбрать осмысленный отрезок открытого текста длины r -1 и предложить кому-либо угадать следующую букву. Подобный опыт может быть повторен многократно, при этом сложность угадывания r -й буквы может быть оценена с помощью среднего значения числа попыток F_r, требующихся для нахождения правильного ответа. Ясно, что величины F_r для разных значений r являются определенными характеристиками статистической структуры языка. Очевидно, что среднее число попыток F_r с ростом r может лишь уменьшаться. Прекращение этого уменьшения будет свидетельствовать о том, что соответствующие опыты имеют одинаковую неопределенность, то есть что отвечающая им величина Н_r / r практически уже достигла своего предельного значения H_L.

Исходя из этих рассуждений, К. Шеннон произвел ряд подобных экспериментов, в которых r принимало значения 1, …, 15 и 100. При этом он обнаружил, что отгадывание сотой буквы по 99 предшествующим заметно более просто, чем угадывание 15-й буквы по 14-предыдущим. Опыты показали, что с ростом r величина Н_r / r убывает вплоть до r»30, а при дальнейшем росте r она уже практически не меняется.

Согласно исследованиям Б. Б. Пиотровского [4], имеют место следующие приближения величины H_L:

Таблица 1

	H_L	R_L
	Русский язык	Французский язык	Русский язык	Французский язык
Язык в целом	1, 37	1, 40	72, 6	70, 6
Разговорная речь	1, 40	1, 50	72, 0	68, 4
Литературный текст	1, 19	1, 38	76, 2	71, 0
Деловой текст	0, 83	1, 72	83, 4	74, 4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Однако, избыточность, составляющая 75%не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фаноили другого оптимального кода [3]) его можно сжать до четверти длины без потери смысла.

Другой, так называемый комбинаторный подход [4] к определению величины H_L для литературных текстов предложил А. Н. Колмогоров, не согласившись с тем, что теоретико-информационные рассмотрения игнорируют вопрос о смысловом содержании литературных текстов. Суть такого подхода к определению энтропии текста состоит в следующем: Шенноновскую энтропию H_L, приходящуюся на букву текста, можно определить тем условием, что для n -буквенного алфавита число текстов длины L, удовлетворяющих заданным статистическим ограничениям, равно (при достаточно больших L) не n^L =2 ^L log₂ n =2 ^LH ₀, как это было бы, если брать любые наборы из L букв, а всего лишь M (L)=2 ^LH_L (5).

По сути, это и есть асимптотика числа осмысленных открытых текстов длины L для данного языка L. Исходя из этого, можно определить энтропию H_L языка выражением

(6)

не зависящим ни от каких теоретико-вероятностных представлений. Величину M (L) можно оценивать с помощью подсчета числа возможных продолжений литературного текста.

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Дата добавления: 2014-11-10; просмотров: 2112. Нарушение авторских прав; Мы поможем в написании вашей работы!

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Эффективность управления. Общие понятия о сущности и критериях эффективности. Эффективность управления – это экономическая категория, отражающая вклад управленческой деятельности в конечный результат работы организации...

Мотивационная сфера личности, ее структура. Потребности и мотивы. Потребности и мотивы, их роль в организации деятельности...

Классификация ИС по признаку структурированности задач Так как основное назначение ИС – автоматизировать информационные процессы для решения определенных задач, то одна из основных классификаций – это классификация ИС по степени структурированности задач...

Различие эмпиризма и рационализма Родоначальником эмпиризма стал английский философ Ф. Бэкон. Основной тезис эмпиризма гласит: в разуме нет ничего такого...

Индекс гингивита (PMA) (Schour, Massler, 1948) Для оценки тяжести гингивита (а в последующем и регистрации динамики процесса) используют папиллярно-маргинально-альвеолярный индекс (РМА)...

Методика исследования периферических лимфатических узлов. Исследование периферических лимфатических узлов производится с помощью осмотра и пальпации...

Studopedia.info - Студопедия - 2014-2025 год . (0.01 сек.) русская версия | украинская версия