Понятия энтропии и избыточности языка

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Глубокие свойства текстов изучаются методами теории информации, разработанной К.Шенноном[3]. Речь идет о " количестве информации", содержащейся в сообщении. Для выяснения этого необходимо ввести меру количества информации.

Определение меры количества информации связано с понятием энтропии, как функции от вероятностного распределения, характеризующей количество неопределенности или информации в случайном эксперименте. К. Шеннон предложил признать формулу:

прирост информации равен устраненной неопределенности,

на основании которой неопределенность и информация должны измеряться одной и той же мерой.

К такому выводу можно прийти на примере эксперимента со случайным бросанием монеты. Какова неопределенность того, что в результате очередного бросания монеты выпадет «орел»? Если монета дефектна и при бросании всегда выпадает орлом, никакой неопределенности нет — наоборот, есть полная определенность: обязательно выпадет «орел». Максимальной же неопределенность будет, очевидно, в случае, когда монета не имеет дефектов, то есть с равными вероятностями выпадают обе ее стороны.

Результат бросания монеты можно трактовать иначе. Если монета всегда выпадает «орлом», то при проведении очередного эксперимента мы не получим никакой информации: мы заранее знали об исходе эксперимента. Другими словами, количество информации, извлекаемой из эксперимента, равно нулю. Максимальным количество получаемой информации будет, очевидно, в случае, когда «орел» и «решка» равновероятны. Пример количественной меры неопределенности случайного эксперимента дает теоретическая физика — такой мерой служит энтропия. Применительно к независимым испытаниям случайной величины x с распределением вероятностей

(1)

энтропия H(x) формально определяется формулой

(2)

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования [4], утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к H (x). На основании этого единицей количества информации естественно считать 1 бит. Например, количество информации, получаемое при бросании монеты, равно 1 бит, так как «орел» можно закодировать единицей, а «решку» — нулем.

Легко видеть, что если p_i = 1/ п при всех i =1, …, n, то H ₀ = H (x)=log₂ n. Кроме того, в общем случае имеет место неравенство H (x)³ 0, причем H (x)= 0 в том и только том случае, когда p_i =1 для некоторого i и p_j =0 для всех j ¹ i.

Мерой средней информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина H_L, называемая энтропией языка L. Естественно вычислять ее последовательными приближениями: Н ₀, H ₁, где Н ₁ — энтропия позначной модели открытого текста, то есть величина (2), в которой p_i, совпадает с вероятностью появления буквы а_i в открытом тексте. Для английского языка, Н ₀»4, 70, Н ₁ = H (x)»4, 14.

В качестве следующего, более точного приближения, возьмем энтропию вероятностного распределения биграмм, которую разделим на 2 (нас интересует энтропия на знак). В общем случае следует взять энтропию вероятностной схемы на r -граммах, деленную на r. Соответствующие вычисления для английского языка дают отношения и так далее. Исследования показывают, что с ростом r отношение стремится к некоторому пределу. Этот предел и принимается за определение энтропии H_L языка L:

(3)

При этом выражение

(4)

определяет так называемую избыточность языка R_L.

Термин избыточность языка возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н ₀ = Iog₂ n (где n — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время, средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log₂ n. Величина log₂ n - H_L характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

К. Шеннон предложил метод оценивания отношения Н_r / r для осмысленных текстов с позиции меры неопределенности опыта, состоящего в угадывании r -й буквы текста, при условии, что предшествующие его буквы известны [3]. Эксперимент по угадыванию r -й буквы текста легко может быть поставлен. Для этого достаточно выбрать осмысленный отрезок открытого текста длины r -1 и предложить кому-либо угадать следующую букву. Подобный опыт может быть повторен многократно, при этом сложность угадывания r -й буквы может быть оценена с помощью среднего значения числа попыток F_r, требующихся для нахождения правильного ответа. Ясно, что величины F_r для разных значений r являются определенными характеристиками статистической структуры языка. Очевидно, что среднее число попыток F_r с ростом r может лишь уменьшаться. Прекращение этого уменьшения будет свидетельствовать о том, что соответствующие опыты имеют одинаковую неопределенность, то есть что отвечающая им величина Н_r / r практически уже достигла своего предельного значения H_L.

Исходя из этих рассуждений, К. Шеннон произвел ряд подобных экспериментов, в которых r принимало значения 1, …, 15 и 100. При этом он обнаружил, что отгадывание сотой буквы по 99 предшествующим заметно более просто, чем угадывание 15-й буквы по 14-предыдущим. Опыты показали, что с ростом r величина Н_r / r убывает вплоть до r»30, а при дальнейшем росте r она уже практически не меняется.

Согласно исследованиям Б. Б. Пиотровского [4], имеют место следующие приближения величины H_L:

Таблица 1

	H_L	R_L
	Русский язык	Французский язык	Русский язык	Французский язык
Язык в целом	1, 37	1, 40	72, 6	70, 6
Разговорная речь	1, 40	1, 50	72, 0	68, 4
Литературный текст	1, 19	1, 38	76, 2	71, 0
Деловой текст	0, 83	1, 72	83, 4	74, 4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Однако, избыточность, составляющая 75%не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фаноили другого оптимального кода [3]) его можно сжать до четверти длины без потери смысла.

Другой, так называемый комбинаторный подход [4] к определению величины H_L для литературных текстов предложил А. Н. Колмогоров, не согласившись с тем, что теоретико-информационные рассмотрения игнорируют вопрос о смысловом содержании литературных текстов. Суть такого подхода к определению энтропии текста состоит в следующем: Шенноновскую энтропию H_L, приходящуюся на букву текста, можно определить тем условием, что для n -буквенного алфавита число текстов длины L, удовлетворяющих заданным статистическим ограничениям, равно (при достаточно больших L) не n^L =2 ^L log₂ n =2 ^LH ₀, как это было бы, если брать любые наборы из L букв, а всего лишь M (L)=2 ^LH_L (5).

По сути, это и есть асимптотика числа осмысленных открытых текстов длины L для данного языка L. Исходя из этого, можно определить энтропию H_L языка выражением

(6)

не зависящим ни от каких теоретико-вероятностных представлений. Величину M (L) можно оценивать с помощью подсчета числа возможных продолжений литературного текста.

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Дата добавления: 2014-11-10; просмотров: 2000. Нарушение авторских прав; Мы поможем в написании вашей работы!

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при которых тело находится под действием заданной системы сил...

Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Логические цифровые микросхемы Более сложные элементы цифровой схемотехники (триггеры, мультиплексоры, декодеры и т.д.) не имеют...

Весы настольные циферблатные Весы настольные циферблатные РН-10Ц13 (рис.3.1) выпускаются с наибольшими пределами взвешивания 2...

Хронометражно-табличная методика определения суточного расхода энергии студента Цель: познакомиться с хронометражно-табличным методом определения суточного расхода энергии...

ОЧАГОВЫЕ ТЕНИ В ЛЕГКОМ Очаговыми легочными инфильтратами проявляют себя различные по этиологии заболевания, в основе которых лежит бронхо-нодулярный процесс, который при рентгенологическом исследовании дает очагового характера тень, размерами не более 1 см в диаметре...

Ганглиоблокаторы. Классификация. Механизм действия. Фармакодинамика. Применение.Побочные эфффекты Никотинчувствительные холинорецепторы (н-холинорецепторы) в основном локализованы на постсинаптических мембранах в синапсах скелетной мускулатуры...

Шов первичный, первично отсроченный, вторичный (показания) В зависимости от времени и условий наложения выделяют швы: 1) первичные...

Предпосылки, условия и движущие силы психического развития Предпосылки –это факторы. Факторы психического развития –это ведущие детерминанты развития чел. К ним относят: среду...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия