Студопедия — Понятия энтропии и избыточности языка
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Понятия энтропии и избыточности языка






Глубокие свойства текстов изучаются методами теории информации, разработанной К.Шенноном[3]. Речь идет о " количестве информации", содержащейся в сообщении. Для выяснения этого необходимо ввести меру количества информации.

Определение меры количества информации связано с понятием энтропии, как функции от вероятностного распределения, характеризующей ко­личество неопределенности или информации в случайном эксперименте. К. Шеннон предложил признать формулу:

прирост информации равен устраненной неопределенности,

на основании которой неопределенность и информация должны измеряться одной и той же мерой.

К такому выводу можно прийти на примере эксперимента со случайным бросанием монеты. Какова неопределенность того, что в результате очередного бросания монеты выпадет «орел»? Если монета дефектна и при бросании всегда выпадает орлом, никакой неопределенности нет — наоборот, есть полная определенность: обязательно выпадет «орел». Максимальной же неопределенность будет, очевидно, в случае, когда монета не имеет дефектов, то есть с равными вероятностями выпадают обе ее стороны.

Результат бросания монеты можно трактовать иначе. Если монета всегда выпадает «орлом», то при проведении очередного эксперимента мы не получим никакой информации: мы заранее знали об исходе эксперимента. Другими словами, количество информации, извлекаемой из эксперимента, равно нулю. Максимальным количество получаемой информации будет, очевидно, в случае, когда «орел» и «решка» равновероятны. Пример количественной меры неопределенности случайного эксперимента дает теоретическая физика — такой мерой служит энтропия. Применительно к независимым испытаниям случайной величины x с распределением вероятностей

(1)

энтропия H(x) формально определяется формулой

(2)

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования [4], утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к H (x). На основании этого единицей количества информации естественно считать 1 бит. Например, количество информации, получаемое при бросании монеты, равно 1 бит, так как «орел» можно закодировать единицей, а «решку» — нулем.

Легко видеть, что если pi = 1/ п при всех i =1, …, n, то H 0 = H (x)=log2 n. Кроме того, в общем случае имеет место неравенство H (x)³ 0, причем H (x)= 0 в том и только том случае, когда pi =1 для некоторого i и pj =0 для всех j ¹ i.

Мерой средней информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина HL, называемая энтропией языка L. Естественно вычислять ее последовательными приближениями: Н 0, H 1, где Н 1 — энтропия позначной модели открытого текста, то есть величина (2), в которой pi, совпадает с вероятностью появления буквы аi в открытом тексте. Для английского языка, Н 0»4, 70, Н 1 = H (x)»4, 14.

В качестве следующего, более точного приближения, возьмем энтропию вероятностного распределения биграмм, которую разделим на 2 (нас интересует энтропия на знак). В общем случае следует взять энтропию вероятностной схемы на r -граммах, деленную на r. Соответствующие вычисления для английского языка дают отношения и так далее. Исследования показывают, что с ростом r отношение стремится к некоторому пределу. Этот предел и принимается за определение энтропии HL языка L:

(3)

При этом выражение

(4)

определяет так называемую избыточность языка RL.

Термин избыточность языка возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н 0 = Iog2 n (где n — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время, средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log2 n. Величина log2 n - HL характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

,

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

К. Шеннон предложил метод оценивания отношения Нr / r для осмысленных текстов с позиции меры неопределенности опыта, состоящего в угадывании r -й буквы текста, при условии, что предшествующие его буквы известны [3]. Эксперимент по угадыванию r -й буквы текста легко может быть поставлен. Для этого достаточно выбрать осмысленный отрезок открытого текста длины r -1 и предложить кому-либо угадать следующую букву. Подобный опыт может быть повторен многократно, при этом сложность угадывания r -й буквы может быть оценена с помощью среднего значения числа попыток Fr, требующихся для нахождения правильного ответа. Ясно, что величины Fr для разных значений r являются определенными характеристиками статистической структуры языка. Очевидно, что среднее число попыток Fr с ростом r может лишь уменьшаться. Прекращение этого уменьшения будет свидетельствовать о том, что соответствующие опыты имеют одинаковую неопределенность, то есть что отвечающая им величина Нr / r практически уже достигла своего предельного значения HL.

Исходя из этих рассуждений, К. Шеннон произвел ряд подобных экспериментов, в которых r принимало значения 1, …, 15 и 100. При этом он обнаружил, что отгадывание сотой буквы по 99 предшествующим заметно более просто, чем угадывание 15-й буквы по 14-предыдущим. Опыты показали, что с ростом r величина Нr / r убывает вплоть до r»30, а при дальнейшем росте r она уже практически не меняется.

Согласно исследованиям Б. Б. Пиотровского [4], имеют место следующие приближения величины HL:

 

 

Таблица 1

  HL RL
  Русский язык Французский язык Русский язык Французский язык
Язык в целом 1, 37 1, 40 72, 6 70, 6
Разговорная речь 1, 40 1, 50 72, 0 68, 4
Литературный текст 1, 19 1, 38 76, 2 71, 0
Деловой текст 0, 83 1, 72 83, 4 74, 4

 

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Однако, избыточность, составляющая 75%не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери ин­формации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фаноили другого оптимального кода [3]) его можно сжать до четверти длины без потери смысла.

Другой, так называемый комбинаторный подход [4] к определению величины HL для литературных текстов предложил А. Н. Колмогоров, не согласившись с тем, что теоретико-информационные рассмотрения игнорируют вопрос о смысловом содержании литературных текстов. Суть такого подхода к определению энтропии текста состоит в следующем: Шенноновскую энтропию HL, приходящуюся на букву текста, можно определить тем условием, что для n -буквенного алфавита число текстов длины L, удовлетворяющих заданным статистическим ограничениям, равно (при достаточно больших L) не nL =2 L log2 n =2 LH 0, как это было бы, если брать любые наборы из L букв, а всего лишь M (L)=2 LHL (5).

По сути, это и есть асимптотика числа осмысленных открытых текстов длины L для данного языка L. Исходя из этого, можно определить энтропию HL языка выражением

(6)

не зависящим ни от каких теоретико-вероятностных представлений. Величину M (L) можно оценивать с помощью подсчета числа возможных продолжений литературного текста.

 







Дата добавления: 2014-11-10; просмотров: 1998. Нарушение авторских прав; Мы поможем в написании вашей работы!



Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Кран машиниста усл. № 394 – назначение и устройство Кран машиниста условный номер 394 предназначен для управления тормозами поезда...

Приложение Г: Особенности заполнение справки формы ву-45   После выполнения полного опробования тормозов, а так же после сокращенного, если предварительно на станции было произведено полное опробование тормозов состава от стационарной установки с автоматической регистрацией параметров или без...

Измерение следующих дефектов: ползун, выщербина, неравномерный прокат, равномерный прокат, кольцевая выработка, откол обода колеса, тонкий гребень, протёртость средней части оси Величину проката определяют с помощью вертикального движка 2 сухаря 3 шаблона 1 по кругу катания...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Краткая психологическая характеристика возрастных периодов.Первый критический период развития ребенка — период новорожденности Психоаналитики говорят, что это первая травма, которую переживает ребенок, и она настолько сильна, что вся последую­щая жизнь проходит под знаком этой травмы...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия