Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Понятия энтропии и избыточности языка





Глубокие свойства текстов изучаются методами теории информации, разработанной К.Шенноном[3]. Речь идет о " количестве информации", содержащейся в сообщении. Для выяснения этого необходимо ввести меру количества информации.

Определение меры количества информации связано с понятием энтропии, как функции от вероятностного распределения, характеризующей ко­личество неопределенности или информации в случайном эксперименте. К. Шеннон предложил признать формулу:

прирост информации равен устраненной неопределенности,

на основании которой неопределенность и информация должны измеряться одной и той же мерой.

К такому выводу можно прийти на примере эксперимента со случайным бросанием монеты. Какова неопределенность того, что в результате очередного бросания монеты выпадет «орел»? Если монета дефектна и при бросании всегда выпадает орлом, никакой неопределенности нет — наоборот, есть полная определенность: обязательно выпадет «орел». Максимальной же неопределенность будет, очевидно, в случае, когда монета не имеет дефектов, то есть с равными вероятностями выпадают обе ее стороны.

Результат бросания монеты можно трактовать иначе. Если монета всегда выпадает «орлом», то при проведении очередного эксперимента мы не получим никакой информации: мы заранее знали об исходе эксперимента. Другими словами, количество информации, извлекаемой из эксперимента, равно нулю. Максимальным количество получаемой информации будет, очевидно, в случае, когда «орел» и «решка» равновероятны. Пример количественной меры неопределенности случайного эксперимента дает теоретическая физика — такой мерой служит энтропия. Применительно к независимым испытаниям случайной величины x с распределением вероятностей

(1)

энтропия H(x) формально определяется формулой

(2)

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования [4], утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к H (x). На основании этого единицей количества информации естественно считать 1 бит. Например, количество информации, получаемое при бросании монеты, равно 1 бит, так как «орел» можно закодировать единицей, а «решку» — нулем.

Легко видеть, что если pi = 1/ п при всех i =1, …, n, то H 0 = H (x)=log2 n. Кроме того, в общем случае имеет место неравенство H (x)³ 0, причем H (x)= 0 в том и только том случае, когда pi =1 для некоторого i и pj =0 для всех j ¹ i.

Мерой средней информации, приходящейся на одну букву открытого текста языка L (рассматриваемого как источник случайных текстов), служит величина HL, называемая энтропией языка L. Естественно вычислять ее последовательными приближениями: Н 0, H 1, где Н 1 — энтропия позначной модели открытого текста, то есть величина (2), в которой pi, совпадает с вероятностью появления буквы аi в открытом тексте. Для английского языка, Н 0»4, 70, Н 1 = H (x)»4, 14.

В качестве следующего, более точного приближения, возьмем энтропию вероятностного распределения биграмм, которую разделим на 2 (нас интересует энтропия на знак). В общем случае следует взять энтропию вероятностной схемы на r -граммах, деленную на r. Соответствующие вычисления для английского языка дают отношения и так далее. Исследования показывают, что с ростом r отношение стремится к некоторому пределу. Этот предел и принимается за определение энтропии HL языка L:

(3)

При этом выражение

(4)

определяет так называемую избыточность языка RL.

Термин избыточность языка возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н 0 = Iog2 n (где n — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время, средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log2 n. Величина log2 n - HL характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

,

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

К. Шеннон предложил метод оценивания отношения Нr / r для осмысленных текстов с позиции меры неопределенности опыта, состоящего в угадывании r -й буквы текста, при условии, что предшествующие его буквы известны [3]. Эксперимент по угадыванию r -й буквы текста легко может быть поставлен. Для этого достаточно выбрать осмысленный отрезок открытого текста длины r -1 и предложить кому-либо угадать следующую букву. Подобный опыт может быть повторен многократно, при этом сложность угадывания r -й буквы может быть оценена с помощью среднего значения числа попыток Fr, требующихся для нахождения правильного ответа. Ясно, что величины Fr для разных значений r являются определенными характеристиками статистической структуры языка. Очевидно, что среднее число попыток Fr с ростом r может лишь уменьшаться. Прекращение этого уменьшения будет свидетельствовать о том, что соответствующие опыты имеют одинаковую неопределенность, то есть что отвечающая им величина Нr / r практически уже достигла своего предельного значения HL.

Исходя из этих рассуждений, К. Шеннон произвел ряд подобных экспериментов, в которых r принимало значения 1, …, 15 и 100. При этом он обнаружил, что отгадывание сотой буквы по 99 предшествующим заметно более просто, чем угадывание 15-й буквы по 14-предыдущим. Опыты показали, что с ростом r величина Нr / r убывает вплоть до r»30, а при дальнейшем росте r она уже практически не меняется.

Согласно исследованиям Б. Б. Пиотровского [4], имеют место следующие приближения величины HL:

 

 

Таблица 1

  HL RL
  Русский язык Французский язык Русский язык Французский язык
Язык в целом 1, 37 1, 40 72, 6 70, 6
Разговорная речь 1, 40 1, 50 72, 0 68, 4
Литературный текст 1, 19 1, 38 76, 2 71, 0
Деловой текст 0, 83 1, 72 83, 4 74, 4

 

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Однако, избыточность, составляющая 75%не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери ин­формации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фаноили другого оптимального кода [3]) его можно сжать до четверти длины без потери смысла.

Другой, так называемый комбинаторный подход [4] к определению величины HL для литературных текстов предложил А. Н. Колмогоров, не согласившись с тем, что теоретико-информационные рассмотрения игнорируют вопрос о смысловом содержании литературных текстов. Суть такого подхода к определению энтропии текста состоит в следующем: Шенноновскую энтропию HL, приходящуюся на букву текста, можно определить тем условием, что для n -буквенного алфавита число текстов длины L, удовлетворяющих заданным статистическим ограничениям, равно (при достаточно больших L) не nL =2 L log2 n =2 LH 0, как это было бы, если брать любые наборы из L букв, а всего лишь M (L)=2 LHL (5).

По сути, это и есть асимптотика числа осмысленных открытых текстов длины L для данного языка L. Исходя из этого, можно определить энтропию HL языка выражением

(6)

не зависящим ни от каких теоретико-вероятностных представлений. Величину M (L) можно оценивать с помощью подсчета числа возможных продолжений литературного текста.

 







Дата добавления: 2014-11-10; просмотров: 2112. Нарушение авторских прав; Мы поможем в написании вашей работы!




Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...


Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...


Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...


Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Типовые ситуационные задачи. Задача 1.У больного А., 20 лет, с детства отмечается повышенное АД, уровень которого в настоящее время составляет 180-200/110-120 мм рт Задача 1.У больного А., 20 лет, с детства отмечается повышенное АД, уровень которого в настоящее время составляет 180-200/110-120 мм рт. ст. Влияние психоэмоциональных факторов отсутствует. Колебаний АД практически нет. Головной боли нет. Нормализовать...

Эндоскопическая диагностика язвенной болезни желудка, гастрита, опухоли Хронический гастрит - понятие клинико-анатомическое, характеризующееся определенными патоморфологическими изменениями слизистой оболочки желудка - неспецифическим воспалительным процессом...

Признаки классификации безопасности Можно выделить следующие признаки классификации безопасности. 1. По признаку масштабности принято различать следующие относительно самостоятельные геополитические уровни и виды безопасности. 1.1. Международная безопасность (глобальная и...

Экспертная оценка как метод психологического исследования Экспертная оценка – диагностический метод измерения, с помощью которого качественные особенности психических явлений получают свое числовое выражение в форме количественных оценок...

В теории государства и права выделяют два пути возникновения государства: восточный и западный Восточный путь возникновения государства представляет собой плавный переход, перерастание первобытного общества в государство...

Закон Гука при растяжении и сжатии   Напряжения и деформации при растяжении и сжатии связаны между собой зависимостью, которая называется законом Гука, по имени установившего этот закон английского физика Роберта Гука в 1678 году...

Studopedia.info - Студопедия - 2014-2025 год . (0.011 сек.) русская версия | украинская версия