Студопедия — Законы Зипфа и их применение
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Законы Зипфа и их применение






Известный американский лингвист и филолог Джордж Зипф (G.K. Zipf) предположил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Джордж Зипф вывел статистические закономерности, которые свойственны всем созданным человеком текстам и не зависят от использованного языка. Обнаруженные закономерности выражаются в одинаковой внутренней структуре текстов и описываются двумя универсальными законами, которые Зипф опубликовал в 1949 году.

Первый закон Зипфа «Ранг ‑ частота»

Частотой встречаемости слова называется величина, равная числу вхождений слова в текст. Вероятность обнаружения некоторого слова в тексте p равна отношению частоты его вхождения к общему числу слов в тексте.

Если все слова одного разговорного языка или просто достаточно длинного текста упорядочить по убыванию частоты их вхождения и пронумеровать, то значение частоты вхождения каждого слова окажется обратно пропорциональным его порядковому номеру. Порядковый номер слова в таком списке является рангом слова и обозначается R. Если несколько разных слов имеют одинаковые частоты, то учитывается только одно из них. Выявленная закономерность описывается первым законом Зипфа:

Произведение частоты встречаемости слова на его ранг приблизительно постоянно для любых текстов определенного языка.

f R = C,

где f ‑ частота встречаемости слова,

C — константа Зипфа.

Значение константы в разных языках отличается, но внутри одной языковой группы это значение остается неизменным для любого текста. Так, например, для английских текстов константа Зипфа равна приблизительно 1470. Для русского языка эта константа близка к 960.

 

Рис. 1. Кривая зависимости частоты встречаемости слова от его ранга

Второй закон Зипфа «количество ‑ частота»

В первом законе не учитывался такой факт, что разные слова могут входить в текст с одинаковой частотой. Зипф установил, что частота и количество разных слов N, входящих в текст с данной частотой, также связаны между собой определенной зависимостью. Если построить график, отложив по оси ординат частоту вхождения слова, а по оси абсцисс — количество разных слов, характеризуемых одинаковой частотой, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма данной кривой Зипфа останется неизменной. Могут незначительно отличаться лишь коэффициенты, отвечающие за наклон кривой. Данное свойство иллюстрируется данными рис. 2., на котором показаны кривые для французского (кривая 1), английского (кривая 2) и русского (кривая 3) языков.

Рис. 2.

Полученные Дж. Зипфом результаты могут успешно использоваться на практике для выделения значащих слов в тексте. От того, как будет задан диапазон значимых слов, зависит многое. Если сделать его слишком широким — нужные термины потонут в море вспомогательных слов. Установив же чрезмерно узкий диапазон, мы рискуем потерять некоторые смысловые термины. В каждой поисковой системе данная проблема решается по-своему, руководствуясь общим объёмом текста, специальными словарями и т.п.

Интересно отметить, что законы Зипфа весьма универсальны. Они применимы не только к текстам, но и ко многим другим продуктам человеческой деятельности. Например, законам Зипфа соответствуют зависимость количества городов от числа проживающих в них жителей, характеристики популярности узлов в сети Интернет.

 







Дата добавления: 2015-10-12; просмотров: 3419. Нарушение авторских прав; Мы поможем в написании вашей работы!



Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Машины и механизмы для нарезки овощей В зависимости от назначения овощерезательные машины подразделяются на две группы: машины для нарезки сырых и вареных овощей...

Классификация и основные элементы конструкций теплового оборудования Многообразие способов тепловой обработки продуктов предопределяет широкую номенклатуру тепловых аппаратов...

Именные части речи, их общие и отличительные признаки Именные части речи в русском языке — это имя существительное, имя прилагательное, имя числительное, местоимение...

Весы настольные циферблатные Весы настольные циферблатные РН-10Ц13 (рис.3.1) выпускаются с наибольшими пределами взвешивания 2...

Хронометражно-табличная методика определения суточного расхода энергии студента Цель: познакомиться с хронометражно-табличным методом опреде­ления суточного расхода энергии...

ОЧАГОВЫЕ ТЕНИ В ЛЕГКОМ Очаговыми легочными инфильтратами проявляют себя различные по этиологии заболевания, в основе которых лежит бронхо-нодулярный процесс, который при рентгенологическом исследовании дает очагового характера тень, размерами не более 1 см в диаметре...

Studopedia.info - Студопедия - 2014-2024 год . (0.009 сек.) русская версия | украинская версия