Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Частотные характеристики текстовых сообщений





mono- 1

bi-, di- 2

tri- 3

tetra-, quadri- 4

pent(a)- 5

hex(a)- 6

hept(a)- 7

oct(o)- 8

deca- 10

unde-, hende- 11

lente-, tard-, retard- медленный

long-, depot- длительный

 


super-, supra- сверх

ultra- более, сверх

eu- хорошо

Частотные характеристики текстовых сообщений

Текст состоит из слов, слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m -ок (m -грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие. Замечательно, что эти характеристики являются достаточно устойчивыми.

Идея состоит в подсчете чисел вхождений каждой nm возможных m -грамм в достаточно длинных открытых текстах T = t1t2…tl, составленных из букв алфавита { a1, a2,..., an }. При этом просматриваются подряд идущие m -граммы текста:

t1t2...tm, t2t3... tm+1,..., ti-m+1tl-m+2...tl.

Если – число появлений m -граммы ai1ai2...aim в тексте T, а L – общее число подсчитанных m -грамм, то опыт показывает, что при достаточно больших L частоты

для данной m -граммы мало отличаются друг от друга.

В силу этого, относительную частоту (1) считают приближением вероятности P (ai1ai2...aim) появления данной m -граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

Ниже приводится таблицы частот букв (в процентах) ряда европейских языков. Данные заимствованы из книги [Bau39].

 

Буква алфавита Французский язык Немецкий язык Английский язык Испанский язык Итальянский язык
A 7.68 5.52 7.96 12.90 11.12
B 0.80 1.56 1.60 1.03 1.07
C 3.32 2.94 2.84 4.42 4.11
D 3.60 4.91 4.01 4.67 3.54
E 17.76 19.18 12.86 14.15 11.63
F 1.06 1.96 2.62 0.70 1.15
G 1.10 3.60 1.99 1.00 1.73
H 0.64 5.02 5.39 0.91 0.83
I 7.23 8.21 7.77 7.01 12.04
J 0.19 0.16 0.16 0.24 -
K - 1.33 0.41 - -
L 5.89 3.48 3.51 5.52 5.95
M 2.72 1.69 2.43 2.55 2.65
N 7.61 10.20 7.51 6.20 7.68
O 5.34 2.14 6.62 8.84 8.92
P 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
R 6.81 7.01 6.83 6.95 6.56
S 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
W - 1.38 1.80 - -
X 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
Z 0.07 1.17 0.05 0.31 1.24

 

Некоторая разница значений частот в приводимых в различных источниках таблицах объясняется тем, что частоты существенно зависят не только от длины текста, но и от его характера. Например, в технических текстах редкая буква Ф может стать довольно частой в связи с частым использованием таких слов, как функция, дифференциал, диффузия, коэффициент и т.п.

Еще большие отклонения от нормы в частоте употребления отдельных букв наблюдаются в некоторых художественных произведениях, особенно в стихах. Поэтому для надежного определения средней частоты букв желательно иметь набор различных текстов, заимствованных из различных источников. Вместе с тем, как правило, подобные отклонения незначительны, и в первом приближении ими можно пренебречь.

Наглядное представление о частотах букв дает диаграмма встречаемости. Так, для ангийского языка, в соответствии с таблицей, такая диаграмма изображена на рис.1. Для ее построения мы импользовали систему STATISTICA.

 

Рис.1

 

Для русского языка частоты (в порядке убывания) знаков алфавита, в котором отождествлены E c Ё, Ь с Ъ, а также имеется знак пробела (-) между словами, приведены в следующей таблице (см. [Ягл.73]).

 

- 0.175 О 0.090 Е, Ё 0.072 А 0.062
И 0.062 Т 0.053 Н 0.053 С 0.045
Р 0.040 В 0.038 Л 0.035 К 0.028
М 0.026 Д 0.025 П 0.023 У 0.021
Я 0.018 Ы 0.016 З 0.016 Ь, Ъ 0.014
Б 0.014 Г 0.013 Ч 0.012 Й 0.010
Х 0.009 Ж 0.007 Ю 0.006 Ш 0.006
Ц 0.004 Щ 0.003 Э 0.003 Ф 0.002

 

На основании таблицы получаем следующую диаграмму частот (рис.2).

 

Рис.2

 

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют нелепое слово СЕНОВАЛИТР. Можно также предложить аналогичный способ запоминания частых букв английского языка, например с помощью слова TETRIS-HONDA (см. таблицу).

 

Французский язык E, S, A, N, T, I, R, U, L, O 79.9%
Немецкий язык E, N, I, S, T, A, H, D, U 77.2%
Английский язык E, T, A, I, N, R, O, S, H, D 75.3%
Испанский язык E, A, O, S, I, R, N, L, D, C 78.3%
Итальянский язык I, E, A, O, N, T, R, L, S, T 79.9%

 

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов.

Приведем таблицы частот биграмм для русского и английского языков (таблицы заимствованы из книги [Fri85]). Для удобства они разбиты на четыре части по следующей схеме:

 

Часть1 Часть2
Часть3 Часть4

 

Часть1
  А Б В Г Д Е Ж З И Й К Л М Н О П
А                                
Б                                
В                                
Г                                
Д                                
Е                                
Ж                                
З                                
И                                
Й                                
К                                
Л                                
М                                
Н                                
О                                
П                                

 

Часть2
  Р С Т У Ф Х Ц Ч Ш Щ Ы Ь Э Ю Я
А                              
Б                              
В                              
Г                              
Д                              
Е                              
Ж                              
З                              
И                              
Й                              
К                              
Л                              
М                              
Н                              
О                              
П                              

 

Часть3
  А Б В Г Д Е Ж З И Й К Л М Н О П
Р                                
С                                
Т                                
У                                
Ф                                
Х                                
Ц                                
Ч                                
Ш                                
Щ                                
Ы                                
Ь                                
Э                                
Ю                                
Я                                

 

Часть4
  Р С Т У Ф Х Ц Ч Ш Щ Ы Ь Э Ю Я
Р                              
С                              
Т                              
У                              
Ф                              
Х                              
Ц                              
Ч                              
Ш                              
Щ                              
Ы                              
Ь                              
Э                              
Ю                              
Я                              

 

Рис.3

 

Хорошие таблицы k -грамм легко получить, используя тексты электронных версий многих книг, содержащихся на CD-дисках.

Для получения более точных сведений об открытых текстах можно строить и анализировать таблицы k -грамм при k >2, однако для учебных целей вполне достаточно ограничиться биграммами. Неравномерность k -грамм (и даже слов) тесно связана с характерной особенностью открытого текста – наличием в нем большого числа повторений отдельных фрагментов текста: корней, окончаний, суффиксов, слов и фраз. Так, для русского языка такими привычными фрагментами являются наиболее частые биграммы и триграммы:







Дата добавления: 2015-08-30; просмотров: 1470. Нарушение авторских прав; Мы поможем в написании вашей работы!




Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...


Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...


Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Гносеологический оптимизм, скептицизм, агностицизм.разновидности агностицизма Позицию Агностицизм защищает и критический реализм. Один из главных представителей этого направления...

Функциональные обязанности медсестры отделения реанимации · Медсестра отделения реанимации обязана осуществлять лечебно-профилактический и гигиенический уход за пациентами...

Определение трудоемкости работ и затрат машинного времени На основании ведомости объемов работ по объекту и норм времени ГЭСН составляется ведомость подсчёта трудоёмкости, затрат машинного времени, потребности в конструкциях, изделиях и материалах (табл...

Основные симптомы при заболеваниях органов кровообращения При болезнях органов кровообращения больные могут предъявлять различные жалобы: боли в области сердца и за грудиной, одышка, сердцебиение, перебои в сердце, удушье, отеки, цианоз головная боль, увеличение печени, слабость...

Вопрос 1. Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации К коллективным средствам защиты относятся: вентиляция, отопление, освещение, защита от шума и вибрации...

Задержки и неисправности пистолета Макарова 1.Что может произойти при стрельбе из пистолета, если загрязнятся пазы на рамке...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия