Полезной является информация о сочетаемости букв, то есть о предпочтительных связях букв друг с другом, которую легко извлечь из таблиц частот биграмм.
Имеется в виду таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные "соседи" (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.
Сочетаемость букв русского языка:
Г
С
Слева
Справа
Г
С
л, д, к, т, в, р, н
A
л, н, с, т, р, в, к, м
я, е, у, и, а, о
Б
о, ы, е, а, р, у
я, т, а, е, и, о
В
о, а, и, ы, с, н, л, р
р, у, а, и, е, о
Г
о, а, р, л, и, в
р, я, у, а, и, е, о
Д
е, а, и, о, н, у, р, в
м, и, л, д, т, р, н
Е
н, т, р, с, л, в, м, и
р, е, и, а, у, о
Ж
е, и, д, а, н
о, е, а, и
З
а, н, в, о, м, д
р, т, м, и, о, л, н
И
с, н, в, и, е, м, к, з
ь, в, е, о, а, и, с
К
о, а, и, р, у, т, л, е
г, в, ы, и, е, о, а
Л
и, е, о, а, ь, я, ю, у
я, ы, а, и, е, о
М
и, е, о, у, а, н, п, ы
д, ь, н, о
Н
о, а, и, е, ы, н, у
р, п, к, в, т, н
О
в, с, т, р, и, д, н, м
в, с, у, а, и, е, о
П
о, р, е, а, у, и, л
и, к, т, а, п, о, е
Р
а, е, о, и, у, я, ы, н
с, т, в, а, е, и, о
С
т, к, о, я, е, ь, с, н
ч, у, и, а, е, о, с
Т
о, а, е, и, ь, в, р, с
п, т, к, д, н, м, р
У
т, п, с, д, н, ю, ж
н, а, е, о, и
Ф
и, е, о, а, е, о, а
у, е, о, а, ы, и
Х
о, и, с, н, в, п, р
е, ю, н, а, и
Ц
и, е, а, ы
е, а, у, и, о
Ч
е, и, т, н
ь, у, ы, е, о, а, и, в
Ш
е, и, н, а, о, л
е, б, а, я, ю
Щ
е, и, а
м, р, т, с, б, в, н
Ы
л, х, е, м, и, в, с, н
н, с, т, л
Ь
н, к, в, п, с, е, о, и
с, ы, м, л, д, т,, р, н
Э
н, т, р, с, к
ь, о, а, и, л, у
Ю
д, т, щ, ц, н, п
о, н, р, л, а, и, с
Я
в, с, т, п, д, к, м, л
Рис.4
При анализе сочетаемости букв друг с другом следует иметь в виду зависимость появления букв в открытом тексте от значительного числа предшествующих букв. Для анализа этих закономерностей используют понятие условной вероятности.
Наблюдения над открытыми текстами показывают, что для условных вероятностей выполняются неравенства p(ai1)≠p(ai1/ai2), p(ai1/ai2)≠p(ai1/ai2ai3),....
Систематически вопрос о зависимости букв алфавита в открытом тексте от предыдущих букв исследовался известным русским математиком А. А. Марковым (1856 – 1922). Он доказал, что появления букв в открытом тексте нельзя считать независимыми друг от друга. В связи с этим А. А. Марковым отмечена еще одна устойчивая закономерность открытых текстов, связанная с чередованием гласных и согласных букв. Им были подсчитаны частоты встречаемости биграмм вида гласная-гласная (г, г), гласная-согласная (г, с), согласная-гласная (с, г), согласная-согласная (с, с) в русском тексте длиной в 105 знаков. Результаты подсчета отражены в следующей таблице:
Г
С
Всего
Г
С
Из этой таблицы видно, что для русского языка характерно чередование гласных и согласных, причем относительные частоты могут служить приближениями соответствующих условных и безусловных вероятностей:
p (г / с)≈0.663, p (с / г)≈0.872, p (г)≈0.432, p (с)≈0.568.
После А. А. Маркова зависимость появления букв текста вслед за несколькими предыдущими исследовал методами теории информации К. Шеннон. Фактически им было показано, в частности, что такая зависимость ощутима на глубину приблизительно в 30 знаков, после чего она практически отсутствует.
Доля гласных букв в литературном тексте:
Французский язык
44.27%
Немецкий язык
39.27%
Английский язык
39.21%
Испанский язык
47.95%
Итальянский язык
46.80%
Рис.4
Приведенные выше закономерности имеют место для обычных "читаемых" открытых текстов, используемых при общении людей. Как уже отмечалось ранее, эти закономерности играют большую роль в криптоанализе. В частности, они используются при построении формализованных критериев на открытый текст, позволяющих применять методы математической статистики в задаче распознавания открытого текста в потоке сообщений. При использовании же специальных алфавитов требуются аналогичные исследования частотных характеристик "открытых текстов", возникающих, например, при межмашинном обмене информацией или в системах передачи данных. В этих случаях построение формализованных критериев на "открытый текст" – задача значительно более сложная.
ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при которых тело находится под действием заданной системы сил...
Этапы творческого процесса в изобразительной деятельности По мнению многих авторов, возникновение творческого начала в детской художественной практике носит такой же поэтапный характер, как и процесс творчества у мастеров искусства...
ОЧАГОВЫЕ ТЕНИ В ЛЕГКОМ Очаговыми легочными инфильтратами проявляют себя различные по этиологии заболевания, в основе которых лежит бронхо-нодулярный процесс, который при рентгенологическом исследовании дает очагового характера тень, размерами не более 1 см в диаметре...