ЗАМЕНЫ И ГАММИРОВАНИЯ
1.1 Основные статистическими характеристиками открытых текстов
Любой метод вскрытия шифра простой замены основан на том обстоятельстве, что с точностью до переобозначений частотные характеристики т -грамм шифртекста и открытого текста одинаковы. При этом используются априорные частотные характеристики предполагаемого открытого текста, получаемые с учетом " характера переписки". Как отмечено в Приложении 1, такие характеристики являются более " рельефными" для литературных текстов и менее " рельефными" для формализованных электронных текстов. Чем менее рельефно распределение знаков текста, тем сложнее задача вскрытия шифра простой замены. Для открытых текстов с " почти равномерным" распределением знаков эта задача становится практически не решаемой. Это следует учитывать и не питать иллюзий о простоте вскрытия шифров простой замены, о которой часто упоминается в популярных книгах по защите информации. Методы " рандомизации" или " сжатия" открытых текстов, например, с использованием компьютерных архиваторов значительно усложняют задачу вскрытия шифра простой замены. Известно, что рельефность диаграммы текста тесно связана с такой его важной теоретико-информационной характеристикой, как избыточность. Далее мы будем решать задачу вскрытия шифров простой замены лишь при условии, что предполагаемые открытые тексты — это литературные тексты с " приличной" избыточностью. Кроме того, мы будем считать, что при дешифровании мы располагаем достаточно большим числом знаков шифртекста, чтобы опираться не на " фокусы", использованные, например, в известных произведениях Э. А. По и А. КонанДойля, а в большей степени на " статистику". Алгоритм вскрытия шифров простой замены по тексту криптограммы достаточно сложно формализовать. При любой попытке формализации теряется какой-либо важный нюанс. Поэтому мы укажем лишь основные идеи, лежащие в основе такого алгоритма Обычно выделяют следующие этапы алгоритма: 1. Подсчет частот встречаемости шифробозначений, а также некоторых их сочетаний, например биграмм и триграмм подряд идущих знаков. 2. Выявление шифробозначений, заменяющих гласные и согласные буквы. 3. Выдвижение гипотез о значениях шифробозначений и их проверка. 4. Восстановление истинного значения шифробозначений. Если длина текста достаточно велика, то найденные на этапе 1 частоты окажутся близкими к табулированным значениям частот знаков (см. табл. 1) [1]. Проведенная на этом этапе работа служит основанием для выдвижения гипотез о значениях шифрвеличин, соответствующих данным шифробозначениям. Таблица 1. Частоты букв русского языка (в 32-буквенном алфавите со знаком пробела)
При этом учитывается, что каждая буква имеет группу предпочтительных связей (см. табл. 2)[1], которые составляют ее наиболее характерную особенность. Как правило, такие гипотезы подтверждаются не полностью. Хорошим критерием при этом является " читаемость" восстанавливаемого открытого текста. Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Приведем таблицы частот биграмм для русского языка (табл. 3) (таблица заимствована из книги [2]).
Таблица 2 Сочетаемость букв русского языка
Таблица 3 Таблица частот биграмм русского языка
Выделение шифробозначений, отвечающих гласным и согласным, основано на характерных свойствах этих букв, учитывающих устойчивую закономерность открытых текстов, связанную с чередованием гласных и согласных букв. Подсчитаны частоты встречаемости биграмм вида гласная-гласная (г, г), гласная-согласная (г, с), согласная-гласная (с, г), согласная-согласная (с, с) в русском тексте длиной в 105 знаков. Результаты подсчета отражены в Таблице 4[1]. Таблица 4 Чередование гласных и согласных
Для большинства европейских языков характерно следующее свойство. Если шифробозначение часто встречается, равномерно располагается по шифртексту, в отдельных местах чередуется через 1, 2 или 3 знака, сочетается сосредними и редкими (по частоте) шифробозначениями, то это дает основания полагать, что такое шифробозначение скрывает гласную букву. Удвоение гласных в открытом тексте происходит реже, чем согласных. Если некоторое шифробозначение признано гласной, то буква, часто сочетающаяся с ней, скорее всего согласная. В открытом тексте чрезвычайно редко встречаются три, и более, подряд идущие гласные. Четыре, и более, подряд идущие согласные также редки. Важно учитывать также процентное соотношение чисел гласных и согласных в открытом тексте. При проверке гипотез о значениях шифробозначений полезен поиск в шифртексте слов с характерной структурой, которые часто встречаются в открытом тексте. Для русского языка — это, например, слова сколько, которое, что и т. п. Для английского языка — слова every, that, look, the и т. п. Такие слова выделяются в шифртексте посредством интервалов между повторяющимися частыми буквами, характерными сочетаниями гласных и согласных. Если с помощью приведенных соображений произведено несколько идентификаций шифробозначений, то дальнейшая работа по вскрытию текста криптограммы не представляет особого труда.
|