Кодирование информации. Кодирование непрерывных и дискретных сообщений
Одну и ту же информацию, например, сведения об опасности мы можем выразить разными способами: просто крикнуть; оставить предупреждающий знак (рисунок); с помощью мимики и жестов; передать сигнал «SOS» с помощью азбуки Морзе или используя семафорную и флажковую сигнализацию. В каждом из этих способов мы должны знать правила, по которым можно отобразить информацию. Такое правило назовем кодом. Код — это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий. Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки. Обычно каждый образ при кодировании (иногда говорят — шифровке) представлении отдельным знаком. Знак - это элемент конечного множества отличных друг от друга элементов. Знак вместе с его смыслом называют символом. Набор знаков, в котором определен их порядок, называется алфавитом. Существует множество алфавитов: • алфавит кириллических букв {А, Б, В, Г, Д, Е,...} • алфавит латинских букв {А, В, С, D, Е, F,...} • алфавит десятичных цифр{0, 1, 2, 3, 4, 5, 6, 7, 8, 9} • алфавит знаков зодиака {картинки знаков зодиака} и др. Особенно большое значение имеют наборы, состоящие всего из двух знаков: • пара знаков {+, -} • пара цифр {0, 1} • пара ответов {да, нет} Алфавит, состоящий из двух знаков, называется двоичным алфавитом. Двоичный знак (англ. binary digit) получил название «бит». Шифрование - кодирование сообщения отправителя, но такое чтобы оно было не понятно несанкционированному пользователю. Длиной кода называется такое количество знаков, которое используется при кодировании. Количество символов в алфавите кодирования и длина кода - совершенно разные вещи. Например, в русском алфавите 33 буквы, а слова могут быть длиной в 1, 2, 3 и т.д. буквы. Код может быть постоянной и непостоянной длины. Коды различной (непостоянной) длины в технике используются довольно редко. Исключением является лишь троичный код Морзе. В вычислительной технике в настоящее время широко используется двоичное кодирование с алфавитом (0, 1). Наиболее распространенными кодами являются ASCII (American standart code for information interchange - американский стандартный код для обмена информацией) и КОИ-8 (код обмена информации длиной 8 бит). Одно и то же сообщение можно закодировать разными способами, т. е. выразить на разных языках. В процессе развития человеческого общества люди выработали большое число языков кодирования. К ним относятся: • разговорные языки (русский, английский, хинди и др. — всего более 2000); • язык мимики и жестов; • язык рисунков и чертежей; • язык науки (математические, химические, биологические и другие символы); • язык искусства (музыки, живописи, скульптуры и т. д.); • специальные языки (эсперанто, морской семафор, азбука Морзе, азбука Брайля для слепых и др 5. Знаки. Коды, как отображение знаков. Алфавит Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода, т. е. каждому символу ставится в соответствие отдельное бинарное слово-код. При выборе метода кодирования руководствуются объемом и способами обработки символьной информации. Так как многие типы информации содержат в значительном объеме цифровую информацию, то применяются две системы кодирования: символьной информации и десятичных чисел. Необходимый набор символов, предусмотренный в конкретной ЭВМ, обычно включает: ■ буквенно-цифровые знаки алфавита (алфавитов); ■ специальные знаки (пробел, скобки, знаки препинания и др.); ■ знаки операций. Кроме того, в состав набора входят управляющие символы, соответствующие определенным функциям. Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода, т. е. каждому символу ставится в соответствие отдельное бинарное слово-код. При выборе метода кодирования руководствуются объемом и способами обработки символьной информации. Так как многие типы информации содержат в значительном объеме цифровую информацию, то применяются две системы кодирования: символьной информации и десятичных чисел. Необходимый набор символов, предусмотренный в конкретной ЭВМ, обычно включает: ■ буквенно-цифровые знаки алфавита (алфавитов); ■ специальные знаки (пробел, скобки, знаки препинания и др.); ■ знаки операций. Кроме того, в состав набора входят управляющие символы, соответствующие определенным функциям. Для представления букв русского алфавита в рамках АSСII первоначально был разработан гостовский вариант кодировки КОИ-7 (код обмена информацией 7-битный). Расположение символов во второй половине таблицы этой кодировки резко отличается от принятого фирмой IВМ, что затрудняет использование зарубежного программного обеспечения на отечественных ЭВМ. В связи с этим он практически не применяется, а на отечественных ПК введена так называемая ГОСТ-альтернативная кодировка, главное достоинство которой — расположение символов псевдографики на тех же местах, что и в кодировке IВМ В настоящее время находят широкое применение и другие виды кодировки [13]. В последнее время все большее распространение получает универсальная система кодирования текстовых данных - UNI СОDЕ. В данной системе символы кодируются не 8-разрядными двоичными числами, а 16-разрядными числами. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов — этого достаточно для размещения в одной таблице всех широкоупотребляемых языков. В отличие от символьной для десятичной цифровой информации при байтовой организации в целях экономии памяти и удобства обработки используют специальные форматы кодирования десятичных чисел - зонный и упакованный. При этом десятичные числа рассматриваются как десятичные со знаком, имеющие переменную длину.
|