Дискретное представление информации: двоичные числа; двоичное кодирование текста в памяти компьютера. Информационный объем текста
Человек воспринимает информацию с помощью органов чувств. При этом он стремится зафиксировать ее и представить в форме, доступной другим. Форма представления информации может быть различной. Один и тот же объект, например дом, можно изобразить графически в виде рисунка или выполнить чертеж в трех проекциях. Его можно описать в стихах или с помощью математических формул. Форма представления информации зависит от цели, для которой она служит. Например. Запись решения квадратного уравнения на алгоритмическом языке или языке программирования в корне отличается от той формы записи, которая используется на уроках алгебры.
Рассмотрим представления чисел. Числа записываются с использованием особых знаковых систем, которые называются системами счисления. Все системы счисления делятся на позиционные и непозиционные. Система счисления – это способ записи чисел с помощью специальных знаков – цифр. Числа: 123, 45678, 1010011, CXL. Цифры: 0, 1, 2, … I, V, X, L, … Алфавит – это набор цифр. {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} Типы систем счисления: непозиционные – значение цифры не зависит от ее места (позиции) в записи числа; позиционные – зависит от ее места (позиции) в записи числа. Непозиционные системы Унарная – одна цифра обозначает единицу (1 день, 1 камень, 1 баран, …) Римская: Позиционная система: значение цифры определяется ее позицией в записи числа. Десятичная система: Алфавит: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 Основание (количество цифр): 10
разряды 3 7 8 = 3·102 + 7·101 + 8·100 300 70 8 Другие позиционные системы: • двоичная, восьмеричная, шестнадцатеричная (информатика) • двенадцатеричная (1 фут = 12 дюймов, 1 шиллинг = 12 пенсов) • двадцатеричная (1 франк = 20 су) • шестидесятеричная (1 минута = 60 секунд, 1 час = 60 минут) Cистемы счисления в компьютерах В XVII веке немецкий ученый Готфрид Лейбниц предложил уникальную систему представления чисел с помощью всего двух символов – 0 и 1. Сегодня этот способ повсеместно используется в технике, в том числе и в компьютерах и называется дискретным. Компьютер способен хранить только дискретно представленную информацию. Его память, как бы велика она ни была, состоит из отдельных битов, а значит, по своей сути дискретна. Язык компьютера — это язык двоичных чисел - двоичный алфавит, имеющий два знака, 1 и 0. Этим знакам в логике и технике приводят в соответствие понятия — да и нет, истина и ложь, включено и выключено. Такой алфавит называют еще бинарным. В соответствии с этим введена и наименьшая единица информации — бит (англ. bit, от binary — двоичный и digit — знак). Одного бита информации достаточно, чтобы передать слово "да" или "нет", закодировать, например, состояние электролампочки. Кстати, на некоторых выключателях пишут "1 —включено" и "0 — выключено". Взгляд на выключатель снимает для нас неопределенность в его состоянии. При этом мы получаем количество информации, равное одному биту. БИТ — наименьшая единица измерения информации, соответствующая одному разряду машинного двоичного кода. Двоичная кодировка (двоичная система счисления) имеет ряд преимуществ перед другими системами кодирования:
Обработка информации в компьютере основана на обмене электрическими сигналами между различными устройствами машины. Признак наличия сигнала можно обозначить цифрой 1, признак отсутствия — цифрой 0. Двоичное кодирование текста Для представления текста в компьютере используется 256 различных знаков. Для кодирования 1 знака отводится 8 битов. Кодирование – присвоение каждому символу десятичного кода от 0 до 255 или соответствующего ему двоичного кода от 00000000 до 11111111 Присвоение символу определенного кода – это вопрос соглашения, которое фиксируется в кодовой таблице. В качестве международного стандарта была принята кодовая таблица ASCII (American Standard Code for Information Interchange): Коды с 0 по 32 (первые 33 кода) - коды операций (перевод строки, ввод пробела, т.е. соответствуют функциональным клавишам); Коды с 33 по 127 – интернациональные, соответствуют символам латинского алфавита, цифрам, знакам арифметических операций, знакам препинания; Коды с 128 по 255 – национальные, т.е. кодировка национального алфавита. на 1 символ отводится 1 байт (8 бит), всего можно закодировать 28 = 256 символов С 1997 года появился новый международный стандарт Unicode, который отводит для кодировки одного символа 2 байта (16 бит), и можно закодировать 65536 различных символов (Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, множество математических, музыкальных, химических и прочих символов) В настоящий момент существует пять кодировок кириллицы: КОИ-8, CP1251, CP866, ISO, Mac. Для преобразования текстовых документов из одной кодировки в другую существуют программы которые называются Конверторы Чтобы подсчитать информационный объем текста необходимо количество информации, которое несет один символ, умножить на количество символов в тексте:
I = i * K
|