Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кодирование текстов




Начать объяснение следует с напоминания того, что компьютер может работать с четырьмя видами информации: текстовой, графической, числовой и звуковой. Термин «текстовая информация» и «символьная информация» используются как синонимы. С точки зрения компьютера текст - это последовательность символов, входящих в компьютерный алфавит.

Первая задача- познакомить учеников с символьным алфавитом компьютера. Они должны знать, что:

• Алфавит компьютера включает в себя 256 символов;

• Каждый символ занимает 1 байт памяти;

Необходимо отметить, что каждый символ в памяти компьютера представлен 8-ми разрядным двоичным кодом. Существует 256 различных 8-ми разрядных комбинаций из «0» и «1». Удобство побайтового кодирования очевидно, поскольку байт - наименьшая адресуемая часть памяти, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста.

Далее следует ввести понятие о таблице кодировки. Таблица кодировки - это стандарт, ставящий в соответствие каждому символу алфавита свой порядковый номер. Наименьший номер - 0, наибольший - 256. Двоичный код символа, это его порядковый номер в двоичной системе счисления. Международным стандартом стала система кодов ASCII. От учеников не нужно требовать запоминания кодов символов. Однако некоторые принципы организации кодовых таблиц они должны знать. Необходимо рассмотреть с учащимися таблицу кодов ASCII. Проводя анализ таблицы кодов ASCII важно отметить соблюдение лексикографического порядка в расположении букв латинского алфавита, а также цифр. На этом принципе основана возможность сортировки символьной информации.

В качестве дополнительной информации можно рассказать о том, что проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, то есть в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65 536 символов и можно внести всевозможные национальные алфавиты.

В разделе 1.3 части II учебника Семакин «Информатик базовый курс» рассматривается иной подход к проблем кодирования текста в компьютерной памяти. Этот подход основа на применении алгоритма Д. Хаффмана. Суть его состоит в том, что длина двоичного кода у разных символов может быть разная. Чем чаще символ встречается в тексте, тем его код короче и наоборот — чем символ более «редкий», тем его код длиннее Перекодирование текста из байтового кода путем применения алгоритма Д. Хаффмана позволяет существенно сокращать объем памяти, занимаемый текстом.







Дата добавления: 2015-04-19; просмотров: 458. Нарушение авторских прав


Рекомендуемые страницы:


Studopedia.info - Студопедия - 2014-2020 год . (0.001 сек.) русская версия | украинская версия