Порядок действий
1. Открываем файл 3.txt из директории «10» через HEX – редактор
В стандарте кодирования символов Unicode первые 3, или 2, или 4 байта используются для обозначения формы представления символов (UTF-8, UTF-16, UTF-32) и называются BOM (Byte Order Mark – сигнатура, определяющая UTF) UTF-8 EF BB BF UTF-16 BE FE FF UTF-16 LE FF FE UTF-32 BE 00 00 FE FF UTF-32 LE FF FE 00 00
В данном случае в начале файла у нас первые 3 байта обозначены как EF BB BF. Что означает, что наш файл записан в кодировке UTF – 8 и для его редактирования нам понадобится таблица символов кодировки UTF – 8. (это Кириллица) http://unicode-table.com/ru/blocks/cyrillic/ В Unicode каждый символ может кодироваться 2+ байтами, при этом каждый символ кодировки ASCII кодируется все также всего одним байтом.
2. Начинаем исправлять содержимое файла. Находим первый не совпадающий с оригиналом символ, он обозначен квадратом, кодируется 2мя байтами и на его месте должна быть буква «н» 3. Находим код символа «н» в нашей таблице – это D0 BD 4. Заменяем код «неверного» символа на код символа «н», исправляя тем самым первую букву в слове «ясной» 5. Следующую букву «й» заменяем по аналогии.
6. Таким образом, пользуясь таблицей UTF – 8 и HEX редактором исправляем всё четверостишие, используем 2 байта - 0D (новая строка) и 0A (возврат каретки) для перехода на новую строчку.
7. После редактирования - сохраняем файл нажав на значок дискеты, или через меню File -> Save, или сочетанием клавиш ctrl + s. Потом можно открыть сам файл в блокноте и убедиться в результате. 8. Теперь нужно дописать в конец файла свои инициалы и номер группы, для этого добавим пусты байтов в конец файла через меню Edit -> Paste Zero Bytes… 9. Начинаем с перехода на новую строчку дописываем в начало пустых байтов 0D 0A
Затем пользуясь таблицей дописываем символы «НПО 243» 10. Сохраняем, открываем файл через блокнот и смотрим на результат. Вариант 8
На «4» балла: Кодирование текста алгоритмом Хаффмана. Порядок выполнения: 1. Открыть из директории «10» текстовый файл в соответствии с вариантом. 2. Составить кодовую таблицу по алгоритму Хаффмана двумя способами: 1) на основе составленной частотной таблицы; 2) на основе известной частотной таблицы букв русского языка (см. например http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters&title=%D7%E0%F1%F2%EE%F2%ED%EE%F1%F2%FC%20%E1%F3%EA%E2%20%F0%F3%F1%F1%EA%EE%E3%EE%20%E0%EB%F4%E0%E2%E8%F2%E0) 3. Вычислить коэффициент сжатия алгоритма для составленной и для известной частотных таблиц. 4. Сравнить результаты сжатия с исходным текстом (объем данных), считая, что он закодирован в: а) ASCII; б) UTF-8. Порядок действий 1. Открываем файл 8.txt из директории «10»
Для звуков жизни не щадить, Не мог он ямба от хорея, Как мы ни бились, отличить. Бранил Гомера, Феокрита; Зато читал Адама Смита И был глубокой эконом, То есть умел судить о том, Как государство богатеет, И чем живет, и почему Не нужно золота ему, Когда простой продукт имеет. Отец понять его не мог И земли отдавал в залог.
2. Подсчитываем количество символов в файле (без учета регистра):
Статистика: Всего символов: 286 (без пробелов)
Всего видов символов: 32
Буквенных символов: 273
· Высокий регистр: 18 · Низкий регистр 255 Пунктуационных символов: 13
*Пробелов: 49
|