04 1.1.1. Кодирование текстовой информации

Подробности: Опубликовано 05.03.2012 15:18; Просмотров: 12272

1.1.1. Кодирование текстовой информации

Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Начиная с конца 60-х годов прошлого века, компьютеры все больше стали использоваться для обработки текстовой информации.

Кодирование и декодирование текстовой информации.

Для кодирования прописных и строчных букв русского и латинского алфавитов, цифр и ряда специальных знаков (знаки арифметических операций, знаки препинания и пр.) достаточно использовать 256 различных символов. По формуле, связывающей количество сообщений N и количество информации I, можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак:

N = 2¹ => 256 => 2⁸ => I = 8 битов = 1 байт.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, т. е. преобразование кода символе, в его изображение.

Кодировки русского алфавита. Важно, что присваивание символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) этой таблицы соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду соответствуют рас личные символы. Существуют пять однобайтовых кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 2 =65 536 различи! [х символов. Та кого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры| знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.

Контрольные вопросы

1. Почему для кодирования текстовой информации в компьютере перешли от однобайтовых кодировок к двухбайтовой кодировке?

Школьные учебники онлайн Удобная онлайн библиотека для школьников.

Nav view search

Навигация

Искать

Новости

Учебники

Как пользоваться:

Счетчики

Сайт участвует

Популярные статьи

Последние новости