1.1.1. Кодирование текстовой информации

Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называет­ся текстовой информацией. Начиная с конца 60-х годов про­шлого века, компьютеры все больше стали использоваться для обработки текстовой информации.

Кодирование и декодирование текстовой информации.

Для кодирования прописных и строчных букв русского и латинского алфавитов, цифр и ряда специальных знаков (знаки арифметических операций, знаки препинания и пр.) достаточно использовать 256 различных символов. По фор­муле, связывающей количество сообщений N и количество информации I, можно вычислить, какое количество инфор­мации необходимо, чтобы закодировать каждый знак:

N = 21 => 256 => 28 => I = 8 битов = 1 байт.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.

При вводе в компьютер текстовой информации происхо­дит ее двоичное кодирование, изображение символа преоб­разуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.

В процессе вывода символа на экран компьютера произ­водится обратный процесс — декодирование, т. е. преобразо­вание кода символе, в его изображение.

Кодировки русского алфавита. Важно, что присваивание символу конкретного кода — это вопрос соглашения, кото­рое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) этой таблицы соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).

Коды с 33 по 127 являются интернациональными и соот­ветствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды с 128 по 255 являются национальными, т. е. в на­циональных кодировках одному и тому же коду соответству­ют рас личные символы. Существуют пять однобайтовых ко­довых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помо­щью можно закодировать не 256 символов, а N = 2 =65 536 различи! [х символов. Та кого количества символов достаточ­но, чтобы закодировать не только русский и латинский ал­фавиты, цифры| знаки и математические символы, но и гре­ческий, арабский, иврит и другие алфавиты.

 

Контрольные вопросы

 

1. Почему для кодирования текстовой информации в компьютере перешли от однобайтовых кодировок к двухбайтовой кодировке?