- Подробности
- Опубликовано 05.03.2012 15:18
- Просмотров: 12035
1.1.1. Кодирование текстовой информации
Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Начиная с конца 60-х годов прошлого века, компьютеры все больше стали использоваться для обработки текстовой информации.
Кодирование и декодирование текстовой информации.
Для кодирования прописных и строчных букв русского и латинского алфавитов, цифр и ряда специальных знаков (знаки арифметических операций, знаки препинания и пр.) достаточно использовать 256 различных символов. По формуле, связывающей количество сообщений N и количество информации I, можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак:
N = 21 => 256 => 28 => I = 8 битов = 1 байт.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер — по их коду.
При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает одну ячейку.
В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, т. е. преобразование кода символе, в его изображение.
Кодировки русского алфавита. Важно, что присваивание символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) этой таблицы соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.).
Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т. е. в национальных кодировках одному и тому же коду соответствуют рас личные символы. Существуют пять однобайтовых кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и потому с его помощью можно закодировать не 256 символов, а N = 2 =65 536 различи! [х символов. Та кого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры| знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.
Контрольные вопросы
1. Почему для кодирования текстовой информации в компьютере перешли от однобайтовых кодировок к двухбайтовой кодировке?