§4.Измерение информации

Основные темы параграфа;

алфавитный подход к измерению информации;

алфавит, мощность алфавита;

информационный вес символа;

информационный объем текста и единицы информации.

А теперь обсудим вопрос о том, как можно измерять ин­формацию, Существует несколько подходов к измерению ин­формации. Здесь мы рассмотрим только один, который назы­вается алфавитным подходом.

Алфавитный подход к измерению информации

Вам хорошо известно, что для измерения таких величин, как, например, расстояние, масса, время, существуют эта­лонные единицы. Для расстояния — это метр, для массы — килограмм, для времени — секунда. Измерение происходит путем сопоставления измеряемой величины с эталонной еди­ницей, Сколько раз эталонная единица укладывается в изме­ряемой величине, таков и результат измерения. Следова­тельно, и для измерения информации должна быть введена своя эталонная единица.

Алфавитный подход позволяет измерять информацион­ный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста.

Алфавит. Мощность алфавита

Под алфавитом мы будем понимать набор букв, знаков препинания, цифр, скобок и др. символов, используемых в тексте. В алфавит также следует включить и пробел, т. е. пропуск между словами.

Полное число символов в алфавите принято называть мощностью алфавита. Будем обозначать эту величину бук­вой N. Например, мощность алфавита из русских букв и от­меченных дополнительных символов равна 54: 33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел.

Информационный вес символа

При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес, Информа­ционный вес символа зависит от мощности алфавита. А ка­ким может быть наименьшее число символов в алфавите? Оно равно двум! Скоро вы узнаете, что такой алфавит ис­пользуется в компьютере. Он содержит всего 2 символа, ко­торые обозначаются цифрами «0» и «1». Его называют дво­ичным алфавитом. Изучая устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно пред­ставить любую информацию.

Информационный вес символа двоичного алфавита принят за единицу информации и называется 1 бит.

С увеличением мощности алфавита увеличивается инфор­мационный вес символов этого алфавита. Так один символ из четырехсимвольного алфавита (N = 4) «весит» 2 бита. Объяс­нение этому можно дать следующее: все символы такого ал­фавита можно закодировать всеми возможными комбинаци­ями из двух цифр двоичного алфавита. Комбинацию из не­скольких (двух, трех и т. д.) знаков двоичного алфавита назовем двоичным кодом.

image010 

Используя три двоичные цифры, можно составить 8 раз­личных комбинаций.

image011 

Следовательно, если мощность алфавита равна 8, то ин­формационный вес одного символа равен 3 битам.

Четырехзначным двоичным кодом может быть закодиро­ван каждый символ из 16-символьного алфавита. И так далее.

Найдем зависимость между мощностью алфавита (N) и количеством знаков в коде (b) разрядностью двоичного кода.

image012 

Разрядность двоичного кода это и есть информацион­ный вес символа.

Информационный вес каждого символа, выраженный в битах (b), и мощность алфавита (N) связаны между собой формулой: N= 2b.

 

Информационный объем текста и единицы информации

Информационный объем текста складывается из информа­ционных весов составляющих его символов. Например, следу­ющий текст, записанный с помощью двоичного алфавита:

1101001011000101110010101101000111010010

содержит 40 символов, следовательно, его информационный объем равен 40 битам.

Сегодня для подготовки текстовых документов чаще всего применяются компьютеры. Алфавит, из которого составля­ется такой «компьютерный текст, содержит 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: строчные и прописные латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания и пр.

Поскольку 256 = 28, то один символ компьютерного алфа­вита «весит» 8 битов. Причем 8 битов информации это на­столько характерная величина, что ей даже присвоили свое название байт.

1 байт = 8 битов.

Легко подсчитать информационный объем текста, если известно, что информационный вес одного символа равен 1 байту. Надо просто сосчитать число символов в тексте. По­лученное значение и будет информационным объемом тек­ста, выраженным в байтах.

Например, небольшая книжка, подготовленная с помо­щью компьютера, содержит 150 страниц. На каждой страни­це — 40 строк, в каждой строке — 60 символов (включая пробелы между словами). Значит, страница содержит 40 х 60 = 2400 байтов информации. Для вычисления инфор­мационного объема всей книги нужно полученную величину умножить на число страниц;

2400 байтов * 150 = 360 000 байтов.

Уже на таком примере видно, что байт «мелкая» еди­ница. А представьте, если нужно, например, измерить ин­формационный объем целой библиотеки? В байтах это ока­жется громадным числом!

Для измерения больших информационных объемов ис­пользуются более крупные единицы:

image013 

Следовательно, информационный объем вышеупомянутой книги равен приблизительно 360 килобайтам. А если посчи­тать точнее, то получится:

360000/1024 = 351,5625 Кб.

351,5625/1024 = 0,34332275 Мб.

В заключение еще раз обратим внимание на важное свойст­во рассмотренного здесь алфавитного подхода. При его ис­пользовании содержательная сторона текста в учет не берет­ся. Текст» состоящий из бессмысленного сочетания символов, будет иметь ненулевой информационный объем.

 

Коротко о главном

Алфавитный подход — это способ измерения информаци­онного объема текста, не связанного с его содержанием.

Алфавит — это вся совокупность символов, используемых в некотором языке для представления информации. Мощ­ность алфавита — это число символов в нем.

1 бит — информационный вес одного символа двухсимвольного алфавита (N = 2).

Информационный вес символа (разрядность двоичного кода) (b) и мощность алфавита (N) связаны формулой: N= 2\

Информационный объем текста равен сумме информаци­онных весов всех символов, составляющих текст.

1 байт — информационный вес символа из алфавита мощ­ностью 28 = 256 символов. 1 байт — 8 битов.

Байт, килобайт, мегабайт, гигабайт — единицы измере­ния информации. Каждая следующая единица больше пре­дыдущей в 1024 (210) раза.

Вопросы и задания

Чему вы должны научиться, изучив главу 1

Различать декларативные и процедурные знания. Называть виды информационных процессов. Определять информационный объем текста. Переводить количество информации из одних единиц в другие.