§17. Системы перевода и распознавания текстов

Основные темы параграфа:

как работают программы-переводчики;

распознавание текста;

ввод в компьютер печатного и рукописного текста.

В современном мире происходит очень важный процесс — формирование единого информационного пространства. Сти­раются информационные границы между странами и народа­ми, у человека появляется возможность общаться в букваль­ном смысле слова со всем миром. Все это приводит к тому, что многие люди различных профессий начинают общаться с иностранными коллегами, читать справочную и другую спе­циальную литературу на иностранном языке. Но далеко не каждый человек свободно владеет иностранными языками.

Современные компьютеры способны хранить большие массивы данных и производить в них быстрый поиск. Эти возможности компьютера можно использовать для создания электронных словарей и организации с их помощью перево­да текста с одного языка на другой. Для этих целей сегодня уже существует множество программ.

Как работают программы-переводчики

Чтобы найти перевод неизвестного иностранного слова, пользователю электронного словаря достаточно ввести это слово в строке поиска, и уже через несколько мгновений бу­дет получен исчерпывающий перевод. Современные тексто­вые процессоры имеют в своем составе словари, позволяю­щие производить орфографическую проверку правильности написания слов (на разных языках).

Но перевод отдельного слова и перевод целого текста — задачи совершенно разные. Чтобы понять смысл текста, не всегда хватает понимания значений всех входящих в него слов. Например, в английском языке слово «unit» имеет как минимум 6 различных значений. Какое из них имел в виду автор конкретного текста? Следствием необходимости реше­ния этих проблем стало появление компьютерных систем пе­ревода текстов. Современные системы перевода позволяют не только переводпть, но и редактировать перевод, работать с различными тематическими словарями, выполнять как про­стой и быстрый, так и сложный и профессиональный пере­вод. Эти программы (вернее, пакеты программ) позволяют работать с файлами различных типов, электронной почтой, гипертекстовыми документами и т. п. К сожалению, задача адекватного перевода до конца еще не решена — многие про­граммы зачастую выполняют ее не всегда удачно.

Рассмотрим простой пример. Переведем с помощью систе­мы перевода на английский язык фразу:

Информатика — это наука об информации.

Результат перевода:

The computer science is an information science.

А теперь с помощью той же программы переведем эту фра­зу на русский язык. Получим:

Информатика — информатика.

Как говорится, почувствуйте разницу!

Системы перевода еще уступают человеку, особенно в ра­боте с художественными текстами, но эта область информа­тики развивается очень быстро и «электронные карманные переводчики» уже становятся незаменимым помощником туриста, отправляющегося в страну с незнакомым для него языком.

Распознавание текста

Перед обсуждением этой темы давайте вспомним, какие устройства ввода информации существуют у современных компьютеров? Клавиатура, мышь, сканер и др. Сканер, на­пример, позволяет вводить графическую информацию с лис­та бумаги.

За сотни лет человечество накопило огромный объем ин­формации на традиционных бумажных носителях (книгах, газетах, журналах и т. п,), В настоящее время существует потребность (у электронных библиотек, к примеру) перено­сить эту информацию в память компьютера, Конечно, это можно сделать с помощью клавиатуры и текстового редакто­ра, но, представьте себе, сколько времени уйдет даже у про­фессионального оператора на ввод, скажем, романа «Война и мир»? Необходимо как-то ускорить этот процесс. Встает во­прос, нельзя ли использовать сканер для ввода текстовой ин­формации? Правда, в этом случае возникает такая проблема: все, что введено с помощью сканера, хранится в памяти ЭВМ как изображение. Надо «объяснить» компьютеру, что значок «с» — не просто закорючка, а буква, и хранить и обрабаты­вать его нужно как букву,

Ввод в компьютер печатного и рукописного текста

Существуют программы, позволяющие вводить тексты в ПК с помощью сканера. Используя специальные алгоритмы, они распознают буквы, позволяют редактировать распознан­ный текст и сохранять его в различных форматах. Популяр­ной программой такого типа является ABBY FineReader, Работать с этой программой несложно. Сначала нужно отска­нировать текст (управлять сканером можно прямо в среде Fi­neReader), затем разбить этот текст на фрагменты, потом распознать эти фрагменты, отредактировать полученный текст и, наконец, сохранить его в нужном текстовом форма­те. Интерфейс программы позволяет освоить эти операции легко и быстро.

Задача распознавания текста относится к области проб­лем, которые решает наука под названием «Искусственный интеллект». Современные распознающие программы умеют читать не только печатный текст, но и текст, написанный са­мым «корявым» почерком.

Коротко о главном

Современные программные средства позволяют перево­дить тексты с одного языка на другой и распознавать их, пе­реводя из отсканированного, графического представления в текстовые файлы.

Вопросы и задания

1.Что такое электронные словари?

2.Какие дополнительные проблемы возникают при переводе тек­стов? Что отличает систему перевода текста от электронного словаря?

3.Почему отсканированный текст нельзя сразу обрабатывать тек­стовым редактором?

4.В чем состоит проблема распознавания текста?

Чему вы должны научиться, изучив главу 3

Набирать текст в одном из текстовых редакторов.

Выполнять основные операции над текстом, допускаемые этим редактором.

Сохранять текст на диске, загружать его с диска, выво­дить на печать.