- Подробности
- Опубликовано 10.02.2012 04:46
- Просмотров: 13148
§17. Системы перевода и распознавания текстов
Основные темы параграфа:
как работают программы-переводчики;
распознавание текста;
ввод в компьютер печатного и рукописного текста.
В современном мире происходит очень важный процесс — формирование единого информационного пространства. Стираются информационные границы между странами и народами, у человека появляется возможность общаться в буквальном смысле слова со всем миром. Все это приводит к тому, что многие люди различных профессий начинают общаться с иностранными коллегами, читать справочную и другую специальную литературу на иностранном языке. Но далеко не каждый человек свободно владеет иностранными языками.
Современные компьютеры способны хранить большие массивы данных и производить в них быстрый поиск. Эти возможности компьютера можно использовать для создания электронных словарей и организации с их помощью перевода текста с одного языка на другой. Для этих целей сегодня уже существует множество программ.
Как работают программы-переводчики
Чтобы найти перевод неизвестного иностранного слова, пользователю электронного словаря достаточно ввести это слово в строке поиска, и уже через несколько мгновений будет получен исчерпывающий перевод. Современные текстовые процессоры имеют в своем составе словари, позволяющие производить орфографическую проверку правильности написания слов (на разных языках).
Но перевод отдельного слова и перевод целого текста — задачи совершенно разные. Чтобы понять смысл текста, не всегда хватает понимания значений всех входящих в него слов. Например, в английском языке слово «unit» имеет как минимум 6 различных значений. Какое из них имел в виду автор конкретного текста? Следствием необходимости решения этих проблем стало появление компьютерных систем перевода текстов. Современные системы перевода позволяют не только переводпть, но и редактировать перевод, работать с различными тематическими словарями, выполнять как простой и быстрый, так и сложный и профессиональный перевод. Эти программы (вернее, пакеты программ) позволяют работать с файлами различных типов, электронной почтой, гипертекстовыми документами и т. п. К сожалению, задача адекватного перевода до конца еще не решена — многие программы зачастую выполняют ее не всегда удачно.
Рассмотрим простой пример. Переведем с помощью системы перевода на английский язык фразу:
Информатика — это наука об информации.
Результат перевода:
The computer science is an information science.
А теперь с помощью той же программы переведем эту фразу на русский язык. Получим:
Информатика — информатика.
Как говорится, почувствуйте разницу!
Системы перевода еще уступают человеку, особенно в работе с художественными текстами, но эта область информатики развивается очень быстро и «электронные карманные переводчики» уже становятся незаменимым помощником туриста, отправляющегося в страну с незнакомым для него языком.
Распознавание текста
Перед обсуждением этой темы давайте вспомним, какие устройства ввода информации существуют у современных компьютеров? Клавиатура, мышь, сканер и др. Сканер, например, позволяет вводить графическую информацию с листа бумаги.
За сотни лет человечество накопило огромный объем информации на традиционных бумажных носителях (книгах, газетах, журналах и т. п,), В настоящее время существует потребность (у электронных библиотек, к примеру) переносить эту информацию в память компьютера, Конечно, это можно сделать с помощью клавиатуры и текстового редактора, но, представьте себе, сколько времени уйдет даже у профессионального оператора на ввод, скажем, романа «Война и мир»? Необходимо как-то ускорить этот процесс. Встает вопрос, нельзя ли использовать сканер для ввода текстовой информации? Правда, в этом случае возникает такая проблема: все, что введено с помощью сканера, хранится в памяти ЭВМ как изображение. Надо «объяснить» компьютеру, что значок «с» — не просто закорючка, а буква, и хранить и обрабатывать его нужно как букву,
Ввод в компьютер печатного и рукописного текста
Существуют программы, позволяющие вводить тексты в ПК с помощью сканера. Используя специальные алгоритмы, они распознают буквы, позволяют редактировать распознанный текст и сохранять его в различных форматах. Популярной программой такого типа является ABBY FineReader, Работать с этой программой несложно. Сначала нужно отсканировать текст (управлять сканером можно прямо в среде FineReader), затем разбить этот текст на фрагменты, потом распознать эти фрагменты, отредактировать полученный текст и, наконец, сохранить его в нужном текстовом формате. Интерфейс программы позволяет освоить эти операции легко и быстро.
Задача распознавания текста относится к области проблем, которые решает наука под названием «Искусственный интеллект». Современные распознающие программы умеют читать не только печатный текст, но и текст, написанный самым «корявым» почерком.
Коротко о главном
Современные программные средства позволяют переводить тексты с одного языка на другой и распознавать их, переводя из отсканированного, графического представления в текстовые файлы.
Вопросы и задания
1.Что такое электронные словари?
2.Какие дополнительные проблемы возникают при переводе текстов? Что отличает систему перевода текста от электронного словаря?
3.Почему отсканированный текст нельзя сразу обрабатывать текстовым редактором?
4.В чем состоит проблема распознавания текста?
Чему вы должны научиться, изучив главу 3
Набирать текст в одном из текстовых редакторов.
Выполнять основные операции над текстом, допускаемые этим редактором.
Сохранять текст на диске, загружать его с диска, выводить на печать.