1.1.5. Системы оптического распознавания документов

Системы оптического распознавания символов. При со­здании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному доку­ментообороту, при необходимости отредактировать получен­ный по факсу документ используются системы оптического распознавания символов.

С помощью сканера несложно получить изображение стра­ницы текста в графическом файле. Однако для получения до­кумента в формате текстового файла необходимо провести рас­познавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатан­ных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Снача­ла растровое изображение страницы разделяется на изобра­жения отдельных символов. Затем каждый из них последо­вательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим ко­личеством точек, отличных от входного изображения.

При распознавании документов с низким качеством пе­чати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др ). Любой символ можно описать через набор параметров, определяю­щих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими При рас­познавании структурным методом в искаженном символь­ном изображении выделяются характерные детали и сравни­ваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего со­ответствуют распознаваемому символу.

Наиболее распространенные системы оптического распо­знавания символов используют как растровый, так и струк­турный метод распознавания. Кроме того, эти системы яв­ляются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания мно­гостраничного документа постепенно возрастают.

Системы оптического распознавания форм. При прове­дении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вво­дятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносят­ся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно разли­чаются у разных людей. Кроме того, система должна опре­делить, к какому полю относится распознаваемый текст.

Системы распознавания рукописного текста. С появле­нием первого карманного компьютера в 1990 году начали создаваться системы распознавания рукописного текста. Та­кие системы преобразуют текст, написанный на экране кар­манного компьютера специальной ручкой, в текстовый компьютерный документ.

Контрольные вопросы

1. В чем состоят различия в технологиях распознавания документов типографского качества и с низким качеством печати?