2 признак — геометрическая вариативность полей.

Расположение всех полей и записей в них должно быть строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров.

Все специально подготовленные для машинной обработки документы обладают этим качеством.

3 признак — наличие явных разделителей полей.

Этот признак часто присутствует в таблицах и играет существенную роль в выделении значимых полей [1].

На Западе существуют определённые стандарты и правила по заполнению значимых полей форм, что в последующем облегчает их обработку. Так, например, немецкие компании CGK, AEG имеют свои правила заполнения стандартных форм, которых обязаны придерживаться их клиенты. В частности в этих системах линии разграфки документов наносятся иным цветом (например, красным или зеленым) по сравнению с цветом заполнителя. Это делается для того, чтобы удалить линии еще на этапе сканирования за счет установки цветового фильтра в сканирующее устройство [10].

1.2 Типы стандартных форм в зависимости от применения

Рынок применения систем обработки форм определяется спектром бизнес-приложений, в которых они используются. Как правило, эти бизнес-приложения занимаются обработкой циркулирующей между предприятием и его клиентами информации.

В качестве основных систем обработки форм можно выделить следующие:

1. Обработка факсов.

В мире ежегодно передаётся более 50 млрд факсимильных сообщений, и, хотя электронная почта вытесняет этот вид коммуникации, факс остаётся пока одним из ведущих средств обмена информацией. Главная проблема при работе с факсами — обработка входящих факсимильных сообщений и автоматическое их распределение по получателям на базе информации, которая находится в заголовке сообщения. Для небольших предприятий это не является серьёзной проблемой. А для компаний с несколькими тысячами сотрудников, каждый из которых хотя бы раз в неделю получает одно сообщение — это существенная проблема. Кроме обычных факсимильных сообщений компания также может принимать по факсу заказы и другую более важную бизнес-информацию.

2. Обработка государственных форм.

Государственными формами являются, например, налоговые декларации, платёжные поручения по оплате налогов и другие.

Правительства многих стран пытаются ускорить обработку поступающих отчётов от населения и компаний. В связи с увеличение численности населения и добавлением новых налогов государством, процесс обработки отчётов и контроля исполнения по платежам, которые должны соответствовать этим отчётам, превращается в кошмарную проблему. Решение этой проблемы реализуется набором дополнительного персонала, или грамотной автоматизацией процесса.

3. Обработка различных счетов и заказов на товары.

Так, например в США ежедневно обрабатывается 65 млн счетов при стоимости процесса в 125 млн долларов. Подсчитано, что применение технологий обработки форм сохраняет каждый день более 40 млн долларов.

В настоящее время заказы на товары всё больше становятся ориентированными на Internet, но всё же остаётся большой процент продаж по каталогам, по почте и т.д.

4. Маркетинговые исследования и опросы.

В качестве основного вида опроса можно привести систему, которая обрабатывает результаты голосования на выборах. В зависимости от избирательных законов, принятых в той или иной стране, размеры форм могут колебаться от одной до нескольких десятков страниц [1,8].

Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером гибкой формы является банковское платежное поручение.

Другой пример — обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле [7,9,11].

 

Выводы к разделу 1

Стандартными формами являются однотипные документы, имеющие априорную структуру. Они использую главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением полей, фиксированных по отношению к границам документа. Признаками классификации стандартных форм выступают: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей.

Стандартные формы используются в различных бизнес-приложениях, занимающихся циркуляцией информации между предприятиями и клиентами. Среди основных систем обработки форм можно выделить следующие: обработка факсов, обработка государственных форм, обработка различных счетов и заказов на товары, маркетинговые исследования и опросы, обработка банковских платёжных поручений и др.


2 ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ

 

2.1 Этапы ввода и обработки форматированных документов

У стандартных форм, в отличие от прочих типов документов, структура данных известна до момента распознавания. Это преимущество существенно облегчает ввод информации из формы в поля базы данных, а также позволяет сделать это практически без участия человека.

К основным этапам ввода стандартных форм относят:

1. Подготовка обработки новой формы

2. Сканирование

3. Сегментация полученного изображения

4. Распознавание значимых полей

5. Верификация

6. Сохранение данных в полях базы данных

На первом этапе — этапе подготовки обработки новой формы с помощью специального редактора форм создаётся план документа с незаполненными полями. Для каждого значимого поля определяется тип данных и правила проверки корректности вводимых данных. С помощью редактора экспорта определяется связь между значимыми полями и полями базы данных, куда данные будут помещаться после ввода.

На втором этапе — этапе сканирования происходит получение графического образа документа с помощью технологий сканирования. При выборе сканеров следует учитывать его характеристики, например, возможности сканера по работе с различными типами и количеством документов, производительность и надёжность сканера, а также качество получаемого изображения (т.е. разрешающую способность сканера). При этом качество печати играет очень большую роль. Более выгодно истратить немного больше денег при печати документа, а затем сэкономить значительные суммы при сканировании и распознавании [1,2].

На третьем этапе — сегментации изображения происходит выделение значимых полей и опорных элементов для облегчения процесса распознавания.

Текстовое представление документа является одним из главных требований, которое позволяет производить поиск, сортировку и модификацию документов.

Поэтому важным этапом является четвёртый этап — конвертирование документа в текстовый файл с помощью программ распознавания [1,11].

Для распознавания значимых полей используется несколько специальных технологий:

OCR (Optical Character Recognition) — технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление.

ICR (Intelligent Character Recognition) — распознавание раздельных печатных символов, написанных от руки в специальных окнах-шаблонах для соблюдения одинаковых размеров символов. А также рукописных цифр, например, как на почтовых конвертах. (Эту технологию называют интеллектуальным распознаванием).

OMR (Optical Mark Recognition) — распознавание отметок. Обычно отметками выступают перечёркнутые крест-накрест либо отмеченные галочками квадраты или круги (checkbox).

Используется также технология распознавания штрихкодов.

При распознавании используются различные методы для улучшения качества получаемых изображений. Например, поворот, выравнивание, применение различных фильтров для устранения пятен, удаления фона и т.д. [1,11,13].

На пятом этапе происходит верификация документа, т.е. проверка качества распознавания и исправление ошибок. Большие требования в данном случае предъявляются к методам проверки вводимых данных.

Используются следующие режимы верификации:

·          Контекстная верификация для проверки текстовых полей;

·          Групповая верификация для проверки цифровых данных;

·          Верификация полей формы по заранее определённым правилам

Для повышения надёжности данных используют дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

И на шестом этапе распознанные и проверенные данные сохраняются в полях базы данных. Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день [1,10].

Следовательно, более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных [8,13].

Выполнение двух основных процессов, сегментации документа и чтения текста документа из значимых полей, предполагает обработка форматируемых документов.

Сегментация — это нахождение опорных элементов и вычисление относительно них положения значимых полей.

Эти процессы могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

В документах, не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации. Пример характерного случая ложной геометрической сегментации и её последующей коррекции после чтения приведён на рис.1.

тел.

факс

 

(095) 234 45 67

(095) 234 47 75

 

тел. (095) 234 45 67

 

факс (095) 234 47 75

 

Рис.1. Пример геометрической сегментации полей формы и результата её коррекции

Очевидно, что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений.

В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах, смещением текста в полях, искажениями формы документа в процессе сканирования (например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется.

Документы, не имеющие строго заданной геометрии, но, тем не менее, использующие явно заданные разделители (например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные, а текст их не касается, то принципиальных сложностей при обработке не возникает. На практике эти условия обеспечиваются далеко не всегда, поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены [1,2].

2.2 Основные принципы потокового ввода форм

При вводе данных из форм целесообразно придерживаться следующих принципов:

1. Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества: во-первых, с каждым пакетом могут быть связаны свои программные настройки, во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.


Информация о работе «Ввод стандартных форм и форматированных документов»
Раздел: Информатика, программирование
Количество знаков с пробелами: 39623
Количество таблиц: 2
Количество изображений: 0

Похожие работы

Скачать
26388
7
7

... текста и его обработки, таблицы, форматирования и редактирования. Текстовый редактор: назначение и основные возможности. Редактирование и форматирование текста. Вставка таблицы в текстовый документ. Редактирование и форматирование таблиц. Данные, с которыми работают текстовые редакторы – это символьная информация. Наименьший единицей символьной информации является один символ. Слова – ...

Скачать
20470
0
0

... на рынке продуктов требует не только хорошего понимания конечной задачи, но и отличного знания рынка программного обеспечения. Рассмотрим подробнее основные подсистемы интеграции СЭД. 2.1 Системы автоматизации делопроизводства и документооборота Функции автоматизации делопроизводства и документооборота в том или ином виде представлены в любой системе автоматизации документооборота. В ...

Скачать
24072
0
7

... , поэтому при изменении стиля Обычный изменятся все основанные на нем стили. Стиль Обычный не основан ни на одном из стилей. Элементы текстовых документов, которые вводятся в документ в процессе его редактирования и форматирования: ·              Колонтитулы (Вид / Колонтитулы) ·              Символ (Вставка / Символ) ·              Ссылка (сноски; названия рисунков, таблиц, формул; ...

Скачать
38882
0
0

... и время; просмотреть и скопировать колонтитулы других разделов; переключиться между верхним и нижним колонтитулами. Редактирование колонтитулов завершают щелчком на кнопке Закрыть или и о игорной командой Вид ^ Колонтитулы. Проверка правописания Текстовый процессор Word существенно облегчает создание гра­мотных и литературно правильных документов. Проверка текста и исправление ошибок в нем ...

0 комментариев


Наверх