8.1.1 Организация хранения электронных документов

Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях. Носители электронных документов характеризуются двумя основными параметрами, стоимостью хранения одного мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциональны друг другу - в зависимости от решаемых задач, необходимо находить оптимальное соответствие и выбирать определенный носитель информации. Также на выбор носителя влияет срок хранения информации. Иногда для ряда задач необходимо создавать систему хранения, которая состоит из разнотипных носителей. Например, для оперативного доступа требуется применение высокоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков. Соответственно для таких гетерогенных систем хранения необходимо решать задачи не только совместной работы данных носителей информации, но и обеспечивать миграцию документов между носителями. Эта миграция может осуществляться либо путем настройки системы администратором (например после истечения 90 дней со дня создания документа он должен автоматически переместиться на более медленный и дешевый носитель информации), либо автоматически в зависимости от частоты обращения пользователей к тому или иному документу. Программное обеспечение, которое ответственно за автоматическую миграцию документов носит название Hierarchical Storage Management (HSM).

Выбор решений ключевых проблем управления хранением информации на разных платформах зависит от различных факторов, в том числе и от экономических - и в стоимости создания распределенных приложений клиент/сервер, и в выборе аппаратного обеспечения, которые делают необходимыми программные средства в таких областях, как структурированное хранение информации (hierarchical storage management, HSM) и резервирование (Backup). Эти факторы глобальны по своей природе, и в соединении с административными и техническими проблемами формируют определенную совокупность требований к управлению распределенными данными.

8.1.2. Принципы управления хранением

Прежде всего я хотел бы сформулировать фундаментальное правило управления хранением.

Данные находятся в сохранности только тогда, когда они хранятся более чем на одном носителе и более чем в одном месте.

Это утверждение может показаться одной из самоочевидных истин, однако новые технологии его так легко вуалируют, что мы теряем ощущение реальности. Любой носитель может выйти из строя, будь это диск оперативного доступа, магнитная лента или оптический диск. Аналогично может быть разрушено любое место хранения - например сгореть.

Первый принцип управления хранением - хранить данные в безопасности. Проблема, из-за которой мы уделяем так много внимания данной теме, состоит в том, чтобы сделать это наиболее доступным по цене способом. Вместо единого решения, которое подходило бы для всех вариантов хранения, существуют компромиссы. Обычно они возможны между стоимостью хранения, усилиями по выполнению резервирования и стоимостью простоев и потери данных. Стоит еще раз напомнить самим себе, - зачем мы делаем резервирование - чтобы защититься от случайностей ("о, я только что удалил не тот файл") и разных бедствий (разрушен диск или сгорел центр обработки данных).

Существуют гибкие методики, такие как RAID, включая "зеркалирование" (mirroring), однако хотя они и повышают надежность системы, но не защищают ни от катастрофы (если у вас нет удаленной зеркальной копии), ни тем более от случайного удаления.

8.1.3. Организация учета бумажных и микрографических документов

Архивная система кроме работы с электронными документами должна учитывать бумажные и микрографические документы - система должна хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций: выдача документа, возврат документа и т. п.

8.1.4. Организация поиска документов

Наряду с организацией хранения документов необходимо их быстро и эффективно искать. Если со скоростью поиска все понятно, то для пояснения понятия эффективности поиска рассмотрим модели поиска. Существует два подхода к поиску документов. Первый подход состоит в том, что в процессе поиска ищется документ, который точно существует в системе, и задача состоит в том, чтобы процесс поиска свелся к нахождению требуемого документа или документов. Этот подход применятся в 90% всех случаев поиска. Второй подход состоит в том, что ищутся все документы по интересующему вопросу. Для этого подхода присущи такие понятия, как полнота - соответствие между найденными документами по данному запросу и действительному списку документов и шум - соответствие документов, отвечающих запросу и документов, нерелевантных ему.

Существует два основных типа поиска. Атрибутивный - каждому документу присваивается набор определенных атрибутов, присваиваемых документу во время его размещения в архиве. В дальнейшем документ ищется на совпадение значений этих атрибутов полям запроса. К атрибутам документа можно отнести имя документа, время создания, автор, машинистка, имя подразделения, тип документа (факс, письмо, контракт, спецификация и т. д.). Очевидно, что список таких атрибутов должен быть расширяем. Совокупность атрибутов документа называется карточкой документа. Эти поля могут заполняться произвольно или из предопределенных справочников.

Второй тип поиска, носит название полнотекстовый - автоматически обрабатывается все содержание документа, и затем по любому слову, входящему в данный документ, можно найти сам документ. Соответственно существует зависимость между типами поиска и подходами к поиску. Для поиска известного документа, очевидно, более применим атрибутивный поиск, для исследовательского поиска - полнотекстовый. Существует комбинация полнотекстового и атрибутивного поиска, когда атрибуты документа обрабатываются так же, как все содержание документа. Полнотекстовый поиск зависит от формата документа и языка, на котором он создан. Электронный документ любого формата необходимо предварительно преобразовывать в плоский текст для обработки системой полнотекстового поиска, следовательно, любая такая система должна содержать в своем составе конвертеры форматов. Зависимость от языка выражается в следующих факторах: поиск документа будет более полным, если в результате запроса будут найдены не только документы, которые точно соответствуют слову в запросе, но и те документы, в которых присутствуют различные словоформы слова в запросе. Данная технология носит название нормализации. Причем эффективность метода зависит от применяемого алгоритма нормализации. Для русского языка наиболее эффективен словарный метод - слово нормализуется на основе словарей, в которых содержатся словоформы. Кроме словарного метода может применяться эвристический метод нормализации, когда слово может быть приведено к нормальному виду путем выполнения определенных правил, описывающих алгоритмику нормализации. Если для английского языка свод правил нормализации составляет 300 страниц машинописного текста, то для русского языка этот свод на несколько порядков больше. Аналогично нормализации было бы логично выполнять поиск не только по конкретному слову, но и по его синонимам.

8.1.5. Поддержка защиты документов от несанкционированного доступа и аудита работы

Архивная система должна иметь защиту на уровне документа - каждый документ должен иметь ассоциированный с ним список пользователей, имеющих право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять карточку документа.

8.1.6. Поддержка просмотра документов без загрузки приложений, которые порождают документ

Архивная система должна поддерживать специальные программы просмотра, позволяющие получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.


Информация о работе «Система компьютерного ведения документации»
Раздел: Информатика, программирование
Количество знаков с пробелами: 110475
Количество таблиц: 1
Количество изображений: 14

Похожие работы

Скачать
24026
0
1

КОД неизбежно имеет свои особенности. Аудитор на этапе планирования должен решить вопросы организационно-технического обеспечения аудиторских процедур и необходимости привлечения технических специалистов. Процедуры тестирования системы КОД обязательно должны быть предусмотрены в числе первых по очередности выполнения, поскольку именно они позволяют определить аудиторский риск. Аудитор на данном ...

Скачать
213973
23
2

... операций в несколько раз. 4 Обоснование экономической эффективности проекта Задачей проекта является проектирование автоматизированной системы управления документооборотом Отдела организации деятельности участковых уполномоченных милиции Ленинского РОВД. Результатом проекта является снижение трудоемкости, сокращение объема документооборота, повышение достоверности и качества входящей и ...

Скачать
144824
1
0

... все названные критерии. Причем данным набором дело не ограничивается, поскольку наука и практика не стоит на месте, появляются новые реалии и обстоятельства. 2.2.Проблема выбора система электронного документооборота на предприятиях малого и среднего бизнеса Основными российскими тенденциями начала третьего тысячелетия стал безбумажный технологический бум во всех сферах человеческой ...

Скачать
568458
20
78

... для реализации системы бюджетирования Консультационной группы "Воронов и Максимов". Статья о проблемах выбора системы бюджетирования - в проекте "УПРАВЛЕНИЕ 3000". Бюджетный автомат Если вы решитесь на автоматизацию системы бюджетирования компании, перед вами сразу встанут вопросы: что выбрать, сколько платить, как внедрять. Примеряйте! О ЧЕМ РЕЧЬ В “Капитале” на стр. 44, 45 мы рассказали ...

0 комментариев


Наверх