Автоматизация управления производством — страница 12

  • Просмотров 5502
  • Скачиваний 57
  • Размер файла 144
    Кб

структуризацию на основе формуляров путем выделения и добавления полей в документе. Навигацию в базе документов упрощает наличие страниц баз документов и категорий документов. Почтовые сообщения также хранятся в виде базы документов, файлы произвольного вида допускается присоединять к текстовым документам. Многие современные системы электронных документов используют в дополнение к файловой системе так называемые

библиотеки документов, содержащие в БД карточки документов с атрибутами и ключевыми словами. Для логической группировки документов применяются папки. Поиск и фильтрация документов производится по запросам на основе контекстного поиска: по атрибутам, по ключевым словам и по полному содержанию текста на основе индекса. При использовании механизма четкого поиска (например, DOCS OPEN) в запросе не должно быть орфографических ошибок,

а в тексте документа - ошибок распознавания. Недавно на основе нейронных сетей и искусственного интеллекта реализована технология нечеткого поиска по полному содержанию документа (например, технология адаптивного распознавания образов APRP в пакете Excalibur EFS). Нечеткий поиск не требует полного соответствия искомых фраз с содержимым документов, кроме того, исключает потребность в исправлении ошибок после распознавания текста.

Система поиска всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса. Фирмы-производители реляционных СУБД (в частности ORACLE) проповедуют другие схемы хранения - текстовые и универсальные БД. Тексты документов хранятся в символьных полях переменной длины, расширенные средства SQL-поиска позволяют формировать смешанные запросы для поиска по атрибутам и контекстного поиска, а

дополнительные функции обеспечивают обработку текста. Для хранения произвольной информации, в том числе мультимедиа, можно использовать поля бинарных объектов большой длины BLOB и/или гипертекст. СУБД, расширенные для поиска и обработки такой информации, образуют универсальные сервера БД. Другой способ хранения документов произвольного содержания реализуют объектно-ориентированные БД (например, Informix Illustra). Распределенный

гипертекст составляет основу Web- технологии. Хранилище информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам сети Internet или корпоративной сети (Intranet). Каждая страница размещается в отдельном файле и представляет собой текст, размеченный с помощью языка HTML. Структуризация документа осуществляется путем форматирования, выделения полей, создания форм для диалогового заполнения документа и