logo
Теор

Хранение информации, навигация, поиск и фильтрация документов

Документы могут храниться просто в файловой системе, и при этом система каталогов служит средством группирования и навигации в хранилище документов. В современных ОС типа Windows есть возможность задания длинных имен каталогов и файлов в качестве названий папок и документов, а также имеются соответствующие средства поиска файлов по их параметрам.

Ряд систем, основанных на электронной почте, хранят документы в почтовых ящиках в виде почтовых сообщений с присоединенными файлами. Навигация в хранилище упрощается с помощью вложенных папок личного и коллективного пользования. Однако в таких системах поиск и фильтрация ограничены лишь отбором и сортировкой документов по атрибутам и тексту почтового сообщения.

Рис. 7.1

Специфический метод хранения реализован в пакете Lotus Notes в виде так называемой базы документов, которая может хранить как однотипную, так и разнотипную информацию в виде одного файла. Документы имеют возможность внутренней структуризации на основе формуляров путем выделения и добавления полей в документе. Навигацию в базе документов упрощает наличие страниц баз документов и категорий документов. Почтовые сообщения также хранятся в виде базы документов, файлы произвольного вида допускается присоединять к текстовым документам.

Многие современные системы электронных документов используют в дополнение к файловой системе так называемые библиотеки документов, содержащие карточки документов с атрибутами и ключевыми словами. Для логической группировки документов применяются папки.

Поиск и фильтрация документов производятся по запросам на основе контекстного поиска: по атрибутам, по ключевым словам и по полному содержанию текста на основе индекса. При этом различают механизм четкого поиска и механизм нечеткого поиска. В первом случае в запросе не должно быть орфографических ошибок, а в тексте документа – ошибок распознавания. Технология нечеткого поиска по полному содержанию документа не требует полного соответствия искомых фраз с содержимым документов, кроме того, исключает потребность в исправлении ошибок после распознавания текста. Система поиска всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса.

Фирмы – производители реляционных СУБД (в частности ORACLE) реализуют текстовые и универсальные БД. Тексты документов хранятся в символьных полях переменной длины, расширенные средства SQL-поиска позволяют формировать смешанные запросы для поиска по атрибутам и контекстного поиска, а дополнительные функции обеспечивают обработку текста. Для хранения произвольной информации, в том числе мультимедиа, можно использовать поля бинарных объектов большой длины BLOB и/или гипертекст. СУБД, расширенные для поиска и обработки такой информации, образуют универсальные серверы БД.

Т

106

ехнология распределенного гипертекста составляет основу широко внедряемой Web-технологии. Хранилище информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам сети Интернет или корпоративной сети (Intranet). Каждая страница размещается в отдельном файле и представляет собой текст, размеченный с помощью языка HTML. Структуризация документа осуществляется путем форматирования, выделения полей, создания форм для диалогового заполнения документа и организации внутренних гипертекстовых ссылок. Допускается создание гипермедиа включением любой мультимедиа-информации (растровая графика, аудио, видео). Навигация по хранилищу гипертекста осуществляется с помощью внешних гипертекстовых ссылок URL на документы, расположенные на различных узлах сети (Web-серверах). Кроме того, для определения местонахождения документов служит контекстный поиск. Для ускорения поиска информации в «паутине» применяются специальные программы-роботы, сканирующие Web-серверы и строящие некое подобие индекса. Использование гипертекста позволяет создать информационную инфраструктуру территориально распределенного учреждения и упростить диалоговый интерфейс пользователя, что наиболее важно при разработке информационных приложений для руководителей.