3.6.2. Структра поисковой системы
Подсистема ввода и регистрации
Подсистема обработки
Подсистема хранения
Подсистема поиска
Текстовые документы, поступающие на вход системы, могут быть представлены, как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:
создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
обеспечение подключения к каналам доставки электронных документов;
распознавание, а при необходимости и преобразование формата электронных документов;
присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имей (при необходимости сохранения прежних имен).
Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:
неэффективным использованием дискового пространства;
низкой скоростью доступа при большом количестве файлов.
Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т. п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.
Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его ПОД (поисковый образец документа), в который заносится информация, необходимая для последующего noиска документа.
ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 в зависимости от наличия или отсутствия данного признака в данном документе. Например, в качестве набора признаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте.
Такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам.
В первом случае хранят номера строк, в которых рассматриваемый столбец имеет значение 1. Это инверсная форма хранения .
Во втором случае хранятся номера столбцов, содержащих 1, такую форму хранения называют прямой.
Поскольку при свертке таблицы структура индекса усложняется, то для его поддержания могут использоваться средства СУБД.
При поступлении на вход системы запроса пользователя, запрос преобразуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
- Основы построения автоматизированных информационных систем
- Глава 1. Системный подход при разработке автоматизированных информационных систем
- 1.1. Общие положения
- 1.2. Автоматизированные информационные системы
- 1.3. Автоматизированные системы в управлении
- 1.4. Методы анализа автоматизированных информационных систем
- 1.5. Структура автоматизированной информационной системы
- Глава 2. Методы проектирования информационных систем
- 2.1. Обобщенная модель информационной системы и методы проектирования
- 2.2. Каноническое проектирование информационных систем
- 2.3. Управление требованиями, спецификация rup
- 2.4. Модели жизненного цикла информационной системы
- 2.5. Использование case технологий при разработке информационных систем
- 2.6. Методологии case проектирования
- 2.6.1. Методология datarun
- 2.6.2. Методология rad
- 2.6.3. Графические нотации
- 2.7. Системные методологии анализа
- 2.7.1. Методология aris
- 2.7.2. Методология baan
- 2.7.3. Методология Oracle
- 2.7.4. Методология Betec (©)
- Глава 3. Особенности современных информационных систем
- 3.1. Корпоративные информационные системы
- 3.2. Системы обработки транзакций
- 3.3. Системы поддержки принятия решения
- 3.4. Экспертные информационные системы
- 3.4.1. Основы создания информационных систем в Visual Prolog
- 3.4.2. Управления поиском решения в vip
- 3.4.3 Использование рекурсии
- 3.4.4. Управление потоком ввода–вывода
- 3.4.5. Особенности составления описания предметной области
- 3.4.6. Особенности работы с базой фактов
- 3.5. Объектно–ориентированные системы
- 3.6. Документальные системы
- 3.6.1. Информационно-поисковый язык
- 3.6.2. Структра поисковой системы
- 3.7. Гипертекстовые информационные системы
- 4. Управление процессом проектирования автоматизированной информационной системы
- 4.1. Методы управления качеством разработки аис
- 4.2. Оценка эффективности функционирования автоматизированных информационных систем
- 4.2.1. Экономическая эффективность
- 4.2.2. Производительность вычислительной системы
- 4.2.3. Оценка качества работы пользователя системы
- Приложения Приложение №1. Базовые сведения о языке программирования Visual Prolog
- Приложение №.2. Компилирование программ в Visual Prolog ver 5.2.
- Приложение №.3. Программа «Внутренняя база данных фактов»
- Приложение №.4. Программа «Внешняя база данных»
- Приложение №5.Некоторые стилевые параметры
- Список литературы