logo search
Моделирование систем / Моделирование систем / Теория / Dop / АИС_Конспект

3.6.2. Структра поисковой системы

Текстовые документы, поступающие на вход системы, могут быть представлены, как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:

Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т. п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его ПОД (поисковый образец документа), в который заносится информация, необходимая для последующего noиска документа.

ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 в зависимости от наличия или отсутствия данного признака в данном документе. Например, в качестве набора признаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте.

Такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам.

В первом случае хранят номера строк, в которых рассматриваемый столбец имеет значение 1. Это инверсная форма хранения .

Во втором случае хранятся номера столбцов, содержащих 1, такую форму хранения называют прямой.

Поскольку при свертке таблицы структура индекса усложняется, то для его поддержания могут ис­пользоваться средства СУБД.

При поступлении на вход системы запроса пользователя, запрос пре­образуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой яв­ляется отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Идентификаторы релевантных до­кументов подаются с выхода подсистемы поиска на вход подсистемы хра­нения, которая осуществляет выдачу пользователю самих релевантных документов.