logo
ИТУ-МГУДТ

7.7. Компьютерные технологии поиска документальной информации

В контексте компьютерных технологий поиска документальной информации документ - это текст или изображение, имеющее информационное значение. Цель поиска документальной информации - нахождение и выдача релевантных, т.е. соответству­ющих запросу пользователя документов или их описаний.

Автоматизированные хранение и поиск эффектив­ны для документальной информации следующего порядка: законодательные и иные нормативные акты, комментарии к ним, материалы судебного делопроизводства; приказы, указания и иная распорядительная документация; информация, относящаяся к различного рода коммерческим договорам и контрактам (деловая переписка с клиентами и партнерами, стенограммы переговоров, тексты контрак­тов и т.д.); отчетно- плановая документация; предпринимательские проекты и про­граммы; материалы научных исследований (научные статьи, доклады, аннотации, рефераты); периодическая печать; рекламная продукция (каталоги фирм, рекламные издания); справочные и другие материалы. Исторически первые информационно-поисковые (ИПС), иначе говоря, системы поиска документальной информации появились в крупных архивах, библиотеках, научно-технических центрах.

Существует два способа автоматизации поиска документальной информации, различающиеся по характеру формализации содержания документа и запро­са – фактографический и документальный. Фактографический поиск предполагает, что содержание документа, а так­же его библиографическое описание (дата издания, автор и т. п.) отобра­жаются в структурированную информацию, вид которой определяется конструкциями соответствующего информационного языка. Поиск сводится к работе со структурированной информацией сред­ствами СУБД (см. параграф 8.4.), при этом пользователю могут выдаваться не только формализованное описание фактов, объектов, событий, явлений, процессов (см. параграф 5.4), но и тексты документов либо ссылки на них.

Документальный поиск происходит по ключевым словам, при этом он ведется по всему тексту документа или по его поисковому образу. Пользователь в ответ на свой запрос получает тексты документов. Эффективность документального поиска определяется качеством информационно-поискового языка (см. параграф 4.5.) и оценивается с помощью показателей полноты и точности. Полнота поиска - это отношение числа выданных пользователю в ответ на его запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных докумен­тов. Точность поиска определяется как отношение числа предоставленных пользователю релевантных документов к общему числу выданных ему документов.

Документальный поиск может быть орга­низован с помощью следующих основных видов технологий: поиска с использованием поискового образа документа (ПОД), поиска по полному тексту документа, поиска до­кументов по гипертекстовым ссылкам. Технология с использованием ПОД успешно приме­няется при организации как ручного, так и автоматизированного поиска документов. Суть поискового образа документа состоит в том, что за образ документа принимается его центральная идея, которую можно выразить в виде краткого текста (набора ключевых слов). В простейшем случае функцию такого краткого текста выполняет заглавие документа или его первая фраза.

Использование ПОД не требует значительных объемов памяти, мощ­ного и дорогого аппаратного и программного обеспечения, время поиск относительно невелико. Вместе с тем, набор даже самых информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте, более того, существует вероятность искажения его содер­жания. Указанный недостаток приобретает принципиальное значение для нормативно-правовых документов.

Полно­текстовые базы данных (full-text system), иначе говоря, текстовые базы данных, базируются на технологиях поиска по полному тексту документов. При формировании запросов для поиска с учетом по сочетанию ключевых слов использу­ются логические функции «И» (AND), «ИЛИ» (OR), «НЕ» (NОТ). Аспекты естественного языка, выходящие за рамки логической взаимосвязи терминов, учитываются с помощью «усечения терминов», их «нормализации», операторов контекстного поиска, запросов по образцу. Усечению подвергаются обычно окончания слов для того, чтобы падеж или множе­ственное число не влияли на выбор слова. Для обозначе­ния одного несущественного символа используют знак «?», а нескольких несущественных символов - знак «*». Так, выражение «цен?» может соответствовать словам: «цена», «цене», а выражение «цен*», может соответствовать словам «ценам», «ценовая», «ценообразование». Для осуществления усечения применяется специальный оператор, либо эта операция производится в системе автоматически.

Нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, су­ществительного - к именительному падежу единственного числа.

Операторы контекстного поиска дают возможность учитывать контекст и по существу являются развитием функции «И». Эти операторы дают возможность задать степень «близости» слов в тексте, среди которых ведется поиск. Они позволяют осуществлять поиск среди слов, стоящих рядом; слов, разделенных не более, чем п символами, стоящими в заданном порядке; слов, разделенных не более, чем n символами, сто­ящими в произвольном порядке; слов, находящихся в одном параграфе; слов находящихся в заголовке и т.д. В ИПС сети Интернет в качестве инструмента опе­ратора контекстного поиска чаще всего используется оператор NEAR..

Запросы по образцу базируются на механизмах поиска, которые позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти подобные». Поиск выполняется па основе всех содержащихся в указанном полезном документе ключевых слов и по­зволяет задействовать термины, которые были бы неочевидны для пользователя.

Возможность форму­лировки запросов на естественном языке имеется, прежде всего, в ИПС, для которых базовым языком общения является английский. Русский язык слож­нее английского, так как менее структурирован, имеет более слож­ные морфологию и синтаксис, поэтому в русскоязычных системах преобладают традиционные средства представления запросов в формализованном виде.

Полнотекстовые базы данных широко используются для хранения и поиска правовой информации, сведений, опубликованных в периодических печатных изданиях, а также корпора­тивной документации.

Гипертекстовые технологии предполагают, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит более эф­фективно, чем при выше указанных методах поиска. Гипертекст (нелинейный текст) представляет собой организацию ин­формации, при которой текст образует множество фраг­ментов с явно указанными ассоциативными связями между ними. В более широком смысле под гипертекстом понимается метод представления ассоциативно связанных фрагментов, объединения взаимосвязанных по тематике (ассоциативно) фрагментов текста, изображений, звука.

Гипертекст можно представить в виде сети или графа, где узлами являются фрагменты текста, при этом дуги отображают отношения, связывающие эти фрагменты. В общем случае в качестве узла могут выступать слово или словосо­четание; предложение; абзац; параграф; документ или собрание докумен­тов, относящихся к одной теме; отдельные сообщения и т. д.

В гипертексте отсутствуют заранее заданные ограничения на характер связей (как, например, в иерархических структурах). Узлы, между которыми возможен переход, считаются смежны­ми, а сама возможность перехода трактуется как «связь». Совокупность смежных узлов образует «окрестность» данного узла. Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует степени «близости» их содержания, равно минимальному количеству промежуточ­ных узлов. Формирование гипертекста состоит в создании сис­темы переходов от узла к узлу (системы ссылок).

Доступ к информации осуществ­ляется не последовательным просмотром документов, как в полнотекстовых системах или в ИПС, работающих на принципах поискового образа документа, но в процессе перехода (движения) от одного фрагмента к другому. Переход может осуществляться между текстом и комментарием к нему; между разными редакциями текста; между текстом и его возможными продолжениями; между текстами, отвечающими или возражающими друг другу; между текстами, пересекающимися по содержанию, и т. д. Движение в гипертекстовой сети называется «навигацией».

При работе с традиционным линейным текстом пользователь имеет два направления поиска: «вперед» - «назад» («выше» или «ниже»). Гипертекст имеет сложную, разветвленную структуру, предоставляет разнообразные возмож­ности в выборе направлений движения, поэтому возни­кает проблема ориентации пользователя (определения, в каком месте сети в данный момент он находится). Для облегчения ориентации используются наглядное изображение структуры связей, а также запоминание направлений поиска пользователя в про­цессе навигации.

Гипертекстовые технологии широко применяются при организации поиска документальной информации в сети Интернет, например, в сервисе World Wide-Web (WWW), который построен на основе архитектуры «клиент - сервер» и включает в себя следующие составляющие: язык разметки гипертекстовых документов (Hyper Text Markup Language - HTML); универсальный способ адресации ресурсов в сети (Universal Resource Locator - URL); протокол обмена гипертекстовой информацией (Hyper Text Transfer Protocol - HTTP); средства просмотра Web-страниц.

Язык разметки представляет собой средство формирования гипертекстовых документов, используется для создания Web-страниц, позволяет осуществлять также связь текста и изоб­ражения с документами, расположенными на другом сервере Web.

Универсальный способ адресации предназначен для записи адресов документов Интернета, организации гипертекстовых ссылок и обеспечения доступа к распределенным ре­сурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера (адреса компьютера), имени файла (пути поиска документа на компьютере). Адрес компьютера состоит из частей, разделенных точками, например, www.intel.ru. Части адреса, расположенные справа, определяют сетевую принадлежность компьютера, размещенные слева – указывают на конкретный компьютер этой сети.

Протокол обмена данными служит для установления связи с до­кументами формата HTML независимо от их местонахождения.

Средства просмотра Web-страниц – специальные компьютерные программы (браузеры), позволяющие осуществить поиск информации путем просмотра гипертекстовой сети, произвести форматирование и отображение документа на конкретном компьютере пользователя.

Основным инструментом поиска в Интернет являются поиско­вые системы, в настоящее время насчитывается около 200 таких систем. По используемым поисковым технологиям они классифицируются следующим образом: тематические каталоги, онлайновые справочники, поисковые машины, а также средства мета-поиска.

Тематические каталоги предполагают классификацию и индексирование документов (автоматически или вручную) в соответствии заранее заданным перечнем тематических рубрик, построенных по иерархическому принципу.

Онлайновые справочники представляют собой специализированные каталоги, сформированные по выделенным, наиболее популярным темам, сферам деятельности, отраслям, в частности, по новостям, по городам, по адресам электронной почты и т. д.

Поисковые машины реализуют технологию полнотекстового поиска по базе данных, распределенной в сети. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс наиболее мощных информационных систем содержит информацию о нескольких десятках миллионов документов. Речь идет о поиске в базе данных колоссальных размеров, поэтому формулировка запроса оказывает большое влияние на результат поиска. Поисковые машины - самое развитое из существующих средств поиска.

Средства метапоиска. позволяют осуществить обработку одновременно не­сколькими поисковыми системами, а результат поиска объединить в общий, упорядоченный по степени релевантности список. Каждая поисковая система обрабатывает только часть узлов сети, поэтому метапоиск позволя­ет значительно расширить базу поиска.

Наиболее мощными глобальными поисковыми системами являются AltaVista, HotBot, Northern Light, Yahoo.

Англоязычные документы эффективнее искать, применяя глобаль­ные поисковые системы. При поиске русскоязычных документов целесообразнее пользоваться поисковыми системами, которые ин­дексируют только русскоязычную часть Интернет. Подобные поис­ковые серверы называются локальными. Основные полнотекстовые поисковые системы в русскоязычном секторе Интернет - Яndex, Rambler, Anopm. Они проводят автоматическое сканиро­вание документов с доменов «ru», «su», а также с других доменов, принад­лежащих странам ближнего зарубежья.