ИТУ-МГУДТ

7.7. Компьютерные технологии поиска документальной информации

В контексте компьютерных технологий поиска документальной информации документ - это текст или изображение, имеющее информационное значение. Цель поиска документальной информации - нахождение и выдача релевантных, т.е. соответствующих запросу пользователя документов или их описаний.

Автоматизированные хранение и поиск эффективны для документальной информации следующего порядка: законодательные и иные нормативные акты, комментарии к ним, материалы судебного делопроизводства; приказы, указания и иная распорядительная документация; информация, относящаяся к различного рода коммерческим договорам и контрактам (деловая переписка с клиентами и партнерами, стенограммы переговоров, тексты контрактов и т.д.); отчетно- плановая документация; предпринимательские проекты и программы; материалы научных исследований (научные статьи, доклады, аннотации, рефераты); периодическая печать; рекламная продукция (каталоги фирм, рекламные издания); справочные и другие материалы. Исторически первые информационно-поисковые (ИПС), иначе говоря, системы поиска документальной информации появились в крупных архивах, библиотеках, научно-технических центрах.

Существует два способа автоматизации поиска документальной информации, различающиеся по характеру формализации содержания документа и запроса – фактографический и документальный. Фактографический поиск предполагает, что содержание документа, а также его библиографическое описание (дата издания, автор и т. п.) отображаются в структурированную информацию, вид которой определяется конструкциями соответствующего информационного языка. Поиск сводится к работе со структурированной информацией средствами СУБД (см. параграф 8.4.), при этом пользователю могут выдаваться не только формализованное описание фактов, объектов, событий, явлений, процессов (см. параграф 5.4), но и тексты документов либо ссылки на них.

Документальный поиск происходит по ключевым словам, при этом он ведется по всему тексту документа или по его поисковому образу. Пользователь в ответ на свой запрос получает тексты документов. Эффективность документального поиска определяется качеством информационно-поискового языка (см. параграф 4.5.) и оценивается с помощью показателей полноты и точности. Полнота поиска - это отношение числа выданных пользователю в ответ на его запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа предоставленных пользователю релевантных документов к общему числу выданных ему документов.

Документальный поиск может быть организован с помощью следующих основных видов технологий: поиска с использованием поискового образа документа (ПОД), поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам. Технология с использованием ПОД успешно применяется при организации как ручного, так и автоматизированного поиска документов. Суть поискового образа документа состоит в том, что за образ документа принимается его центральная идея, которую можно выразить в виде краткого текста (набора ключевых слов). В простейшем случае функцию такого краткого текста выполняет заглавие документа или его первая фраза.

Использование ПОД не требует значительных объемов памяти, мощного и дорогого аппаратного и программного обеспечения, время поиск относительно невелико. Вместе с тем, набор даже самых информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте, более того, существует вероятность искажения его содержания. Указанный недостаток приобретает принципиальное значение для нормативно-правовых документов.

Полнотекстовые базы данных (full-text system), иначе говоря, текстовые базы данных, базируются на технологиях поиска по полному тексту документов. При формировании запросов для поиска с учетом по сочетанию ключевых слов используются логические функции «И» (AND), «ИЛИ» (OR), «НЕ» (NОТ). Аспекты естественного языка, выходящие за рамки логической взаимосвязи терминов, учитываются с помощью «усечения терминов», их «нормализации», операторов контекстного поиска, запросов по образцу. Усечению подвергаются обычно окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Для обозначения одного несущественного символа используют знак «?», а нескольких несущественных символов - знак «*». Так, выражение «цен?» может соответствовать словам: «цена», «цене», а выражение «цен*», может соответствовать словам «ценам», «ценовая», «ценообразование». Для осуществления усечения применяется специальный оператор, либо эта операция производится в системе автоматически.

Нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного - к именительному падежу единственного числа.

Операторы контекстного поиска дают возможность учитывать контекст и по существу являются развитием функции «И». Эти операторы дают возможность задать степень «близости» слов в тексте, среди которых ведется поиск. Они позволяют осуществлять поиск среди слов, стоящих рядом; слов, разделенных не более, чем п символами, стоящими в заданном порядке; слов, разделенных не более, чем n символами, стоящими в произвольном порядке; слов, находящихся в одном параграфе; слов находящихся в заголовке и т.д. В ИПС сети Интернет в качестве инструмента оператора контекстного поиска чаще всего используется оператор NEAR..

Запросы по образцу базируются на механизмах поиска, которые позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти подобные». Поиск выполняется па основе всех содержащихся в указанном полезном документе ключевых слов и позволяет задействовать термины, которые были бы неочевидны для пользователя.

Возможность формулировки запросов на естественном языке имеется, прежде всего, в ИПС, для которых базовым языком общения является английский. Русский язык сложнее английского, так как менее структурирован, имеет более сложные морфологию и синтаксис, поэтому в русскоязычных системах преобладают традиционные средства представления запросов в формализованном виде.

Полнотекстовые базы данных широко используются для хранения и поиска правовой информации, сведений, опубликованных в периодических печатных изданиях, а также корпоративной документации.

Гипертекстовые технологии предполагают, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит более эффективно, чем при выше указанных методах поиска. Гипертекст (нелинейный текст) представляет собой организацию информации, при которой текст образует множество фрагментов с явно указанными ассоциативными связями между ними. В более широком смысле под гипертекстом понимается метод представления ассоциативно связанных фрагментов, объединения взаимосвязанных по тематике (ассоциативно) фрагментов текста, изображений, звука.

Гипертекст можно представить в виде сети или графа, где узлами являются фрагменты текста, при этом дуги отображают отношения, связывающие эти фрагменты. В общем случае в качестве узла могут выступать слово или словосочетание; предложение; абзац; параграф; документ или собрание документов, относящихся к одной теме; отдельные сообщения и т. д.

В гипертексте отсутствуют заранее заданные ограничения на характер связей (как, например, в иерархических структурах). Узлы, между которыми возможен переход, считаются смежными, а сама возможность перехода трактуется как «связь». Совокупность смежных узлов образует «окрестность» данного узла. Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует степени «близости» их содержания, равно минимальному количеству промежуточных узлов. Формирование гипертекста состоит в создании системы переходов от узла к узлу (системы ссылок).

Доступ к информации осуществляется не последовательным просмотром документов, как в полнотекстовых системах или в ИПС, работающих на принципах поискового образа документа, но в процессе перехода (движения) от одного фрагмента к другому. Переход может осуществляться между текстом и комментарием к нему; между разными редакциями текста; между текстом и его возможными продолжениями; между текстами, отвечающими или возражающими друг другу; между текстами, пересекающимися по содержанию, и т. д. Движение в гипертекстовой сети называется «навигацией».

При работе с традиционным линейным текстом пользователь имеет два направления поиска: «вперед» - «назад» («выше» или «ниже»). Гипертекст имеет сложную, разветвленную структуру, предоставляет разнообразные возможности в выборе направлений движения, поэтому возникает проблема ориентации пользователя (определения, в каком месте сети в данный момент он находится). Для облегчения ориентации используются наглядное изображение структуры связей, а также запоминание направлений поиска пользователя в процессе навигации.

Гипертекстовые технологии широко применяются при организации поиска документальной информации в сети Интернет, например, в сервисе World Wide-Web (WWW), который построен на основе архитектуры «клиент - сервер» и включает в себя следующие составляющие: язык разметки гипертекстовых документов (Hyper Text Markup Language - HTML); универсальный способ адресации ресурсов в сети (Universal Resource Locator - URL); протокол обмена гипертекстовой информацией (Hyper Text Transfer Protocol - HTTP); средства просмотра Web-страниц.

Язык разметки представляет собой средство формирования гипертекстовых документов, используется для создания Web-страниц, позволяет осуществлять также связь текста и изображения с документами, расположенными на другом сервере Web.

Универсальный способ адресации предназначен для записи адресов документов Интернета, организации гипертекстовых ссылок и обеспечения доступа к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера (адреса компьютера), имени файла (пути поиска документа на компьютере). Адрес компьютера состоит из частей, разделенных точками, например, www.intel.ru. Части адреса, расположенные справа, определяют сетевую принадлежность компьютера, размещенные слева – указывают на конкретный компьютер этой сети.

Протокол обмена данными служит для установления связи с документами формата HTML независимо от их местонахождения.

Средства просмотра Web-страниц – специальные компьютерные программы (браузеры), позволяющие осуществить поиск информации путем просмотра гипертекстовой сети, произвести форматирование и отображение документа на конкретном компьютере пользователя.

Основным инструментом поиска в Интернет являются поисковые системы, в настоящее время насчитывается около 200 таких систем. По используемым поисковым технологиям они классифицируются следующим образом: тематические каталоги, онлайновые справочники, поисковые машины, а также средства мета-поиска.

Тематические каталоги предполагают классификацию и индексирование документов (автоматически или вручную) в соответствии заранее заданным перечнем тематических рубрик, построенных по иерархическому принципу.

Онлайновые справочники представляют собой специализированные каталоги, сформированные по выделенным, наиболее популярным темам, сферам деятельности, отраслям, в частности, по новостям, по городам, по адресам электронной почты и т. д.

Поисковые машины реализуют технологию полнотекстового поиска по базе данных, распределенной в сети. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс наиболее мощных информационных систем содержит информацию о нескольких десятках миллионов документов. Речь идет о поиске в базе данных колоссальных размеров, поэтому формулировка запроса оказывает большое влияние на результат поиска. Поисковые машины - самое развитое из существующих средств поиска.

Средства метапоиска. позволяют осуществить обработку одновременно несколькими поисковыми системами, а результат поиска объединить в общий, упорядоченный по степени релевантности список. Каждая поисковая система обрабатывает только часть узлов сети, поэтому метапоиск позволяет значительно расширить базу поиска.

Наиболее мощными глобальными поисковыми системами являются AltaVista, HotBot, Northern Light, Yahoo.

Англоязычные документы эффективнее искать, применяя глобальные поисковые системы. При поиске русскоязычных документов целесообразнее пользоваться поисковыми системами, которые индексируют только русскоязычную часть Интернет. Подобные поисковые серверы называются локальными. Основные полнотекстовые поисковые системы в русскоязычном секторе Интернет - Яndex, Rambler, Anopm. Они проводят автоматическое сканирование документов с доменов «ru», «su», а также с других доменов, принадлежащих странам ближнего зарубежья.

Содержание