logo
Informatics

11.3.3. Стратегия поиска информации в сети

Один из первых вопросов, поставленных в начале §11.1, состоял в следующем: как разыскать в Сети необходимую информацию в условиях, когда ее поток непрерывно и до определенной степени бесконтрольно возрастает. Наиболее убедительной попыткой обуздать информационный хаос в Internet является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины, таким образом, следующий:

Сканированиеиндексированиеклассификацияобслуживание

Сканирование. В процессе сканирования ресурсов Сети принимают участие специальные программы, в WWW их часто называют <паучками>. Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

Индексирование предполагает формирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса заиндексированных ресурсов.

Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.

Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.

Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.

В процессе сканирования поисковой машине приходится получать доступ к ресурсам Сети, естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирования, прежде всего это - гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP-архивы.

В мире Internet технологии WWW произвели революцию, следствием которой стали следующие факторы:

Существование шлюзов между протоколами прикладного уровня позволяет, например, поисковой машине WWW сканировать ресурсы FTP-архивов, тем не менее инфраструктуры межпротокольных шлюзов оказывается явно недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в Сети следует прибегать к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых машин WWW, полагаясь на полноту охвата остальной части Internet благодаря шлюзам.

По этой причине поиск информации в Internet сегодня поднимается на уровень технологии.

Тем не менее система информационно-поисковых машин Сети на данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Internet. Последнее означает, что с высокой вероятностью, профессионально подготовленный пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.

Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем информации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользователя, по крайней мере в случае, когда доступ к информации заданного типа происходит впервые и место ее нахождения не представляется очевидным.

Тем не менее и в этом случае остается серьезная проблема: список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWWстраниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка, или ранжирование документов по релевантности (реальной пригодности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.

Так, в процессе ранжирования Web-документов из списка отклика на заданный поисковый запрос кажется естественным учесть не только частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок п т.д.), где он был употреблен, поскольку очевидно, что та степень, в которой термин соответствует основному смысловому содержанию документа, зависит от места его употребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается

достаточно просто реализовать алгоритм сканирования Web страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.

Подводя итог сказанному, сегодня можно говорить о развитии информационно-поисковых систем в двух направлениях:

1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование операторов языка HTML для идентификации значимых для поиска полей документа;

2) развитие возможностей сужения поиска путем усложнения запроса (применение логических операторов, операторов близости и т.д.