Otvety_na_bilety_po_vase_1

Структура поисковых сервисов Интернета. Поисковые машины и каталоги

Рис. 6. На схеме представлены поисковые сервисы доступные пользователю Интернет.

Согласно схеме реальными носителями информации о ресурсах, которыми располагает Сеть, являются поисковые машины и каталоги - они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска.

Между этими двумя инструментами сетевого поиска имеется достаточно большая разница. Каталог ссылок, как и следует из названия, представляет собой упорядоченную по темам коллекцию ссылок на многочисленные Интернет-страницы и сайты. Каталог, как правило, составляется и поддерживается специалистами технической службы соответствующего ресурса, которые самостоятельно и/или по заявкам владельцев сайтов пополняют перечень ссылок и составляют обзоры Web-страниц, включающие краткое описание ресурса, его адрес в Интернете и определенные ключевые слова. Последние используются поисковой программой, которая, как правило, входит в состав каталога. По этим словам сайт может быть найден среди прочих ресурсов, описания которых имеются в базе данных Интернет-каталога. Примером такого рода Интернет-ресурса является достаточно известный в Рунете каталог ссылок List.RU (http://www.list.ru). Ниже подробнее рассказано об Интернет-каталогах.

В отличие от каталога, поисковая машина не зависит от человека. Поисковик включает в себя три основных компонента. Во-первых, программу-робота, непрерывно просматривающую Сеть или определенную ее часть (например, русскоязычные ресурсы) в поисках новых сайтов, а также с целью проверки существования ранее найденных ресурсов. Во-вторых, так называемый “индекс” – базу данных, в которой хранятся сведения о найденных Интернет-ресурсах. И в-третьих, собственно поисковую систему – непременный элемент поисковика. Именно поисковая программа осуществляет поиск по индексу с учетом заданных пользователем критериев запроса.

Впрочем, пользователям не столь уж и важно знать о технических подробностях функционирования подобных систем. Вот только, наверное, стоит опровергнуть бытующий среди части пользователей стойкий миф о том, что поисковая машина, для того чтобы найти требуемую информацию, “перелопачивает” весь Интернет. На самом деле по запросу пользователя поиск ведется по ключевым словам в индексной базе. Кстати, подтверждением этому служат порой появляющиеся в результатах поиска “мертвые” ссылки на уже несуществующие ресурсы.

Индексная база поисковой машины, как правило, располагает данными о гораздо большем числе Web-страниц по сравнению с каталогом Интернет-ресурсов. Происходит это из-за того, что программа-робот в состоянии “обшаривать” Сеть и индексировать страницы практически без перерыва. Зато поиск с использованием каталога Интернет-ресурсов часто позволяет быстрее найти искомую информацию в силу того, что при составлении описаний эксперт точнее может подобрать ключевые слова, которые будут использоваться при поиске.

Так же поисковые системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического поиска, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя:

пространственный масштаб, в котором работает информационно-поисковая система (при формировании информационного массива поисковая система может следить за обновлением наперед заданного набора документов, каталогов или конечного числа узлов, отобранных по какому-либо принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальными. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационного поля Сети (WWW, FTP или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, который используется глобальной системой для постоянного увеличения числа подконтрольных узлов; построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации);

и ее специализация (специализация поисковой системы на базе какого-либо профиля или тематики, будь то поиск людей и организаций, оборудования или файлов мультимедиа в формате MP3, теоретически может происходить как на глобальной, так и на локальной основе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых узлов, что обычно и реализуется на практике).

Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например, ru и su для России. Серьезным недостатком таких систем является неучет ими большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене com, net, biz.

Чрезвычайно важной проблемой Сети является интеграция различных поисковых сервисов в единую систему. В 1999 году при участии 15 крупнейших поисковых систем Интернета в феврале стартовал проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб. Задачей стандарта является максимально сблизить синтаксис и возможности поисковых языков различных информационно-поисковых систем. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ - по URL. Понятно, что даже это простое соглашение поставило бы учет и контроль информации в масштабе Сети на принципиально новый уровень.

Теоретически привлекает перспектива создания сверхмощной глобальной поисковой системы, которая бы была способна сопровождать Сеть в ее полном информационном объеме. Однако на практике это пока невозможно, и решение проблемы интеграции смещается в сторону разработки метапоисковых систем.

Содержание