logo search
Otvety_na_bilety_po_vase_1

Структура поисковых сервисов Интернета. Поисковые машины и каталоги

Рис. 6. На схеме представлены поисковые сервисы доступные пользователю Интернет.

Согласно схеме реальными носителями информации о ресурсах, которыми располагает Сеть, являются поисковые машины и каталоги - они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска.

Между этими двумя инструментами сетевого поиска имеется достаточно большая разница. Каталог ссылок, как и следует из названия, представляет собой упорядоченную по темам коллекцию ссылок на многочисленные Интернет-страницы и сайты. Каталог, как правило, составляется и поддерживается специалистами технической службы соответствующего ресурса, которые самостоятельно и/или по заявкам владельцев сайтов пополняют перечень ссылок и составляют обзоры Web-страниц, включающие краткое описание ресурса, его адрес в Интернете и определенные ключевые слова. Последние используются поисковой программой, которая, как правило, входит в состав каталога. По этим словам сайт может быть найден среди прочих ресурсов, описания которых имеются в базе данных Интернет-каталога. Примером такого рода Интернет-ресурса является достаточно известный в Рунете каталог ссылок List.RU (http://www.list.ru). Ниже подробнее рассказано об Интернет-каталогах.

В отличие от каталога, поисковая машина не зависит от человека. Поисковик включает в себя три основных компонента. Во-первых, программу-робота, непрерывно просматривающую Сеть или определенную ее часть (например, русскоязычные ресурсы) в поисках новых сайтов, а также с целью проверки существования ранее найденных ресурсов. Во-вторых, так называемый “индекс” – базу данных, в которой хранятся сведения о найденных Интернет-ресурсах. И в-третьих, собственно поисковую систему – непременный элемент поисковика. Именно поисковая программа осуществляет поиск по индексу с учетом заданных пользователем критериев запроса.

Впрочем, пользователям не столь уж и важно знать о технических подробностях функционирования подобных систем. Вот только, наверное, стоит опровергнуть бытующий среди части пользователей стойкий миф о том, что поисковая машина, для того чтобы найти требуемую информацию, “перелопачивает” весь Интернет. На самом деле по запросу пользователя поиск ведется по ключевым словам в индексной базе. Кстати, подтверждением этому служат порой появляющиеся в результатах поиска “мертвые” ссылки на уже несуществующие ресурсы.

Индексная база поисковой машины, как правило, располагает данными о гораздо большем числе Web-страниц по сравнению с каталогом Интернет-ресурсов. Происходит это из-за того, что программа-робот в состоянии “обшаривать” Сеть и индексировать страницы практически без перерыва. Зато поиск с использованием каталога Интернет-ресурсов часто позволяет быстрее найти искомую информацию в силу того, что при составлении описаний эксперт точнее может подобрать ключевые слова, которые будут использоваться при поиске.

Так же поисковые системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического поиска, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя:

Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например, ru и su для России. Серьезным недостатком таких систем является неучет ими большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене com, net, biz.

Чрезвычайно важной проблемой Сети является интеграция различных поисковых сервисов в единую систему. В 1999 году при участии 15 крупнейших поисковых систем Интернета в феврале стартовал проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб. Задачей стандарта является максимально сблизить синтаксис и возможности поисковых языков различных информационно-поисковых систем. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ - по URL. Понятно, что даже это простое соглашение поставило бы учет и контроль информации в масштабе Сети на принципиально новый уровень.

Теоретически привлекает перспектива создания сверхмощной глобальной поисковой системы, которая бы была способна сопровождать Сеть в ее полном информационном объеме. Однако на практике это пока невозможно, и решение проблемы интеграции смещается в сторону разработки метапоисковых систем.