logo
Информатика 2 семестр / лекции / Локальные и глобальные сети ЭВМ

Поиск информации в Интернет

Поисковая система– это комплекс программ и мощных компьютеров, автоматически просматривающих ресурсы Интернет и индексирующих их содержание. Поисковые системы могут отличаться по эффективности поиска, по языку поиска (русский, английский и др.) и другим возможностям. Например, одни поисковые системы находят информацию только в виде Web-страниц, другие могут просматривать и группы новостей, и файловые серверы. Результатом поиска являются гиперссылки на документы, содержащие требуемую информацию.

Наиболее известны следующие системы для поиска информации в международных информационных ресурсах:

Для поиска информации в российских информационных ресурсах:

Для поиска информации в Интернет с использованием поисковой системы необходимо перейти на ее WEB-страницу, набрав электронный адрес или воспользоваться гипертекстовой ссылкой на эту систему.

Поисковые системы могут быть двух типов: универсальные и специализированные. Наиболее популярные современные поисковые системы сочетают в себе оба типа.

В универсальныхсистемах используется обычный принцип поиска в неструктурированных документах – по ключевым словам. Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое отражает содержание данного документа.

На начальной странице поисковой системы обычно расположено обширное меню тем и поле для ввода запроса. Для поиска документов по ключевому слову надо ввести это слово в поле для ввода запроса и нажать кнопку «Search» (или «Поиск» в русских системах), расположенную рядом с полем ввода. Для поиска можно использовать словосочетание; для этого словосочетание заключаются в двойные кавычки. В некоторых системах можно осуществлять поиск по части слова, оставшаяся часть слова заменяется знаком «*», как в шаблоне имени файла. Знаки «+» и «-« перед словом требуют обязательного присутствия или отсутствия этого слова в документе.

Существует также кнопка перехода к расширенному поиску (Advanced Search). Главное отличие расширенного поиска – использование в запросе логических операторов и круглых скобок. Для построения сложного запроса используются логические операторы AND (И), OR (ИЛИ), NOT (НЕТ) и NEAR (около; не далее чем в 10 символах). Логические операторы ставятся между словами или словосочетаниями. Здесь могут использоваться даты документов, размер документов и другие критерии. Интерфейсы расширенного поиска у разных поисковых систем существенно отличаются; для наиболее эффективного использования нужно внимательно почитать раздел Advanced Search Help поисковой системы.

Поисковые системыобычно состоят из трех компонентов:

Поисковые роботы– это специальные программы, которые занимаются поиском страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.

При запросе к поисковой системе база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме поиска, и выводит список ссылок на документы, соответствующих запросу. В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. Некоторые системы составляют список ссылок по степени свежести страниц, другие же – по степени вероятности того, что данные страницы окажутся искомыми.

Для того чтобы обойти всю сеть, мощному поисковому роботу нужно от нескольких дней до нескольких недель. При этом составляется свежий и подробный индекс – опись доступных ресурсов. При каждом новом цикле индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что индекс оказывается засоренным большим количеством профессионально слабых, неинформативных адресов, которые пользователь нередко и получает в результате поиска.

Специализированные справочные службы– это тематические каталоги, в которых собраны структурированные сведения об адресах серверов по той или иной тематике. Ссылки в такие каталоги заносятся не автоматически, а с помощью администраторов. Они стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, а достаточно найти этот вопрос в каталоге. Как правило, хорошие каталоги Интернет обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в своей базе данных, списки последних поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях.

Поисковые каталогипредназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.

Каталоги составляются администраторами, просматривающими каждый новый сайт прежде, чем включить его в индекс. Качество информации каталогов выше, и нетематическая информация попасть в каталог просто не может; но коллектив редакторов не может успевать за темпами расширения Интернета. Кроме того, чем дальше, тем больше в каталоге накапливается заброшенных или устаревших адресов (его не успевают чистить). В отличие от роботов, каталоги индексируют документ не по наиболее часто встречающимся словам, а по тем ключевым словам, которые вводятся администраторами.

Помимо услуг по нахождению сайтов, поисковые системы предоставляют широкий перечень разнообразной сопутствующей информации, например: новости, гороскопы, почтовые ящики, электронная коммерция, котировки акций, погода, спорт, географические карты, программы телевидения, лотереи и т.д.