logo
эвм

2.3. Поиск в Internet.

Поисковой машиной называется программа, используемая на Web-узле для поиска информации. Поисковая машина создает базу данных, систематически устанавливая связь с различными Web-узлами, проверяя их содержание и добавляя ссылки на новые страницы. Компоненты поисковой машины, непрерывно зондирующие Internet, иногда называют пауками или червями.

Поисковый узел (поисковая страница) - это Web-страница, позволяющая проводить поиск информации в Web. Поисковые узлы предоставляют список ссылок, которые указывают на Web-страницы и другие ресурсы, соответствующие запросу. Основой поискового узла является установленная на нем поисковая машина, так что иногда понятия «поисковый узел» и «поисковая машина» считают синонимами.

Web-порталом называется Web-узел, предлагающий доступ к различным ресурсам Internet через большое количество систематизированных и регулярно обновляемых гиперссылок. Слово «портал» пришло в Internet из архитектуры и имеет значение «главный вход». Имеется в виду, что Web-портал целесообразно указывать в качестве стартовой страницы броузера. Обычно Web-порталы предлагают много рекламной информации, что позволяет окупить расходы на их содержание. В настоящее время понятия «поисковый узел» и «Web-портал» являются почти синонимами, т.к. большинство популярных порталов включают поисковые машины.

Таблица 2.2. Наиболее популярные поисковые узлы

Русскоязычные

Англоязычные

http://www.yandex.ru,

http://www.rambler.ru,

http://go.mail.ru,

http://www.aport.ru.

http://www.altavista.com,

http://www.yahoo.com,

http://www.snap.com,

http://www.lycos.com

Ряд порталов позволяет использовать при поиске поисковые машины других порталов.

Существуют два основных способа поиска нужной информации через Web-портал: по каталогу и по ключевым словам. В настоящее время большинство поисковых узлов предоставляют возможность гибко комбинировать эти два способа.

При поиске по каталогу или по теме (категории) база данных поисковой машины представляется как иерархическая структура, составляемая на основе анализа тега Meta в заголовках Web-страниц (об этом теге будет рассказано в теме 4).

В каталог обычно включаются не все страницы базы, а только наиболее популярные (наиболее посещаемые). Рейтинг популярности страницы определяется по показаниям специальных программ – счетчиков посещений, серверная часть которых устанавливается на поисковых узлах, а клиентская – на каждом сайте, владелец которого пожелал участвовать в таком измерении популярности. Участие сайта в той или иной программе измерения рейтинга популярности отображается соответствующим значком.

В последнее время помимо счетчиков посещений все шире используется другой способ оценки рейтинга - на основе индекса цитирования. Этот способ измерения популярности сайта более объективен, т.к. дает меньше возможностей искусственного накручивания рейтинга и блокирует «положительную обратную связь» - лавинообразное возрастание рейтинга сайта, случайно в какой-то момент получившего популярность.

Наиболее популярные счетчики перечислены в таблице 2.3.

Таблица 2.3.

Значок счетчика

Описание.

Адрес портала.

Счетчик статистики портала mail.ru

http://mail.ru

Счетчик статистики портала rambler.ru

http://rambler.ru

Счетчик статистики компании Spylog

http://spylog.ru

Счетчик статистики Hotlog

http://hotlog.ru

Счетчик индекса цитирования портала Яндекс.

http://yandex.ru

Рассмотрим примеры поиска информации по каталогу.

Предположим, необходимо найти провайдера для подключения к Internet. Заходим на узел Rambler (http://www.rambler.ru), в каталоге Рейтинг Top 100 находим раздел Провайдеры, щелкаем по ссылке и получаем список наиболее популярных провайдеров, отсортированный по убыванию рейтинга популярности на основе статистики посещений. Аналогичный список можно получить и на узле Яндекс (http://www.yandex.ru  Hi-Tech  Internet  провайдеры), но здесь этот список будет составлен на основе индекса цитирования. Можно убедиться, что два полученных списка довольно сильно отличаются друг от друга. Это отличие возникает из-за разницы оценок при помощи статистики посещений и индекса цитирования.

Пример поиска новостей с помощью категорий.

Открыть основную страницу узла http://www.yandex.ru. В списке категорий щелкнуть на Новости. В списке появившихся подкатегорий щелкнуть на одной из подкатегорий, а затем по конкретной странице. Просмотреть новости. Щелкнуть по кнопке Назад (Back) несколько раз пока не появится основная страница.

Рассмотрим теперь поиск по ключевым словам. При таком поиске база данных представляется как простая совокупность Web-страниц. Для реализации поиска по ключевым словам поисковые машины создают на своих серверах архивы текстовых частей просмотренных Web-страниц.

Как правило, поисковые узлы предоставляют два формата поиска по ключевым словам – простой и расширенный.

Для осуществления простого поиска по ключевым словам необходимо ввести нужные слова в поисковую строку, т.е. в текстовое поле, которое каждая поисковая машина содержит в верхней части страницы, и нажать кнопку Найти (Поиск, Search). Обычно по умолчанию задан тип поиска, допускающий падежное изменение ключевых слов и расположение ключевых слов в тексте на некотором (но не очень большом) расстоянии друг от друга. Поисковая машина ищет совпадение комбинации символов темы поиска с одной из записей в базе данных: адресом одной из Web-страниц, её заголовком, словами из краткого описания страницы, одним или несколькими ключевыми словами, относящимися к данной Web-странице. Если ключевое слово состоит только из прописных букв, то оно считается аббревиатурой, не изменяющейся по падежам. Например, задав в строке поиска слово МФЮА и нажав кнопку Найти мы получим список всех страниц из базы Яндекса, в которых есть упоминание о Московской финансово-юридической академии.

Горячим списком называют список ссылок на те Web-страницы, одна из записей которых в базе данных совпадает с темой поиска.

Чем выше в списке находится ссылка на Web-страницу, тем более точно запись о ней в базе данных соответствует запросу, т.е. тема совпадает с большим количеством записей в базе данных или больше степень совпадения по количеству совпадающих символов в слове, совпадающих слов и сочетаний слов в теме и в записях. Иногда рядом со ссылкой стоит степень соответствия темы записям о Web-странице в базе данных. Полезными бывают обычно только первые 20 ссылок.

Рекомендуется при поиске информации использовать основную форму слова (существительные и прилагательные в именительном падеже, глаголы в неопределенной форме). Например, тема букет позволяет найти страницы, содержащие слова букет и букеты. Тема букеты уже не позволяет найти страницы, содержащие слово букет.

Корректно использовать прописные буквы так, как они пишутся на самом деле: Apple Talk; Front Page.

Максимальная конкретность в изложении темы ускоряет поиск, например, немецкая овчарка, а не собака или овчарка.

Некоторые узлы отображают Текстовые поля для ввода темы поиска только на Главной странице, другие - на всех страницах.

Пример простого поиска: Перейти к узлу www.altavista.com. Ввести тему поиска – DaVinchi. Щелкнуть на любой из ссылок. Щелкнуть на кнопке Назад (Back) и вернуться к Горячему списку. Прокрутить список вниз, чтобы увидеть следующую группу ссылок.

Расширенный поиск - более глубокий поиск. Его можно выполнить с помощью логических операторов. Оператор – символ, применяемый для определенного действия, показывающего, как будут трактоваться группы из нескольких слов, взятых в качестве темы поиска. При соединении слов с помощью операторов И, (And), (+), (&&) выполняется поиск страниц, или слов, содержащих только сочетания выбранных слов, соединенных с помощью И, (And), (+), (&&); при соединении слов с помощью операторов ИЛИ, (Or) - одно и более слов, соединенных ИЛИ, (Or); при соединении слов с помощью операторов НЕТ, (Not) - слово, слова или их сочетания, кроме тех слов или их сочетаний, которые стоят после НЕТ, (Not).

При соединении слов разными операторами, их сочетания отделяются круглыми скобками.

Когда вводится просто набор слов (боксёр собака порода), большинством поисковых машин это соединение трактуется как применение оператора И, (And), (+), (&&).

Однако, некоторые поисковые машины применяют сначала оператор И, (And), (+), (&&), а затем оператор ИЛИ, (Or). Другие поисковые машины могут осуществлять поиск по совпадению целой фразы (при определенном во фразе порядке следования слов). В отдельных поисковых машинах возможно указание темы поиска (запроса) на естественном языке (правда, они не всегда корректно трактуются поисковыми узлами). Действует правило: перед использованием операторов надо найти соответствующее указание на поисковом узле, обычно это надпись-кнопка Advansed Search Syntax.

Пример:

1. Загрузить поисковый узел (Главную страницу Web-узла).

Ввести тему поиска: star or track. Появятся страницы о фильме Star Track, а также страницы, содержащие слова star и( или) track.

Ввести тему поиска: star and track. Появятся только страницы о фильме Star Track.

Ввести полное название фильма, заключенное в кавычки “Star Track”. Посмотреть, какие будут изменения относительно результатов предыдущего поиска.

Повторить поиск для тем:

(боксер or победитель) not собака;

(боксер not собака) or победитель.