logo
Информатика

Поиск информации в Интернет

В мире существует огромное количество WWW серверов самого разного назначения. Без специальных средств ориентировка в этом гигантском объеме информации просто невозможна. Решают эту проблему поисковые серверы, которые хранят миллионы ссылок на разные темы и производят поиск нужных документов по запросу пользователя.

Для того чтобы облегчить поиск документов были созданы каталоги WEB-серверов и поисковые машины. В большинстве случаев каталог представляет собой тематические подборки ссылок на Web-ресурсы (медицина, политика, программирование и т. д.). Поисковые же машины позволяют попасть на страничку, текст которой содержит заданный набор слов. Каждая поисковая машина обладает своими специфическими возможностями, достоинствами и недостатками. Следует отметить, что наполнение сети Интернет русскоязычной информацией, хотя и происходит быстрыми темпами, все еще значительно отстает от уровня англоязычной информацией. Английский язык продолжает оставаться основным языком общения пользователей Интернет.

Познакомимся с возможностями некоторых поисковых серверов.

AltaVista - http://www.av.com

Это одна из первых наиболее мощных поисковых машин. Она имеет встроенный переводчик страниц с английского языка на французский, немецкий, итальянский, испанский и т. д. и обратно. Правда, на русский язык она переводить не умеет. Схема использования стандартна: в строке для ввода пишутся ключевые слова, а затем нажимается кнопка Search (поиск). Далее выдается список ссылок на страницы с краткой аннотацией.

Yahoo! - http://www.yahoo.com

Это не только поисковая машина, но и крупнейший классификатор ресурсов сети. Здесь выделено несколько разделов верхнего уровня: исскуство, бизнес, компьютеры, образование, развлечения, правительство и другие. Каждый из разделов помимо ссылок содержит подразделы, которые в свою очередь тоже содержат подразделы и т. д.

Искать интересующую информацию можно как с помощью строки запроса аналогично AltaVista, так и перемещаясь по разделам, но в последнем случае необходимо точно знать, к какой именно категории относится предмет поиска.

Rambler - http://www.rambler.ru

Помимо известной поисковой системы, сервер "Rambler" включает классификационный каталог "Rambler Top 1000", состоящий из категорий, которые охватывают все основные тематические направления российских Web-серверов.

В разделах списки серверов оформлены в виде таблицы. На одном экране выводится 20 ссылок. По умолчанию сортировка идет по текущей посещаемости серверов в каждой категории. Для каждого ресурса приводится дополнительная информация о числе посещений и динамике популярности сервера.

Таким образом, сервер помогает получить верное представление о популярности отечественных Web-серверов. Российская часть Интернет представлена здесь достаточно полно.

Яndex - http://www.yandex.ru

Занимает одно из ведущих мест среди русскоязычных поисковых серверов. Активно и динамично развивается.

Стратегии, применяемые для поиска информации в Интернет, постоянно совершенствуются. Так Google (www.google.com), некоторое время назад считавшийся экспериментальной поисковой системой, сейчас пользуются пятнадцать миллионов человек ежемесячно. Секрет Google в удачном алгоритме отбора документов, отвечающих поисковому запросу. Предшественники Google пытались определить "ценность" документа только на основании анализа его текста: как часто и как близко к началу документа встречаются там слова из запроса, есть ли они в заголовке и т. д.

Создатели Google решили оценивать соответствие документа запросу с помощью специального числа, похожего по смыслу на индекс цитирования: чем больше ссылок на данный документ, тем это число, называемое PageRank, больше. Если же сервер не находит запрашиваемой комбинации в своем каталоге, то пользуется тематическим каталогом Yahoo. Результаты оказались столь хороши, что Google стал "народной" поисковой системой. Google постоянно совершенствует свой сервис: проиндексированы все документы в формате pdf, организован поиск картинок в Интернет (images.google.com).

Одним из недостатков Google можно считать отсутствие диалога с пользователем во время подбора документов. Этот недостаток стараются исправить конкуренты Google, классифицируя найденные документы. Так поисковая система Teoma (www.teoma.com) автоматически классифицирует найденные ссылки на документы. Результаты при выводе делятся на три части: собственно классификация, занимающая верхнюю часть окна, документы, лучше всего соответствующие запросу, размещаются слева, а справа выводятся документы, в которых много ссылок на страницы, стоящие слева.

Рис. 12. Окно метапоисковой системы Vivisimo

Еще одним претендентом на роль заменителя Google является метапоисковая система Vivisimo (www.vivisimo.com), разработанная в университете Карнеги. Как и Google в прошлом, Vivisimo - экспериментальный некоммерческий проект. Основной особенностью этой системы является представление в виде дерева (иерархическая кластеризация) документов, найденных другими поисковыми системами, такими как Altavista и Fast (www.allthemes.com). В сущности Vivisimo даже не метапоисковая система, а приставка, способная кластеризовать любые данные. Алгоритм кластеризации Vivisimo присоединяется к любой поисковой системе. В окошке правее окна запросов можно вместо "Search the Web" выбрать например "Альтависту". Vivisimo перехватит ссылки, выданные "Альтавистой", отсортирует их и разместит их на ветках дерева в левой части своего окна.