logo search
Dokument_Microsoft_Word_4

Глобальные поисковые системы. Сравнительный анализ.

Глобальные поисковые системы

Поисковые системы (search engines) распространены в гораздо большем количестве, нежели электронные справочники, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных навыков, поскольку простой ввод искомого термина в поисковую строку, скорее всего, приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.

Google (www.google.com)

Поисковая система, запущенная в 1998 году и являющаяся ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 4,2 миллиардов web-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при том, что актуализация базы производится каждые 28 дней.

Второе несомненное преимущество Google - его способность индексировать документы не только в виде HTML-файлов, но также документы в форматах PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML-файл, что освобождает пользователя от необходимости иметь специальное программное обеспечение для доступа к файлу.

Следующим важнейшим достоинством является специально разработанный модуль ранжирования результатов - PageRank. Он основан на алгоритме, согласно которому вначале устанавливается структура ссылок во всей Сети, а затем каждая отдельная страница ранжируется в соответствии с числом и значимостью ссылок на нее с других страниц. При этом авторитетность внешних ссылок более важна, чем их количество. Подобный алгоритм позволяет существенно повысить релевантность ссылок, вследствие чего Google отличает высокая степень соответствия найденной информации интересам пользователя. Этот результат достигается, в частности, еще и за счет специальной подсистемы защиты пользователя от сайтов, которые продвигаются с помощью различных недобросовестных методов.

Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.

Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком "*", поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+". Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова. Для поиска по точной фразе традиционно используются кавычки: так, запрос "Кто убил кошку у мадам Поласухер?" прямо приведет к ссылке на полный текст "Собачьего сердца" Михаила Булгакова. Поисковый механизм игнорирует стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например, Александр +I).

Google имеет в своем арсенале множество опций для максимальной конкретизации запроса. Все они доступны через меню Advanced Search "Расширенный поиск". Помимо уже описанных возможностей, добавляются фильтры, ограничивающие язык документа, его формат (к примеру, "только документы в PDF"), время опубликования ("последние три месяца"), место термина в самом документе ("в заголовке страницы") или расположение страницы в определенном домене или даже сайте.

Выдаваемые в результате поиска ссылки на документы, помимо традиционных сведений о заглавии документа, контексте искомых слов и данных о размере, содержат функцию Cached "Сохранено", позволяющую полностью восстановить весь документ, если по каким-либо причинам сайт, на котором он расположен, недоступен. Еще одна функция Similar pages "Похожие страницы" позволяет получить перечень страниц, содержание которых схоже с указанным источником. Эта функция, впрочем, пока выполнена без особого успеха.

Помимо поиска текстовых материалов, Google обладает лучшими на сегодня возможностями поиска иллюстраций с помощью режима "Поиск изображений" (Images, "Картинки"). В его базе данных учтено более 880 тысяч иллюстраций, разыскание которых ведется аналогично поиску текстовых документов с возможностью ограничения определенным размером, форматом или цветностью графических файлов - все через опцию "Расширенный поиск изображений".

При использовании Google следует, однако, помнить, что при работе с файлами большого объема он индексирует не весь источник, а лишь его первые 101 Кб. (для PDF-файлов лимит ограничен 120 Кб.), поэтому индексация документа пока не всегда гарантирует возможность его нахождения по любому фрагменту текста.

В качестве собственного справочника ресурсов Интернет Google использует усовершенствованный массив Open Directory Project, что порой позволяет сочетать достоинства обоих поисковых инструментов.

Дополнительным платным сервисом Google является поиск труднодоступной информации непосредственно человеком. Стоимость этого вида обслуживания - $2.50 за ответ.

AlltheWeb / Fast Search (http://www.alltheweb.com)

Поисковая система, существовавшая с 1997 года под данным именем, была разработана в Норвегии и изначально ориентирована преимущественно на европейские сайты. В начале 2000 годов Fast Search был приобретен Yahoo!, но до марта 2004 года продолжал существовать в качестве оригинального поискового сервиса, регулярно наращивая собственный индексный файл и повышая степень релевантности поиска. На протяжении всех 2000 годов Fast Search справедливо рассматривался в качестве главного конкурента Google. Однако с 25 марта 2004 года под брэндом Fast Search была размещена и запущена в действие поисковая система Yahoo!, разработанная на основе поискового механизма Inktomi, ранняя версия которого использовалась, в частности, в поисковой системе HotBot. В настоящее время Fast Search представляет собой фактическое "зеркало" поисковой системы Yahoo!, с той лишь разницей, что в его модуле выдачи результатов гораздо лучше решены проблемы вывода документов на разных языках, использующих кодировки, отличные от расширенной латиницы. В число 36 языков, с которыми система работает вполне корректно, попал и русский.

Индексный файл Fast Search по уверениям владельцев в настоящее время содержит несколько миллиардов документов. Более точная цифра владельцами не указана, однако, сравнительное тестирование показывает ее значительное отставание от Google. Зная объем базы последнего, можно оценить емкость индекса Fast Search приблизительно в пределах 2,3 - 2,5 миллиардов документов. Помимо текстовых разысканий в WWW, нынешний вариант системы поддерживает поиск в группах новостей по интересам, поиск иллюстраций, видеофрагментов и аудиофайлов, в том числе и с русскоязычных серверов. Система способна собирать сведения и индексировать размещенные в Интернет файлы в форматах PDF, DOC, XLS, PPT.

Fast Search оперирует традиционным языком запросов, включающим знаки "+", "-" и кавычки для поиска цитат. Для формирования сложных запросов рекомендуется обращаться к Advanced Search ("Расширенному поиску"). Его система многоступенчатых меню позволяет легко применить фильтры, в числе которых ограничения по местоположению термина в документе, определенному домену или географическому местоположению, времени опубликования документа и формату файла. Среди сервисных функций Fast Search возможность установки персональных режимов для поиска и их сохранение в системе (на конкретном компьютере) для работы в дальнейшем.

Alta Vista (http://www.altavista.com)

Система, обозначающая в переводе "вид сверху", введена в эксплуатацию в 1995 году и в течение трех лет являлась признанным лидером сетевого поиска по объему индексного файла, эффективности ранжирования результатов и сервисным функциям. Именно в ней был впервые опробован ставший ныне традиционным язык запросов: знаки "+" и "-", усечение с помощью знака "*" и кавычки для поиска по точной фразе. В форме углубленного запроса были впервые эффективно использованы булевые операторы и оператор расстояния - NEAR.

В 2002 году AltaVista претерпела существенную модернизацию: был кардинально обновлен программный модуль, что позволило расширить объем базы данных, который составлял чуть более 1 миллиарда страниц. В это же время в AltaVista был добавлен интеллектуальный модуль Prisma, помогавший пользователям точнее сформулировать запрос. Однако приобретение данной поисковой системы корпорацией Yahoo! положило конец существованию оригинального поискового механизма AltaVista и ее индексного файла. В настоящее время, также как и в случае с Fast Search, при вводе запроса происходит транслирование результатов поиска из базы поискового модуля Yahoo!. Fast Search и AltaVista имеют одинаковые условия для формирования запроса и показывают практически идентичные результаты.

Помимо перечисленных глобальных поисковых систем, в некоторых случаях, скорее по инерции, продолжают использоваться устаревшие поисковые сервисы, среди которых наиболее заметны Lycos (www.lycos.сom), HotBot (www.hotbot.com), InfoSeek (www.infoseek.com) и Excite (www.excite.com). Малый объем их индексных файлов в настоящее время не позволяет полагаться на предоставляемые ими сведения. "Молодые" поисковые системы, запущенные в 2000 и 2001 годах, такие как WiseNut (www.wisenut.com) и Teoma (www.teoma.com), несмотря на внушительный объем проиндексированных документов, пока не представляют особого интереса. Ни одна из них, к примеру, не способна осуществлять поиск документов на русском языке.