Informatics

11.3.5. Поисковые машины www

На сегодня в Internet доступно значительное число поисковых машин, среди которых такие, как Infoseek, Lycos, WebCrawler, Excite, Yahoo, OpenText Index, AltaVista и др. Ссылки на адреса большинства из них присутствуют на специальной поисковой страничке компании Netscape Communication:

http://home.netscape.com/escapes/search/ntsrchmd-2.html.

Несмотря на впечатляющие рекламные заявления создателей этих систем как в отношении числа индексируемых документов, содержащихся в их базах данных, так и в отношении изощренности алгоритмов поиска и ранжирования, только их практическое использование для нужд конкретного пользователя может дать ответ на вопрос, какая из поисковых машин и в какой степени адекватна возлагаемым на нее задачам. Рассмотрим более подробно те из них, которые располагают наибольшим числом заиндексированных ресурсов Сети, а также нетривиальным языком поискового запроса.

Поисковая машина AltaVista. Это наиболее полная реализация поисковых возможностей Internet. Некоммерческая поисковая машина свободного доступа AltaVista (AV) .(hltp://altavistci.digilal.com) поддерживается в Сети корпорацией Digital Equipment Corporation. Имеется также и расширение ее возможностей для коммерческого использования, которое существует в виде Business eXtension Program.

Этой поисковой машине на сегодня принадлежит абсолютная пальма первенства по числу заиндексированных ресурсов Web. Кроме того, благодаря наличию межпротокольных шлюзов машина располагает адресами ресурсов, доступных по протоколам, отличным от HTTP. Высокая скорость сканирования Паутины AV позволяет предположить, что в ближайшие полтора-два года ее индексная база данных будет покрывать подавляющее количество открытых для свободного доступа узлов WWW. Индекс поисковой машины обновляется ежедневно с помощью специальной программы Scooter, причем частота посещения отдельного узла Сети зависит от частоты изменения информации на нем. На текущий момент AV дает доступ к 30 миллионам WWW-страниц, расположенных на более чем 275 600 серверах и к 4 миллионам статей из 16 000 телеконференций Usenet news.

При отсутствии какой-либо дополнительной информации система индексирует все слова документа, за исключением комментариев, и использует несколько первых слов документа в качестве краткой аннотации.

В процессе поиска AltaVista реализует алгоритм ранжирования, согласно которому каждому документу, содержащему совпадение по поданному термину, присваивается ранг, определяющий порядковый номер документа в списке результатов поиска. Ранг приписывался на основе частоты употребления термина в документе, области документа, где он встретился, а также близости терминов друг к другу при комбинированном поиске.

AV позволяет организовать поиск в Сети, предоставляя поискочые шаблоны для выполнения простого [Simple Search, (SS)] и расширенного [Advaiiced Search, (AS)] запросов.

Поисковая машина Open Text Index. Кадодый раз сталкиваясь в Сети с новой поисковой машиной, разумно попытаться оценить ее возможности. Для новоиспеченного пользователя Internet определенную трудность представляет тот факт, что домашняя страница поисковой машины, на которую он попадает, впервые узнав ее URL, обычно содержит в себе шаблон простого поиска в виде единичного бокса, который, как известно, предоставляет минимальный наборы возможностей. Для выяснения особенностей информационно-поискового языка системы разумно обратиться к шаблону расширенного поиска, ссылка на который, если он существует, из домашней страницы может скрываться за едва заметным гипертекстовым указателем типа Advanced Search, Power Search, Options или другими.

Освоение интерфейса поисковой машины AltaVista является прекрасным фундаментом для работы с другими поисковыми системами.

Поисковая машина Open Text Index (OTI) (http://index.opentext.net) представляет собой мощную поисковую систему Сети, позволяющую находить информацию на основе построения запроса в виде слова или фразы для поиска в WWW-пространстве. После введений слова, группы слов или фразы произвольной длины в специальный поисковый шаблон OTI показывает список страниц, текст которых включает в себя термины, заданные для поиска, и позволяет перейти непосредственно к просмотру документов.

OTI является бесплатным продуктом, который разработан и поддерживается корпорацией Open Text Corporation. Эта поисковая машина в состоянии распознавать структуру документов, находящихся в поле поиска, и работать с HTML-документами. Последовательность представления WWW-страниц в списке, содержащем результат поиска, определяется рангом каждого документа, обусловленным частотой употребления заданного термина в тексте и областью документа, где этот термин был употреблен, т.е. на основе достаточно общих принципов.

Так, при однократном использовании термина в URL Web страницы ее ранг оценивается выше ранга страницы, где заданный термин встречается в теле документа.

В OTI могут производиться следующие типы поиска:

поиск единичного слова и группы слов;
поиск фразы произвольной длины;
поиск комбинаций слов и фраз;
поиск с использованием логических операторов and, or, but, not, near, followed by;
поиск только в поле URL;
поиск только среди заголовков страниц;
утонченный поиск (сужение областей поиска).

OTI обновляется непрерывно, ежедневно пополняясь более чем на 50 тысяч Web-страниц. В отличие от многих других поисковых систем машина индексирует не только ключевые, но и все слова документа, так что в настоящий момент суммарный объем слов базы данных OTI составляет порядка 10 миллиардов слов.

Интерфейс программы представляет собой варьируемый по количеству набор специальных боксов с оконными полями для введения поискового запроса, дополняемого элементами из Pull-down-списков возможностями ведения простого и расширенного поиска.

Последовательность действий при организации поиска в OTI представим в виде краткой инструкции:

1. Ввести в первое окно поискового шаблона слово или фразу произвольной длины, выбрав нужное из бокса words (отдельные слона), phrase (фразу).

2 Выбрать область Web-документа, где следует производить почек по заданному слову или фразе (приводимые опции описываются ниже).

3. При использовании более одной фразы или термина в процессе поиска можно воспользоваться для комбинирования терминов запроса логическими операторами (AND, OR, BUT, NOT) и операторами близости (NEAR и FOLLOWED BY).

4. Для очистки шаблона и организации нового поиска нажать кнопку Clear.

5. Для начала нового поиска нажать Search.

Каталоги и поисковая машина Yahoo. Yahoo (http: // www. yalloo.com) является достаточно мощной поисковой машиной Сети с организацией доступа к информации не только по поисковому запросу, и путем непосредственной навигации по тематически организованному в рамках Yahoo иерархическому каталогу и в этом смысле системы является альтернативной OTI и AV. Кроме того. Yahoo реализует ряд дополнительных возможностей для поиска.

Русские поисковые машины. На долю русскоязычных пользователей Internet выпало суровое испытание - использование нескольких различных кодировок для кириллицы, среди которых koi8-r, Windows ср1251, MS-DOS x-cp866, ISO-8859-хиМас, ориентированных при создании на определенные операционные системы. Это влечет за собой ряд неприятных моментов, в лучшем случае таких, как постоянное использование дополнительных операций перекодировки текста в рабочей области броузера, в худшем- просто невозможность получить загруженную страницу в читабельном виде.

Упомянутые трудности автоматически приводят к осложнениям при сканировании русскоязычной части Web-пространства поисковыми машинами, однако и здесь существует определенный прогресс.

Компания Digital Equipment Corporation, поддерживающая в Сети одну из наиболее мощных поисковых машин AltaVista, приготовила приятный сюрприз пользователям Internet, говорящим по-русски, реализовав версию программы, которая позволяет искать информацию во всех русскоязычных кодировках. Получить к ней доступ можно либо по адресу http://www.altavista.telia.corn/, выбрав из меню страну проживания и язык (знакомство с этой страницей очерчивает масштаб деятельности компании по разработке неанглоязычных ветвлений этой поисковой системы), либо же непосредственно ввести IFRL в виде http://altavista.telia.com/cgi-bin / telia?country=ru&laHg=ru.

Как и в описанной ранее англоязычной версии, система поддерживает режим как простого, так и сложного запроса, а вместе с последним и возможность задавать дату, более сложную логику и возможность упорядочивания результатов.

Другой немаловажный аспект, зачастую сводящий на нет эффективность поиска документов, набранных в кириллице, по ключевым словам состоит в том, что морфология русского языка (прежде всего многообразие падежных форм) не дает правильного числа совпадений с терминами в документе, если грамматическая форма термина в поисковом запросе и в документе отличаются. В этом смысле несомненный интерес представляет разработка поисковых систем, учитывающих морфологию русского языка, таких, как программные продукты на основе ядра Andex компании Comp Tek International. Andex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов и др. Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, т.е. находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с применением логических операторов. Весьма примечательно, что реализация flndcx для WWW имеет шлюз к поисковой машине AltaVista и доступна по адресу liltp://w\vw.coniptek.ru/alta.henl.

Поисковая система Yandex реализована на базе данных сервера Издательского дома <Открытые Системы> (http://www.osp.ru), причем поисковый язык является достаточно развитым.

В последнее время растет популярность достаточно мощной и <выстрой поисковой машины Rambler (http://rambler.ru/), поддерживаемой в Сети компанией Stack Ltd. (г. Пущине), которая предоставляет возможность поиска как в Web, так и в системе телеконференций при распознавании всех кодировок кириллицы и с применением обычных логических коннекторов.

Справочно-рубрикационный сервер <АУ> (http://www.rocit.ru/au) копирует в структурном отношении каталог Yahoo, классифицируя найденные в Сети ресурсы по тематическому признаку.

Особенности URL ресурсов Internet, полезные при поиске. В процессе поиска информации в Сети важную роль играет понимание логики именования информационных объектов. Поиск по терминам, входящим в URL ресурса, который, как мы могли убедиться, поддерживают многие поисковые машины, в ряде случаев оказывается более эффективным. Так, корпорации, как правило, включают в URL своих серверов название компании, прописывая его целиком, например сервер Microsoft - www.microsoft.com - и использование этого факта может существенно облегчить поиск. Если, например, искать материалы по работе с операционной системой Unix, то в отклике может быть получено огромное число документов, поскольку сам термин широко встречается в текстовых документах Сети и далеко не только в тех, где присутствует его описание. Для получения релевантного отклика целесообразно использовать запрос с элементом url:unix и скомбинировать его со словом <man>. Первое говорит о том, что в название директории размещения файла или самого файла, если его главной темой является Unix, с большой вероятностью входит и сам этот термин. Слово же <man> хорошо известно пользователям Unix как ключ к получению справки по системным командам.

Попытка отыскать электронный литературный текст в Сети какого-либо автора также может потерпеть неудачу, если не знать, что тексты такого рода в Internet размещаются обычно в каталогах с именем etext, поэтому применение элемента url:etext быстро приводит к цели.

Использование крайне редких слов, применяемых в тех или иных отраслях деятельности, вместо более распространенных синонимов, также помогает существенно сузить область поиска и быстро получить документы специального назначения.

Содержание