logo
Информатика_методичка

Русскоязычные поисковые системы

Rambler (http://www.rambler.ru). «Поисковик номер один» среди специализирующихся на российской части Интернет. А заодно – и крупнейший каталог. Поисковая система Rambler была изначально создана в фирме "Стек" для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания "СТЕК" образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 году, а автором поисковой системы является Дмитрий Крюков.

Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.

Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Система поддерживает логические операции И, ИЛИ, НЕ, логические группы, метасимволы «?» и «*», заменяющие один символ или их группу, а также позволяет увеличивать и уменьшать значимость вводимых слов с помощь коэффициентов «+» и «─». Есть возможность поиска документов «похожих» на приглянувшийся среди найденных, а также поиска среди уже найденных документов. Поиск в различных кодировках дает одинаковый результат. Особой популярностью пользуется служба Rambler’s Top 100, позволяющая каждому установить счетчик на своей страничке и участвовать в рейтинге.

Яndex (http://yandex.ru). Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как "яндекс") расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.

Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек Интернет.

Поисковая машина Яndex была запущена в эксплуатацию в конце сентября 1997 года и область поиска системы - русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:

Основным достоинством Яndex’а является способность находить заданные слова независимо от формы, в которой они употребляются в документах. Интересно, что система может образовывать словоформы даже для тех слов, которых нет в словаре. Система поддерживает логические операции И, ИЛИ и НЕ, логические группы, поиск по фразам, причем действие операторов И и НЕ может распространяться как на один абзац, так и на весь документ в целом. Поиск может вестись как по всем формам ключевых слов, так и по конкретно заданной форме. Возможно определение расстояния между словами с учетом их порядка, указание значимости ключевых слов, а также использование уточняющих слов. Специальный поиск можно вести по заголовкам документов и находящимся в них ссылкам. Кроме того, имеется возможность попросить систему найти документы схожие с наиболее приглянувшимися вам из найденных по предыдущему запросу. Можно также ограничить поиск уже найденными документами. А в том случае, если нужные документы не будут найдены, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Поиск в различных кодировках дает одинаковый результат.

Апорт! (http://www.aport.ru). Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в Российской части Интернета, на русскоязычных серверах СНГ и мирового Интернет

Поиск ведется более чем по полутора миллионам документам. Система умеет искать по различным словоформам введенных слов и даже исправляет во введенных словах ошибки, поддерживает логические операторы И, ИЛИ, НЕ, логические группы, поиск по фразам, ограничение в расстоянии между словами, заданное числом слов или фраз. Мало того, система может переводить с русского на английский и с английского на русский не только запрос, но и полученную в результате поиска информацию. Возможен поиск по URL, а также указание допустимого времени создания документов.

Turtle (http://www.turtle.ru). В течение почти пяти лет монополии трех поисковиков в Рунете ничто не угрожало. Новички появлялись с завидной периодичностью, однако ни один из них так и не смог достичь хотя бы уровня Апорта, самого скромного представителя «триады».

Однако в начале 2002 года ситуация изменилась: на рынке появился еще один амбициозный и умелый поисковик, немедленно окрещенный особо журналистами «убийцей Яндекса» — Turtle.

Ожидания, связанные с «Черепашкой», объяснялись просто: Turtle стал вторым детищем компании Stack Group — после самого Rambler! Видимо, отчаявшись привести в соответствие с требованиями времени механизм старого поисковика, разработчики решили по максимуму вложить свои силы в создание нового.

По заявлениям создателей, поисковый механизм Turtle отличается рекордной точностью (хотя большинство экспертов и указывает, что результаты поиска с использованием того же Яndex выглядят куда лучше), а также содержит ряд абсолютно новых возможностей. Например, в дополнение к обычному и расширенному поиску в Turtle введен еще и «Поиск по фрагменту»: вы можете задать в качестве запроса не только слово или фразу, но и целый (и довольно объемный) фрагмент текста. Мастера сетевого поиска оценят и язык запросов Turtle, который содержит ряд новых и весьма интересных операторов.

Yandex.RTB R-A-252273-3
Yandex.RTB R-A-252273-4