logo
Пособие Технологии сети Интернет

Методические указания

При изучении этого раздела пособия, содержащего описание принципов работы поисковых систем, необходимо усвоить следующее:

• сервис SE (поисковые системы) - это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу;

• поисковая система включает в себя следующие основные компоненты: паук, путешествующий паук, индексатор, база данных, система выдачи результатов, Web-сервер;

• паук - программа, которая скачивает веб-страницы в html-коде для последующей их обработки;

• путешествующий паук - программа, которая выделяет все ссылки, присутствующие на странице, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе;

• индексатор - программа, которая разбирает страницу на составные части, анализирует (индексирует) их по определенным признакам и формирует index-файл;

• база данных - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страниц;

• система выдачи результатов - занимается ранжированием страниц на соответствие запросу пользователя и определяет порядок выдачи результата поиска;

• Web-сервер – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы;

• архитектура поисковой системы включает в себя две составные части: поисковый робот (паук + путешествующий паук + индексатор), который непрерывно индексирует Web-страницы и заносит их в базу данных в виде index-файлов, и системы выдачи результатов, которая извлекает запрашиваемую пользователем информацию из index-файла;

• для ранжирования страниц в поисковой выдаче используются текстовые критерии, ссылочные критерии и критерии пользовательской оценки;

• релевантность документа - показатель, отражающий соответствие содержания документа конкретному запросу поисковой системы;

• для оценки значимости фрагментов текста применяют формулу Г. Луна;

• для выявления ключевых слов обычно использует статистический частотный анализ по методике В. Пурто;

• в основе ссылочного критерия лежит индекс цитирования, определяемый числом и значимостью ссылок на других сайтах на искомый ресурс;

• ссылочный критерий PageRank - это вероятность пользователя попасть на конкретный документ в зависимости от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот документ;

• в качестве критерия пользовательской оценки используется коэффициент популярности, определяемый числом пользователей, которые просматривали данную страницу за последние несколько недель;

• формула релевантности документа в целом учитывает релевантность текста документа, релевантность текста с учетом ссылок с других документов и PageRank этого документа;

• основными международными поисковыми системами являются Google, Yahoo и MSN Search, русскоязычного Internet - поисковые системы Яndex, Google, Rambler.