logo
Пособие Технологии сети Интернет

8.2. Критерии ранжирования документов

В поисковых системах ссылки на документы сортируются (ранжируются) по мере соответствия запросу. Для ранжирования страниц в поисковой выдаче используются текстовые критерии, ссылочные критерии и критерии пользовательской оценки.

Текстовые критерии определяют релевантность документа по совпадению слов и их сочетаний в запросе и тексте и заголовке страницы.

Релевантность документа – показатель, отражающий соответствие содержания документа конкретному запросу поисковой системы. Поисковые системы рассчитывают релевантность документа, строя частотный ряд из встречающихся на странице слов и словосочетаний. Чем чаще они встречаются в документе, тем большую по отношению к запросу пользователя релевантность он получает.

Поисковые системы отображают ссылки на Web-страницы документов в порядке убывания релевантности частями по 10 – 20 ссылок. Согласно данным маркетинговых исследований около 60% пользователей ограничиваются первой страницей результатов поиска и почти 90% - первыми тремя страницами. Отсюда следует задача для специалистов по сайтпромоутингу – добиться, чтобы независимо от построения запроса страницы Web-сайта стояли в первых 10-20 результатах поиска.

Основные текстовые критерии ранжирования документов приведены в табл. 5.

Таблица 5

Текстовые критерии ранжирования документов

Критерии

Логика ранжирования

«Вес» слова

Чем выше частота повторения слова в документе, тем больше ранг документа

Взаимное положение слов

Учет полного совпадения фраз или их подобия (например, порядок и близость слов друг к другу)

Окончание табл. 5

Текстовые критерии ранжирования документов

Положение найденного текста по отношению к началу документа

Считается, что чем ближе расположена информация к началу документа, тем выше ее значение

Наличие слов запроса в выделенных фрагментах и заголовках

Значимость обнаружения искомого текста в выделенных фрагментах считается выше, чем в обычном тексте

Совпадение темы страницы с темой запроса

Использование в поиске слов, не содержащихся в тексте запроса, но соответствующих теме запроса

Совпадение названия домена или файла с ключевым словом

Поисковые машины придают дополнительный «вес» страницам, у которых домен или имя файла совпадают с ключевым словом

Совпадение поискового запроса с описанием из каталога

Сайт получает более высокий рейтинг, если слова поискового запроса совпадают с описанием каталога поисковой системы

Значимость редких слов

Значимость каждого из поисковых слов тем больше, чем реже оно встречается в документе

Оценку значимости фрагментов текста выработал Г. Лун. Он предложил оценивать фрагменты текста по следующему выражению:

,

где: – значимость фрагмента;

- число ключевых слов в данном фрагменте;

- общее число слов во фрагменте.

Система выявления ключевых слов обычно использует статистический частотный анализ (методика В. Пурто). Пусть:

- частота, с которой встречаются различные слова в тексте;

– относительное значение полезности (важности);

– константа, которая определяет соотношение частоты слов и их полезности.

Тогда зависимость определяется формулой:

Данное положение предполагает существование двух граничных значений частот:

• слова с частотой менее нижней границы считаются слишком редкими (не способными отразить смысл документа), а с частотой , превосходящей верхнюю границу, считаются общими, не несущими смысловой нагрузки;

• слова с частотой, находящейся между этими границами, в наибольшей степени характеризуют содержимое данного конкретного документа.

Согласно ссылочным критериям документ ранжируется с учетом индекса цитирования.

Индекс цитирования – это показатель известности сайта в Интернете, определяемый числом и значимостью ссылок на других сайтах на искомый ресурс. Общее число внешних ссылок на сайт не подходит в качестве критерия для расчета цитируемости, т.к. значимость ссылок на непопулярных ресурсах ничтожна по сравнению со значимостью ссылок с известных сайтов.

При определении индекса цитирования учитывается не только число внешних ссылок на сайт, но индекс цитирования самих сайтов, ссылающихся на данный. Наиболее ценные ссылки - ссылки, размещенные на головной странице высокоцитируемых сайтов. В общем случае каждая прямая ссылка на Web-страницу увеличивает ее цитируемость на величину, пропорциональную цитируемости ссылающейся страницы и обратно пропорциональную общему числу ссылок на ссылающейся странице.

В свое время двумя американскими аспирантами Сергеем Брином и Ларри Пейджем, основавшими в 1997 году поисковую машину Google, была разработана модель, эмулирующая движение пользователя по документам в сети. При этом предполагалось, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ зависит от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот документ. Эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRank):

,

где: – PageRank страницы ;

- коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети), обычно устанавливают равным 0,85;

– страница, содержащая ссылки на страницу ( изменяется от 1 до n);

- PageRank страницы , ссылающейся на страницу ;

– общее число ссылок на странице .

- вероятность того, что пользователь, находящийся на странице , из доступных ему ссылок выберет именно ссылку на страницу ;

- поток "теоретической посещаемости", который дойдет до страницы со страницы (суммирование идет по всем страницам, ссылающимся на страницу );

- минимальный PageRank страницы (он не равен нулю за счет того, что пользователь регулярно выбирает новый сайт в качестве стартовой точки).

Одним из распространенных заблуждение является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя известные значения PageRank для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRank какого-либо документа надо составить систему N линейных уравнений данного вида для каждого из документа из поисковой базы, где N - количество документов в поисковой базе. Причем, для выполнения условия, что сумма значений PageRank для всех документов (т.е. вероятность того, что пользователь находится на любой из страниц) равна 1, к свободный члену (1 - d) в каждом уравнении добавляют множитель 1/N. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине.

В поисковой базе крупнейших поисковых машин содержится огромное количество документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разрежена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин.

Согласно критерию пользовательской оценки для ранжирования страниц в поисковой выдаче используются системы оценки качества страниц пользователями, которые основаны на предположении: если пользователь переходит по ссылке, значит он счел ее интересной, и если долго не возвращается на страницу поисковой системы, значит его ожидания подтвердились.

Поисковая система Rambler при ранжировании результатов поиска в ответах на поисковый запрос использует коэффициент популярности, определяемый числом пользователей, которые просматривали данную страницу за последние несколько недель. Данный коэффициент, как и алгоритм PageRank, основан на учете гиперссылок между страницами сети, однако эта реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что "классические" ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети - Web-мастеров. Действительно, если большому количеству Web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым.

Однако, судя по всему, в последнее время данные о посещаемости документов, полученные от счетчика Top100, оказывают все меньшее и меньшее влияние на коэффициент популярности, так как счетчик не в состоянии противостоять массовым накруткам, практикуемым владельцами некоторых сайтов. Соответственно, все большее значение приобретает составляющая, вычисляемая на основе учета гиперссылок между страницами сети.

В соответствии с изложенными критериями формулу, приближенно описывающая процесс определения релевантности документа запросу, можно представить следующим образом:

,

где: - итоговое соответствие документа запросу ;

- релевантность текста (кода) документа запросу ;

- релевантность текста с учетом ссылок с других документов на документ запросу ;

- PageRank страницы ;

- монотонно неубывающая функция, причем и можно допустить, что ;

- весовые коэффициенты, определяемые разработчиком поисковой системы.

Резюмируя вышеизложенное, можно отметить, что для повышения ранга страницы необходимо работать над тем, чтобы как можно большее количество документов сети ссылалось на нее. Делать это можно различными способами - с помощью обмена ссылками с другими сайтами, регистраций в каталогах и различных тематических ресурсах и т.д. Идеальный способ - сделать свой сайт настолько уникальным и интересным, чтобы владельцы других ресурсов сами считали необходимым поставить ссылку на него. Не следует также забывать, что при расчете ранга документа учитываются как внешние, так и внутренние ссылки. Поэтому грамотная перелинковка документов внутри сайта позволяет повысить ранг самых важных из них с точки зрения содержащейся информации. Наиболее важные в этом смысле документы обязательно должны иметь ссылку с главной страницы сайта, которая, как правило, имеет максимальный ранг среди всех страниц сайта вследствие того, что на нее указывает большинство внешних ссылок на сайт.