logo
Информационная сеть Интернет

Как работают поисковые системы.

Как мы уже говорили, порталы - это целый набор серверов, которые обеспечивают работу единой системы какого-либо Интернет-сервиса. В данном случае нас интересует служба поиска сайтов по заданным словам. Это значит, что поисковая машина должна знать, где и на каком сайте встречаются те или иные слова. Согласитесь, если бы поиск по сайтам начинался в момент когда мы щелкаем на кнопке Найти, то мы бы не дождались его завершения и через несколько дней. Сейчас Интернет насчитывает более одного терабайта информации. Это примерно 2х108страниц машинописною текста. Если просматривать эти страницы по 10 в секунду, то на это уйдет чуть меньше года! Как же получается, что поисковые системы предоставляют нам результат за несколько секунд?

Для этого существуют специальные поисковые роботы, или, как их еще называют, пауки. Они представляют собой серверы, на которых запущена программа сканирования сайтов. После того как владелец сайта зарегистрирует свой ресурс на поисковом сервере, робот запишет этот адрес в очередь, через несколько дней зайдет на этот сайт и проиндексирует его. Все слова, найденные на страницах сайта, будут занесены в специальную базу данных и отсортированы соответствующим образом, чтобы их поиск по этой базе отнимал как можно меньше времени. И когда вы в строке поискового запроса набираете нужное слово, поиск на самом деле ведется не по всей сети Интернет, а лишь но базе данных поискового сервера. Периодически "паук" повторно обходит известные ему страницы, чтобы обновить сведения о них. Таким образом, результаты поиска будут достаточно актуальны, но в пределах времени, необходимого роботу для повторной проверки ресурса.

Далее, чтобы предоставить вам информацию, поисковая машина должна ее как-то классифицировать и упорядочить. Вот здесь и начинаются "секретные" технологии. Дело в том, что поисковые серверы пытаются предугадать, насколько тот или иной сайт соответствует введенному вами запросу. Это соответствие называется релевантность. У каждой поисковой системы собственные методы оценки релевантности. А держатся они в строжайшем секрете не только для обеспечения своего авторского права, но и для того, чтобы Web-мастера, создающие сайты не смогли четко вычислять факторы, влияющие на то, чтобы сайты оказывались среди первых в списке найденных результатов. Тогда они будут искусственно фабриковать эти факторы, и страница не будет реально отвечать введенному слову или фразе.