logo
мир_умк_самый последний

Принципы работы поисковых систем

Поисковые системы состоят из пяти отдельных программных компонент:

  1. spider (паук): браузероподобная программа, которая скачивает веб-страницы;

  2. crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице;

  3. indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками;

  4. the database (база данных): хранилище скаченных и обработанных страниц;

  5. search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук (программа, которая скачивает веб-страницы) работает как браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler: Как и паук, скачивает страницы, он анализирует страницу и находит все ссылки. Его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов стилевых частей страницы вычленяются и анализируются.

Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует.

Search Engine Results Engine – система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев.

Алгоритмом называется метод, по которому поисковая система принимает решение. Профессиональные оптимизаторы иногда употребляют термин «algos».

Поисковые системы отбирают результаты поиска на основании следующих критериев:

Таким образом, поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.

Результаты поиска оцениваются на основе семантических оценок качества, таких как: информационный шум, полнота выдачи документов, точность выдачи, потеря информации.