Пособие Технологии сети Интернет

Глава 8. Сервис se – поисковые системы

8.1. Назначение сервиса SE

Сервис SE (Search Engine) – поисковые системы -это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Установлено, что 85% пользователей Интернет используют поисковые системы, чтобы найти необходимые им товары, услуги и информацию.

Поисковые системы отличаются от тематических каталогов. Они представляют собой серверы с огромной базой URL-адресов, которые автоматически обращаются к Web-страницам по этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц (индексируют страницы). Более того, эти серверы обращаются по всем встречаемым на страницах ссылкам и, переходя к новым страницам, проделывают с ними то же самое. Так как почти любая Web-страница имеет множество ссылок на другие страницы, то при подобной работе поисковая система в конечном результате теоретически может обойти все сайты в Internet.

Поисковая система состоит из следующих основных компонентов:

1. Паук (spider) - программа, которая скачивает Web-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (можно сделать «просмотр html-кода» в браузере, чтобы увидеть «сырой» html-текст).

2. Путешествующий паук (crawler) - программа, которая выделяет все ссылки, присутствующие на странице. Ее задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

3. Индексатор (indexer) - программа, которая разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. Результатом анализа является index-файл.

4. База данных (database) - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страницы. Иногда базу данных называют индексом поисковой системы.

5. Система выдачи результатов (search engine results engine) - занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. С этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче с помощью определенных факторов, влияющих на ранжирование результатов.

6. Web-сервер (Web - server) – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Web-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Детальная реализация поисковых механизмов может отличаться друг от друга. Например, связка spider+crawler+indexer может быть выполнена в виде единой программы, которую называют поисковым роботом. Она скачивает известные Web-страницы, анализирует их, ищет по ссылкам новые ресурсы, индексирует их и заносит в базу данных в виде index-файла. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла. Однако всем поисковым системам присущи описанные общие черты.

Содержание