Глава 8. Сервис se – поисковые системы
8.1. Назначение сервиса SE
Сервис SE (Search Engine) – поисковые системы -это специальные Wеб-сайты, на которых пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Установлено, что 85% пользователей Интернет используют поисковые системы, чтобы найти необходимые им товары, услуги и информацию.
Поисковые системы отличаются от тематических каталогов. Они представляют собой серверы с огромной базой URL-адресов, которые автоматически обращаются к Web-страницам по этим адресам, изучают содержимое этих страниц, формируют и прописывают ключевые слова со страниц (индексируют страницы). Более того, эти серверы обращаются по всем встречаемым на страницах ссылкам и, переходя к новым страницам, проделывают с ними то же самое. Так как почти любая Web-страница имеет множество ссылок на другие страницы, то при подобной работе поисковая система в конечном результате теоретически может обойти все сайты в Internet.
Поисковая система состоит из следующих основных компонентов:
1. Паук (spider) - программа, которая скачивает Web-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (можно сделать «просмотр html-кода» в браузере, чтобы увидеть «сырой» html-текст).
2. Путешествующий паук (crawler) - программа, которая выделяет все ссылки, присутствующие на странице. Ее задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
3. Индексатор (indexer) - программа, которая разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. Результатом анализа является index-файл.
4. База данных (database) - это хранилище всех index-файлов, полученных поисковой системой в процессе скачивания и анализа Web-страницы. Иногда базу данных называют индексом поисковой системы.
5. Система выдачи результатов (search engine results engine) - занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. С этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче с помощью определенных факторов, влияющих на ранжирование результатов.
6. Web-сервер (Web - server) – сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Web-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.
Детальная реализация поисковых механизмов может отличаться друг от друга. Например, связка spider+crawler+indexer может быть выполнена в виде единой программы, которую называют поисковым роботом. Она скачивает известные Web-страницы, анализирует их, ищет по ссылкам новые ресурсы, индексирует их и заносит в базу данных в виде index-файла. Поиск осуществляется другой программой, которая извлекает запрашиваемую пользователем информацию из index-файла. Однако всем поисковым системам присущи описанные общие черты.
- Федеральное агентство по образованию
- Введение
- Глава 1. Протоколы и сервисы internet
- 1.1. Понятие сервиса Internet
- 1.2. Протоколы сервисов Internet
- Методические указания
- Глава 2. Сервис dns – система доменных имен
- 2.1. Назначение сервиса dns
- 2.2. Организация пространства имен
- 2.3. База данных сервера dns
- 2.4. Разрешение имен
- 2.5. Порядок регистрации доменных имен
- Методические указания
- Глава 3. Сервис telnet – управление удаленными компьютерами в терминальном режиме
- 3.1. Назначение сервиса Telnet
- 3.2. Организация работы сервиса Telnet
- Методические указания
- Глава 4. Сервис ftp – система файловых архивов
- 4.1. Назначение сервиса ftp
- 4.2. Организация работы сервиса ftp
- Методические указания
- Глава 5. Сервис usenet – система телеконференций
- 5.1. Назначение сервиса Usenet
- 5.2. Организация подписки на конференции
- 5.3. Организация работы сервиса Usenet
- Методические указания
- Глава 6. Сервис e-mail – электронная почта
- 6.1. Назначение сервиса e-mail
- 6.2. Стандартные функции почтовых клиентов
- 6.2.1. Прием сообщений
- 6.2.2. Локальное хранение сообщений
- 6.2.3. Создание и отправка сообщений
- 6.2.4. Работа с почтовыми вложениями
- 6.2.5. Создание ответных сообщений
- Методические указания
- Глава 7. Сервис www – гипертекстовая система интеграции сетевых ресурсов в единое информационное пространство
- 7.1. Назначение сервиса www
- 7.2. Средства представления Web-документов
- 7.2.1. Язык html
- 7.2.2. Таблицы стилей
- 7.2.3. Сценарии
- 7.2.4. Язык Dynamic html
- 7.2.5. Java-апплеты
- 7.2.6. Технология ActiveX
- 7.2.7. Язык xml
- 7.3. Унифицированные указатели ресурса
- 7.3.1. Схемы и механизмы доступа к ресурсу
- 7.3.2. Схема "mailto:"
- 7.3.3. Схема "ftp:"
- 7.3.4. Схемы "http:" и "https:"
- 7.4. Клиентское программное обеспечение
- 7.5. Стандартные функции Web-клиентов
- 7.5.1. Доступ к различным информационным ресурсам
- 7.5.2. Работа с объектами различного типа
- 7.5.3. Обеспечение навигации
- 7.5.4. Кэширование и управление загрузкой объектов
- 7.6. Дополнительные функции Web-клиентов
- 7.6.1. Поддержка маркеров "cookie"
- 7.6.2. Поддержка Java-апплетов и технологии ActiveX
- 7.7. Протоколы взаимодействия клиента и сервера
- Методические указания
- Глава 8. Сервис se – поисковые системы
- 8.2. Критерии ранжирования документов
- 8.3. Организация поиска документов
- 8.3.1. Основные поисковые системы
- 8.3.2. Поисковая система Яndex
- 8.3.3. Поисковая система Google
- 8.3.4. Поисковая система Rambler
- Методические указания
- Глава 9. Сервис irc – телеконференции реального времени
- 9.1. Назначение сервиса irc
- 9.2. Подключение и настройка mIrc
- 9.3. Команды irc и mIrc
- 9.3.1. Список команд irc и mIrc
- 9.3.2. Работа с никами
- 9.3.3. Работа с каналами
- 9.3.4. Отправка текста
- 9.3.5. Управление каналом
- Методические указания
- Глава 10. Сервис rtvc – видеоконференции реального времени
- 10.1. Назначение сервиса rtvc
- 10.2. Организация видеоконференций
- 10.2.1. Протоколы семейства h.32x
- 10.2.2. Базовая архитектура стандарта h.323
- Контроллер зоны (рис. 34) - это рекомендуемое, но не обязательное устройство, обеспечивающее сетевое управление и исполняющее роль виртуальной телефонной станции.
- 10.2.3. Тенденции развития рекомендаций h.323
- Методические указания
- Литература
- Технологии сети Интернет: протоколы и сервисы