2.4 Механизм работы поисковых систем
Каждая поисковая система - это комплекс программ.
В основу работы поисковых средств в чистом виде (поисковых машин) заложены следующие технологические принципы: задача поисковых машин - вести поиск по ключевым словам из полных текстов web-документов, то есть проводить максимальное детальное разыскание информации в электронной вселенной. В отличие от справочников, все они функционируют полностью в автоматизированном режиме, имеют одинаковый принцип деятельности и состоят из двух основных блоков.
Основные части программного комплекса:
1. Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она записывает на диск поискового сервера содержимое исследуемых страниц.
2. Робот crawler (“путешествующий” паук). Его задача - собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.
3. Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он оставляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает отобранные слова в особый файл - “индекс”.
4. База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.
5. Система обработки запросов и выдачи результатов.
Принимает запрос пользователя, формирует запрос к базе данных, получает из хранилища результат и передает его пользователю.
Каждый результат поиска содержит:
1. Заголовок найденной страницы.
2. Отрывок из текста страницы, по которому видно, в каком окружении (контексте) используются нужные нам слова. Искомые слова в нем, как правило, выделены жирным шрифтом или отличаются по цвету от основного текста.
3. Полный URL (УРЛ) (“Universal Resource Locator” - адрес в сети Интернет) страницы.
4. Размер страницы, дата последнего изменения (если поисковая машина в состоянии ее определить).
5. Ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия вам все равно дает возможность ознакомиться с найденным документом.
6. “Похожие документы”. Некоторые поисковики анализируют содержание найденных по запросу страниц и группируют их по своим, внутренним критериям. Например - по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов. Данные алгоритмы далеки от совершенства и в “похожих страницах” не очень часто можно найти нужную информацию, что затруднит работу в нашем поиске.
7. Рубрику каталога или рейтинга поисковой машины (если сайт участвует в каталоге или рейтинге).
Чем же различаются поисковые машины, если у них одинаковая форма запроса и примерно одинаковый формат выдачи результатов?
- Релевантностью результатов;
- величиной и частотой обновления баз данных;
- скоростью выдачи результатов;
- удобством работы.
На сегодняшний день поисковые системы - самые популярные страницы сети на которых пользователи проводят много времени. Поэтому, все большее значение при выборе поисковой системы приобретают сопутствующие сервисы (почта, новостные ленты, торговые площадки и т.п.)[7, с 36].
- Введение
- 1. Информационные системы
- 1.1 Понятие информационных систем
- 1.3 Классификация информационных систем
- 2. Информационно поисковые системы
- 2.1 Исторические предпосылки развития поисковых систем
- 2.3 Особенности поисковых систем
- 2.3.1 Первый закон Зипфа
- 2.3.2 Второй закон Зипфа "количество - частота"
- 2.4 Механизм работы поисковых систем
- 2.5 Основные параметры поисковых систем
- 2.6 Классификация поисковых систем по авторитетности
- Классификация поисковых систем по авторитетности:
- 2.7. Проблемы и возможности поисковых систем
- 3. Стратегия поиска
- 3.1 Последовательность действий
- Информационно-поисковая система
- Информационный поиск, информационно-поисковая система и его среда.
- Тема 1.Виды информационно-поисковых систем
- Информационно-поисковые системы
- 1. Информационно-справочные и информационно-поисковые системы
- Информационные системы и технологии
- Информационно-аналитические и справочно-поисковые системы
- Информационно–поисковые системы
- 5.3.3. Информационные средства обучения информатике
- 1.9. Информационно-поисковые системы Документальные информационные системы