logo search
Информационно-поисковые и информационно-справочные системы в обучении информатике

2.4 Механизм работы поисковых систем

Каждая поисковая система - это комплекс программ.

В основу работы поисковых средств в чистом виде (поисковых машин) заложены следующие технологические принципы: задача поисковых машин - вести поиск по ключевым словам из полных текстов web-документов, то есть проводить максимальное детальное разыскание информации в электронной вселенной. В отличие от справочников, все они функционируют полностью в автоматизированном режиме, имеют одинаковый принцип деятельности и состоят из двух основных блоков.

Основные части программного комплекса:

1. Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она записывает на диск поискового сервера содержимое исследуемых страниц.

2. Робот crawler (“путешествующий” паук). Его задача - собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.

3. Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он оставляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает отобранные слова в особый файл - “индекс”.

4. База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.

5. Система обработки запросов и выдачи результатов.

Принимает запрос пользователя, формирует запрос к базе данных, получает из хранилища результат и передает его пользователю.

Каждый результат поиска содержит:

1. Заголовок найденной страницы.

2. Отрывок из текста страницы, по которому видно, в каком окружении (контексте) используются нужные нам слова. Искомые слова в нем, как правило, выделены жирным шрифтом или отличаются по цвету от основного текста.

3. Полный URL (УРЛ) (“Universal Resource Locator” - адрес в сети Интернет) страницы.

4. Размер страницы, дата последнего изменения (если поисковая машина в состоянии ее определить).

5. Ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия вам все равно дает возможность ознакомиться с найденным документом.

6. “Похожие документы”. Некоторые поисковики анализируют содержание найденных по запросу страниц и группируют их по своим, внутренним критериям. Например - по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов. Данные алгоритмы далеки от совершенства и в “похожих страницах” не очень часто можно найти нужную информацию, что затруднит работу в нашем поиске.

7. Рубрику каталога или рейтинга поисковой машины (если сайт участвует в каталоге или рейтинге).

Чем же различаются поисковые машины, если у них одинаковая форма запроса и примерно одинаковый формат выдачи результатов?

- Релевантностью результатов;

- величиной и частотой обновления баз данных;

- скоростью выдачи результатов;

- удобством работы.

На сегодняшний день поисковые системы - самые популярные страницы сети на которых пользователи проводят много времени. Поэтому, все большее значение при выборе поисковой системы приобретают сопутствующие сервисы (почта, новостные ленты, торговые площадки и т.п.)[7, с 36].