logo
мир_умк_самый последний

Глубина индексирования веб-сайтов

Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.То есть существует "невидимый Интернет" (скрытый).

"Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть — это та часть сайта, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разработала программное обеспечение по исследованию "невидимой" части сайтов. Полученные результаты показывают, что число документов "невидимой" части более чем в 500 раз превышает число документов, относящихся к "видимой" части.

К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, AltaVista.

При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы, реализующие логические условия "И" (AND), "ИЛИ" (OR), "НЕ" (NOT), "РЯДОМ" (NEAR). Эти условия пишутся на английском языке и имеют символьные сокращения. Символьное обозначение поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Оператор близости в чистом виде практически не присутствует (в Alta Vista оператор NEAR задает поиск слов запроса в пределах 10 слов, Lycos — в пределах 25), обычно он обозначается числом в окружении каких-либо специальных символов.