11. Интернет. Проблема поиска и поисковые системы. Поиск по каталогам.
Интерне́т (англ. Internet) — всемирная система объединённых компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных. Интернет образует глобальное информационное пространство, служит физической основой для Всемирной паутины (World Wide Web (WWW) и множества других систем (протоколов) передачи данных. Чтобы найти нужную информацию, необходимо найти её адрес. Для этого существуют специализированные поисковые сервера (роботы индексов (поисковые системы), тематические Интернет-каталоги, системы мета-поиска, службы поиска людей и т.д.).
Суть проблемы. В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).
В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов. Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.
Как работает поисковая система? Первый этап работы поисковой системы – это индексирование информации, находящейся в Internet. Сетевой робот поисковой системы просматривает огромное количество страниц и заносит адреса и краткое содержание этих страниц к себе в базу данных, точнее в поисковый индекс. Таким образом, когда Вы спросите поисковую систему о том, где находится расписание поездов дальнего следования на лето, она не будет лихорадочно искать совпадения в огромной сети Internet, а всего лишь поищет в своем заранее подготовленном поисковом индексе, причем сделает это очень быстро. второй этап работы поисковой системы – это выдача накопленной и отобранной, отсортированной и классифицированной информации по запросам пользователей.
Примечание: поисковые системы предоставляют ссылки на ресурсы бесплатно, а зарабатывают они на рекламе, на платном занесении информации в каталоги, на сортировке результатов поиска в пользу рекламодателя и так далее.
Каталог Интернет-ресурсов – это постоянно обновляющийся и пополняющийся иерархический каталог, содержащий множество категорий и отдельных web-серверов с кратким описанием их содержимого.Способ поиска по каталогу подразумевает «движение вниз по ступенькам», то есть движение от более общих категорий к более конкретным. Когда сетевой робот поисковой системы сканирует Internet и автоматически вносит описания и адреса страниц в свой поисковый индекс, то вместе с полезными и адекватными ссылками в базе данных оказывается много поискового мусора или поискового спама, так как некоторые недобросовестные владельцы сайтов, пытаясь увеличить посещаемость своих ресурсов, добавляют в свои страницы наиболее популярные поисковые слова, совершенно не относящиеся к теме страницы. Это и некоторые другие обстоятельства вынуждают создателей поисковых систем кроме автоматического индекса вести также каталоги ресурсов, составленные вручную. Такой каталог есть и в поисковой системе Яндекс.
Каталог позволяет классифицировать ресурсы и сгруппировать их по тематике. Тематическое дерево каталога Яндекса сделано максимально простым. На первом уровне в нем всего восемь тем:
-
Бизнес и экономика,
-
Общество и политика,
-
Наука и образование,
-
Компьютеры и связь,
-
Справки,
-
Дом и семья,
-
Развлечения и отдых,
-
Культура и искусство.
Если щелкнуть по названию темы, то откроются подтемы (рубрики). При дальнейшем движении вглубь будут открываться следующие уровни (подрубрики), и в итоге откроется список ресурсов (сайтов) выбранной тематики.
- 1. Информатика как наука. Понятие информации, ее свойства и виды. Составляющие информационного сообщения.
- 2. Измерение количества информации. Системы счисления, основные понятия сс. Позиционные и непозиционные сс.
- 3. Правила перевода из одной сс в другую (целых чисел, дробных чисел, правило тетрад и триад).
- 4. Компьютерные сети. Виды кс, понятие Интернет.
- 5. История возникновения Интернет.
- 6. Протоколы передачи информации в Интернет. Ip-адрес компьютера. Url.
- 7. Способы подключения к Интернет.
- 8. Службы Интернет. Www.
- 9. Службы Интернет. Ftp.
- 10. Интернет. Гиперссылки, серфинг, безопасность электронной почты.
- 1. Заражение компьютерным вирусом и проникновение на компьютер активного содержимого.
- 2. Отказ в обслуживании или переполнение почтового ящика.
- 3. Утечка конфиденциальной информации.
- 11. Интернет. Проблема поиска и поисковые системы. Поиск по каталогам.
- 12. Поисковые системы. Синтаксис языка запросов.
- 13. Основные причины размещения рекламы в Интернет.
- 14. Баннерные сети. Регистрация в поисковых системах.
- 15. Почтовая рассылка. Вирусы. Реклама с помощью программного обеспечения.
- 16. Контекстная реклама. Системы кр. Причины использования. Недостатки и преимущества.
- 17. Реклама в социальных сетях. Типы социальных сетей.
- 18. Физические основы цвета в компьютерной графике. Типы цветовых моделей.
- 19. Аддитивные цветовые модели.
- 20. Субтрактивные цветовые модели.
- 21. Перцепционные цветовые модели.
- 22. Статическая графика. Растровая графика.
- 23. Статическая графика. Векторная графика.
- 24. Статическая графика. Фрактальная графика.
- 25. Анимация. Принципы и методы. Способы реализации. 3d-анимация.