Принципы работы поисковых систем
Поисковые системы состоят из пяти отдельных программных компонент:
spider (паук): браузероподобная программа, которая скачивает веб-страницы;
crawler : «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице;
indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками;
the database (база данных): хранилище скаченных и обработанных страниц;
search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.
Spider: Паук (программа, которая скачивает веб-страницы) работает как браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.
Crawler: Как и паук, скачивает страницы, он анализирует страницу и находит все ссылки. Его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.
Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов стилевых частей страницы вычленяются и анализируются.
Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует.
Search Engine Results Engine – система выдачи результатов решает, какие страницы удовлетворяют запросу пользователя. Это та часть поисковой системы, с который вы имеете дело, осуществляя поиск. Когда пользователь вводит ключевое слово и делает поиск, поисковая система отбирает результаты на основании постоянно меняющихся критериев.
Алгоритмом называется метод, по которому поисковая система принимает решение. Профессиональные оптимизаторы иногда употребляют термин «algos».
Поисковые системы отбирают результаты поиска на основании следующих критериев:
Title (заголовок): Присутствует ли ключевое слово в заголовке?
Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?
Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или текстовых заголовках?
Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.
MetaInformation (мета данные): – мета ключевые слова (meta keywords) и мета описания (meta description).
Outbound Links (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
Inbound Links (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий, потому что автор страницы не всегда может им управлять.
Insite Links (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница?
Таким образом, поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.
Результаты поиска оцениваются на основе семантических оценок качества, таких как: информационный шум, полнота выдачи документов, точность выдачи, потеря информации.
- 080801.65 «Прикладная информатика в экономике»
- Пояснительная записка
- 1. Место дисциплины в государственном образовательном стандарте высшего профессионального образования
- 2. Образовательные цели и задачи обучения
- 3. Требования к уровню освоения содержания дисциплины
- 4. Роль дисциплины и ее место в системе подготовки специалиста
- 5. Организационно-методические указания к преподаванию курса
- 6. Контроль качества освоения материала дисциплины
- 7. Тематический план курса
- 1.7.1. Тематический план учебной дисциплины
- 1.7.2. Тематический план учебной дисциплины для студентов заочной формы обучения
- 8. Содержание дисциплины
- 8.1. Содержание лекционного курса
- Лекция №5. Мировые информационные ресурсы (2 часа)
- Характеристика Интернет. Принципы работы поисковых систем. Правила поиска информационных ресурсов в мировых информационных сетях.
- Модуль 4. Технология и практика взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры
- 8.2. Содержание практикума
- 8.2.1. Тематика семинарских занятий (18 часов)
- 8.2.2. Тематика лабораторных работ (18 часов)
- 8.3. Лекционный курс
- Тема 2. Рынок информации: особенности спроса, предложения, рыночного равновесия
- 1. Первичная и тиражированная информация
- 2. Носители и проводники информации
- 3. Механизм функционирования рынка первичной информации
- 1. Государственные информационные ресурсы
- 2. Представление информации в государственные информационные ресурсы
- 3. Категории доступа к информации
- 4. Ограничения на содержимое средств массовой информации
- 5. Авторское право
- Тема 4. Управление информационными ресурсами на предприятии, фирме
- 2. Информационные потребности при планировании деятельности предприятия
- 3. Бизнес-план и выявление требований к информационному обеспечению
- 4. Внешнеэкономическая деятельность и выявление требований к информационному обеспечению
- Выводы по модулю 1
- Тема 5. Мировые информационные ресурсы
- 1. Классификация мировых информационных ресурсов
- 2. Структура информационного рынка
- 3 Основные источники информационных ресурсов
- Источники юридической информации
- Информация для специалистов
- Массовая, потребительская информация
- 1. Этапы развития мирового рынка информации
- 2. Профессиональные базы данных Информационная корпорация 'Dun and Bradstreet (d and в) Corp. ("Дан энд Брэдстрит")
- Информационная корпорация Dialog ("Диалог")
- Информационное агентство Data-Star
- Информационная корпорация QuestelOrbit
- База данных QuestelOrbit
- Информационное агентство LexisNexis
- 3. Деловые ресурсы Интернета
- 4. Виды информации в Интернете и профессиональных базах
- Тема 7. Состояние российского рынка информации. Справочная правовая информация
- 1. Государственные системы справочной правовой информации
- 2. Коммерческие системы справочной правовой информации
- Тема 8. Состояние российского рынка информации. Биржевая и финансовая информация
- 1. Основные зарубежные производители информационных продуктов и услуг на биржевом и финансовом рынках
- Агентство Рейтер
- Агентство Телерейт
- Агентство Тенфор
- Агентство "Блумберг"
- 2. Российские информационные агентства и службы в сфере биржевой и финансовой информации Информационное агентство РосБизнесКонсалтинг
- Акционерное общество ак&м
- Информационное агентство "Финмаркет"
- Компания Парк.Ру
- Агентство экономической информации "прайм-тасс"
- Общество с ограниченной ответственностью мфд "ИнфоЦентр"
- Агентство "Интериндекс»"
- Агентство Интерфакс
- Отраслевая информация
- Аналитическая информация (профили компаний, обзоры рынков, индексы, рейтинги)
- Тема 9. Состояние российского рынка информации. Коммерческая информация
- 1. Понятие коммерческой информации.
- Агентство деловой информации (ади) Бизнес-Карта
- Агентство "асу-Импульс"
- "ИнформСистема"
- Инфогруппа Компас
- Институт промышленного развития (Информэлектро) Министерства экономического развития и торговли Российской Федерации
- Информационное агентство "Норма"
- Информационно-консультативный центр"Мосвнешинформ"
- Информационное агентство Вдохновение
- Агентство социум инфополис
- Тема 10. Информационные образовательные ресурсы
- 1. Виды информационных образовательных ресурсов
- 2. Уровни интеграции информационных ресурсов в образовании
- 3. Использование цифровых информационных ресурсов в учебном процессе
- Информационная грамотность
- Обучение на базе мировых информационных ресурсов
- Тема 11. Зарубежный и российский рынки знаний
- 1. Зарубежный рынок знаний
- 2. Российский рынок знаний
- 2.1. Библиотечная сеть
- 2. Электронные библиотеки
- Система научно-технической информации
- Система патентной информации
- Тема 12-13. Международные и российские статистические ресурсы
- 1. Система международной статистики
- 2. Национальные системы статистики
- 4. Федеральная служба государственной статистики (Росстат)
- Тема 14. Технология доступа к информационным ресурсам и ресурсам знаний
- 1. Какие информационные ресурсы выбрать?
- 2. Как извлечь из информационных ресурсов необходимые сведения?
- Выбор информационных ресурсов
- Поиск информации в профессиональных базах
- Тема 15. Структура представления информации в мировых информационных сетях
- Принципы работы поисковых систем
- Правила поиска информационных ресурсов в мировых информационных сетях
- Тема 16. Технология доступа к деловым ресурсам Интернета
- 1. Поисковые машины
- Глубина индексирования веб-сайтов
- 2. Каталоги в Интернете
- 3. Технология доступа к информации в электронных библиотеках
- 4. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
- 1. Технология взаимодействия со специализированными сетевыми структурами, агрегирующими информационные ресурсы
- Технология взаимодействия со специализированными сетевыми структурами, производящими информационные ресурсы
- Тема 18. Перспективы развития мирового рынка информации и знаний
- 1. Комплексная оценка эффективности использования мировых ресурсов
- 2. Перспективы развития мирового рынка информации и знаний
- 9. Учебно-методическое обеспечение курса
- 5. Мировые информационные ресурсы. Интернет: практикум/кол.Авторов; под общ.Ред. П.В.Акинина.- м.:кнорус, 2008.-356 с.
- 11. Холмогоров в. Поиск в Интернете и сервисы Яндекс.- сПб.:Питер, 2006.-123 с.
- 10. Материально-техническое, информационное и программное обеспечение курса
- 11. Вопросы для итогового контроля и самоанализа
- 12. Глоссарий
- 13. Тест для контроля и самоконтроля по темам курса
- 56. Кто является наиболее крупным поставщиком баз данных и справочников по производителям товаров и услуг в России?
- 58. Какая из российских фирм на регулярной основе обеспечивает потребителей информацией о зарубежных фирмах?
- 61. К какому источнику следует обратиться за метаинформацией о базах данных, представленных на мировом рынке информационных услуг?
- 62. Какие организации не являются источником официальной статистической информации?
- Автор-составитель:Елисеева е.В. «Мировые информационные ресурсы» Учебно-методический комплекс