11.3.3. Стратегия поиска информации в сети
Один из первых вопросов, поставленных в начале §11.1, состоял в следующем: как разыскать в Сети необходимую информацию в условиях, когда ее поток непрерывно и до определенной степени бесконтрольно возрастает. Наиболее убедительной попыткой обуздать информационный хаос в Internet является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины, таким образом, следующий:
Сканированиеиндексированиеклассификацияобслуживание
Сканирование. В процессе сканирования ресурсов Сети принимают участие специальные программы, в WWW их часто называют <паучками>. Работа таких программ обычно происходит в автоматическом режиме и состоит в последовательном обходе узлов Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Кроме того, учитываются интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.
Индексирование предполагает формирование базы данных поисковой машины, организованной по определенным принципам. В первую очередь, безусловно, предметом сканирования являются текстовые документы. В результате такой операции для каждого документа формируется набор ключевых слов, по которым затем на стадии обслуживания поискового запроса пользователю выдаются адреса заиндексированных ресурсов.
Информационные объекты нетекстового характера (графика, видео, аудио) в общем случае также могут идентифицироваться и быть представлены в соответствующих базах данных.
Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.
Обслуживание пользователя той или иной поисковой машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода: пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом шаге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой, либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка. Конечной точкой обоих путей является локализация и извлечение соответствующего информационного объекта.
В процессе сканирования поисковой машине приходится получать доступ к ресурсам Сети, естественно, что такой доступ реализуется в рамках одного из протоколов прикладного уровня. В связи с этим принято различать поисковые машины по области сканирования, прежде всего это - гипертекстовые базы данных Web, ресурсы всемирного пространства GopherSpace, FTP-архивы.
В мире Internet технологии WWW произвели революцию, следствием которой стали следующие факторы:
неуклонное нарастание числа серверов в Сети, реализующих http-протокол;
перенесение наиболее востребуемых ресурсов на Web-узлы с серверов, поддерживающих другие протоколы доступа;
разработка системы межпротокольных шлюзов WWW-Gopher,
WWW- FTP, WWW - Telnet.
Существование шлюзов между протоколами прикладного уровня позволяет, например, поисковой машине WWW сканировать ресурсы FTP-архивов, тем не менее инфраструктуры межпротокольных шлюзов оказывается явно недостаточно для формирования однородного информационного пространства. В результате для исчерпывающего профессионального поиска информации в Сети следует прибегать к специальным поисковым средствам, характерным для среды того или иного протокола, а не ограничиваться наиболее развитыми сегодня средствами поисковых машин WWW, полагаясь на полноту охвата остальной части Internet благодаря шлюзам.
По этой причине поиск информации в Internet сегодня поднимается на уровень технологии.
Тем не менее система информационно-поисковых машин Сети на данный момент является достаточно развитой, чтобы говорить об информационной самодостаточности Internet. Последнее означает, что с высокой вероятностью, профессионально подготовленный пользователь, располагающий полным арсеналом поисковых средств и пониманием логики размещения и именования различных информационных объектов Сети, в состоянии обнаружить заданный ресурс, если тот существует реально, за конечное число итераций поискового процесса.
Несмотря на стремительное нарастание присутствия в Сети средств мультимедиа, на сегодняшний день основным носителем информации в ней остается текстовый документ. Как правило, наиболее эффективным средством поиска является поиск по запросу пользователя, по крайней мере в случае, когда доступ к информации заданного типа происходит впервые и место ее нахождения не представляется очевидным.
Тем не менее и в этом случае остается серьезная проблема: список документов, полученных в результате отклика на пользовательский запрос, сводящийся, например, к указанию единственного ключевого слова для поиска совпадений с ним в пространстве WWWстраниц, может содержать в себе тысячи пунктов. Даже в этой ситуации результат может иметь практическое значение, если отображаемый список представляет документы в порядке убывания их предполагаемой значимости для пользователя. Такое упорядочивание списка, или ранжирование документов по релевантности (реальной пригодности), не является тривиальным и реализуется каждой поисковой машиной в рамках своего алгоритма.
Так, в процессе ранжирования Web-документов из списка отклика на заданный поисковый запрос кажется естественным учесть не только частоту, с которой термин встречается на странице, но и область текста (аннотация, заголовок п т.д.), где он был употреблен, поскольку очевидно, что та степень, в которой термин соответствует основному смысловому содержанию документа, зависит от места его употребления. К счастью, благодаря тому, что для разметки текста в WWW используется язык HTML, обладающий средствами особого выделения, например заголовков разного уровня на странице, оказывается
достаточно просто реализовать алгоритм сканирования Web страницы с учетом разного веса различных текстовых полей. Более того, многие поисковые машины WWW позволяют заранее задавать в поисковом запросе то текстовое поле, в котором должен встретиться данный термин.
Подводя итог сказанному, сегодня можно говорить о развитии информационно-поисковых систем в двух направлениях:
1) возрастание чувствительности поисковых программ к полям сканируемого документа, что фактически приводит к их внедрению в технологию WWW и подразумевает активное использование операторов языка HTML для идентификации значимых для поиска полей документа;
2) развитие возможностей сужения поиска путем усложнения запроса (применение логических операторов, операторов близости и т.д.
- Глава 4 информационные ресурсы и информатизация общества 64
- Раздел II прикладная информатика 82
- Глава 5. Общая характеристика процессов сбора, передачи, обработки и хранения информации 82
- Глава 6. Технические средства реализации информационных процессов 105
- Глава 11 глобальная информационная сеть internet 222
- Глава 12 искусственный интеллект 270
- Глава 13 экспертные системы 297
- Острейковский в.А. Информатика
- Введение
- Раздел I теоретическая информатика глава 1 основные понятия и определения информатики
- 1.1. Терминология информатики
- 1.2. Объект информатики
- 1.3. Предметная область информатики как науки
- 1.4. Краткая история развития информатики
- Контрольные вопросы
- Глава 2 информатика как наука
- 2.1. Категории информатики
- 2.2. Аксиоматика информатики
- 2.3. Виды и свойства информации
- Контрольные вопросы
- Глава 3. Математические основы информатики
- 3.1. Методы и модели оценки количества информации
- 3.2. Основные понятия теории алгоритмов
- 3.3. Системы счисления
- 3.3.1. Позиционные системы счисления
- 3.3.2. Двоичная система счисления
- 3.3.3. Другие позиционные системы счисления
- 3.3.4. Смешанные системы счисления
- 3.3.5. Перевод чисел из одной системы счисления в другую
- 3.4. Формы представления и преобразования информации
- 3.4.1. Числовая система эвм. Представление целых чисел без знака и со знаком
- 3.4.2. Индикаторы переноса и переполнения
- 3.4.3. Представление символьной информации в эвм
- 3.4.4. Форматы данных
- Контрольные вопросы, упражнения и задачи
- Глава 4 информационные ресурсы и информатизация общества
- 4.1. Особенности информационного ресурса
- 4.2. Формы и виды информационных ресурсов
- 4.3. Информатизация общества
- 4.3.1. Сущность и цели информатизации
- 4.3.2. Создание информационных структур
- 4.3.3. Формирование индустрии информатики
- 4.3.4. Развитие интеллектуального и информационного рынков
- 4.4. Перспективы перехода к информационному обществу
- Контрольные вопросы
- Раздел II прикладная информатика глава 5. Общая характеристика процессов сбора, передачи, обработки и хранения информации
- 5.1. Восприятие информации
- 5.2. Сбор информации
- 5.3. Передача информации
- 5.4. Обработка информации
- Контрольные вопросы
- Глава 6. Технические средства реализации информационных процессов
- 6.1. Определение и принципы организации информационных процессов в вычислительных устройствах
- 6.2. Функционирование эвм с шинной организацией
- 6.3. Функционирование эвм с канальной организацией
- 6.4. Информационная модель эвм
- 6.5. Основные команды эвм
- 6.6. Персональные эвм
- 6.6.1. Общие сведения о пэвм и их классификация
- 6.6.2. Структурная схема пэвм
- 6.6.3. Внешние устройства пэвм
- 6.6.4. Внешние запоминающие устройства пэвм
- 6.6.5. Печатающие устройства пэвм
- 6.6.6. Перспективы развития пэвм
- 6.7. Вычислительные системы
- 6.8. Поколения вычислительных средств
- Контрольные вопросы, упражнения и задачи
- Глава 7 алгоритмизация и программирование
- 7.1. Определение алгоритма
- 7.2. Методы разработки алгоритма
- 7.2.1. Метод частных целей
- 7.2.2. Метод подъема
- 7.3. Программирование с отходом назад
- 7.4. Алгоритмы ветвей и границ
- 7.5. Жизненный цикл программного обеспечения
- Контрольные вопросы, упражнения и задачи
- Раздел III элементы информационных технологий глава 8 базы и банки данных
- 8.1. Автоматизированные банки данных
- 8.2. Модели данных
- 8.3. Схема функционирования субд
- 8.4. Организация поиска данных
- 8.5. Администратор базы данных
- Контрольные вопросы
- Глава 9 пакеты прикладных программ
- 9.1. Классификация ппп
- 9.2. Проблемно-ориентированные ппп
- 9.4. Интегрированные ппп
- 9.4. Пакеты прикладных программ для решения научно-технических задач
- 9.5. Библиотеки стандартных программ
- Контрольные вопросы
- Глава 10 вычислительные сети
- 10.1. Принципы построения и классификация вычислительных сетей
- 10.2. Способы коммутации и передачи данных
- 10.3. Программное обеспечение вычислительных сетей
- 10.4. Локальные вычислительные сети
- 10.4.1. Классификация лвс
- 10.4.2. Организация обмена информацией в лвс
- 10.4.3. Методы доступа в лвс
- 10.4.4. Модели взаимодействия в лвс
- 10.5. Обеспечение безопасности информации в вычислительных сетях
- Контрольные вопросы
- Глава 11 глобальная информационная сеть internet
- 11.1. Краткая характеристика основных информационных ресурсов internet
- 11.2. Принципы функционирования internet
- 11.2.1. Иерархия протоколов internet
- 11.2.3. Спецификация универсального адреса информационного ресурса в internet
- 11.3. Технология world wide web (www)
- 11.3.1. Общая характеристика www
- 11.3.2. Программы-клиенты www
- 11.3.3. Стратегия поиска информации в сети
- 11.3.4. Язык гипертекстовой разметки web-документов html
- 11.3.5. Поисковые машины www
- 11.4. Электронная почта в internet
- 11.5. Технологии доступа к ресурсам internet, отличные от www
- 11.5.1. Удаленный доступ к ресурсам сети telnet
- 11.5.2. Обмен файлами по протоколу ftp. Служба архивов ftp
- Контрольные вопросы
- Глава 12 искусственный интеллект
- 12.1. Направление исследований в области искусственного интеллекта
- 12.2. Машинный интеллект и робототехника
- 12.3. Интеллектуальные роботы
- 12.4. Моделирование биологических систем
- 12.5. Эвристическое программирование и моделирование
- 12.6. Система знаний
- 12.7. Модели представления знаний
- 12.7.1. Логическая модель представления знаний
- 12.7.2. Сетевая модель представления знаний
- 12.7.3. Фреймовая модель представления знаний
- 12.7.4. Продукционная модель представления знаний
- Контрольные вопросы
- Глава 13 экспертные системы
- 13.1. Общая характеристика эс
- 13.2. Структура и режимы использования эс
- 13.3. Классификация инструментальных средств эс
- 13.4. Организация знаний в эс
- 13.5. Отличие эс от традиционных программ
- 13.6. Виды эс
- 13.7. Типы задач, решаемых эс
- Контрольные вопросы
- Приложение 3 глоссарий экспертных систем