Информационно-поисковые системы
Проблема поиска документа, отвечающего тем или иным критериям, возникает в любом хранилище данных, содержащем более одного документа. Очевидно, что решение этой проблемы так или иначе замыкается на те способы, которые применяются при создании систем хранения. Можно указать два основных способа:
• использование иерархической модели;
• использование гипертекстовой модели.
Использование иерархической модели подразумевает многоуровневую рубрикацию информационных ресурсов. Для выбора пути к нужному документу используются описания, составленные службой поддержки данной системы.
Гипертекстовая модель позволяет связывать документы ссылками, которые располагаются непосредственно в тексте.
Эти две модели имеют очевидные недостатки. Так как и многоуровневая рубрикация, и простановка ссылок выполняется высококвалифицированными специалистами, объем обработанных таким образом документов не может быть очень большим. По этой же причине страдает актуальность описания массива документов. Помимо этого связанные документы ограничены какой-либо одной предметной областью, о которой, к тому же, у пользователя системы может быть иное представление, чем у составителя рубрикатора. И, наконец, для нахождения необходимого документа пользователю таких систем потребуется просмотреть множество документов, полезной информацией в которых будут только ссылки на другие ресурсы.
Эти проблемы становятся особенно острыми при больших объемах информации, высокой скорости их обновления и высокой разнородности потребностей пользователей. Помочь в решении этих проблем призваны информационно-поисковые системы (ИПС). Такие системы, однажды созданные, могут работать автономно. Принцип их взаимодействия с пользователем заключается в выдаче списка указателей па документы, удовлетворяющие запросу. Этот список может быть отсортирован по релевантности (степени соответствия документа запросу). Таким образом, ИПС может обеспечить очень быстрый поиск необходимого документа — при том, что от пользователя требуется лишь ввести запрос.
Первые информационно-поисковые системы были созданы достаточно давно. Большинство открытий в этой области приходится на 70-е и 80-е годы. Сейчас, с развитием Интернета, количество пользователей этих систем исчисляется миллионами, а в скором будущем будет исчисляться миллиардами. Так же стремительно растет количество документов, хранящихся в Интернете, что ставит все более сложные задачи перед разработчиками ИПС.
Основные принципы информационного поиска были сформулированы еще в первой половине этого века. Между 1939 и 1945 годами У. Е. Баттеном была разработана система для отыскания патентов. Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана 800-позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера патента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета.
Основные принципы информационного поиска с тех пор не изменились. На примере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свойством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе Баттена использовался предметный указатель, то есть документы классифицировались по понятиям (предметам), которые в них затрагиваются.
Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем.
Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database).
После создания индекса к нему обращаются посредством запросов. Так как процесс поиска заключается в сопоставлении запроса пользователя с имеющимися данными, полученный запрос также должен быть переведен на язык индексирования. В индексе выполняется поиск соответствующих запросу документов, пользователю выдается список ссылок на подходящие ресурсы.
Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предметной области.
- Информационное общество
- Информатизация общества
- Информационная культура
- Информационные ресурсы
- Сигналы. Данные. Информация
- Диалектическое единство данных и методов в информационном процессе
- Свойства информации
- Характеристики информации. Структура, форма, количество
- 2. Общая характеристика процессов сбора, передачи и накопления информации Операции с данными
- Накопление данных
- Кодирование данных
- Кодирование текста
- Кодирование графики
- Кодирование звука
- Структуры данных
- Табличная структура
- Файловая структура
- Организация файловой системы
- Лекция 2. Технические и программные средства реализации информационных процессов. История вычислительной техники
- История персональных компьютеров
- Классификация современных компьютеров
- К лассификация персональных компьютеров
- Средства аппаратного обеспечения персонального компьютера
- 1. Введение
- 2. Системный блок
- 3. Центральный процессор (cpu)
- 4. Системная плата (Mainboard)
- 5. Оперативная память (ram)
- 6. Видеокарта
- 7. Монитор
- 8. Дисковая подсистема
- Программная конфигурация персонального компьютера
- 1. Операционная система
- 1.1. Понятие, основные функции и составные части операционной системы
- 1.2. Классификация операционных систем
- 2. Файловые системы
- 2.1. Основные функции файловой системы
- 2.2. Файлы и каталоги
- 2.3. Другие функции файловых систем
- 3. Операционная система ms dos
- 3.1. Основные составные части ms dos
- 3.2. Командный процессор Command.Com
- 3.4. Командный файл автонастройки autoexec.Bat
- 3.5. Файл конфигурации config.Sys
- 3.6. Программные оболочки
- 4. Операционные системы Windows
- 4.1. Общая характеристика и история развития
- 4.2. Операционная система Windows 98
- 4.3. Особенности операционной системы Windows 2000
- Windows 2000 оснащена усовершенствованными средствами симметричной многопроцессорной обработки.
- Встроенные средства удаленного доступа.
- 5. Сервисные программные средства
- 5.1. Служебные программы
- 5.2. Архивация данных
- 5.3. Антивирусные программные средства
- 6. Прикладное программное обеспечение
- 6.1. Текстовые редакторы и процессоры
- 6.2. Процессоры электронных таблиц
- 6.3. Системы управления базами данных (субд)
- 6.4. Издательские системы и графические редакторы
- 6.5. Браузеры и Web-редакторы
- Информация. Информационные ресурсы. Информационные системы
- Информационные системы в экономике
- Бухгалтерские информационные системы
- Информационно-поисковые системы
- Справочно-правовые системы
- Геоинформационные системы (гис)
- Рынок информационных услуг
- Искусственный интеллект
- Лекция 3. Модели решения функциональных и вычислительных задач. Моделирование как метод познания
- Классы моделей
- Структуры информационных моделей
- Объекты: свойства и операции
- Алгоритм и способы его исполнения
- Методы и технологии моделирования
- Лекция 4. Алгоритмизация и программирование. Машинный код процессора
- Алгоритм и программа
- Что такое язык программирования
- Компиляторы и интерпретаторы
- Алгоритмическое (модульное) программирование. Понятие и свойства алгоритма
- Формы записи алгоритма
- Алгоритмы линейной структуры
- Алгоритмы разветвляющейся структуры.
- Алгоритмы циклической структуры
- Переменные и константы
- Лекция 5. Языки программирования высокого уровня. Структурное программирование Подпрограммы
- Нисходящее проектирование по
- Процедуры и функции
- Параметры подпрограмм
- Управление последовательностью вызова подпрограмм
- Структура подпрограммы
- Как функция возвращает значение
- Формальные и фактические параметры
- Событийно-ориентированное программирование
- Объектно-ориентированное программирование Понятие объекта
- Описание нового класса
- Наследование
- Полиморфизм
- Визуальное программирование
- Уровни языков программирования
- Поколения языков программирования
- Обзор языков программирования высокого уровня
- Языки программирования баз данных
- Языки программирования для Интернета
- Языки моделирования
- Прочие языки программирования
- Лекция 6. Базы данных. Основные понятия баз данных Базы данных и системы управления базами данных
- Структура простейшей базы данных
- Свойства полей базы данных
- Типы данных
- Безопасность баз данных
- Режимы работы с базами данных
- Объекты базы данных
- Проектирование базы данных
- Разработка технического задания
- Разработка структуры базы данных
- Лекция 7. Локальные и глобальные сети эвм. Определение вычислительной сети
- Аппаратные и программные компоненты сетей
- Основные требования к вычислительным сетям
- Администрирование локальных сетей
- Классификация вычислительных сетей Классификация по территориальному признаку
- Классификация сетей по масштабу
- Классификация по физической архитектуре
- Классификация по логической архитектуре
- Линии связи
- Базовые технологии локальных сетей
- Системное программное обеспечение локальных сетей
- Защита информации в вычислительной сети
- Защита физических объектов
- Защита логических объектов
- Защита от несанкционированных действий со стороны внешней среды
- Ограничение логического доступа к оборудованию и сетевым ресурсам
- Защита данных в процессе передачи
- Защита информации от случайного повреждения и сбоев
- Защита информации от повреждения вирусами
- Глобальная сеть Интернет Введение
- Основные понятия Internet
- Протокол tcp/ip
- Основные службы Internet
- Поиск в Internet
- Электронная почта
- Лекция 8. Основы защиты информации и сведений, составляющих государственную тайну; методы защиты информации.
- 1. Компьютерные вирусы
- 1.1.Постановка вопроса
- 1.2. Что такое компьютерный вирус
- 1.3. Внешние проявления вирусов
- 1.4. Виды антивирусных программ
- 1.4.1. Типы вирусов
- 1.4.2. Типы антивирусных программ
- 1.4.3. Использование антивирусных средств
- 1.5. Антивирусный детектор Doctor Web
- 1.6. Программы Antiviral ToolKit Pro (avp) и Norton Antivirus (nav)