4. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
Первые полнотекстовые информационно-поисковые системы (Full Retrieval System) появились в начале компьютерной эры. назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких, как статьи, нормативные акты, рефераты, диссертации, монографии. Первоначально информационно-поисковые системы применялись преимущественно в библиотечном деле и в системах научно-технической информации.
В начале 1970-х гг. уже коммерческие компьютерные службы начали предоставлять возможность интерактивного поиска в тематических базах данных. Некоторые из тех служб существуют и сегодня — основанная еще в 1965 г. система "Диалог", входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к 900 базам данных и является одной из наиболее эффективных информационных служб.
Из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, можно отметить семантические показатели, которые основаны на оценке релевантности между документами и запросами.
Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.
Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).
Введем следующие обозначения:
а — множество релевантных и выданных системой документов;
б — множество нерелевантных, но выданных системой документов;
в — множество релевантных, но не выданных системой документов.
Тогда эффективность поиска информации можно рассчитать по формуле, приведенной ниже.
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.
Пертинентность - это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.
Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и деловых ресурсах Интернета.
Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Если в 1985 г. доля текстовой информации составляла 47%, то в 2000 г. эта доля была уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.
Рассмотрим специфику информационных ресурсов Интернета и имеющихся в среде Интернета поисковых средств, которые оказывают существенное влияние на эффективность поиска в этой среде.
Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. В связи с тем, что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых должны были быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом описанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска (индекс) лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых машин.
Особенности информационных ресурсов Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Эти обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, которые необходимы для получения нужной информации из информационных ресурсов Интернета.
Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 19 тыс.
В каждой базе накапливается специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, т. е. обновляют. Предоставление информации из баз потребителям осуществляют агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных. По каждой базе имеется название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники предоставления информации.
Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.
Одним из важнейших показателей, характеризующих полученную из других источников информацию, является ее достоверность.
Достоверность - это степень соответствия информации об объекте его реальному состоянию.
Процесс оценки достоверности информации - это сложный аналитический процесс, зависящий от многих факторов. Невозможно дать какую-то единую схему, которую можно применять в любых случаях. Однако следует рассмотреть некоторые типичные случаи и выявить факторы, которые влияют на оценку достоверности.
В первую очередь это знания человека, производящего оценку достоверности информации. Оценивающий информацию должен знать процесс поступления информации к нему от первичного источника. В любом случае должна проводиться оценка надежности этого первичного источника: в первом случае это конкретное лицо, например автор статьи в газете, во втором случае это известное информационное агентство, имеющее свою службу контроля качества предоставляемой им информации. Автором статьи тоже может быть надежный и независимый корреспондент.
Ряд ведущих мировых информационных агентств работает на информационном рынке более 150 лет. Успешный бизнес таких агентств, как Рейтер, Доу Джонс, Дан&Бредстрит, определяется тем вниманием, которое они уделяют вопросам достоверности предоставляемой потребителям информации. Молодые агентства, работающие на мировом информационном рынке лишь десятки лет, также уделяют вопросам достоверности информации самое пристальное внимание.
Кроме первичного источника в цепи формирования информации может быть одно или несколько звеньев, которые корректируют полученную от первичного источника информацию и могут вносить свои искажения.
Глава правительства Великобритании Уинстон Черчилль во время Второй мировой войны получал от разведывательной службы донесения, построенные на базе агентурных сообщений. Зная, что руководство разведывательной службы интерпретирует первичную информацию в выгодном для себя свете, Черчилль заставил представлять ему от ведущих агентов донесения напрямую и сам производил оценку достоверности этих сообщений.
К каждому виду информации при оценке достоверности должен быть свой подход.
Достоверность одного вида информации не зависит от времени. Примером такого вида информации может служить, например, год регистрации фирмы.
Достоверность другого вида информации зависит от времени. Примером такого вида информации является адрес проживания лица или юридический адрес организации. Пусть нам необходимо срочно найти адрес студента. Мы знаем, что при поступлении в вуз студент заполнял анкету и указывал там свой домашний адрес. Как правило, в процессе учебы эти сведения не корректируются. Если мы обратимся в отдел кадров за справкой о месте жительства студента-первокурсника, то достоверность этих сведений будет достаточно высокой.
Если мы обратимся за адресом студента выпускного курса, то достоверность полученных сведений будет существенно ниже. Это происходит из-за того, что по статистике человек за свою жизнь 6—7 раз меняет свое постоянное место жительства.
Широкое распространение в России получили бизнес-справочники - регистры предприятий. Наряду с другими признаками в этих справочниках имеется юридический адрес предприятия. При оценке достоверности значения этого признака необходимо учитывать, что издаются эти справочники раз в год и на сбор информации и издание этого справочника также требуется время. За это время происходит старение информации и снижается ее достоверность.
При оценке достоверности большое значение имеет уровень подготовки специалиста, оценивающего достоверность информации, его эрудиция, знание предметной области. Одним из действенных методов является сравнение значения признака объекта с возможными границами его значений.
Искажения информации могут быть самой различной природы. Это могут быть случайные и систематические (методические) ошибки, а также преднамеренные искажения и дезинформация.
Можно выделить несколько обобщенных подходов к оценке достоверности информации:
Выявление, к каким источникам относится поступающая информация — первичным или вторичным.
Определение надежности источника информации.
Выявление логических несоответствий в поступающей информации.
Изучение контекста, в котором излагаются определенные факты и сведения.
Выделение информации, основанной на предрассудках, обмане или манипуляции, которая может являться пропагандой, рекламой или не соответствующей действительности.
В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источники должны регулярно оцениваться по степени достоверности поступающей от них информации.
Выводы
1. Эффектом рассеивания информации обусловливается проблема полноты информационных ресурсов, требуемых для решения задачи. Даная проблема актуальна для работы почти во всех информационных системах. В профессиональной базе поступающая информация распределяется по тематическим группам. Таким образом, пользователь, выбрав для работы одну тематическую группу, упускает важные сведения, которые могут содержаться в смежных тематиках. Наиболее остро проблема поиска информации стоит при работе с Интернетом. Глобальная сеть дает доступ к большому количеству информационных ресурсов, однако в силу особенностей построения Интернета и разнообразных форм предоставления информации возможно использование только небольшой части информационных ресурсов.
2. Добиться полного охвата информационных ресурсов в настоящее время невозможно. Частично проблему полноты охвата информационных ресурсов можно решить путем изучения метаинформации, которая содержится в каталогах, реферативных, библиографических изданиях и базах данных. Кроме того, использование максимально возможного количества информационных ресурсов требует больших затрат, в том числе материальных и трудовых. Поэтому работа с метаинформацией также направлена на выявление наиболее информативных информационных источников.
3. Актуальной для нашего времени является проблема поиска необходимых сведений по документальным базам, ресурсам Интернета и библиотекам . Накопление информации в мире происходит лавинообразно. Большой массив информации накапливают документальные базы, например, LexisNexis содержит более 1,4 млрд документов, а "Диалог" - около 1 млрд. Информация в Интернете - неструктурированная и разрозненная, что создает основные трудности при ее поиске. Особенностью фондов библиотек является то, что поиск необходимых изданий строится на библиографических и реферативных сведениях. Таким образом, одной из основных проблем доступа к информации является поиск информации в информационных ресурсах. Подходы к решению этой проблемы варьируются в зависимости от типа информационных ресурсов.
4. Дополнительные затраты информационных агентств на классификацию - структуру отбираемой информации, оценку рейтинга источников и отбор наиболее информативных из них, построение эффективных поисковых средств — обеспечивают значительно большую полноту и точность поиска по сравнению с поиском в Интернете.
5. Деловые ресурсы Интернета являются важными информационными источниками. Однако доступ к ним затруднен тем, что сложно определить их месторасположение в глобальной сети. Поддержку поиска информации в Интернете обеспечивают поисковые машины и каталоги ресурсов Интернета. Однако эти поисковые средства не могут гарантировать полноту охвата всех информационных ресурсов. К сожалению, большая часть ресурсов Интернета является практически недоступными для пользователя за счет особенностей построения и технологии работы поисковых машин. Эффективность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах.
6. Доступ к ресурсам библиотек традиционно начинается с работы с метаинформацией. От качества библиографического и реферативного описания фондов библиотеки во многом зависит эффективность работы читателей библиотек с этими фондами. Автоматизация библиотек и создание электронных каталогов фондов библиотек позволят пользователям значительно сократить затраты времени на поиск необходимых источников информации, составления библиографии и т.п.
Вопросы для самопроверки по модулю 3.
Чем отличается поиск информации в профессиональных базах от поиска в Интернете?
В чем заключается понятие технологии доступа к информации?
Каковы критерии оценки качества поиска информации в информационных системах?
Оцените эффективность поиска информации в деловых ресурсах Интернета?
Каковы основные подходы к оценке достоверности информации, найденной в информационных системах?-
Модуль 4. Технология и практика взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры
Тема 17. Технология взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры
План
Технология взаимодействия со специализированными сетевыми структурами, агрегирующими информационные ресурсы.
Технология взаимодействия со специализированными сетевыми структурами, производящими информационные ресурсы
- 080801.65 «Прикладная информатика в экономике»
- Пояснительная записка
- 1. Место дисциплины в государственном образовательном стандарте высшего профессионального образования
- 2. Образовательные цели и задачи обучения
- 3. Требования к уровню освоения содержания дисциплины
- 4. Роль дисциплины и ее место в системе подготовки специалиста
- 5. Организационно-методические указания к преподаванию курса
- 6. Контроль качества освоения материала дисциплины
- 7. Тематический план курса
- 1.7.1. Тематический план учебной дисциплины
- 1.7.2. Тематический план учебной дисциплины для студентов заочной формы обучения
- 8. Содержание дисциплины
- 8.1. Содержание лекционного курса
- Лекция №5. Мировые информационные ресурсы (2 часа)
- Характеристика Интернет. Принципы работы поисковых систем. Правила поиска информационных ресурсов в мировых информационных сетях.
- Модуль 4. Технология и практика взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры
- 8.2. Содержание практикума
- 8.2.1. Тематика семинарских занятий (18 часов)
- 8.2.2. Тематика лабораторных работ (18 часов)
- 8.3. Лекционный курс
- Тема 2. Рынок информации: особенности спроса, предложения, рыночного равновесия
- 1. Первичная и тиражированная информация
- 2. Носители и проводники информации
- 3. Механизм функционирования рынка первичной информации
- 1. Государственные информационные ресурсы
- 2. Представление информации в государственные информационные ресурсы
- 3. Категории доступа к информации
- 4. Ограничения на содержимое средств массовой информации
- 5. Авторское право
- Тема 4. Управление информационными ресурсами на предприятии, фирме
- 2. Информационные потребности при планировании деятельности предприятия
- 3. Бизнес-план и выявление требований к информационному обеспечению
- 4. Внешнеэкономическая деятельность и выявление требований к информационному обеспечению
- Выводы по модулю 1
- Тема 5. Мировые информационные ресурсы
- 1. Классификация мировых информационных ресурсов
- 2. Структура информационного рынка
- 3 Основные источники информационных ресурсов
- Источники юридической информации
- Информация для специалистов
- Массовая, потребительская информация
- 1. Этапы развития мирового рынка информации
- 2. Профессиональные базы данных Информационная корпорация 'Dun and Bradstreet (d and в) Corp. ("Дан энд Брэдстрит")
- Информационная корпорация Dialog ("Диалог")
- Информационное агентство Data-Star
- Информационная корпорация QuestelOrbit
- База данных QuestelOrbit
- Информационное агентство LexisNexis
- 3. Деловые ресурсы Интернета
- 4. Виды информации в Интернете и профессиональных базах
- Тема 7. Состояние российского рынка информации. Справочная правовая информация
- 1. Государственные системы справочной правовой информации
- 2. Коммерческие системы справочной правовой информации
- Тема 8. Состояние российского рынка информации. Биржевая и финансовая информация
- 1. Основные зарубежные производители информационных продуктов и услуг на биржевом и финансовом рынках
- Агентство Рейтер
- Агентство Телерейт
- Агентство Тенфор
- Агентство "Блумберг"
- 2. Российские информационные агентства и службы в сфере биржевой и финансовой информации Информационное агентство РосБизнесКонсалтинг
- Акционерное общество ак&м
- Информационное агентство "Финмаркет"
- Компания Парк.Ру
- Агентство экономической информации "прайм-тасс"
- Общество с ограниченной ответственностью мфд "ИнфоЦентр"
- Агентство "Интериндекс»"
- Агентство Интерфакс
- Отраслевая информация
- Аналитическая информация (профили компаний, обзоры рынков, индексы, рейтинги)
- Тема 9. Состояние российского рынка информации. Коммерческая информация
- 1. Понятие коммерческой информации.
- Агентство деловой информации (ади) Бизнес-Карта
- Агентство "асу-Импульс"
- "ИнформСистема"
- Инфогруппа Компас
- Институт промышленного развития (Информэлектро) Министерства экономического развития и торговли Российской Федерации
- Информационное агентство "Норма"
- Информационно-консультативный центр"Мосвнешинформ"
- Информационное агентство Вдохновение
- Агентство социум инфополис
- Тема 10. Информационные образовательные ресурсы
- 1. Виды информационных образовательных ресурсов
- 2. Уровни интеграции информационных ресурсов в образовании
- 3. Использование цифровых информационных ресурсов в учебном процессе
- Информационная грамотность
- Обучение на базе мировых информационных ресурсов
- Тема 11. Зарубежный и российский рынки знаний
- 1. Зарубежный рынок знаний
- 2. Российский рынок знаний
- 2.1. Библиотечная сеть
- 2. Электронные библиотеки
- Система научно-технической информации
- Система патентной информации
- Тема 12-13. Международные и российские статистические ресурсы
- 1. Система международной статистики
- 2. Национальные системы статистики
- 4. Федеральная служба государственной статистики (Росстат)
- Тема 14. Технология доступа к информационным ресурсам и ресурсам знаний
- 1. Какие информационные ресурсы выбрать?
- 2. Как извлечь из информационных ресурсов необходимые сведения?
- Выбор информационных ресурсов
- Поиск информации в профессиональных базах
- Тема 15. Структура представления информации в мировых информационных сетях
- Принципы работы поисковых систем
- Правила поиска информационных ресурсов в мировых информационных сетях
- Тема 16. Технология доступа к деловым ресурсам Интернета
- 1. Поисковые машины
- Глубина индексирования веб-сайтов
- 2. Каталоги в Интернете
- 3. Технология доступа к информации в электронных библиотеках
- 4. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности
- 1. Технология взаимодействия со специализированными сетевыми структурами, агрегирующими информационные ресурсы
- Технология взаимодействия со специализированными сетевыми структурами, производящими информационные ресурсы
- Тема 18. Перспективы развития мирового рынка информации и знаний
- 1. Комплексная оценка эффективности использования мировых ресурсов
- 2. Перспективы развития мирового рынка информации и знаний
- 9. Учебно-методическое обеспечение курса
- 5. Мировые информационные ресурсы. Интернет: практикум/кол.Авторов; под общ.Ред. П.В.Акинина.- м.:кнорус, 2008.-356 с.
- 11. Холмогоров в. Поиск в Интернете и сервисы Яндекс.- сПб.:Питер, 2006.-123 с.
- 10. Материально-техническое, информационное и программное обеспечение курса
- 11. Вопросы для итогового контроля и самоанализа
- 12. Глоссарий
- 13. Тест для контроля и самоконтроля по темам курса
- 56. Кто является наиболее крупным поставщиком баз данных и справочников по производителям товаров и услуг в России?
- 58. Какая из российских фирм на регулярной основе обеспечивает потребителей информацией о зарубежных фирмах?
- 61. К какому источнику следует обратиться за метаинформацией о базах данных, представленных на мировом рынке информационных услуг?
- 62. Какие организации не являются источником официальной статистической информации?
- Автор-составитель:Елисеева е.В. «Мировые информационные ресурсы» Учебно-методический комплекс