logo
мир_умк_самый последний

4. Сравнительные характеристики эффективности поиска в различных системах и оценка достоверности

Первые полнотекстовые информационно-поисковые системы (Full Retrieval System) появились в начале компьютерной эры. назначением этих систем был поиск в библиотечных каталогах, архивах, массивах документов, таких, как статьи, нормативные акты, рефераты, диссертации, монографии. Первоначально информационно-поисковые системы применялись преимущественно в библиотечном деле и в системах научно-технической информации.

В начале 1970-х гг. уже коммерческие компьютерные службы начали предоставлять возможность интерактивного поиска в тематических базах данных. Некоторые из тех служб существуют и сегодня — основанная еще в 1965 г. система "Диалог", входящая в настоящее время в корпорацию Thomson, сегодня обеспечивает своим клиентам доступ к 900 базам данных и является одной из наиболее эффективных информационных служб.

Из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, можно отметить семантические показатели, которые основаны на оценке релевантности между документами и запросами.

Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Введем следующие обозначения:

а — множество релевантных и выданных системой документов;

б — множество нерелевантных, но выданных системой документов;

в — множество релевантных, но не выданных системой документов.

Тогда эффективность поиска информации можно рассчитать по формуле, приведенной ниже.

Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы. Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентность - это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Рассмотрим вопросы оценки эффективности поиска в профессиональных базах и деловых ресурсах Интернета.

Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой информации в общем объеме информации. Если в 1985 г. доля текстовой информации составляла 47%, то в 2000 г. эта доля была уже 84%. Представляется, что основная информация в Интернете также является текстовой. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эффективности поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на информационные ресурсы Интернета.

Рассмотрим специфику информационных ресурсов Интернета и имеющихся в среде Интернета поисковых средств, которые оказывают существенное влияние на эффективность поиска в этой среде.

Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. В связи с тем, что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых должны были быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом описанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков. Поисковые машины включают в свою базу поиска (индекс) лишь незначительную часть от всех ресурсов Интернета, из-за особенностей структуры Интернета и самих поисковых машин.

Особенности информационных ресурсов Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Эти обстоятельства определяют те высокие требования к профессиональной подготовке пользователя, которые необходимы для получения нужной информации из информационных ресурсов Интернета.

Организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 19 тыс.

В каждой базе накапливается специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, т. е. обновляют. Предоставление информации из баз потребителям осуществляют агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных. По каждой базе имеется название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники предоставления информации.

Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой информации.

Одним из важнейших показателей, характеризующих полученную из других источников информацию, является ее достоверность.

Достоверность - это степень соответствия информации об объекте его реальному состоянию.

Процесс оценки достоверности информации - это сложный аналитический процесс, зависящий от многих факторов. Невозможно дать какую-то единую схему, которую можно применять в любых случаях. Однако следует рассмотреть некоторые типичные случаи и выявить факторы, которые влияют на оценку достоверности.

В первую очередь это знания человека, производящего оценку достоверности информации. Оценивающий информацию должен знать процесс поступления информации к нему от первичного источника. В любом случае должна проводиться оценка надежности этого первичного источника: в первом случае это конкретное лицо, например автор статьи в газете, во втором случае это известное информационное агентство, имеющее свою службу контроля качества предоставляемой им информации. Автором статьи тоже может быть надежный и независимый корреспондент.

Ряд ведущих мировых информационных агентств работает на информационном рынке более 150 лет. Успешный бизнес таких агентств, как Рейтер, Доу Джонс, Дан&Бредстрит, определяется тем вниманием, которое они уделяют вопросам достоверности предоставляемой потребителям информации. Молодые агентства, работающие на мировом информационном рынке лишь десятки лет, также уделяют вопросам достоверности информации самое пристальное внимание.

Кроме первичного источника в цепи формирования информации может быть одно или несколько звеньев, которые корректируют полученную от первичного источника информацию и могут вносить свои искажения.

Глава правительства Великобритании Уинстон Черчилль во время Второй мировой войны получал от разведывательной службы донесения, построенные на базе агентурных сообщений. Зная, что руководство разведывательной службы интерпретирует первичную информацию в выгодном для себя свете, Черчилль заставил представлять ему от ведущих агентов донесения напрямую и сам производил оценку достоверности этих сообщений.

К каждому виду информации при оценке достоверности должен быть свой подход.

Достоверность одного вида информации не зависит от времени. Примером такого вида информации может служить, например, год регистрации фирмы.

Достоверность другого вида информации зависит от времени. Примером такого вида информации является адрес проживания лица или юридический адрес организации. Пусть нам необходимо срочно найти адрес студента. Мы знаем, что при поступлении в вуз студент заполнял анкету и указывал там свой домашний адрес. Как правило, в процессе учебы эти сведения не корректируются. Если мы обратимся в отдел кадров за справкой о месте жительства студента-первокурсника, то достоверность этих сведений будет достаточно высокой.

Если мы обратимся за адресом студента выпускного курса, то достоверность полученных сведений будет существенно ниже. Это происходит из-за того, что по статистике человек за свою жизнь 6—7 раз меняет свое постоянное место жительства.

Широкое распространение в России получили бизнес-справочники - регистры предприятий. Наряду с другими признаками в этих справочниках имеется юридический адрес предприятия. При оценке достоверности значения этого признака необходимо учитывать, что издаются эти справочники раз в год и на сбор информации и издание этого справочника также требуется время. За это время происходит старение информации и снижается ее достоверность.

При оценке достоверности большое значение имеет уровень подготовки специалиста, оценивающего достоверность информации, его эрудиция, знание предметной области. Одним из действенных методов является сравнение значения признака объекта с возможными границами его значений.

Искажения информации могут быть самой различной природы. Это могут быть случайные и систематические (методические) ошибки, а также преднамеренные искажения и дезинформация.

Можно выделить несколько обобщенных подходов к оценке достоверности информации:

В наиболее ответственных случаях информацию желательно получать из различных независимых источников, а сами источники должны регулярно оцениваться по степени достоверности поступающей от них информации.

Выводы

1. Эффектом рассеивания информации обусловливается проблема полноты информационных ресурсов, требуемых для решения задачи. Даная проблема актуальна для работы почти во всех информационных системах. В профессиональной базе поступающая информация распределяется по тематическим группам. Таким образом, пользователь, выбрав для работы одну тематическую группу, упускает важные сведения, которые могут содержаться в смежных тематиках. Наиболее остро проблема поиска информации стоит при работе с Интернетом. Глобальная сеть дает доступ к большому количеству информационных ресурсов, однако в силу особенностей построения Интернета и разнообразных форм предоставления информации возможно использование только небольшой части информационных ресурсов.

2. Добиться полного охвата информационных ресурсов в настоящее время невозможно. Частично проблему полноты охвата информационных ресурсов можно решить путем изучения метаинформации, которая содержится в каталогах, реферативных, библиографических изданиях и базах данных. Кроме того, использование максимально возможного количества информационных ресурсов требует больших затрат, в том числе материальных и трудовых. Поэтому работа с метаинформацией также направлена на выявление наиболее информативных информационных источников.

3. Актуальной для нашего времени является проблема поиска необходимых сведений по документальным базам, ресурсам Интернета и библиотекам . Накопление информации в мире происходит лавинообразно. Большой массив информации накапливают документальные базы, например, LexisNexis содержит более 1,4 млрд документов, а "Диалог" - около 1 млрд. Информация в Интернете - неструктурированная и разрозненная, что создает основные трудности при ее поиске. Особенностью фондов библиотек является то, что поиск необходимых изданий строится на библиографических и реферативных сведениях. Таким образом, одной из основных проблем доступа к информации является поиск информации в информационных ресурсах. Подходы к решению этой проблемы варьируются в зависимости от типа информационных ресурсов.

4. Дополнительные затраты информационных агентств на классификацию - структуру отбираемой информации, оценку рейтинга источников и отбор наиболее информативных из них, построение эффективных поисковых средств — обеспечивают значительно большую полноту и точность поиска по сравнению с поиском в Интернете.

5. Деловые ресурсы Интернета являются важными информационными источниками. Однако доступ к ним затруднен тем, что сложно определить их месторасположение в глобальной сети. Поддержку поиска информации в Интернете обеспечивают поисковые машины и каталоги ресурсов Интернета. Однако эти поисковые средства не могут гарантировать полноту охвата всех информационных ресурсов. К сожалению, большая часть ресурсов Интернета является практически недоступными для пользователя за счет особенностей построения и технологии работы поисковых машин. Эффективность поиска информации в Интернете существенно уступает эффективности поиска информации в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах.

6. Доступ к ресурсам библиотек традиционно начинается с работы с метаинформацией. От качества библиографического и реферативного описания фондов библиотеки во многом зависит эффективность работы читателей библиотек с этими фондами. Автоматизация библиотек и создание электронных каталогов фондов библиотек позволят пользователям значительно сократить затраты времени на поиск необходимых источников информации, составления библиографии и т.п.

Вопросы для самопроверки по модулю 3.

  1. Чем отличается поиск информации в профессиональных базах от поиска в Интернете?

  2. В чем заключается понятие технологии доступа к информации?

  3. Каковы критерии оценки качества поиска информации в информационных системах?

  4. Оцените эффективность поиска информации в деловых ресурсах Интернета?

  5. Каковы основные подходы к оценке достоверности информации, найденной в информационных системах?-

Модуль 4. Технология и практика взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры

Тема 17. Технология взаимодействия индивидуального и коллективного пользователя с мировыми ресурсами через специализированные сетевые структуры

План

  1. Технология взаимодействия со специализированными сетевыми структурами, агрегирующими информационные ресурсы.

  2. Технология взаимодействия со специализированными сетевыми структурами, производящими информационные ресурсы