Разные типы информационно-поисковых языков
Информатика, заявившая о себе в середине нашего века, принесла с собой не только новую и получившую распространение терминологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении нового традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, информационно-поискового языка (ИПЯ) позволило рассматривать предметизацию, систематизацию, книгоописание, координатное индексирование как процессы, использующие искусственные языки, семантическую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библиотечные фонды и каталоги, различного вида самостоятельные и вспомогательные указатели, справочники, энциклопедии, автоматизированные поисковые системы. Это дало возможность выявить общие принципы их построения, найти общие критерии их эффективности и другие общие параметры.
Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необходимых документов и содержащейся в них информации по любому сочетанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что предполагает более трудоемкий ввод информации и более строгие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.
Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информационных, в ряду информационных – к подклассу информационно-поисковых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Дескрипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов.
Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи признаков) этот документ будет найден. Если же пользоваться языком предметных заголовков, то в зависимости от их заранее составленного перечня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске.
Координатное индексирование в том и состоит, что для характеристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для данной цели используются заранее сформулированные заголовки и подзаголовки.
При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его потенциальных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа.
Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предметный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запросами читателей, отраженными в перечне предметных заголовков. Для посткоординируемого дескрипторного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов).
Другими словами, при всей внешней схожести процедур индексирования посредством этих разных типов ИПЯ, характер их использования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них может совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.
Разные типы ИПЯ имеют свои достоинства и ограничения, которые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации признаков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фондах документов за многие годы и в условиях одновременного обращения к ним большого числа читателей по-прежнему хорошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрикацией.
- Р. С. Гиляревский основы информатики Курс лекций
- Содержание
- Вводная лекция Информатика как научная дисциплина
- Становление информатики
- Предмет и объекты исследования
- Информатика и другие науки и научные дисциплины
- Информация – знание – наука
- Информация и данные
- Свойства информации
- Структура информации
- Особенности информации
- Информация научная и техническая
- Наука как социальное явление
- Р. Мертон
- М. Поланьи
- К. Поппер
- Перспективы развития науки
- Интеллектуальная коммуникация Основные понятия
- Система научной коммуникации
- Библиотечная и информационная деятельность
- Научно-информационная деятельность
- Этапы и задачи коммуникации
- Информационное обслуживание
- Перспективы развития
- Человек в процессе коммуникации Потребители информации
- Эгалитарность информационного обслуживания
- Информационные потребности в развитии
- Литература как источник информации Основные понятия, эволюция и типология
- Закономерности роста и старения
- Закон рассеяния
- Перспективы развития
- Информационные издания и услуги Основные виды
- Реферирование и библиографирование
- Реферативный журнал винити
- Зарубежные реферативные журналы
- Электронная информация и базы данных
- Сети передачи и средства хранения и обработки данных
- Информационные услуги
- Информационные структуры и инфраструктура
- Информационный поиск Предыстория и сущность
- Процедуры и понятия
- Координатное индексирование
- Цитирование, библиографическое сочетание, социтирование
- Цитирующие документы
- Цитируемые документы
- Иерархические и фасетные классификации
- Рубрикаторы информационных изданий
- Разные типы информационно-поисковых языков
- Базы и банки данных
- Информационные системы Информационно-поисковые системы
- Интеллектуальные информационные системы
- Гипертекстовые системы Возникновение и развитие идеи гипертекста
- Логико-смысловой граф и логика связности
- Гипертекст как развитие функций чтения и письма
- Отечественные гипертекстовые системы гиперлог и семпро
- Системы гипермедиа как развитие гипертекста
- Системы машинного перевода
- Информационная технология о понятии информационной технологии
- Тенденции развития информационных технологий
- Влияние информационных технологий на развитие науки
- Социальные последствия новой технологии
- Компьютерные средства коммуникации Электронные вычислительные машины
- Новые поколения компьютеров
- Персональный компьютер и персональные вычисления
- Работа с текстом на компьютере о языках программирования
- Прикладные программы подготовки текстов
- "Понимание" текста на естественном языке
- Электронная книга Новая концепция книги
- Сущность, особенности и разновидности электронной книги
- Электронный журнал: проблемы распространения и хранения
- Организационные и юридические проблемы
- Электронная библиотека реальная и виртуальная
- Лучше ли электронная книга традиционной печатной? Доводы за электронную книгу
- Доводы против электронной книги
- Заменит ли электронная книга бумажную?
- Сведения об Интернет Интернет как глобальная компьютерная сеть
- Организация доступа к первоисточникам Научно-техническая информация
- Политическая информация
- Новости и литература в электронной форме
- Развлекательная и бытовая информация
- Образование
- Музеи, галереи и художественные выставки
- Информация по Интернет
- Заключительная лекция Идеи и методы информатики
- Поиски фундаментального закона
- Определение и предметная область информатики
- Перспективы информатики
- Словарь терминов