9.5. Методика координатного индексирования
Индексированием называется процесс перевода содержания документа и/или смысла информационного запроса с естественного языка на информационно-поисковый язык.
Иными словами, индексирование – это процесс составления поискового образа документа или поискового образа запроса.
Индексирование документов с применением тезауруса требует использования комплекса рекомендаций и правил индексаторами, которые можно назвать методикой индексирования документов.
Методика индексирования документов, подразумевающая перечень методов и рекомендаций, помогает полно и точно отразить содержание поступающих в информационно-поисковую систему документов с помощью терминов ИПЯ. Использование методики составления поисковых образов документов состоит в нахождении оптимальных с точки зрения эффективности работы ИПС способов перевода содержания документов на информационно-поисковый язык.
Процесс индексирования включает следующие этапы (ГОСТ 7.66–92):
анализ и определение содержание документа;
выбор понятий, характеризующих создание документа;
выбор терминов индексирования для обозначения понятий;
формирование поискового образа документа из терминов индексирования.
Перечисленные этапы могут быть объединены при осуществлении технологических процессов и с условием их выполнения. С учетом вышесказанного первые три этапа удобнее объединить, так как они осуществляются одновременно. Таким образом, на первом этапе выявляется основная информация, содержащаяся в документе, и выражается ключевыми словами. Второй этап заключается в формировании поискового образа документа путем замены ключевых слов соответствующими дескрипторами тезауруса с использованием имеющихся в нем связей между ними.
9.5.1. Анализ содержания документов и выявление ключевых слов
Анализ содержания документов в процессе индексирования ведется в определенной последовательности по определенной схеме. Наличие единой схемы анализа содержания обеспечивает единый подход различных индексаторов к процессу формирования поисковых образов документов, что способствует качеству и постоянству индексирования и, следовательно, повышению эффективности работы ИПС.
Анализ содержания документов, согласно принятой схеме, проводится по следующим смысловым аспектам:
Предмет или тема исследования.
Сторона, с которой анализируется (исследуется, описывается) предмет или его свойства, признаки и закономерности (природные, физические, биологические, химические и др.) предмета.
Область применения или использования предмета.
Вид исследования свойств предмета.
Конкретный метод исследования.
Методика проведения исследования и специальное оборудование, используемое для изучения предмета и исследования его свойств.
Условия, в которых проведены исследования свойств предмета.
В качестве предмета исследования могут выступать любые материальные объекты либо общие и частные понятия. Например: изделия, устройства, образцы техники, виды и системы чего-либо и т. д. Как правило, сторонами исследования предмета могут быть производство, эксплуатация, применение, технические требования и т. д.
Смысл заключается в том, с какой точки зрения предмет представляет интерес в процессе исследования. Областью применения предмета исследования могут быть отрасли хозяйства, другой предмет или предметная область и т. п. Видами исследования могут быть теоретические расчеты, лабораторные исследования, различные испытания и т. д. Математические, сравнительно-исторические методы, методы моделирования и другие могут применяться в качестве методов исследования предметов. Условиями, характеризующими процесс исследования, могут быть место и время (в воздухе, под водой; зима, лето, день, ночь,), географические условия и условия местности (пустыня, Арктика), физические условия (низкая температура, радиация), другие условия (химические, биологические и т. д.).
Перечисленные смысловые аспекты представляют формализованную модель свернутого содержания документа (поисковый образ).) В процессе анализа содержания документа, используя такую модель, производится выбор ключевых слов. Предмет исследования можно отразить, используя первые три смысловых аспекта поискового образа. С помощью остальных аспектов в поисковом образе документа можно характеризовать сам процесс исследования. Количество используемых в процессе индексирования смысловых аспектов определяется спецификой содержания каждого конкретного документа. Обработка многотематических документов проводится раздельно по каждому предмету исследования, а затем результаты объединяются в один поисковый образ.
Источником информации в процессе индексирования служит заголовок и текст документа.
При выборе ключевых слов, необходимо учитывать следующие правила:
Ключевыми словами отражается только та информация, которая имеется в документе и ясно выражена.
Составление списка ключевых слов не связывается с вероятным наличием или отсутствием каких-либо дескрипторов в тезаурусе или с предположениями о характере возможных запросов
Как правило, в качестве ключевых слов, выраженных отдельными словами естественного языка, используются только имена существительные. Если необходимо использовать и другие слова, то их надо объединять в словосочетания с соответствующими существительными. Например: «цифровые оптические диски». Такой метод выделения ключевых слов соответствует синтаксической структуре построения лексических единиц тезауруса. Это правило используется в том случае, если в тезаурусе отсутствует дескриптор, который бы соответствовал по смыслу выделенному словосочетанию.
Словосочетания естественного языка, используемые в качестве ключевых слов, выписываются в такой же последовательности, что и в документе. Например: «оптические читающие автоматы». Прямой порядок слов в словосочетании соответствует структурному построению тезауруса.
Словосочетания, отражающие принятые технические термины, выписываются как одно ключевое слово. Например: «системы двухосной ориентации» и т. д.
9.5.2. Формирование поискового образа документа с помощью тезауруса
Второй этап индексирования документов заключается в формировании поискового образа документа. Формирование поискового образа документа состоит в замене ключевых слов, отобранных в процессе смыслового анализа документа, дескрипторами тезауруса и составлении списка дескрипторов.
Первый этап перевода содержания документа на информационно-поисковый язык заключался в полном и точном отражении основных семантических аспектов документа с помощью ключевых слов. На втором этапе необходимо произвести процесс замены ключевых слов дескрипторами тезауруса, наиболее точно отразив понятия, выраженные ключевыми словами. Это позволит достичь наименьшего искажения содержащейся в документе информации при трансформировании документа в ПОД. От этого зависит эффективность информационно-поисковой системы, а также уменьшение потерь и шумов в процессе поиска.
Существует два этапа замены ключевых слов дескрипторами тезауруса: этап тождественных замен и этап нетождественных замен. На этапе тождественных замен осуществляется:
поиск дескриптора, тождественного данному ключевому слову по смысловому значению и по форме;
поиск дескриптора, тождественного по смысловому значению, но отличающегося по форме.
Эти операции позволяют с помощью дескрипторов точно отразить основную информацию, содержащуюся в документе.
На этапе нетождественных замен осуществляется поиск дескриптора среди всех имеющихся в тезаурусе, наиболее близкого по смысловому значению ключевому слову. Этому этапу характерно искажение смысловой информации, передаваемой ключевым словом.
Этап тождественных замен заключается в нахождении в лексико-семантической части тезауруса дескриптора, который бы точно совпал по названию и содержанию с соответствующим ему ключевым словом. Найденный дескриптор используется в поисковом образе документа. Такую замену можно считать тождественной.
Но не всегда ключевое слово может быть заменено соответствующим дескриптором, так как при полном совпадении наименований ключевого слова и дескриптора их содержание (смысл) может быть различно. В этом случае для выражения смысловой функции таких дескрипторов используются специальные примечания. Например:
НОРМЫ ПИТАНИЯ 0708
(Физиологически обоснованные нормы потребления раз
личных пищевых веществ. В отношении нормирования
потребления пищевых продуктов использовать
ВОЕННЫЕ ПАЙКИ)
Ключевое слово «нормы питания» не может быть заменено одноименным дескриптором, если речь идет о нормировании распределения продуктов питания среди военнослужащих, так как этот дескриптор употреблен в тезаурусе в смысле определения норм потребления пищевых продуктов, необходимых для поддержания нормальной жизнедеятельности организма.
Эти примечания следуют за наименованием дескриптора.
Иногда смысловая функция дескриптора в тезаурусе определяется следующим образом:
ОПЕРА ТОРЫ (ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА) 0905
ОПЕРАТОРЫ (ЛИЧНЫЙ СОСТАВ) 0802
Если в тезаурусе отсутствуют ссылки или специальные пометы, которые поясняют область применения дескриптора, можно заменить им ключевое слово, определив смысловой состав дескрипторов, приведенных в его словарной статье. Например:
НАПРЯЖЕНИЯ 2908
ИВ Механические напряжения
ВД Допускаемые напряжения
Касательные напряжения
Механическая релаксация
Мгновенные напряжения
Нормальные напряжения
Радиальные напряжения
АД Нагрузки
Силы
Для замены ключевого слова «напряжение», которое употребляется в документе в значении «электрический потенциал», нельзя использовать дескриптор НАПРЯЖЕНИЕ (2908), так как его смысловая функция может быть установлена по составу дескрипторов в его словарной статье, даже если на нее нет ссылки или пометы.
Суть проведения тождественной по форме замены пары «ключевое слово – дескриптор» заключается в выявлении тождественности их смысловых значений. Кроме того, дополнительным критерием определения смысловой функции дескриптора тезауруса можно считать наименование дескрипторной группы, к которой отнесен этот дескриптор.
Иногда ключевому слову соответствует термин тезауруса, не являющийся дескриптором. Это объясняется тем, что данный термин эквивалентен какому-либо дескриптору, т. е. по значению они близки. В этом случае на помощь можно привлечь ссылку ИСП (использовать).
Эта ссылка расположена после этого термина и поясняет, какой дескриптор можно использовать вместо него. Такая ссылка может указывать на два и более дескриптора, которыми можно заменить данное ключевое слово. Например:
Выпуски
ИСП Периодические издания
и Продолжающиеся издания
Таким образом, при несовпадении смысловых значений ключевого слова и дескриптора, можно использовать один из описанных способов замены.
Кроме того, нужно иметь в виду, что отсутствие в тезаурусе дескрипторов, совпадающих с ключевыми словами по форме, не означает, что тезаурус не содержит термины, тождественные ключевым словам по смыслу. Русский язык позволяет отразить одно и тоже понятие разными языковыми формами. Множество дескрипторов в тезаурусе представлено словосочетаниями русского языка. Сложность заключается в том, что индексатор должен суметь отыскать дескрипторы, тождественные по смыслу ключевым словам документа, но выраженные другой словарной формой. Алгоритм замены ключевого слова заключается в следующем: сначала определяется синоним ключевого слова, похожий по своему лексическому составу, затем он должен быть заменен дескриптором, тождественным по наименованию. Например:
Ключевое слово Дескриптор
Двигатели для танков Танковые двигатели
Проведение такой замены осуществляется с помощью пермутационного указателя тезауруса. Если в ключевом слове и в терминах пермутационного указателя отсутствуют общие элементы, использовать указатель для разыскания нужного дескриптора практически невозможно. Чтобы осуществить такую операцию, индексатор должен быть специалистом в предметной области индексируемого документа.
Допустима и нетождественная замена ключевых слов дескрипторами, так как невозможно максимально точно отразить содержание абсолютно всех документов.
Проведение нетождественной замены сопровождается искажением информации, содержащейся в документе, поэтому необходимо соблюдать выработанные рекомендации, способствующие уменьшению искажения смысла этой информации.
1. При замене ключевого слова дескриптором по систематическому указателю тезауруса определяют дескрипторную область. Затем выделяют дескрипторную группу. В группе разыскивают дескриптор, наиболее близкий по смыслу данному ключевому слову.
Выбранный дескриптор используется в поисковом образе документа. Например, ключевое слово «высшие учебные заведения». В систематическом указателе нужно найти дескрипторную область, соответствующую предметной области данного ключевого слова: СОЦИАЛЬНЫЕ И СМЕЖНЫЕ НАУКИ. Затем внутри области найти дескрипторную группу ОБЩЕСТВЕННЫЕ НАУКИ,
КУЛЬТУРА И ИСКУССТВО. В этой группе – дескриптор УНИВЕРСИТЕТЫ. В результате получаем:
Ключевое слово Дескриптор
Высшие учебные заведения Университеты
Точность этого способа замены зависит не только от возможностей тезауруса, но и от объема знаний индексатором предметной области.
Дополнительным входом в тезаурус на этом этапе может служить пермутационный указатель.
2. При замене ключевого слова, выраженного словосочетанием, его раскладывают на синтаксические элементы, которые отражают содержание этого словосочетания.
Замена каждого элемента осуществляется, как правило, вышеописанным способом.
3. Если ключевое слово невозможно заменить описанными способами, т. е. не получается более-менее адекватно отразить понятие, используют дескриптор, который выражает более широкое (родовое) понятие.
Для поиска такого дескриптора могут привлекаться и систематический, и пермутационный указатели. Если вести поиск по систематическому указателю, надо начинать с определения дескрипторной области, а затем – группы. Например, ключевое слово «маскировочные халаты» заменяется дескриптором МАСКИРОВОЧНАЯ ОДЕЖДА, так как в тезаурусе нет дескрипторов, близких по значению всему словосочетанию.
Результаты выполнения смысловых преобразований, как правило, оформляются в виде специального «перечня замен» (алфавитного списка терминов естественного языка с отсылкой к более близким им по значению дескрипторам тезауруса). Этот перечень поможет индексировать понятия, не вошедшие в тезаурус, но имеющие важное поисковое значение. Помимо этого, выполнение замен помогает расширить поисковый образ документа с помощью родовых связей дескрипторов тезауруса, так как в поисковый образ вместе с основным дескриптором, установленным в результате замены ключевого слова, выписываются все родовые дескрипторы, вошедшие в его словарную статью в лексико-семантической части тезауруса.
- Раздел III. Заголовок, точки доступа и авторитетная запись 91
- Глава 4. Формирование заголовка и точки доступа библиографической записи 91
- Глава 5. Авторитетные/нормативные записи 112
- Глава 9. Координатное индексирование 166
- Раздел V. Аннотирование и реферирование 193
- Глава 10. Аннотирование документа 193
- 10.1. Теоретические основы аннотирования 193
- Глава 11. Реферирование документа 198
- Предисловие
- Введение
- Раздел I.ОсновыАналитико-синтетической переработки информации
- Глава 1. Значение процессов обработки документа
- 1.1. Аналитико-синтетическая переработка информации как учебная дисциплина
- 1.2. Роль обработки документа в организациях системы документальных коммуникаций
- Титульная страница книги
- Оборот титульного листа книги
- 129075, Москва, Звездный бульвар, 23
- 103473, Москва, Краснопролетарская, 16
- 1.3. Объект обработки документа
- 1.4. Классификация документа
- Глава 2. Виды и результаты обработки документа
- 2.1. Виды обработки
- 2.1.1. Семантическая обработка документа
- 2.2. Библиографическая запись — главный результат обработки
- 2.3. Виды библиографических записей
- 2.4. Автоматизация процессов обработки
- 2.4.1. Система форматов rusmarc. Общая характеристика
- 2.4.2. Российский формат машиночитаемой каталогизации (rusmarc)
- Раздел II. Библиографическое описание документа
- Глава 3. Теоретические основы составления библиографического описания
- 3.1. Стандартизация библиографического описания
- 3.2. Библиографическое описание: определение, состав и назначение
- Перечень элементов и областей библиографического описания
- 3.3. Виды библиографического описания
- 3.4. Общая методика библиографического описания
- 3.4.1. Пунктуация в библиографическом описании
- 3.4.2. Источник информации для составления библиографического описания
- 3.4.3. Сокращения слов в библиографическом описании
- 3.4.4. Язык библиографического описания
- 3.4.5. Орфография в библиографическом описании
- 3.4.6. Отражение в описании ошибок и опечаток, допущенных в документе
- 3.5. Одноуровневое библиографическое описание
- 3.5.1. Область заглавия и сведений об ответственности
- 3.5.2. Область издания
- 3.5.4. Область выходных данных
- 3.5.6. Область серии
- 3.5.7. Область примечания
- 3.5.8. Область стандартного номера (или его альтернативы) и условий доступности
- 3.5.9. Этапы составления одноуровневого библиографического описания
- Распределение библиографических сведений по областям описания
- 3.6. Многоуровневое библиографическое описание
- 3.6.1. Многоуровневое описание многотомного документа
- 3.6.2 Многоуровневое описание сериальных документов
- 3.6.3. Многоуровневое описание составной части документа (Аналитическое библиографическое описание)
- Раздел III. Заголовок, точки доступа и авторитетная запись
- Глава 4. Формирование заголовка и точки доступа библиографической записи
- 4.1. Заголовок и точки доступа библиографической записи: определение, назначение, виды
- 4.2. История разработки заголовка библиографической записи
- 4.3. Общая методика формирования заголовка библиографической записи
- 4.4. Заголовок, содержащий имя лица. Форма, структура, правила приведения
- 4.5. Заголовок, содержащий наименование организации. Форма, структура, правила приведения
- 4.6. Заголовок, содержащий унифицированное заглавие. Форма, структура, правила приведения
- 4.7. Заголовок, содержащий обозначение документа. Форма, структура, правила приведения
- 4.8. Заголовок, содержащий географическое название. Форма, структура, правила составления
- Глава 5. Авторитетные/нормативные записи
- 5.1. Значение авторитетных/нормативных записей
- 5.2. Структура формата
- 5.3. Методика формирования авторитетных файлов
- 5.3.1. Авторитетные/нормативные записи имен лиц
- 5.3.2. Авторитетные/нормативные записи под наименованием организации
- 5.3.3. Авторитетные/нормативные записи географических названий
- 5.3.4. Авторитетные/нормативные записи унифицированных заглавий
- 5.3.5. Авторитетные/нормативные записи предметных рубрик
- Раздел IV. Индексирование документа
- Глава 6. Теоретические основы индексирования
- 6.1. Общие положения индексирования
- 6.2. Требования к информационно-поисковым языкам
- 6.3. Общие правила индексирования
- Глава 7. Предметизация документа
- 7.1. Теоретические основы предметизации
- 7.1.1. Значение предметизации
- 7.1.2. Терминосистема процесса предметизации
- 7.2. Предметизационный ипя – средство предметизации
- 7.2.1. Характеристика предметизационного ипя
- 7.2.2. Структура предметизационного ипя
- 7.3. Общая методика предметизации
- 7.3.1. Основные этапы процесса предметизации
- 7.3.2. Структура предметной рубрики
- 7.3.3. Правила предметизации
- 7.4. Предметная рубрика – результат процесса предметизации
- Глава 8. Систематизация документа
- 8.1. Значение систематизации
- 8.2. Классификационный ипя — средство реализации процесса систематизации
- 8.2.1. Терминосистема классификационного ипя
- 63.3 (2)4 Период феодализма (IV в. – 1861 г.)
- 63.3(2)41 Период зарождения и становления феодальных отношений (IV-XI вв.)
- 8.2.2. Классификационные системы, используемые в России
- 8.3. Общая методика систематизации
- 8.3.1. Принципы систематизации
- 8.3.2. Методы систематизации
- 8.3.3. Правила систематизации
- 8.4. Алгоритм поиска индексов в классификационной системе
- 8.5. Классификационный индекс – результат систематизации
- Глава 9. Координатное индексирование
- 9.1. Теоретические основы координатного индексирования
- 9.2. Информационно-поисковый тезаурус (ипт)
- 9.2.1. Структура ипт
- 9.3. Методика разработки информационно-поискового тезауруса
- 9.3.1 Составление словаря ключевых слов
- 9.3.2. Дескрипторизация ключевых слов
- 9.3.4. Указатели роли и связи
- 9.4. Автоматизация процессов построения ипт
- 9.5. Методика координатного индексирования
- 9.6. Автоматизация координатного индексирования
- 9.6.1. Основные методы автоматизированного индексирования
- Раздел V. Аннотирование и реферирование
- Глава 10. Аннотирование документа
- 10.1. Теоретические основы аннотирования
- 10.2. Методика аннотирования документа
- 10.2.1. Основные требования к составлению аннотации
- 10.2.2. Этапы аннотирования
- 10.3. Автоматизация аннотирования
- Глава 11. Реферирование документа
- 11.1. Теоретические основы реферирования
- 11.2. Виды рефератов
- 11.3. Общая методика реферирования документа
- 11.4. Методы реферирования
- 11.4.1. Методика составления информативного реферата
- 11.4.2. Особенности текста реферата
- Заключение
- Приложения
- Российский формат машиночитаемой каталогизации
- Пример машиночитаемой библиографической записи, созданной в формате rusmarc в Российской национальной библиотеке на книгу е. В. Пчелова «Рюриковичи. История династии»
- Примеры библиографических записей, содержащих библиографическое описание и заголовок Книги. Однотомные издания
- Многотомные издания
- Депонированная научная работа
- Неопубликованные документы
- Сериальные и другие продолжающиеся ресурсы
- Изоиздание
- Составные части документов
- Isbn 978-s