9.3.1 Составление словаря ключевых слов
Составление словаря ключевых слов происходит путем отбора из заглавий, аннотаций, рефератов и текстов документов слов естественного языка, которые могут использоваться в поисковых образах документов (ПОД) и поисковых предписаниях (ПП). Важнейшим требованием к словарю ключевых слов является полнота охвата терминологии, так как в тезаурус включают терминологию, фигурирующую в документах, вводимых в ИПС. Таким образом, в тезаурусе могут отсутствовать термины, требующиеся для описания содержательных или формальных аспектов вводимых в ИПС текстов. Такой тезаурус может оказаться недостаточно полным. Существует прямая зависимость работоспособности тезауруса от методики индексирования документов. Процесс индексирования заключается в следующем:
составление мысленной аннотации, в которой отражаются основные и второстепенные темы документа, представляющие интерес для пользователей ИПС;
выбор из этой аннотации ключевых слов.
Составление поисковых аннотаций считается творческим процессом, поэтому результат этого процесса в той или иной мере зависит от субъективных качеств индексатора. Результат обработки одного и того же документа разными индексаторами может быть различным. Для того чтобы предотвратить расхождения в индексировании, необходимо стандартизировать построение поисковых образов. Для того чтобы отделить ключевые слова от «неключевых» (не подлежащих вводу в тезаурус), индексаторы используют общие методические указания:
служебные слова (предлоги, союзы, частицы и т. д.) следует считать неключевыми;
в качестве ключевых слов могут выступать существительные, прилагательные, числительные, причастия и их сочетания, наречия, деепричастия и местоимения в состав ключевых слов не входят, глаголы – очень редко;
не следует включать в словарь ключевых слов термины, которые очень редко встречаются в данном документном массиве, их можно учесть в отдельном списке в роли ключевых слов-кандидатов;
часто встречающиеся, но общие термины («метод», «система», «описание», «устройство» и т. п.) надо либо исключить, либо использовать в сочетании с другими словами, которые сузили бы их значение;
не имеет смысла включать в словарь термины, не относящиеся к данной терминологической области;
полисемичные термины могут быть включены только в тех значениях, в которых они употребляются в данной тематической области, с соответствующими пояснениями.
После того как произведен отбор ключевых слов из текстов, необходимо решить вопрос об их формулировке.
Существует два подхода к этой проблеме:
ориентироваться на ключевые слова – развернутые словосочетания. Например: «коммерческие информационные службы»;
ориентироваться на ключевые слова – унитермы (отдельные лексические единицы). Например: «оформление», «механика», «логика».
В зависимости от того, какой подход будет использован при формулировке ключевых слов, результат будет разным, т. е. будут получены различные словари ключевых слов, а значит и различные дескрипторные языки. «Унитермная» ориентировка через свободную манипуляцию элементами поисковых образов обеспечит глубокое и детальное индексирование и увеличит количество точек доступа к разыскиваемым документам. Но разделение устойчивых словосочетаний, которые соответствуют определенным научно- техническим понятиям, грозит потерей информации при поиске. Суть заключается в том, что определенные понятия не всегда могут быть выражены единичным термином. Иными словами, ключевые слова, включаемые в словарь, принимают с учетом точки зрения интересов поиска информации для каждого ключевого слова отдельно и с учетом их лексикографической обработки.
Решение о разделении или сохранении словосочетаний или сложных слов принимают с учетом лингвистических и прагматических критериев. В лингвистике словосочетания делятся на свободные и устойчивые (лексиколизованные) словосочетания. Свободные словосочетания характерны устной речи. Устойчивые словосочетания являются цельными лексическими единицами языка и по своим функциям эквивалентны отдельным словам. Для координатного индексирования рекомендуется вводить в качестве ключевых слов устойчивые словосочетания. При формировании словника ключевых слов руководствуются лингвистическими критериями. Словосочетание является устойчивым, если:
при его образовании одно из слов изменяет свое значение – происходит переосмысление одного из компонентов словосочетания. Например: «легкая музыка», «легкая промышленность» (переосмысливается прилагательное «легкий»);
употребляется в единственном или во множественном числе. Например: «немецкий язык», «европейские языки»;
имеет один или несколько синонимов. Например: «перспективы» = «будущее» = «перспективы развития» = «тенденции».
— при замене составляющих его слов, изменении порядка слов в нем или при преобразовании прилагательного в существительное с предлогом потеряется его смысл. Например: «железная дорога».
К устойчивым словосочетаниям относят имена собственные или словосочетания, включающие имена собственные. Например: «Латинская Америка», «Таблица Менделеева».
Если словосочетания соответствуют этим критериям, они считаются устойчивыми.
На решение о сохранении словосочетаний влияют и прагматические соображения:
— рекомендуется сохранять часто встречающиеся словосочетания;
— рекомендуется сохранять словосочетания, если их компоненты не могут использоваться по отдельности;
— рекомендуется сохранять словосочетания как способ устранения информационного шума.
Таким образом, разработчикам тезауруса следует ориентироваться на единичные ключевые слова, сохраняя устойчивые словосочетания, удовлетворяющие выше приведенным лингвистическим и прагматическим критериям.
- Раздел III. Заголовок, точки доступа и авторитетная запись 91
- Глава 4. Формирование заголовка и точки доступа библиографической записи 91
- Глава 5. Авторитетные/нормативные записи 112
- Глава 9. Координатное индексирование 166
- Раздел V. Аннотирование и реферирование 193
- Глава 10. Аннотирование документа 193
- 10.1. Теоретические основы аннотирования 193
- Глава 11. Реферирование документа 198
- Предисловие
- Введение
- Раздел I.ОсновыАналитико-синтетической переработки информации
- Глава 1. Значение процессов обработки документа
- 1.1. Аналитико-синтетическая переработка информации как учебная дисциплина
- 1.2. Роль обработки документа в организациях системы документальных коммуникаций
- Титульная страница книги
- Оборот титульного листа книги
- 129075, Москва, Звездный бульвар, 23
- 103473, Москва, Краснопролетарская, 16
- 1.3. Объект обработки документа
- 1.4. Классификация документа
- Глава 2. Виды и результаты обработки документа
- 2.1. Виды обработки
- 2.1.1. Семантическая обработка документа
- 2.2. Библиографическая запись — главный результат обработки
- 2.3. Виды библиографических записей
- 2.4. Автоматизация процессов обработки
- 2.4.1. Система форматов rusmarc. Общая характеристика
- 2.4.2. Российский формат машиночитаемой каталогизации (rusmarc)
- Раздел II. Библиографическое описание документа
- Глава 3. Теоретические основы составления библиографического описания
- 3.1. Стандартизация библиографического описания
- 3.2. Библиографическое описание: определение, состав и назначение
- Перечень элементов и областей библиографического описания
- 3.3. Виды библиографического описания
- 3.4. Общая методика библиографического описания
- 3.4.1. Пунктуация в библиографическом описании
- 3.4.2. Источник информации для составления библиографического описания
- 3.4.3. Сокращения слов в библиографическом описании
- 3.4.4. Язык библиографического описания
- 3.4.5. Орфография в библиографическом описании
- 3.4.6. Отражение в описании ошибок и опечаток, допущенных в документе
- 3.5. Одноуровневое библиографическое описание
- 3.5.1. Область заглавия и сведений об ответственности
- 3.5.2. Область издания
- 3.5.4. Область выходных данных
- 3.5.6. Область серии
- 3.5.7. Область примечания
- 3.5.8. Область стандартного номера (или его альтернативы) и условий доступности
- 3.5.9. Этапы составления одноуровневого библиографического описания
- Распределение библиографических сведений по областям описания
- 3.6. Многоуровневое библиографическое описание
- 3.6.1. Многоуровневое описание многотомного документа
- 3.6.2 Многоуровневое описание сериальных документов
- 3.6.3. Многоуровневое описание составной части документа (Аналитическое библиографическое описание)
- Раздел III. Заголовок, точки доступа и авторитетная запись
- Глава 4. Формирование заголовка и точки доступа библиографической записи
- 4.1. Заголовок и точки доступа библиографической записи: определение, назначение, виды
- 4.2. История разработки заголовка библиографической записи
- 4.3. Общая методика формирования заголовка библиографической записи
- 4.4. Заголовок, содержащий имя лица. Форма, структура, правила приведения
- 4.5. Заголовок, содержащий наименование организации. Форма, структура, правила приведения
- 4.6. Заголовок, содержащий унифицированное заглавие. Форма, структура, правила приведения
- 4.7. Заголовок, содержащий обозначение документа. Форма, структура, правила приведения
- 4.8. Заголовок, содержащий географическое название. Форма, структура, правила составления
- Глава 5. Авторитетные/нормативные записи
- 5.1. Значение авторитетных/нормативных записей
- 5.2. Структура формата
- 5.3. Методика формирования авторитетных файлов
- 5.3.1. Авторитетные/нормативные записи имен лиц
- 5.3.2. Авторитетные/нормативные записи под наименованием организации
- 5.3.3. Авторитетные/нормативные записи географических названий
- 5.3.4. Авторитетные/нормативные записи унифицированных заглавий
- 5.3.5. Авторитетные/нормативные записи предметных рубрик
- Раздел IV. Индексирование документа
- Глава 6. Теоретические основы индексирования
- 6.1. Общие положения индексирования
- 6.2. Требования к информационно-поисковым языкам
- 6.3. Общие правила индексирования
- Глава 7. Предметизация документа
- 7.1. Теоретические основы предметизации
- 7.1.1. Значение предметизации
- 7.1.2. Терминосистема процесса предметизации
- 7.2. Предметизационный ипя – средство предметизации
- 7.2.1. Характеристика предметизационного ипя
- 7.2.2. Структура предметизационного ипя
- 7.3. Общая методика предметизации
- 7.3.1. Основные этапы процесса предметизации
- 7.3.2. Структура предметной рубрики
- 7.3.3. Правила предметизации
- 7.4. Предметная рубрика – результат процесса предметизации
- Глава 8. Систематизация документа
- 8.1. Значение систематизации
- 8.2. Классификационный ипя — средство реализации процесса систематизации
- 8.2.1. Терминосистема классификационного ипя
- 63.3 (2)4 Период феодализма (IV в. – 1861 г.)
- 63.3(2)41 Период зарождения и становления феодальных отношений (IV-XI вв.)
- 8.2.2. Классификационные системы, используемые в России
- 8.3. Общая методика систематизации
- 8.3.1. Принципы систематизации
- 8.3.2. Методы систематизации
- 8.3.3. Правила систематизации
- 8.4. Алгоритм поиска индексов в классификационной системе
- 8.5. Классификационный индекс – результат систематизации
- Глава 9. Координатное индексирование
- 9.1. Теоретические основы координатного индексирования
- 9.2. Информационно-поисковый тезаурус (ипт)
- 9.2.1. Структура ипт
- 9.3. Методика разработки информационно-поискового тезауруса
- 9.3.1 Составление словаря ключевых слов
- 9.3.2. Дескрипторизация ключевых слов
- 9.3.4. Указатели роли и связи
- 9.4. Автоматизация процессов построения ипт
- 9.5. Методика координатного индексирования
- 9.6. Автоматизация координатного индексирования
- 9.6.1. Основные методы автоматизированного индексирования
- Раздел V. Аннотирование и реферирование
- Глава 10. Аннотирование документа
- 10.1. Теоретические основы аннотирования
- 10.2. Методика аннотирования документа
- 10.2.1. Основные требования к составлению аннотации
- 10.2.2. Этапы аннотирования
- 10.3. Автоматизация аннотирования
- Глава 11. Реферирование документа
- 11.1. Теоретические основы реферирования
- 11.2. Виды рефератов
- 11.3. Общая методика реферирования документа
- 11.4. Методы реферирования
- 11.4.1. Методика составления информативного реферата
- 11.4.2. Особенности текста реферата
- Заключение
- Приложения
- Российский формат машиночитаемой каталогизации
- Пример машиночитаемой библиографической записи, созданной в формате rusmarc в Российской национальной библиотеке на книгу е. В. Пчелова «Рюриковичи. История династии»
- Примеры библиографических записей, содержащих библиографическое описание и заголовок Книги. Однотомные издания
- Многотомные издания
- Депонированная научная работа
- Неопубликованные документы
- Сериальные и другие продолжающиеся ресурсы
- Изоиздание
- Составные части документов
- Isbn 978-s