logo search
Учебник

9.3.1 Составление словаря ключевых слов

Составление словаря ключевых слов происходит путем отбора из заглавий, аннотаций, рефератов и текстов документов слов естественного языка, которые могут использоваться в поисковых образах документов (ПОД) и поисковых предписаниях (ПП). Важ­нейшим требованием к словарю ключевых слов является полнота охвата терминологии, так как в тезаурус включают терминологию, фигурирующую в документах, вводимых в ИПС. Таким образом, в тезаурусе могут отсутствовать термины, требующиеся для описания содержательных или формальных аспектов вводимых в ИПС текстов. Такой тезаурус может оказаться недостаточно полным. Существует прямая зависимость работоспособности тезауруса от методики индексирования документов. Процесс индексирования заключается в следующем:

Составление поисковых аннотаций считается творческим процессом, поэтому результат этого процесса в той или иной мере зависит от субъективных качеств индексатора. Результат обработки одного и того же документа разными индексаторами может быть различным. Для того чтобы предотвратить расхождения в индексировании, необходимо стандартизировать построение поисковых образов. Для того чтобы отделить ключевые слова от «неключевых» (не подлежащих вводу в тезаурус), индексаторы используют общие методические указания:

После того как произведен отбор ключевых слов из текстов, необходимо решить вопрос об их формулировке.

Существует два подхода к этой проблеме:

В зависимости от того, какой подход будет использован при формулировке ключевых слов, результат будет разным, т. е. будут получены различные словари ключевых слов, а значит и различные дескрипторные языки. «Унитермная» ориентировка через свободную манипуляцию элементами поисковых образов обеспечит глубокое и детальное индексирование и увеличит количество точек доступа к разыскиваемым документам. Но разделение устойчивых словосочетаний, которые соответствуют определенным научно- техническим понятиям, грозит потерей информации при поиске. Суть заключается в том, что определенные понятия не всегда могут быть выражены единичным термином. Иными словами, ключевые слова, включаемые в словарь, принимают с учетом точки зрения интересов поиска информации для каждого ключевого слова отдельно и с учетом их лексикографической обработки.

Решение о разделении или сохранении словосочетаний или сложных слов принимают с учетом лингвистических и прагматических критериев. В лингвистике словосочетания делятся на свободные и устойчивые (лексиколизованные) словосочетания. Свободные словосочетания характерны устной речи. Устойчивые словосочетания являются цельными лексическими единицами языка и по своим функциям эквивалентны отдельным словам. Для координатного индексирования рекомендуется вводить в качестве ключевых слов устойчивые словосочетания. При формировании словника ключевых слов руководствуются лингвистическими критериями. Словосочетание является устойчивым, если:

— при замене составляющих его слов, изменении порядка слов в нем или при преобразовании прилагательного в существительное с предлогом потеряется его смысл. Например: «железная дорога».

К устойчивым словосочетаниям относят имена собственные или словосочетания, включающие имена собственные. Например: «Латинская Америка», «Таблица Менделеева».

Если словосочетания соответствуют этим критериям, они считаются устойчивыми.

На решение о сохранении словосочетаний влияют и прагматические соображения:

— рекомендуется сохранять часто встречающиеся словосочетания;

— рекомендуется сохранять словосочетания, если их компоненты не могут использоваться по отдельности;

— рекомендуется сохранять словосочетания как способ устранения информационного шума.

Таким образом, разработчикам тезауруса следует ориентироваться на единичные ключевые слова, сохраняя устойчивые словосочетания, удовлетворяющие выше приведенным лингвистическим и прагматическим критериям.