logo
Учебник

9.6. Автоматизация координатного индексирования

Автоматизация координатного индексирования осуществляется по единому алгоритму, что позволяет достичь единообразия, полноты, точности, последовательности этого процесса, а также экономии времени, материальных и человеческих ресурсов.

Для координатного индексирования документов в автоматизированных ИПС используют информационно-поисковые языки дескрипторного типа. Парадигматические и синтагматические отношения, существующие между понятиями в этих языках, отражаются в тезаурусах с помощью отнесения их к определенным категориям или путем использования специальных грамматических средств (указателей роли и связи).

Сегодня нет единой концепции разработки алгоритма формирования поискового образа документа, так как одни исследователи предлагают формировать поисковый образ документа на основе анализа полного текста (первичного документа), другие – текста реферата.

Индексирование по тексту документа предполагает процедуру сжатия поискового образа документа. В связи с этим автоматизация координатного индексирования может быть полной и частичной. В процессе полной автоматизации в ЭВМ вводятся, как правило, рефераты, которые с помощью программных средств формируют поисковые образы документов.

В процессе частичной автоматизации к формированию поисковых образов документов привлекается человек. Чаще всего его участие заключается в предварительной формализации описаний документов, которая заключается в выборе информативных слов и словосочетаний и вводе их в ЭВМ. А дальше автоматически с помощью специальных алгоритмов эти слова и словосочетания заменяются на машинные индексы.

В практике используют два метода координатного индексирования документов:

В процессе индексирования с контролем лексики ключевые слова, выбранные из текста документа заменяются на эквивалентные им по смыслу понятия; более широкие по смыслу; понятия, ассоциированные с исходным, взятым из тезауруса. Иногда индексатор, используя свои профессиональные знания, опыт и тезаурус, включает в поисковый образ документа лексические единицы используемого ИПЯ, отсутствующие в тексте.

В результате многолетней практики индексирования документов с использованием дескрипторного ИПЯ выработались общие методические рекомендации последовательности этого процесса. Этап анализа содержания документов можно выразить следующей схемой: выделение предмета (темы) документа, аспекта, свойства предмета, области применения предмета, видов и методов исследования свойств предмета, конкретной методики исследования предмета и т. д.

Свободное индексирование заключается в формировании поискового образа документа из ключевых слов и словосочетаний, выбранных из текста документа. При этом нет ограничений на ввод в систему новых понятий. В практике используются оба метода индексирования.

Анализ этих методов показал, что свободное индексирование по удобству использования и доступности превосходит индексирование с контролем лексики. Но автоматизация процессов обработки, поиска документов больше ориентирована на работу со строго формализованной информацией, где все поисковые признаки и понятия представляются в единообразной форме.