logo
Основы_информатики

Анализ документов

С точки зрения принципов анализа документов представляют интерес следующие средства, заложенные в системе «SMART»:

1. Система разделения английских слов на основы и аффиксы, которая может быть использована для сокращения вводимых текстов до основ слов.

2. Словарь синонимов – тезаурус, используемый для замены значащих слов номерами понятий, каждый из которых представляет класс основ слов близких по смыслу.

3. Иерархическая структура понятий, включенных в тезаурус, которая дает возможность для любого номера понятия найти их «родителя» (то есть подчиняющее или родовое понятие), «сыновей» (то есть подчиненное или видовое понятие) и «братьев» (понятия, стоящие на одном уровне), а также множество возможных перекрестных ссылок.

4. Структура для анализа документов

Методы статистических ассоциаций, применяемые для расчета коэффициентов подобия между словами, основами слов лил понятиями, и базирующиеся на принципе совместной встречаемости этих элементов в предложениях документа или в документах фонда.

5. Методы статистического анализа, позволяющие распознать и использовать в качестве характеристик содержания документа словосочетания, состоящие из нескольких слов или понятий, связанных между собой определенными синтаксическими связями.

6. Методы статистического распознавания словосочетаний, которые используются подобно предшествующим методам синтаксического анализа на основе предварительно созданного словаря словосочетаний, но при этом не осуществляется контроль правильности синтаксических связей между элементами словосочетаний.

7. Корреляционные способы сопоставления документов и запросов, использующие целый ряд корреляционных методов при сравнении анализируемых документов и запросов.