logo search
Основы_информатики

Тезаурус основ слов и список суффиксов

Нулевой тезаурус – тезаурус основ слов (или нулевой тезаурус) состоит из основ слов, входящих в типовой фонд документов. Против каждой основы стоит порядковый номер. Основы слов могут быть получены из полных слов отделением суффиксов. Для этой цели создается словарь суффиксов.

Словарь суффиксов

Каждый суффикс приведен с порядковым номером и с одним или более синтаксическим кодом, которые могут быть использованы, если необходимо объединить основы слов и суффиксы вновь в (новые) слова.

Синтаксические коды – неполные наименования частей речи, которые должны быть объединены с дополняющими кодами, приписанными к основам слов для определения соответствия суффиксам основ. Например, такой частичный код как 0Т10 из словаря основ будет объединен с кодом из списка суффиксов вида Vooso для формирования полного кода (0Т10+Vooso=VT1S0 – в этом случае полный код означает: переходный глагол с одним дополнением в 3 лице ед.числе. В системе SMART словари словосочетаний основаны на совместной встречаемости понятий тезауруса, а не слов текста.

Для обнаружения словосочетаний применяются 2 основные стратегии.

1) словари статистических словосочетаний базируются на алгоритме обнаружения словосочетаний, который принимает во внимание только статистические характеристики совместной встречаемости словосочетаний. При этом не делается никакой попытки обнаружить какие-либо конкретные синтаксические связи между компонентами.

2) с другой стороны словарь синтаксических словосочетаний включает не только нахождение соответствующих компонентов словосочетаний, но также информирует об отношениях синтаксической зависимости, которые должны учитываться при распознавании словосочетаний. Например: если нужно обнаружить связь между понятиями «program» и «language», то любые комбинации этих понятий (такие как «languages and programs», «programming languages») были бы признаны правильными в словаре статистических словосочетаний. С другой стороны, имеющееся в синтаксическом словаре дополнительное ограничение требует, чтобы понятие, соответствующее слову «program», было синтаксически зависимо от понятия «language». Это исключает такое словосочетание, как «languages and programs». Но допускает словосочетание «programming languages». В словосочетаниях разрешается до 6 компонентов.