Тезаурус основ слов и список суффиксов
Нулевой тезаурус – тезаурус основ слов (или нулевой тезаурус) состоит из основ слов, входящих в типовой фонд документов. Против каждой основы стоит порядковый номер. Основы слов могут быть получены из полных слов отделением суффиксов. Для этой цели создается словарь суффиксов.
Словарь суффиксов
Каждый суффикс приведен с порядковым номером и с одним или более синтаксическим кодом, которые могут быть использованы, если необходимо объединить основы слов и суффиксы вновь в (новые) слова.
Синтаксические коды – неполные наименования частей речи, которые должны быть объединены с дополняющими кодами, приписанными к основам слов для определения соответствия суффиксам основ. Например, такой частичный код как 0Т10 из словаря основ будет объединен с кодом из списка суффиксов вида Vooso для формирования полного кода (0Т10+Vooso=VT1S0 – в этом случае полный код означает: переходный глагол с одним дополнением в 3 лице ед.числе. В системе SMART словари словосочетаний основаны на совместной встречаемости понятий тезауруса, а не слов текста.
Для обнаружения словосочетаний применяются 2 основные стратегии.
1) словари статистических словосочетаний базируются на алгоритме обнаружения словосочетаний, который принимает во внимание только статистические характеристики совместной встречаемости словосочетаний. При этом не делается никакой попытки обнаружить какие-либо конкретные синтаксические связи между компонентами.
2) с другой стороны словарь синтаксических словосочетаний включает не только нахождение соответствующих компонентов словосочетаний, но также информирует об отношениях синтаксической зависимости, которые должны учитываться при распознавании словосочетаний. Например: если нужно обнаружить связь между понятиями «program» и «language», то любые комбинации этих понятий (такие как «languages and programs», «programming languages») были бы признаны правильными в словаре статистических словосочетаний. С другой стороны, имеющееся в синтаксическом словаре дополнительное ограничение требует, чтобы понятие, соответствующее слову «program», было синтаксически зависимо от понятия «language». Это исключает такое словосочетание, как «languages and programs». Но допускает словосочетание «programming languages». В словосочетаниях разрешается до 6 компонентов.
- 1.Устранение синонимии
- 3. Указатель иерархических отношений
- Практические рекомендации для составления пс Анализ содержания документов и выявления ключевых слов
- Как осуществить перевод с ея на ипя?
- 3.Ипс «синтол» [документальная, синтагматический язык с грамматикой]
- I. Синтагматическая организация «синтола».
- II.Парадигматическая организация (словарь)
- III. Поиск информации
- Ипс аидос (ппп) [документально-фактографическая, с грамматикой]
- 1) Тезаурус
- Критерий выдачи(кв)
- Синтаксические указатели (роли и связи).
- Система «smart»
- Анализ документов
- Стратегия поиска
- Анализ языка
- Структура словаря синонимов
- Тезаурус основ слов и список суффиксов
- Иерархия понятий
- Принципы построения тезауруса в системе smart
- Особенности фактографических информационно-поисковых систем(фипс)
- Способы представления информации в фипс
- Автоматизированные фипс (афипс)
- Автоматизация индексирования документов в афипс
- Автоматическое индексирование запросов
- Автоматизированные обучающие системы(аос)
- Язык обучающих курсов (яок)
- Автоматизированный учебный курс (аук) по иносранным языкам
- Структура аук
- Автоматизированный учебный словарь (аус)
- Интернет (the internet)
- Сервисные службы интернета.
- Пакет прикладных программ microsoft office (’95 – под windows ’95)