logo search
Разработка и стандартизация ПС и ИТ

51. Методы выделения информативных терминов.

Первой задачей при построении терминологической системы является задача выделения из текстов предметной области отдельных слов или словосочетаний, которые могут служить для данной предметной области ключевыми понятиями. Для выявления терминов – кандидатов для включения в терминологическую систему применяются модели «взвешивания» и ранжирования терминов. Вычисление веса отдельного термина в рамках информационного массива проводится в соответствии со следующими основными методиками:

TF (Term Frequency) – в основе методики лежит частота встречаемости термина в документе (или в массиве документов).

TF*IDF (Term Frequency*Inverse Document Frequency) – в соответствии с этой методикой вес слова зависит от частоты его появления в конкретном предложении и в документе в целом.

TL*TF (Term Length*Term Frequency) - методика базируется на том, что слова, которые появляются часто, стремятся быть краткими. Такие слова не описывают основную тему документа, т.е. являются стоп словами. Наоборот, слова, которые появляются редко, стремятся быть длинными.