logo search
Разработка и стандартизация ПС и ИТ

52. Методы классификации и кластеризации текстовой информации.

Классификация (classification), как стандартная задача из области Data Mining, определяет для каждого документа одну или несколько заранее заданных категорий, к которым этот документ относится. Особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит "мусора", т. е. каждый из документов соответствует какой-нибудь заданной категории. Частным случаем задачи классификации является задача определения тематики документа.

Целью кластеризации (clustering) документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества. Группы при этом формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее. Кластеризация сегодня применяется при реферировании больших документальных массивов, определение взаимосвязанных групп документов, упрощения процесса просмотра при поиске необходимой информации, нахождения уникальных документов из коллекции, выявления дубликатов или очень близких по содержанию документов.

Приведем обзор существующих на сегодняшний день методов, осуществляющих кластериза-цию или классификацию документов.