logo
Романов В

Цель классификации

При решении задач классификации необходимо отнести имеющиеся статические образцы (характеристики ситуации на рынке, данные медос­мотра, информация о клиенте) к определенным классам. Возможны не­сколько способов представления данных. Наиболее распространенным яв­ляется способ, при котором образец представляется вектором. Компоненты этого вектора представляют собой различные характеристики образца, ко­торые влияют на принятие решения о том, к какому классу можно отнести данный образец. Например, для медицинских задач в качестве компонен­тов этого вектора могут быть данные из медицинской карты больного. Та­ким образом, на основании некоторой информации о примере, необходимо определить, к какому классу его можно отнести. Классификатор таким об­разом относит объект к одному из классов в соответствии с определенным

разбиением N-мерного пространства, которое называется пространством входов, и размерность этого пространства является количеством компонент вектора.

Прежде всего, нужно определить уровень сложности системы. В ре­альных задачах часто возникает ситуация, когда количество образцов ог­раниченно, что осложняет определение сложности задачи. Возможно вы­

делить три основных уровня сложности. Первый (самый простой) - ко­гда классы можно разделить прямыми линиями (или гиперплоскостями, если пространство входов имеет размерность больше двух) - так назы­ваемая линейная разделимость. Во втором случае классы невозможно разделить линиями (плоскостями), но их, возможно, отделить с помошью более сложного деления - нелинейная разделимость. В третьем случае классы пересекаются, и можно говорить только о вероятностной разде­лимости.

Рис.13.б. Линейно и нелинейно разделимые классы

В идеальном варианте после предварительной обработки мы должны по­лучить линейно разделимую задачу, так как после этого значительно упро­щается построение классификатора. К сожалению, при решении реальных задач мы имеем ограниченное количество образцов, на основании которых и производится построение классификатора. При этом мы не можем провести такую предобработку данных, при которой будет достигнута линейная раз­делимость образцов.