logo
ИС_і технол_управл_Лаб

5.1 Опис процесу класифікації

Мета процесу класифікації полягає в побудові такої моделі, яка використовує незалежні прогнозуючі атрибути як вхідні параметри й видає значення залежного атрибута. Процес класифікації полягає в розбивці множини об'єктів на класи за певним критерієм.

Для проведення класифікації за допомогою математичних методів необхідно мати формальний опис об'єкта, яким можна оперувати, використовуючи математичний апарат класифікації. Таким описом найчастіше виступає база даних. Кожний запис бази даних несе інформацію про деяку властивість об'єкта.

Набір вихідних даних (вибірку даних) розбивають на дві множини: навчальна (training set) і тестова (test set).

У навчальну вибірку входять об'єкти, для яких відомі значення як незалежних, так і залежних змінних. На підставі навчальної вибірки будується модель визначення значення залежної змінної. Її часто називають функцією класифікації. Для одержання максимально точної функції до навчальної вибірки пред'являються такі основні вимоги:

Тестова (test set) множина також містить вхідні й вихідні значення прикладів. Тут вихідні значення використовуються для перевірки працездатності моделі.

Процес класифікації складається із двох етапів: конструювання моделі і її використання.

a) Конструювання моделі: опис множини визначених класів.

  1. Кожний приклад набору даних ставиться до одного з визначених класів.

  2. На цьому етапі використовується навчальна множина, на ньому відбувається конструювання моделі.

  3. Отримана модель представлена класифікаційними правилами, деревом рішень або математичною формулою.

б) Використання моделі: класифікація нових або невідомих значень.

  1. Оцінка правильності (точності) моделі. Відомі значення з тестового набору порівнюються з результатами використання отриманої моделі. За рівень точності приймається відсоток правильно класифікованих прикладів у тестовій множині.

  2. Якщо точність моделі припустима, можливе використання моделі для класифікації нових прикладів, клас яких невідомий.

Основні проблеми, з якими зіштовхуються при вирішенні задач класифікації, - це незадовільна якість вхідних даних, у яких зустрічаються як помилкові дані, так і пропущені значення, різні типи атрибутів - числові й категоріальні, різна значимість атрибутів, а також так звані проблеми overfitting і underfltting. Суть першої з них полягає в тім, що класифікаційна функція при побудові "занадто добре" адаптується до даних, і помилки, що зустрічаються в них, і аномальні значення намагається інтерпретувати як частину внутрішньої структури даних. Очевидно, що така модель буде некоректно працювати надалі з іншими даними, де характер помилок буде трохи іншим. Терміном underfltting позначають ситуацію, коли спостерігається занадто велика кількість помилок при перевірці класифікатора на навчальній множині. Це означає, що особливих закономірностей у даних не було виявлено і або їх немає взагалі, або необхідно вибрати інший метод їхнього виявлення.

Геометрична інтерпретація задачі класифікації

Задача класифікації має геометричну інтерпретацію. Розглянемо її на прикладі із двома незалежними змінними, що дозволить представити її у двовимірному просторі (рис. 3.1). Кожному об'єкту ставиться у відповідність точка на площині. Символи "+" і "-" позначають приналежність об'єкта до одного з двох класів. Очевидно, що дані мають чітко виражену структуру: всі точки класу "+" зосереджені в центральній області. Побудова класифікаційної функції зводиться до побудови поверхні, що обводить центральну область. Вона визначається як функція, що має значення "+" усередині обведеної області й "-" — поза нею.

Рисунок 5.1 - Класифікація у двовимірному просторі

Як видно з рис. 5.1, є кілька можливостей для побудови такої області. Вид функції залежить від застосовуваного алгоритму.

Для класифікації використовуються різні методи. Основні з них: