logo
DEK

22. Data Mining: особливості та сфери застосування.

Data Mining – це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних та доступних для інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності.

Перевага над статистичними даними: Data Mining дає відповідь на запитання «що потрібно робити», а не «що було».

Особливість: не тривіальність шаблонів, тобто знайдені шаблони повинні відображати неочевидні, несподівані зв’язки даних, такі що становлть, так звані, приховані знання.

Застосування.

Сфера

Приклад

Торгівля

  1. Аналіз купівельного кошика (аналіз схожості) - призначений для виявлення товарів, які споживачі прагнуть купувати разом. Знання купівельного кошика необхідно для оптимізації реклами, вироблення стратегії створення запасів товарів та способів їх розкладки в торгових залах.

  2. Дослідження тимчасових шаблонів – допомагає торгівельним компаніям приймати рішення при створенні товарних запасів. Дає відповідь на запитання «якщо покупець сьогодні купив комп’ютер, то через який час він ймовірніше купить принтер».

  3. Створення прогностичних моделей – дає можливість дізнатися характер потреб різних категорій клієнтів з певною поведінкою. Ці заходи необхідні при просуванні товару.

Банківська справа

  1. Виявлення шахрайства з кредитними картками. Шляхом аналізу операцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи, які притаманні для шахрайства.

  2. Сегментація клієнтів. Розбиваючи клієнтів на різні групи, банки роблять свою маркетингову політику більш цілеспрямовану та результативну, пропонуючи різні види послуг різним групам клієнтів.

  3. Прогнозування змін клієнтури.

  4. Оцінка кредитоспроможності клієнтів. Є можливість виявити потенційно проблемного клієнта з точки зору повернення кредиту та сплати відсотка.

Телекомунікації

  1. Аналіз записів для характеристики викликів. Призначення – виявлення категорій клієнтів зі схожими стереотипами користування послуг та розробкою привабливих цінових стратегій.

  2. Виявлення локальності клієнтів. Як результат, маркетингові витрати можна зробити більш цілеспрямованими - витрачати тільки на тих клієнтів що є постійними.

Інші

  1. Медицина. Є багато експертних систем для визначення медичних діагнозів.

  2. Сервіс. Виробникам потрібно передбачати число клієнтів, які подадуть гарантійні заявки та середню вартість заявок.

23. Алгоритми Data Mining

Алгоритм

Опис

Асоціативні правила

Виявлення закономірностей між зв’язаними подіями. Прикладом такої закономірності служить правило, за яким з події Х слідує подія У. вперше цей алгоритм був запроваджений для знаходження типових шаблонів покупок, що здійснюються в супермаркетах.

Дерева рішень

Сімейство алгоритмів, заснованих на створенні ієрархічної структури, яка дає відповіді «так чи ні» на набір питань. Дерева рішень дозволяють передбачити значення параметра для заданого випадку на основі великої кількості даних про інші подібні випадки. Зазвичай алгоритми цього сімейства застосовуються для вирішення завдань, що дозволяють розділити всі початкові дані на декілька дискретних груп.

Класифікація

Віднесення об’єктів до одного з наперед відомих класів.

Кластеризація

Групування об’єктів на основі даних (властивостей), що описують сутність цих об’єктів. Об’єкти усередині кластера повинні бути схожими один на одного і відрізнятися від об’єктів іншого кластера. Чим більше схожі об’єкти всередині кластера та чим більше відмінні кластери між собою, тим точніша кластеризація.

Нейронні мережі

Згідно цього алгоритму початкові параметри моделі розглядаються як сигнали, що перетворюються відповідно до наявних зв’язків між нейронами, а в якості відповіді, що є результатом аналізу, розглядається відгук всієї мережі на початкові дані. Зв’язки між нейронами створюються за допомогою так званого навчання мережі на основі «прогонки» через мережу великого об’єму даних, що містить як початкові дані, так і правильні відповіді.

Регресія

Встановлення залежності вихідних даних від вхідних. Часто використовується для вирішення задач прогнозування

Генетичні алгоритми

Використання інтерактивного процесу еволюції послідовності поколінь моделей, що включає операції відбору, мутації та схрещення. Для відбору певних особин та відхилення інших використовується «функція пристосованості». Використовуються для оптимізації нейронних мереж та їх ваг.

Алгоритми послідовності

Встановлення закономірності між зв’язаними подіями в часі, тобто виявлення залежності, якщо відбудеться подія Х, то через заданий проміжок часу відбудеться подія У.

Аналіз відхилень

Виявлення найбільш нехарактерних шаблонів.