3.5.3. Технологія аналізу “Data Mining”
Поява технології Data Mining пов’язується з необхідністю отримувати знання з накопичених інформаційними системами різнорідних даних. Українською мовою цей термін можна перекласти як „добування“, „отримання“ знань. Методи математичної статистики, які раніше використовувались для цих цілей, виявились корисними переважно для перевірки раніше сформульованих гіпотез (verification-driven data mining) та для грубого розвідувального аналізу, що лежить в основі оперативної аналітичної обробки даних OLAP.
Ключовою перевагою Data Mining в порівнянні з описаними методами є можливість автоматичної генерації гіпотез про взаємозв’язок між різними параметрами чи компонентами даних. Робота аналітика при роботі з традиційним пакетом обробки даних фактично зводиться до перевірки чи уточнення декількох породжених ним же гіпотез. В тих же випадках, коли початкових пропозицій немає, а об’єм даних значний, такі системи є малоефективними.
Іще однією важливою особливістю систем Data Mining є можливість обробки багатомірних запитів та можливість пошуку багатомірних залежностей. Унікальною також є здатність систем Data Mining автоматично виявляти виключні ситуації (критичні точки) – елементи даних, що випадають із загальних закономірностей. Виділяють п’ять стандартних типів закономірностей, які дозволяють виявляти методи Data Mining [Error: Reference source not found]:
асоціація;
послідовність;
класифікація;
кластеризація;
прогнозування.
Пошук шаблонів здійснюється методами, що не обмежуються рамками апріорних пропозицій про структуру вибірки та вид розподілених значень показників, що аналізуються. Приклади задач на такий пошук з використанням Data Mining наведено в табл. 3.1.
Таблиця 3.1.
Порівняння формулювань задач при використанні методів OLAP та Data Mining
OLAP | Data Mining |
Якими є середні показники травматизму для працівників, що палять та для тих, хто не палить? | Чи зустрічаються точні шаблони в описаннях людей, з підвищеним травматизмом? |
Якими є середні розміри рахунків за користування телефонним зв’язком для наявних клієнтів у порівнянні з рахунками клієнтів, які відмовились від послуг телефонної компанії? | Чи існують характерні портрети клієнтів, які імовірно планують відмовитись від послуг телефонної компанії? |
Якою є середня величина щоденних покупок по викраденій та не викраденій кредитній картці? | Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками? |
Data Mining є мультидисциплінарною областю, що виникла та розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. Системи Data Mining інтегрують в себе одразу кілька підходів, але, як правило, з переважаючим впливом якогось одного компоненту. Розглянемо приклади деяких можливих застосувань Data Mining.
Підприємства роздрібної торгівлі сьогодні збирають детальну інформацію про кожну окрему покупку, використовуючи кредитні картки з маркою магазину та комп’ютеризовані системи контролю. Типовими задачами, які можна розв’язувати за допомогою Data Mining в сфері роздрібної торгівлі є аналіз купівельної корзини, дослідження часових шаблонів, створення прогнозуючих моделей.
Аналіз купівельної корзини використовується для виявлення товарів, які покупці стараються купити разом. Знання купівельної корзини необхідне для покращення реклами, вироблення стратегії створення запасів товарів та способів їх розкладання в торговельних залах.
Дослідження часових шаблонів допомагає торговельним підприємствам приймати рішення про створення товарних запасів. Воно дає відповіді на питання типу „якщо сьогодні покупець купив фотоапарат, то через який час він імовірніше всього купить нову плівку та батарейки?“.
Створення прогнозуючих моделей дає можливість торговельним підприємствам визначати характер потреб різних категорій клієнтів з певною поведінкою, наприклад тих, що купляють товари відомих дизайнерів чи тих, що відвідують розпродажі. Ці знання потрібні для розробки точно направлених економічних заходів із просування товарів.
Досягнення технології Data Mining використовуються в банківській справі для вирішення таких розповсюджених задач:
Виявлення шахрайства з кредитними картками. Шляхом аналізу минулих трансакцій, які в майбутньому виявились шахрайськими, банк виявляє деякі стереотипи такого шахрайства.
Сегментація клієнтів. Розподіляючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою та результативною, пропонуючи різні види послуг різним групам клієнтів.
Прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів та відповідним чином обслуговувати кожну категорію.
Страхові компанії на протязі ряду років накопичують великі об’єми даних. Тут також можна використовувати методи Data Mining для виявлення шахрайства та аналізу ризиків.
Виявлення шахрайства. Страхові компанії можуть знизити ризик шахрайства, відшуковуючи певні стереотипи в заявах про виплату страхового відшкодування.
Аналіз ризику. Шляхом виявлення сукупності взаємозв’язаних факторів, пов’язаних з оплаченими заявами, страховики можуть зменшити свої втрати по зобов’язанням. Відомий випадок, коли в США велика страхова компанія виявила, що суми, виплачені за заявами одружених людей вдвічі перевищують суми за заявами одиноких людей. Компанія відреагувала на це нове знання переглядом своєї загальної політики надання знижок сімейним клієнтам.
В даний час для розв’язання задач Data Mining використовуються нейромережні технології, статистичні пакети SAS, SPSS, STATISTICA, STATGRAPHICS та ін. та спеціалізовані програми типу Deductor Studio, Weka. Крім того, практично усі сучасні корпоративні сервери баз даних містять компоненти, призначені для аналізу даних, зокрема й для інтелектуального аналізу засобами Data Mining.
- Інформаційні системи і технології в економіці
- 1. Основи інформаційних технологій в економіці
- 1.1. Організаційні основи інформаційних технологій в економіці
- 1.1.1. Основні поняття та визначення
- 1.1.2. Властивості інформації. Вимірювання інформації і даних
- 1.1.3. Економічна інформація
- 1.1.4. Класифікація економічної інформації
- 1.1.5. Кодування економічної інформації. Класифікатори
- 1.2. Документообіг на підприємстві. Електронний документообіг
- 1.3. Роль інформаційних технологій в економіці та бізнесі
- 1.3.1. Реінжиніринг бізнес-процесів підприємства
- 1.3.2. Інформаційна культура на підприємстві
- 1.3.3. Відділ інформаційних технологій підприємства майбутнього
- 1.4. Класифікація інформаційних систем
- 1.4.1. Класифікація інформаційних систем за ознакою структурованості задач
- 1.4.2. Класифікація інформаційних систем за функціональною ознакою
- 1.4.3. Класифікація інформаційних систем за рівнем управління
- 1.4.4. Інші класифікації інформаційних систем
- 2. Технічні основи інформаційних технологій в економіці
- 2.1. Апаратне забезпечення інформаційних технологій
- 2.2. Програмне забезпечення інформаційних технологій в економіці
- 2.2.1. Сучасні операційні системи
- 2.3. Прикладне програмне забезпечення
- 2.3.1. Офісні програми
- 2.3.2. Системи управління підприємством
- 2.3.3. Корпоративні інформаційні системи управління підприємством
- 2.3.4. Корпоративні інформаційні системи нового покоління
- 2.3.5. Інформаційні системи проектування та виробництва
- 2.3.6. Інформаційні системи підтримки прийняття рішень
- 2.3.7. Довідково-правові системи
- 2.4. Ліцензування програмного забезпечення
- 3. Управління ресурсами даних
- 3.1. Моделі даних
- 3.2. Системи управління базами даних
- 3.3. Класифікація та короткий огляд сучасних субд
- 3.4. Критерії вибору субд при створенні інформаційних систем
- 3.5. Тенденції та перспективи розвитку технологій управління ресурсами даних
- 3.5.1. Технологія сховищ даних Data Warehousing
- 3.5.2. Технологія аналізу olap
- 3.5.3. Технологія аналізу “Data Mining”
- 3.6. Перехід від баз даних до просторів даних: нова абстракція управління інформацією
- 4. Телекомунікації
- 4.1. Сучасні телекомунікаційні засоби
- 4.2. Типи та класифікація комп’ютерних мереж
- 4.3. Локальні та глобальні мережі
- 4.4. Вимоги, що висуваються до сучасних обчислювальних мереж
- 4.5. Технології розподіленої обробки даних
- 4.6. Структура, інформаційні ресурси та принципи роботи в мережі Інтернет
- 5. Безпека економічних інформаційних систем
- 5.1. Інформаційна безпека комп’ютерних систем
- 5.1.1. Основні поняття та визначення
- 5.1.2. Основні загрози безпеці інформаційних систем
- 5.1.3. Забезпечення безпеки інформаційних систем
- 5.1.4. Принципи криптографічного захисту інформації
- 5.1.5. Апаратно-програмні засоби захисту комп’ютерної інформації
- 5.2. Основи сучасної криптографії
- 5.2.1. Традиційні симетричні криптосистеми
- 5.2.2. Сучасні симетричні криптосистеми
- 5.2.3. Асиметричні криптосистеми
- 5.2.4. Ідентифікація та перевірка справжності
- 5.2.5. Електронний цифровий підпис
- 5.3.Правовий захист інформації
- 5.3.1. Комп’ютерні злочини
- 5.3.2. Організаційно-правове забезпечення інформаційної безпеки
- 5.3.3. Державна політика у сфері безпеки інформаційних ресурсів
- 5.3.4. Правовий захист інформації в інформаційних системах
- 5.3.5. Законодавство із захисту інформаційних технологій
- 5.3.6. Правовий захист програмного забезпечення
- Бібліографічний список Список використаної літератури
- Рекомендована література для поглибленого вивчення дисципліни