logo
стоэи

33. Понятие, задачи Data Mining и связи с другими дисциплинами.

DataMining– это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Задачи Data Mining:

-классификация;

-кластеризация;

-прогнозирование;

-ассоциация;

-визуализация;

-анализ и обнаружение отклонений;

-оценивание;

-анализ связей;

-подведение итогов.

-классификация – это отнесение объектов к одному из заранее известных классов.

-регрессия – установление зависимости непрерывных выходных переменных от входных значений.

-кластеризация – объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры.

-ассоциация – нахождение зависимости, что из события Х следует событие Y.

-последовательность – установление зависимостей между связанными во времени событиями.

- анализ отклонений – установление зависимостей между связанными во времени событиями.

Для решения вышеописанных задач используются различные методы и алгоритмы DataMining. Ввиду того, чтоDataMiningразвивался и развивается на стыке таких дисциплин как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методовDataMiningбыли разработаны на основе различных методов из этих дисциплин.

На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение.

DataMining– это процесс обнаружения в «сырых» данных, ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Информация, найденная в процессе применения методов DataMining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

DataMining- это процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей.DataMiningсводится к решению 5 классов задач:

-классификация;

-регрессия;

-ассоциация;

-последовательность.

Регрессия – нахождение функциональной зависимости между входными атрибутами и непрерывным выходным атрибутом. Позволяет оценивать вероятность возникновения события или его численное значение:

-прогнозирование спроса;

-оценка ценовой эластичности;

-оценка вероятности повторных продаж;

-расчет загруженности склада, магазина, кассы;

-анализ влияния различных факторов на спрос.

Кластеризация – разбиение объектов на кластеры, т.е. на группы схожих элементов. Этот метод позволяет анализировать одни объекты по аналогии с поведением других:

-кластеризация товаров, выявление товаров со схожей структурой спроса;

-разбиение клиентов на близкие по структуре и особенностям поведения группы;

-анализ спроса в зависимости от комбинации входных показателей;

-обнаружение аномальных отклонений.

Ассоциация – это анализ транзакций, т.е. событий, происходящих вместе. Обнаружение зависимости, что из события А с определенной вероятностью следует событие Б:

-предсказание поведения клиента и предложение товара, который, скорее всего, его заинтересует;

-размещение товара на полках, в каталогах;

-кросс-продажи – стимулирование продаж одних товаров за счет продажи других;

-оптимизация складских запасов.

Последовательность – анализ событий, связанных между собой по времени. Обнаружение зависимости, что после события А спустя определенного время произойдет событие Б:

-анализ потребности клиентов в расходных материалах, сопутствующих товарах, ремонте.

-повторные продажи, оценка наиболее вероятного времени потребности в модернизации.

-предсказание наиболее вероятного поведения потребителя.