logo
2014 учебное пособие ИТ в Менеджменте

5.4 Технология Data Mining

По данным компании Gartner, неструктурированные документы составляют более 80% корпоративных данных, а количество внешних источников (интернет-ресурсов, блогов, форумов, СМИ) исчисляется миллионами. В них содержится гигантское количество данных, которые могут обеспечить компании существенное конкурентное преимущество. Основной вопрос — эффективность и скорость извлечения и анализа ценной информации.

Data Mining - "добыча" или "раскопка данных". Data Mining предназначены для решения задач интеллектуального анализа данных, что позволяет повысить эффективность принятия решений.

Data Mining - это процесс обнаружения в сырых данных:

1) ранее неизвестных и нетривиальных

2) практически полезных и доступных интерпретации знаний,

3) необходимых для принятия решений в различных сферах человеческой деятельности.

На рис. 28 представлены уровни знаний, извлекаемых из данных.

Рис. 28 Уровни знаний, извлекаемых из данных

Data Mining – это технология анализа информации с целью нахождения в уже накопленных предприятием данных ранее неизвестных, но практически полезных знаний, необходимых для принятия решений в различных областях человеческой деятельности.

Это процесс нахождения скрытых закономерностей в существующих данных.

Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Интеллектуальный анализ данных или «добыча данных» (Data Mining) позволяет проводить глубокие исследования данных, включающие:

Типы закономерностей, которые позволяют выявлять  методы Data Mining

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять  методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

На рис.29 представлены вопросы, на которые можно получить ответ, используя OLAP и технологию Data Mining.

Рис. 29 Вопросы, на которые можно получить ответ, используя OLAP и Data Mining.

Для выполнения этих задач используют IBM SPSS, Oracle Data Mining, SAS Enterprise Miner.

Методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы.

Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных "скрытых" знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются. Но главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время.

Применение Data Mining

Сфера применения Data Mining ничем не ограничена - она везде, где имеются какие-либо данные. Но в первую очередь методы Data Mining сегодня интересны компаниям, развертывающим проекты на основе информационных хранилищ данных (Data Warehousing).

Некоторые бизнес-приложения Data Mining

Розничная торговля. Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли:

  1. анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах.

  2. исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку?"

  3. создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров.

Банковское дело. Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных задач:

  1. выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.

  2. сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.

  3. прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов, и соответствующим образом обслуживать каждую категорию.

Телекоммуникации. В области телекоммуникаций  методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообразования, чтобы удерживать существующих клиентов и привлекать новых. Типичные мероприятия:

  1. анализ записей о подробных характеристиках вызовов. Назначение такого анализа - выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг;

  2. выявление лояльности клиентов.  Data Mining можно использовать для определения характеристик клиентов, которые, один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего.

Страхование. Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining:

  1. выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

  2. анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам.