Data Mining (dm) - интеллектуальный анализ данных
Data Mining - DM Data Mining (DM) — это технология поддержки процесса принятия решений, основанная на выявления скрытых закономерностей и систематических взаимосвязей между переменными внутри больших массивов информации, которые затем можно применить к новым совокупностям данных. При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания. Обнаружение новых знаний можно использовать для повышения эффективности бизнеса. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений. Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Например, запись в таблице продаж отражает тот факт, что такой-то товар продан такому-то клиенту тогда-то таким-то менеджером, и по большому счету ничего, кроме этих сведений, не содержит. Пример. C помощью средств DM менеджер по маркетингу может предлагать клиентам индивидуальные котировки акций, обновлять новости, проводить специальные кампании по продвижению и передавать другую индивидуальную информацию, которая может их заинтересовать. При этом существенно сокращаются средства на рекламу и повышаются доходы. Кроме того, процесс полностью автоматизирован, ПО моментально обнаруживает любые изменения в поведении клиента, в отличие от специальных сервисов, представленных на сегодняшний день в Web, которые требуют от людей заполнения различных опросных листов и анкет. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно — сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными. Пример. Cведения о том, как зависят продажи определенного товара от дня недели, времени суток или времени года, какие категории покупателей чаще всего приобретают тот или иной товар, какая категория клиентов чаще всего вовремя не отдает предоставленный кредит, какая часть покупателей одного конкретного товара приобретает другой конкретный товар. Подобного рода информация обычно используется при прогнозировании, стратегическом планировании, анализе рисков, и ценность ее для предприятия очень высока, поэтому процесс ее поиска и получил название Data Mining (mining по-английски означает «добыча полезных ископаемых», а поиск закономерностей в огромном наборе фактических данных действительно сродни этому). Синонимами DM можно считать следующее. Синонимы Data Mining - DM
Это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов DM, а также обработки и интерпретации полученных результатов
Концепция интеллектуального анализа данных определяет задачи поиска функциональных и логических закономерностей в накопленной информации, построение моделей и правил, которые объясняют найденные аномалии и/или прогнозируют развитие некоторых процессов. Термин Data Mining Термин Data Mining обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа. Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя). Пример. Анализ потребительской корзины, применяемый, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрин е магазин а рядом или, например, продвигать один из них, чтобы повысить продаж и обоих. В отличие от оперативной аналитической обработки данных (OLAP) в DM задача формулировки гипотез и выявления необычных (unexpected) алгоритмов переложено с человека на компьютер. Если при статистическом анализе или при применении OLAP обычно формулируются вопросы типа «Каково среднее число неоплаченных счетов заказчиками данной услуги?», то применение DM , как правило, то подразумевает ответы на вопросы типа «Существует ли типичная категория клиентов, не оплачивающих счета?». При этом именно ответ на второй вопрос нередко обеспечивает более нетривиальный подход к маркетинговой политике и к организации работы с клиентами. Примеры заданий на такой поиск при использовании DM - Data Mining приведены в таблице. Примеры формулировок задач при использовании методов OLAP и DM - Data Mining
Важное положение DM - Data Mining Важное положение DM — нетривиальность (нестандартность и неочевидность) разыскиваемых алгоритмов (шаблонов). Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Иными словами, средства DM отличаются от инструментов статистической обработки данных и средств OLAP тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.
Применение DM - Data Mining Следует отметить, что применение средств DM не исключает использования статистических инструментов и OLAP-средств, поскольку результаты обработки данных с помощью последних, как правило, способствуют лучшему пониманию характера закономерностей, которые следует искать. Применение DM оправданно при наличии достаточно большого количества данных, в идеале — содержащихся в корректно спроектированном ХД (собственно, сами ХД обычно создаются для решения задач анализа и прогнозирования, связанных с поддержкой принятия решений). Данные в хранилище представляют собой пополняемый набор, единый для всего предприятия и позволяющий восстановить картину его деятельности на любой момент времени, а структура данных хранилища проектируется таким образом, чтобы выполнение запросов к нему осуществлялось максимально эффективно. Впрочем, существуют средства DM , способные выполнять поиск закономерностей, корреляций и тенденций не только в хранилищах данных, но и в OLAP-кубах, то есть в наборах предварительно обработанных статистических данных. Эксперты считают, что в ближайшее десятилетие DM станет одним из перспективных направлений разработки ПО. За счет выявления содержательной структуры в собранной информации и ее анализа в режиме реального времени данная технология станет ключевым методом разработки «индивидуальной Сети», приспособленной под конкретные нужды каждого пользователя. |
Технологии, используемые в Data Mining и типы закономерностей
В данном разделе будут рассмотрены вопросы: Классификация Типы закономерностей |
Классификация
Методы DM по применяемому типу анализа можно подразделить на две группы. Группы методов DM - Data Mining
Подразумевает анализ существующих данных с целью обнаружения некоторых групп. Основана только на параметрах клиентов, алгоритмы кластеризации позволяют выявить гомогенные группы или типы клиентов. Для этих групп можно определить присущий им тип клиентов. В результате, удается лучше оценить свою клиентскую базу и планировать более эффективные маркетинговые мероприятия.
Прогнозирование требует некоторой выборки данных для того отношения, которое нужно прогнозировать или моделировать. К наиболее распространенным методам моделирования относятся регрессия, нейронные сети и деревья решений. Например, используя демографические показатели и покупательские характеристики за прошлые периоды, модель может сгенерировать некоторый балл для каждого потенциального клиента. Этот балл покажет, какова вероятность того, что данный заказчик вновь сделает покупку. Такие баллы используются для ранжирования клиентов при осуществлении целевых маркетинговых программ. Кроме того, можно выявить повторяющиеся и разовые покупки или предсказать отказ прежних клиентов от услуг. Анализ чувствительности позволяет выявить те характеристики клиентов, которые в наибольшей степени влияют на прогнозируемый фактор. Инструменты DM можно классифицировать по применяемым технологиям. Классификация DM - Data Mining - по применяемым технологиям:
(Визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта.
Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте. Машинное обучение предполагает использование различных методов, например:
Деревья решений предназначены для классификации данных, они используют весовые коэффициенты для распределения элементов данных на всё более и более мелкие группы;
Метод ассоциативных правил классифицирует данные на основе набора правил, подобных правилам в экспертных системах. Эти правила можно генерировать, используя процесс поиска и проверки комбинаций правил, или извлекать правила из деревьев решений;
Знания представлены в виде связей, соединяющих набор узлов. Сила связей определяет зависимости между факторами данных. |
- Области применения ит - информационных технологий
- Современные ит - информационные технологии
- Цели внедрения информационных технологий
- Этапы развития ит (информационных технологий)
- Информационная система
- Общие понятия об информационных системах - ис
- Основные задачи информационных систем - ис
- Пользователи информационных систем - ис
- Процессы в информационных системах - ис
- Система. Общие понятия о системе
- Современные информационные системы - ис
- Этапы развития информационных систем - ис
- Математическое и программное обеспечение информационных систем - ис
- Организационное обеспечение информационных систем - ис
- Правовое обеспечение ис - информационных систем
- Техническое обеспечение информационной системы - ис.
- Принципы и методы создания ис - информационных систем
- Методы и концепции создания ис - информационных систем
- Принципы создания информационных систем - ис
- Классификация информационных систем - ис
- Классификация ис по масштабности применения
- Классификация ис по концепции построения
- Классификация ис по оперативности обработки данных
- Классификация ис по признаку структурированности задач
- Классификация ис по сфере деятельности
- Классификация информационных систем по режиму работы
- Классификация информационных систем по степени автоматизации
- Классификация информационных систем по функциональности
- По квалификации персонала и управления
- По характеру обработки информации
- Аналитические ис репортинга, oltp, data mining
- Общие сведения об аналитических ис репортинга, oltp, data mining
- Базовая аналитическая система
- Классификация по области применения
- Классы аналитических систем
- Перспективы использования аналитических систем
- Применяемые виды анализа
- Системы репортинга
- Рынок систем репортинга
- Oltp - системы оперативной обработки транзакций
- Data Mining (dm) - интеллектуальный анализ данных
- Типы закономерностей
- Классы систем Data Mining - dm
- Алгоритмы ограниченного перебора
- Генетические алгоритмы
- Деревья решений (decision trees)
- Нейронные сети
- Предметно-ориентированные аналитические системы
- Системы для визуализации многомерных данных
- Системы рассуждений на основе аналогичных случаев
- Статистические пакеты
- Эволюционное программирование
- Бизнес-приложения Data Mining
- Банковское дело
- Медицина
- Молекулярная и генная инженерия
- Розничная торговля
- Страхование
- Телекоммуникации
- Проблемы, связанные с использованием Data Mining dm-технологии
- Olap-системы оперативной аналитической обработки данных
- Недостатки olap
- Основные преимущества olap-систем
- Предпосылки и причины появления olap
- Принципы проектирования и использования многомерных бд
- Типы используемых данных
- Многомерная модель данных
- Гиперкубические и поликубические модели данных
- Операции с измерениями
- Требования к olap-средствам
- 12 Основных правил olap- систем по Кодду
- Fasmi Пендса и Крита
- Кубы olap
- Спуск и консолидация
- Члены и метки. Иерархии. Аналитические операции.
- Классификация olap по типу доступа к бд
- Достоинства и недостатки rolap
- Метаданные
- Другие olap. Holap. Dolap. Jolap.
- По месту размещения olap - машин
- Olap-клиент
- Olap-сервер
- Применение olap - систем
- Преимущества и недостатки
- Определение dss (сппр)
- Характеристики dss (сппр)
- Структура сппр
- Бм и субм
- Классификация
- Основные функции субм
- Система управления интерфейсом
- Управление сообщениями. Электронная почта.
- Data Warehouse – хранилище данных - хд - систем обработки данных
- Цели и задачи хранилищ данных
- Концепция хд - хранилища данных
- Единый источник даннх
- Свойства данных
- Структура ис на основе хд
- Методы организации хд
- Data Mart - Витрины данных
- Интегрированное хд - хранилище данных
- Непроектируемые витрины данных
- Система постепенно развиваемых витрин данных
- Data Warehouse Bus - хд с архитектурой шины
- Объединенное (федеративное) хд
- Требования к техническому и программному обеспечению
- Основные компоненты хд
- Проблемы интеграции данных
- Сравнение оперативных и аналитических бд
- Средства и методы построения хд - хранилищ данных
- Применение готовых хранилищ данных
- Студии для построения хд - хранилищ данных
- Подход сверху вниз
- Подход снизу вверх
- Рекомендации по внедрению хд
- Финансовые хранилища данных (хд)
- Хд для управления человеческими ресурсами
- Хранилища данных (хд) в области телекоммуникаций
- Хранилища данных (хд) с возможностями Data Mining и Exploration
- Хранилища данных в области страхования
- Тенденции развития хранилищ данных
- Операции и процедуры
- Функции управления
- Принципы управления
- Информационные технологии и системы управления
- Информационные технологии управления
- Информационные системы управления (ису)
- Виды обеспечений в составе иасу
- Уровни управления
- Ис организационного управления (исоу)
- Ису "Галактика"
- Система управления Парус
- Корпоративные информационные системы - кис
- Определения и назначения кис
- Перспективы развития корпоративных информационных систем (кис)
- Современные корпоративные информационные системы
- Структура корпоративных информационных систем
- Требования к корпоративным базам данных
- Требования к техническому обеспечению кис
- Кис и Internet, Intranet-технологии
- Особенности создания кис на базе Workflow-систем
- Системы управления документами - суд
- Средства обработки бумажных документов
- Мировой рынок корпоративных информационных систем
- Экспертные интеллектуальные ис (информационные системы)
- Структура и типы сии
- Терминология систем искусственного интеллекта
- Эволюция экспертных систем
- Второе поколение экспертных интеллектуальных систем (эис)
- Первое поколение экспертных систем
- Третье поколение экспертных интеллектуальных систем (эис)
- Назначение экспертных интеллектуальных систем (эис)
- Структура экспертных интеллектуальных систем
- База знаний (бз). Правила.
- Интерфейс пользователя - диалог с экспертной системой
- Решатель (интерпретатор, дедуктивная машина)
- Виды знаний в экспертных системах
- Организация знаний в базе данных
- Уровни представления и уровни детальности
- Особенности разработки экспертных интеллектуальных систем
- Технология разработки экспертных интеллектуальных систем
- Основные компоненты ис офисной автоматизации
- Ис управления бизнес-процессами
- Определение вмр( управление бизнес-процессами)
- Примеры использования вмр(Business Performance Management)
- Ис банковской деятельности
- Программно-техническая платформа абс(автоматизированной банковской системы)
- Функциональная структура абс (автоматизированной банковской системы)
- Районный уровень статистичекой службы Украины
- Региональный (областной) уровень статистичекой службы Украины
- Центральный (государственный) уровень статистичекой службы Украины
- Ис в налоговых органах Украины
- Автоматизированная информационная система (аис) «Налоги»
- Ис(информационная система) в страховании
- Функциональные подсистемы аис «Страхование»
- Информационное обеспечение системы страхования
- Ис(информационные системы) управления персоналом
- Функциональная направленность систем управления персоналом
- Эффекты от внедрения hr-систем управления персоналом
- Ис(информационные системы) на основе производственных стандартов
- Эволюция стандартов планирования производства
- Стандарт mrp II (Manufacturing Resource Planning)
- Подробнее об mrp1 - стандарте планирования материальных ресурсов
- Входные элементы mrp-системы
- Основные операции, достоинства и недостатки mrp-системы
- Преимущества и процесс планирования mrp-систем
- Принцип работы mrp-системы и результаты работы
- Требования к производству для успешного внедрения mrp-системы
- Цели и задачи системы-mpr
- Процесс crp(Capacity Requirements Planning)
- Входные данные crp(Capacity Requirements Planning)
- Значение crp(Capacity Requirements Planning)
- Подробнее о mrpii - стандарте планирование производственных ресурсов
- Процессы mprii
- Цели и задачи системы-mprii
- Функциональные блоки mrp II
- Планирование потребностей в сырье и материалах
- Главный календарный план производства
- Инструментальное обеспечение
- Интерфейс с финансовым планированием
- Оценка деятельности ( Performance Measurement ) в mrp II
- Планирование продаж и операций
- Планирование ресурсов распределения
- Управление входным и выходным материальным потоком в mrp II
- Преимущества mprii
- Концепция erp-системы
- Структура erp - системы
- Общая характеристика erp
- Преимущества erp - системы
- Csrp - стандарт(Customer Synchronized Resource Planning) и система
- Современная концепция управления ресурсами csrp
- Преимущества csrp
- Жизненный цикл - общие понятия
- Жизненный цикл изделия (жци)
- Этапы жци
- Классификация данных в связи со стадиями жци
- Маркетинг и исследование жизненного цикла.
- Разработка-производство жц
- Этапы жц промышленных изделий и системы их автоматизации
- Жизненный цикл ис
- Жизненный цикл производственных ис
- Cals-методология поддержки жц ис
- Cals-стратегия
- Cals-технологии
- Базовые принципы cals-технологии
- Безмужаное представление информации
- Виртуальное производство
- Интегрированная информационная среда cals
- Концепция cals
- Параллельный инжиниринг
- Реинжиниринг бизнес-процессов
- Системы cals
- Управление процессами
- Стандарты cals
- Другие стандарты cals
- Стандарт iso 10303 (step)
- Стандарт iso 13584 (p_lib) и семейство стандартов idef
- Применение cals