Технологии Data Mining
В настоящее время элементы искусственного интеллекта активно внедряются в практическую деятельность менеджера. В отличие от традиционных систем искусственного интеллекта, технология интеллектуального поиска и анализа данных или "добыча данных" (Data Mining - DM), не пытается моделировать естественный интеллект, а усиливает его возможности мощностью современных вычислительных серверов, поисковых систем и хранилищ данных. Нередко рядом со словами "Data Mining" встречаются слова "обнаружение знаний в базах данных" (Knowledge Discovery in Databases).
Рис. 6.17.
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе.
В основу современной технологии Data Mining (Discovery-driven Data Mining) положена концепция шаблонов (Patterns), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные выборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей. На рис. 6.17 показана схема преобразования данных с использованием технологии Data Mining.
Рис. 6.18.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. На рис. 6.18 показан полный цикл применения технологии Data Mining.
Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (Unexpected) регулярности в данных, составляющие так называемые скрытые знания (Hidden Knowledge). К деловым людям пришло понимание, что "сырые" данные (Raw Data) содержат глубинный пласт знаний, и при грамотной его раскопке могут быть обнаружены настоящие самородки, которые можно использовать в конкурентной борьбе.
Сфера применения Data Mining ничем не ограничена - технологию можно применять всюду, где имеются огромные количества каких-либо "сырых" данных!
В первую очередь методы Data Mining заинтересовали коммерческие предприятия, развертывающие проекты на основе информационных хранилищ данных (Data Warehousing). Опыт многих таких предприятий показывает, что отдача от использования Data Mining может достигать 1000%. Известны сообщения об экономическом эффекте, в 10-70 раз превысившем первоначальные затраты от 350 до 750 тыс. долларов. Есть сведения о проекте в 20 млн долларов, который окупился всего за 4 месяца. Другой пример - годовая экономия 700 тыс. долларов за счет внедрения Data Mining в одной из сетей универсамов в Великобритании.
Компания Microsoft официально объявила об усилении своей активности в области Data Mining. Специальная исследовательская группа Microsoft, возглавляемая Усамой Файядом, и шесть приглашенных партнеров (компании Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) готовят совместный проект по разработке стандарта обмена данными и средств для интеграции инструментов Data Mining с базами и хранилищами данных.
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. (рис. 6.19). Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. [Дюк В.А. www.inftech.webservis.ru/it/datamining/ar2.html]. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка.
Можно назвать пять стандартных типов закономерностей, выявляемых с помощью методов Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.
Рис. 6.19. Области применения технологии Data Mining
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в компьютерном супермаркете, может показать, что 55% купивших компьютер берут также и принтер или сканер, а при наличии скидки за такой комплект принтер приобретают в 80% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
- 0. Введение: Введение:
- Информация и информационная культура
- Информация, данные, знание и развитие экономики
- Информационные революции
- Информация и информационная культура предприятия
- Контрольные вопросы и задания
- Сферы применения информационных технологий
- Обработка информации
- Хранение информации. Базы и хранилища данных
- Развитие инструментальных средств обработки информации
- Предыстория эвм
- Вычислительные устройства
- Поколения эвм
- Суперкомпьютеры и кластеры
- Компьютеры следующего поколения
- Контрольные вопросы и задания
- Предпосылки быстрого развития информационных технологий
- Этапы развития информационных технологий
- Проблемы, стоящие на пути информатизации общества
- Задачи и процессы обработки информации
- Преимущества применения компьютерных технологий
- Инструментальные технологические средства
- Тенденции развития ит
- От обработки данных - к управлению знаниями
- Децентрализация и рост информационных потребностей
- Интеграция децентрализованных систем
- Капиталовложения и риски
- Психологический фактор и языковые уровни
- Развитие ит и организационные изменения на предприятиях
- Контрольные вопросы и задания
- Развитие Internet/Intranet технологий
- Поисковые системы
- Internet-технологии в бизнесе
- Электронная коммерция
- Контрольные вопросы и задания
- Понятие информационной системы
- Информационная стратегия как ключевой фактор успеха
- Внешнее и внутреннее информационное окружение предприятия
- Информационный контур, информационное поле
- Контрольные вопросы и задания
- Роль структуры управления в формировании ис
- Типы данных в организации
- От переработки данных к анализу
- Системы диалоговой обработки транзакций
- Рабочие системы знания и автоматизации делопроизводства
- Управляющие информационные системы
- Системы поддержки принятия решений
- Olap-технологии
- Технологии Data Mining
- Статистические пакеты
- Нейронные сети и экспертные системы
- Информационные системы поддержки деятельности руководителя
- Контрольные вопросы и задания
- Взаимосвязь информационных подсистем предприятия
- Сервис-ориентированная архитектура ис
- Контрольные вопросы и задания
- Принципы создания информационной системы
- Принцип "открытости" информационной системы
- Структура среды информационной системы
- Модель создания информационной системы
- Реинжиниринг бизнес-процессов
- Отображение и моделирование процессов
- Обеспечение процесса анализа и проектирования ис возможностями case-технологий
- Внедрение информационных систем
- Основные фазы внедрения информационной системы
- Контрольные вопросы и задания
- Управленческий учет и отчетность
- Автоматизированные информационные системы
- Интегрированная информационная среда
- Эволюция кис
- Контрольные вопросы и задания
- Методология планирования материальных потребностей предприятия mrp
- Стандарт mrp II
- Контрольные вопросы и задания
- Erp и управление возможностями бизнеса
- Состав erp-системы
- Основные различия систем mrp и erp
- Особенности выбора и внедрения erp-системы
- Основные принципы выбора erp-системы
- Основные технические требования к erp-системе
- Оценка эффективности внедрения
- Особенности внедрения erp-системы
- Основные проблемы внедрения и использования erp-систем
- Неэффективность внедрения
- Сложность эффективной интеграции erp-систем с приложениями третьих фирм
- Ограниченные аналитические возможности erp-систем и недостаточная поддержка процессов принятия решений
- Контрольные вопросы и задания
- Функциональное наполнение концепции crm
- Главные составляющие crm-системы
- Планирование ресурсов предприятия, синхронизированное с требованиями и ожиданиями покупателя
- Новая покупательская ценность
- Выстраивание новых взаимоотношений: фокус на покупателя, а не на продукт
- Главная цель - "интегрирование" покупателя
- Использование открытых технологий
- Методология scm: ключ к согласованному бизнесу
- Контрольные вопросы и задания
- Надо ли защищаться?
- От кого защищаться?
- От чего защищаться?
- Как защищаться?
- Чем защищаться?
- Кто и как должен заниматься организацией защиты?
- Что выбрать?
- Контрольные вопросы и задания
- 14. Лекция: Заключение: