3.4.3. Интеллектуальный анализ данных (Data Mining)
Дословно термин Data Mining означает "добыча, раскопка знаний" [79, 80]. Какие же новые возможности предоставляет эта технология анализа по сравнению с OLAP - технологией? Строя аналитические отчеты описанными выше методами, вы заранее предполагаете, от каких размерностей зависит изменение значений фактов, а отчет показывает, какова эта зависимость. Например, вы получаете отчет, который показывает, как зависит регулярность выплат по кредитам частных лиц от сезона, количества членов семьи и так далее. Однако в задачах прогнозирования, при подготовке выпуска новой продукции или создании новой услуги часто необходимо решать задачи такого рода: "Каковы характерные особенности клиентов, которые, скорее всего, воспользуются этой услугой или приобретут этот товар?" или "Каковы характеристики сделок с недвижимостью, которые заканчиваются невыплатами?". То есть вы должны находить новые знания на базе уже накопленной фактической информации. Именно такие задачи помогает решать технолоия Data Mining. В основе этой технологии лежит концепция построения шаблона. Например, анализируя большое количество сделок с недвижимостью, мы ищем характерные особенности тех, что закончились невыплатами. Эти особенности и будут составлять шаблон. Если какая-то потенциальная сделка обладает этими особенностями, стоит отказаться от нее под благовидным предлогом. Таким образом, Интеллектуальный анализ данных представляет собой поиск закономерностей (шаблонов) на основе анализа большого количества данных. На основе найденных закономерностей, могут быть решены задачи прогнозирования будущих событий и трактовки данных, не соответствующих найденным закономерностям. Найденные шаблоны представляют собой новые знания, так как отражаемые ими закономерности бывают часто совершенно неожиданными для аналитиков. Поэтому технология Data Mining в настоящее время является самым совершенным инструментом анализа.
Интеллектуальный анализ данных включает пять типов исследований, для которых применяются разные математические методы.
Классификация - наиболее часто используемый метод. В этом случае заранее известно, на какие группы разбиты объекты исследования и известны характеристики этих групп. Задача состоит в том, чтобы на основе имеющихся характеристик объекта отнести его к той или иной группе. Такой метод исследования может быть использован в медицине при диагностике заболеваний по результатам анализов, которые позволят отнести заболевание к тому или иному типу. Для классификации применяется математический аппарат "Деревья решений". Деревья решений позволяют представить правила приписывания объектов к тому или иному классу в виде иерархической структуры. Например, чтобы знать, каков потенциальный рынок клиентов, приобретающих обувь нашей фирмы, мы можем, зная результаты демографических исследований в заданном регионе (пол, возраст, доход), разбить клиентов на классы и подсчитать, каково количество потенциальных клиентов в данном классе. В соответствии с тремя характеристиками (пол, возраст, ценовой диапазон) разбиваем клиентов на восемь групп, как показано на рисунке 34. Дерево решений позволяет отнести клиентов к той или иной группе. В результате, мы знаем, какое количество обуви определенной модели, соответствующей возрастной группе, полу и ценовому диапазону планировать к выпуску.
Кластеризация предполагает использование более сложных алгоритмов, когда заранее не известны ни типы классов, ни их характеристики. Для реализации таких исследований применяются технологии нейронных сетей. Изначально нейронные сети разрабатывались для моделирования способности мозга распознавать образы. В целом, они представляют собой алгоритмы, моделирующие самообучающуюся систему, которая может извлекать скрытые закономерности из больших массивов данных.
Выявление последовательностей позволяет обнаруживать связь между разнесенными по времени событиями. Такой анализ помогает, например, регулировать запасы товаров на складе и определять их ассортимент. Например, если клиент покупает видеотехнику, компьютерную технику, можно определить, через какое время он станет приобретать расходные материалы к ней (видеокассеты, пленки, картриджи).
Выявление ассоциаций позволяет обнаруживать закономерности, которые выявляют связь различных фактов одного и того же события (факты не разнесены по времени). Например, для анализа покупательской корзины необходимо знать, какие товары покупатели обычно приобретают одновременно. Такие товары в торговом зале можно расположить на соседних витринах и иметь одинаковые запасы этих товаров на складе.
Прогнозирование является самым сложным элементом анализа. Оно позволяет прогнозировать изменение какого-либо показателя (например, объема продаж) на основе анализа исторических данных. Для построения прогноза часто применяют системы "рассуждений на основе аналогичных случаев". Эти системы выбирают аналогичные ситуации, существовавшие в прошлом, и выбирают те значения показателей, которые были верными для этих ситуаций. Нейронные сети также применяются для прогнозирования.
В целом, можно сказать, что технология Data Mining может быть использована: в розничной торговле, банковском деле (например, для выявления мошенничества с кредитными карточками), телекоммуникациях (для внедрения привлекательных для клиентов услуг), страховом деле (анализ страховых выплат и установка страховых премий), медицине (установка диагноза и определение технологии лечения), производстве (анализ факторов, приводящих к возникновению брака).
Аналитические программные комплексы, реализующие технологию Data Mining, в основном являются предметно - ориентированными. То есть они ориентированы на определенный сектор бизнеса и учитывают его специфику. Например, программные продукты корпорации Oracle позволяют предвидеть запросы клиентов, анализировать результаты продаж, то есть они являются частью средств создания систем взаимодействия с клиентами (CRM - см. п. 2.1) [81]. Основным продуктом является Oracle Data Mining Suite. С помощью этого продукта можно разбить всех клиентов компании на категории, предсказывать изменения объемов продаж в зависимости от тех или иных условий. Продукт может извлекать данные из баз данных Oracle и других производителей, позволяет реализовывать параллельные вычисления, увеличивая скорость обработки терабайтов данных. Построенные с помощью Oracle Data Mining Suite модели предвидения (то есть новые знания) могут быть использованы в приложении Oracle CRM 11i, чтобы показать, например, списки клиентов, которые с наибольшей вероятностью ответят на определенные маркетинговые предложения. Для упрощения работы пользователя, в Oracle Data Mining Suite встроены специальные утилиты - мастера: мастер построения моделей; мастер поиска параметров, которые максимально влияют на решение конкретного вопроса; мастер экспорта и импорта данных. Для построения моделей могут быть использованы нейронные сети, "рассуждения на основе аналогичных случаев", деревья классификации.
- Информационные технологии в экономике и управлении
- Технологии Internet
- 1.История развития и администрирование
- 2.Обмен сообщениями в Internet Адресация и маршрутизация
- Доменная система имен
- 3.Популярные сервисы Internet
- Электронная почта
- Телеконференции
- Ftp сервис
- Сервис World Wide Web
- Сервис видеоконференций
- Internet - сервисы на мобильном терминале
- 1.4. Поиск информации в Internet
- 1.4.1. Информационно - поисковые системы сервиса www
- 1.4.2. Службы поиска людей и организаций
- 4.2. Информационные технологии для управления административно -хозяйственной деятельностью предприятия
- 2.1. Современные стандарты управления предприятиями
- 2.2. Программные комплексы для автоматизации управления предприятием
- 2.3. Системы управления документами
- 2.3.1. Корпоративные электронные архивы (кэа)
- 2.3.1.1. Средства ввода документов в кэа
- 2.3.1.2. Средства хранения информации в кэа
- 2.3.1.3. Индексация, организация поиска, анализ документов в кэа
- 2.3.2. Организация электронного документооборота
- 2.3.2.1. Понятие электронного документооборота
- 2.3.2.2. Технология Workflow
- 5.3. Системы управления знаниями
- 3.1. Общее описание
- 3.2.Базы данных
- 3.3. Хранилища данных
- 3.3.1. Структура хранения информации в Хранилище
- 3.3.2. Загрузка данных в Хранилище
- 3.4. Системы поддержки принятия решений
- 3.4.1. Аналитическая обработка данных в реальном времени
- 3.4.2. Средства управления эффективностью бизнеса врм
- 3.4.3. Интеллектуальный анализ данных (Data Mining)
- 6.4. Защита корпоративной информации
- 4.1. Корпоративные сети
- 7.5. Основы электронной коммерции
- 5. 1. Инструменты электронной коммерции
- 5.1.1. Торговые площадки
- 5.1.2. Internet - реклама
- 5.1.3. Internet - магазины
- 5.1.4. Поиск информации на рынке электронной коммерции
- 5.2. Корпоративные информационные порталы
- 5.3. Типы электронной коммерции
- 5.4. Электронные онлайновые платежные Internet - системы
- 8.Контроль знаний
- 1. Тестовые вопросы по темам
- Тема 1. Технологии Internet
- Тема 2. Информационные технологии для управления административно-хозяйственной деятельностью предприятия
- Тема 3. Системы управления знаниями
- Тема 4. Защита корпоративной информации
- Тема 5. Основы электронной коммерции
- 2. Список экзаменационных вопросов
- 9.Сноски к тексту
- 10.Список литературы и Internet - публикаций