3.5.1. Общие представления о Data Mining

Характерной особенностью современных систем управления являются сбор и обработка значительных объемов данных от объекта управления. В современных автоматизированных системах управлениях (АСУ) на системном уровне собирается информация от десятков, сотен и более источников информации, причем эта информация поступает в течение длительных периодов времени, которые могут исчисляться годами. Для аккумулирования указанных данных используется системы управления базами данных. Базы данных могут носить не только локальный характер, но и выступать частью интегрированных корпоративных сетей. Поэтому объем информации, который находится на системном уровне АСУ, является огромным. Анализ этих данных позволяет решать различные задачи управления. При этом до начала 90-х годов двадцатого века основным инструментом анализа являлась математическая статистика. Основной концепцией, на которой основывалось применение математической статистики, являлась концепция усреднения по выборке. Эта концепция приводит к операциям над средними величинами, которые, зачастую, являются неинформативными. С целью преодоления указанного недостатка статистического подхода начала развиваться технология интеллектуального анализа данных (ИАД), или Data Mining («добыча данных»). Data Mining — исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Рассмотрим свойства обнаруживаемых знаний, данные в определении, более подробно. Свойства, которыми должны обладать обнаруженные знания: 1. Знания должны быть новые, ранее неизвестные. Затраченные усилия открытие знаний, которые уже известны пользователю, не окупаются. 2. Нетривиальность. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining. 3. ^ Практическая полезность. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении. 4. ^ Доступность для понимания человеком. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде. В основу современной технологии ИАД положена концепция шаблонов, которые отражают фрагменты многих аспектов отношений данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть выражены в форме, понятной человеку. Поиск шаблонов производится методами, которые не ограничены априорными предположениями о структуре выборки, законах распределения величин и т.п. Примеры заданий на такой поиск при использовании ИАД приведены в таблице 3.2.

Таблица 3.2

Статистический анализ данных	Интеллектуальный анализ данных
Каковы средние показатели потребления природного газа на электростанциях?	Какие станции достигли наиболее эффективного потребления газа? В какие интервалы времени? Существуют ли шаблоны связи эффективности потребления газа с режимными факторами энергетических производственных процессов?
Какова суммарная мощность энергетического оборудования, находящегося в ремонте по сравнению с мощностью работающего оборудования?	Имеются ли характерные признаки состояния энергетического оборудования, которое, по всей вероятности, может отказать в течение данного периода эксплуатации?
Какова средняя величина превышения нормативов потребления электроэнергии прокатным станом?	Существуют ли стереотипные сочетания режимных факторов процесса прокатки, которые обуславливают перерасход энергии?

Содержание