logo search
АИУС

2.4.1. Общие представления о Data Mining13

Характерной особенностью современных систем управления являются сбор и обработка значительных объемов данных от объекта управления. В современных автоматизированных системах управлениях (АСУ) на системном уровне собирается информация от десятков, сотен и более источников информации, причем эта информация поступает в течение длительных периодов времени, которые могут исчисляться годами.

Для аккумулирования указанных данных используются системы управления базами данных. Базы данных могут носить не только локальный характер, но и выступать частью интегрированных корпоративных сетей. Поэтому объем информации, который находится на системном уровне АСУ, является огромным. Анализ этих данных позволяет решать различные задачи управления.

При этом до начала 90-х годов двадцатого века основным инструментом анализа являлась математическая статистика. Основной концепцией, на которой основывалось применение математической статистики, являлась концепция усреднения по выборке. Эта концепция приводит к операциям над средними величинами, которые, зачастую, являются неинформативными.

С целью преодоления указанного недостатка статистического подхода начала развиваться технология интеллектуального анализа данных (ИАД), или Data Mining («добыча данных»).

Data Mining — исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Рассмотрим свойства обнаруживаемых знаний, данных в определении, более подробно.

Свойства, которыми должны обладать обнаруженные знания:

1. Знания должны быть новыми, ранее неизвестными. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются.

2. Нетривиальность. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.

3. Практическая полезность. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.

4. Доступность для понимания человеком. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.

В основу современной технологии ИАД положена концепция шаблонов, которые отражают фрагменты многих аспектов отношений данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть выражены в форме, понятной человеку. Поиск шаблонов производится методами, которые не ограничены априорными предположениями о структуре выборки, законах распределения величин и т.п.. Примеры заданий на такой поиск при использовании ИАД приведены в табл. 2.2.

Таблица 2.2

Статистический анализ данных

Интеллектуальный анализ данных

Каковы средние показатели потребления природного газа на электростанциях?

Какие станции достигли наиболее эффективного потребления газа? В какие интервалы времени? Существуют ли шаблоны связи эффективности потребления газа с режимными факторами энергетических производственных процессов?

Какова суммарная мощность энергетического оборудования, находящегося в ремонте по сравнению с мощностью работающего оборудования?

Имеются ли характерные признаки состояния энергетического оборудования, которое, по всей вероятности, может отказать в течение данного периода эксплуатации?

Какова средняя величина превышения нормативов потребления электроэнергии прокатным станом?

Существуют ли стереотипные сочетания режимных факторов процесса прокатки, которые обуславливают перерасход энергии?