logo search
consp1

Инструменты добычи данных (Data Mining)

предназначены для создания гипотез на основе существующих данных. Этот класс средств наиболее сильно зависит от предметной области и структуры исходных данных

Кроме оперативной онлайновой обработки данных по мере роста объемов информации в хранилищах данных все более востребованной становится их анализ и обработка, которые получили название извлечение знаний или добыча данных ( data mining). Имеется в виду извлечение новой информации из данных, содержащихся в хранилище данных, путем выявления взаимозависимости данных (корреляция, классификация и др.) и поиска скрытых закономерностей в данных. Добыча данных предполагает использование статистических, оптимизационных и других специальных математических алгоритмов, и имеет целью получение дедуктивным путем новой информации, которая может оказаться полезной при принятии решений в предметной области.

В математических методах обработки данных заложен для информатики огромный потенциал, и это объясняет быстрорастущий интерес к ним как в зарубежной, так и в отечественной практике40. Можно сказать, что внедрение методов интеллектуального анализа данных (ИАД) в неакадемические приложения (на практике оказывается, что по большей части в коммерческие, хотя и не исключительно) только начинается. В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов. Математические инструменты, которые при этом используются, весьма разнообразны. Это алгебраические, комбинаторные методы, нейронные сети, деревья решений, алгоритмы оптимизации в разных постановках, нелинейный регрессионный анализ, генетические алгоритмы, теория нечетких множеств, динамического хаоса, вывод правил и многое другое.

Существует два подхода в проблеме интеллектуального анализа данных41. В первом случае пользователь сам выдвигает гипотезы относительно зависимостей между данными. Традиционные технологии анализа развивали именно этот подход. Действительно, гипотеза приводила к построению отчета, анализ отчета – к выдвижению новой гипотезы и т. д. Это справедливо и в том случае, когда пользователь применяет такие развитые средства, как OLAP, поскольку процесс поиска по-прежнему полностью контролируется человеком. Во многих системах ИАД в этом процессе автоматизирована проверка достоверности гипотез, что позволяет оценить вероятность тех или иных зависимостей в базе данных. Второй подход основывается на том, что зависимости между данными ищутся автоматически.

Процессы ИАД подразделяются на три большие группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis). Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений. Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей.

В ИАД используются следующие основные методы:

К средствам сложного анализа данных следует также отнести системы визуализации, преобразующие сложные данные в изображения различных типов, начиная от простых диаграмм и до трёхмерных сред. Первоначально такие системы были разработаны в НАСА для слежения за погодными условиями, однако сейчас происходит их активное проникновение в коммерческие области. Например, они могут использоваться для наглядного представления состояния финансового рынка, помогая "на глаз" оценивать риск, выявлять аномалии, рыночные возможности и прочее.