consp1

Инструменты добычи данных (Data Mining)

предназначены для создания гипотез на основе существующих данных. Этот класс средств наиболее сильно зависит от предметной области и структуры исходных данных

Кроме оперативной онлайновой обработки данных по мере роста объемов информации в хранилищах данных все более востребованной становится их анализ и обработка, которые получили название извлечение знаний или добыча данных ( data mining). Имеется в виду извлечение новой информации из данных, содержащихся в хранилище данных, путем выявления взаимозависимости данных (корреляция, классификация и др.) и поиска скрытых закономерностей в данных. Добыча данных предполагает использование статистических, оптимизационных и других специальных математических алгоритмов, и имеет целью получение дедуктивным путем новой информации, которая может оказаться полезной при принятии решений в предметной области.

В математических методах обработки данных заложен для информатики огромный потенциал, и это объясняет быстрорастущий интерес к ним как в зарубежной, так и в отечественной практике^⁴⁰. Можно сказать, что внедрение методов интеллектуального анализа данных (ИАД) в неакадемические приложения (на практике оказывается, что по большей части в коммерческие, хотя и не исключительно) только начинается. В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов. Математические инструменты, которые при этом используются, весьма разнообразны. Это алгебраические, комбинаторные методы, нейронные сети, деревья решений, алгоритмы оптимизации в разных постановках, нелинейный регрессионный анализ, генетические алгоритмы, теория нечетких множеств, динамического хаоса, вывод правил и многое другое.

Существует два подхода в проблеме интеллектуального анализа данных^⁴¹. В первом случае пользователь сам выдвигает гипотезы относительно зависимостей между данными. Традиционные технологии анализа развивали именно этот подход. Действительно, гипотеза приводила к построению отчета, анализ отчета – к выдвижению новой гипотезы и т. д. Это справедливо и в том случае, когда пользователь применяет такие развитые средства, как OLAP, поскольку процесс поиска по-прежнему полностью контролируется человеком. Во многих системах ИАД в этом процессе автоматизирована проверка достоверности гипотез, что позволяет оценить вероятность тех или иных зависимостей в базе данных. Второй подход основывается на том, что зависимости между данными ищутся автоматически.

Процессы ИАД подразделяются на три большие группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis). Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений. Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей.

В ИАД используются следующие основные методы:

Нахождение ассоциаций, которые возникают как привязка значений к какому-нибудь одному событию.
Нахождение последовательностей, т.е. последовательных во времени событий.
Нахождение скрытых закономерностейпо наборам данных в виде причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса) и распознаваемым свойством, ситуацией или процессом.
Оценка важности(влияния) параметров на события и ситуации.
Классифицирование(распознавание). Рассматривается конечное число типов (классов) объектов, которыми могут быть в том числе события, ситуации или процессы. Объекты при этом должны быть описаны значениями числовых признаков (симптомов, показателей, параметров). Информация о каждом классе задана с помощью набора объектов (наблюдений, прецедентов), про которые их принадлежность этому классу известна заранее. Нужно найти критерии, по которым можно было бы относить объект к той или иной классификационной категории. Поиск критериев ведется на основе изучения характеристик уже расклассифицированных объектов и вывода правил классификации.
Выявление кластеров. Кластеризация напоминает классификацию, с тем отличием, что критерии классификации не заданы. Кластеризация при исследовании данных позволяет обнаруживать данные, сгруппированные по каким-нибудь признакам, так что объекты одной группы "похожи" друг на друга, а объекты различных групп – "не похожи". Алгоритмы кластеризации как инструмент первичного анализа незаменимы при обработке наборов многомерных данных, возникающих в новых областях, постановках и исследованиях.
Составление прогнозовсобытий и ситуаций. Все вышеописанные методы имеют дело с предсказаниями событий типа "будет ли конкретный подписчик возобновлять подписку?". В данном же случае речь идет о прогнозировании развития каких-либо интегральных показателей, типа объёмов продаж, на основе обнаруженных закономерностей.

К средствам сложного анализа данных следует также отнести системы визуализации, преобразующие сложные данные в изображения различных типов, начиная от простых диаграмм и до трёхмерных сред. Первоначально такие системы были разработаны в НАСА для слежения за погодными условиями, однако сейчас происходит их активное проникновение в коммерческие области. Например, они могут использоваться для наглядного представления состояния финансового рынка, помогая "на глаз" оценивать риск, выявлять аномалии, рыночные возможности и прочее.

Содержание