Инструменты добычи данных (Data Mining)
предназначены для создания гипотез на основе существующих данных. Этот класс средств наиболее сильно зависит от предметной области и структуры исходных данных
Кроме оперативной онлайновой обработки данных по мере роста объемов информации в хранилищах данных все более востребованной становится их анализ и обработка, которые получили название извлечение знаний или добыча данных ( data mining). Имеется в виду извлечение новой информации из данных, содержащихся в хранилище данных, путем выявления взаимозависимости данных (корреляция, классификация и др.) и поиска скрытых закономерностей в данных. Добыча данных предполагает использование статистических, оптимизационных и других специальных математических алгоритмов, и имеет целью получение дедуктивным путем новой информации, которая может оказаться полезной при принятии решений в предметной области.
В математических методах обработки данных заложен для информатики огромный потенциал, и это объясняет быстрорастущий интерес к ним как в зарубежной, так и в отечественной практике40. Можно сказать, что внедрение методов интеллектуального анализа данных (ИАД) в неакадемические приложения (на практике оказывается, что по большей части в коммерческие, хотя и не исключительно) только начинается. В системах ИАД применяется чрезвычайно широкий спектр математических, логических и статистических методов. Математические инструменты, которые при этом используются, весьма разнообразны. Это алгебраические, комбинаторные методы, нейронные сети, деревья решений, алгоритмы оптимизации в разных постановках, нелинейный регрессионный анализ, генетические алгоритмы, теория нечетких множеств, динамического хаоса, вывод правил и многое другое.
Существует два подхода в проблеме интеллектуального анализа данных41. В первом случае пользователь сам выдвигает гипотезы относительно зависимостей между данными. Традиционные технологии анализа развивали именно этот подход. Действительно, гипотеза приводила к построению отчета, анализ отчета – к выдвижению новой гипотезы и т. д. Это справедливо и в том случае, когда пользователь применяет такие развитые средства, как OLAP, поскольку процесс поиска по-прежнему полностью контролируется человеком. Во многих системах ИАД в этом процессе автоматизирована проверка достоверности гипотез, что позволяет оценить вероятность тех или иных зависимостей в базе данных. Второй подход основывается на том, что зависимости между данными ищутся автоматически.
Процессы ИАД подразделяются на три большие группы: поиск зависимостей (discovery), прогнозирование (predictive modelling) и анализ аномалий (forensic analysis). Поиск зависимостей состоит в просмотре базы данных с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое базы и делает правдоподобное предсказание относительно этих значений. Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей.
В ИАД используются следующие основные методы:
Нахождение ассоциаций, которые возникают как привязка значений к какому-нибудь одному событию.
Нахождение последовательностей, т.е. последовательных во времени событий.
Нахождение скрытых закономерностейпо наборам данных в виде причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (ситуации, процесса) и распознаваемым свойством, ситуацией или процессом.
Оценка важности(влияния) параметров на события и ситуации.
Классифицирование(распознавание). Рассматривается конечное число типов (классов) объектов, которыми могут быть в том числе события, ситуации или процессы. Объекты при этом должны быть описаны значениями числовых признаков (симптомов, показателей, параметров). Информация о каждом классе задана с помощью набора объектов (наблюдений, прецедентов), про которые их принадлежность этому классу известна заранее. Нужно найти критерии, по которым можно было бы относить объект к той или иной классификационной категории. Поиск критериев ведется на основе изучения характеристик уже расклассифицированных объектов и вывода правил классификации.
Выявление кластеров. Кластеризация напоминает классификацию, с тем отличием, что критерии классификации не заданы. Кластеризация при исследовании данных позволяет обнаруживать данные, сгруппированные по каким-нибудь признакам, так что объекты одной группы "похожи" друг на друга, а объекты различных групп – "не похожи". Алгоритмы кластеризации как инструмент первичного анализа незаменимы при обработке наборов многомерных данных, возникающих в новых областях, постановках и исследованиях.
Составление прогнозовсобытий и ситуаций. Все вышеописанные методы имеют дело с предсказаниями событий типа "будет ли конкретный подписчик возобновлять подписку?". В данном же случае речь идет о прогнозировании развития каких-либо интегральных показателей, типа объёмов продаж, на основе обнаруженных закономерностей.
К средствам сложного анализа данных следует также отнести системы визуализации, преобразующие сложные данные в изображения различных типов, начиная от простых диаграмм и до трёхмерных сред. Первоначально такие системы были разработаны в НАСА для слежения за погодными условиями, однако сейчас происходит их активное проникновение в коммерческие области. Например, они могут использоваться для наглядного представления состояния финансового рынка, помогая "на глаз" оценивать риск, выявлять аномалии, рыночные возможности и прочее.
- Информационные технологии
- Часть 1
- Понятие технологии и его содержание
- Понятие информационной технологии
- Общий состав ит и их компоненты
- Этапы развития информационной технологии
- Этапы развития ас
- Информационная технология и информатика
- Система управления и информация
- Понятие информации в системе управления
- Информационные процессы в системе управления
- Свойства, характеристикии измерениеинформации
- Свойства информации
- Статистическое измерение информации
- Семантическая мера информации
- Прагматическая мера информации
- Качество информации
- Классификация систем управления.
- Информационные технологии в системах управления организационного типа.
- Уровни процесса управления
- Разновидности информационных технологий в организационном управлении
- Информационная технология обработки данных
- Информационная технология информационного обеспечения управления
- Информационная технология поддержки принятия решений
- Виды информационных систем, реализующие ит в организационном управлении Системы операционной (транзакционной) обработки данных - oltp (On-Line Transaction Processing)
- Корпоративное хранилище данных
- Системы оперативной аналитической обработки данных - olap (On-Line Analytical Process)
- Инструменты добычи данных (Data Mining)
- Средства генерации отчетов (Reporting tools)
- Автоматизированные системы и их классификация
- Общая структура ас
- Виды ас
- 1. Аис - автоматизированная информационная система.
- 2. Асни - автоматизированная система научных исследований.
- 3. Сапр - система автоматизированного проектирования.
- 4. Аос - автоматизированная обучающая система.
- 5. Асу - автоматизированная система управления.
- Классификации ис в сфере управления По признаку структурированности задач
- По квалификации персонала и уровням управления
- По масштабам применения
- Базовая функциональная модель ит