Самообучающиеся системы. Технологии olap и Data Mining. Определение Data Mining. Основные типы закономерностей, извлекаемых с помощью Data Mining
Самообучающаяся система – это интеллектуальная информационная система, которая на основе примеров реальной практики автоматически формирует единицы знаний.
В основе самообучающихся систем лежат методы автоматической классификации примеров реальной практики, то есть обучения на примерах. Примеры реальных ситуаций накапливаются за некоторый период и составляют обучающую выборку. В результате обучения системы автоматически строятся обобщенные правила или функции, определяющие принадлежность ситуаций классам, которыми обученная система пользуется при интерпретации незнакомых ситуаций. Из обобщающих правил автоматически формируется база знаний, которая периодически корректируется по мере накопления информации об анализируемых ситуациях.
Различают следующие виды самообучающихся систем:
1) Индуктивные системы. Система с индуктивным выводом – это самообучающаяся интеллектуальная информационная система, работающая на принципе индукции с помощью классификации примеров по значимым признакам.
Индуктивный вывод (от частного к общему) – вывод (обобщение) общих утверждений на основе множества частных утверждений. Обобщение примеров на основе этого принципа сводится к выбору классификационного признака из множества заданных; выявлению множества примеров по значению выбранного признака; определению принадлежности данных примеров одному из классов
Процесс классификации может быть представлен в виде дерева решений, в котором в промежуточных узлах находятся значения признаков последовательной классификации, а в конечных узлах – значения признака принадлежности определенному классу.
2) Нейронные сети – это самообучающиеся интеллектуальные информационные системы, которые на основе обучения по реальным примерам строят ассоциативную сеть понятий (нейронов) для параллельного поиска на ней решений. В результате обучения на примерах строятся математические решающие функции (передаточные функции или функции активации), которые определяют зависимости между входными (Xi) и выходными (Yj) признаками (сигналами).
Рисунок 3 – Решающая функция – нейрон.
Здесь Xi – входные признаки; Wi – степень влияния входного признака на выходной; U – взвешенная сумма значений входных признаков; f(u) – решающая функция; Y – выходные признаки (сигналы).
Каждая такая функция, называемая по аналогии с элементарной единицей человеческого мозга – нейроном, отображает зависимость значения выходного признака (Y) от взвешенной суммы (U) значений входных признаков (Xi), в которой вес входного признака (Wi) показывает степень влияния входного признака на выходной:
.
Достоинство нейронных сетей перед индуктивным выводом заключается в решении не только классифицирующих, но и прогнозирующих задач. Возможность нелинейного характера функциональной зависимости выходных и входных признаков позволяет строить более точные классификации. Сам процесс решения задач в силу проведения матричных преобразований проводится очень быстро. Фактически имитируется параллельный процесс прохода по нейронной сети в отличие от последовательного в индуктивных системах. Нейронные сети могут быть реализованы и аппаратно в виде нейрокомпьютеров с ассоциативной памятью.
3) Системы, основанные на прецедентах (Case-based reasoning) – это самообучающиеся интеллектуальные информационные системы, которые в качестве единиц знаний хранят прецеденты решений (примеры) и позволяют по запросу подбирать и адаптировать наиболее похожие прецеденты.
В этих системах база знаний содержит описания не обобщенных ситуаций, а собственно сами ситуации или прецеденты. Тогда поиск решения проблемы сводится к поиску по аналогии (абдуктивному выводу).
Абдуктивный вывод (от частного к частному) – вывод частных утверждений на основе поиска других аналогичных утверждений (прецедентов). Он включает следующие этапы:
1. Получение подробной информации о текущей проблеме;
2. Сопоставление полученной информации со значениями признаков прецедентов из базы знаний;
3. Выбор прецедента из базы знаний, наиболее близкого к рассматриваемой проблеме;
4. В случае необходимости выполняется адаптация выбранного прецедента к текущей проблеме;
5. Проверка корректности каждого полученного решения;
6. Занесение детальной информации о полученном решении в базу знаний.
Также как и для индуктивных систем, прецеденты описываются множеством признаков, по которым строятся индексы быстрого поиска. Но в отличие от индуктивных систем допускается нечеткий поиск с получением множества допустимых альтернатив, каждая из которых оценивается некоторым коэффициентом уверенности. Далее наиболее подходящие решения адаптируются по специальным алгоритмам к реальным ситуациям. Обучение системы сводится к запоминанию каждой новой обработанной ситуации с принятыми решениями в базе прецедентов.
4) Информационные хранилища (Data Warehouse) – это самообучающиеся ИИС, которые позволяют извлекать знания из баз данных и создавать специально-организованные базы знаний. Информационные хранилища представляют собой хранилища значимой информации, регулярно извлекаемой из оперативных баз данных и предназначенной для оперативного анализа данных (реализации OLAP-технологии).
Типичными задачами оперативного ситуационного анализа являются:
• Определение профиля потребителей конкретного товара;
• Предсказание изменений ситуации на рынке;
• Анализ зависимостей признаков ситуаций (корреляционный анализ) и др.
Технологии OLAP и Data mining.
OLAP (англ. online analytical processing, оперативная аналитическая обработка) — технология обработки данных, заключающаяся в подготовке суммарной (агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу
Data Mining – «добыча данных» – Извлечение новых знаний и неочевидных зависимостей из больших объемов сложных данных
Технология OLAP, так же как и data mining используется в приложениях класса analytical CRM. Однако в то время как технология data mining используется, в основном, для построения прогнозов, технология OLAP лишь позволяет взглянуть на данные с различных сторон, в основном, предоставляя возможность анализа агрегированных данных.
Технология OLAP, так же как и data mining используется в приложениях класса analytical CRM. Однако в то время как технология data mining используется, в основном, для построения прогнозов, технология OLAP лишь позволяет взглянуть на данные с различных сторон, в основном, предоставляя возможность анализа агрегированных данных.
Типы закономерностей, выявляемых методами Data Mining
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
- Многокритериальное пр. Качественный и количественный анализ. Пространственные модели.
- Пр в условиях неопределенности. Парадигма анализа решений. Деревья решений.
- Теория полезности. Принцип максимальной ожидаемой полезности. Методы прямого построения функции полезности
- Теория полезности. Основные свойства функции полезности. Учет отношения к риску в функции полезности.
- Теория полезности. Обоснование s- образности кривой полезности.
- Теория полезности. Определение отношения к риску на основе понятия детерминированного эквивалента.
- Определение детерминированного эквивалента. Детерминированный эквивалент для выпуклой и вогнутой функции.
- Стратегическая эквивалентность функций полезности. Линейная функция полезности.
- Логарифмическая функция полезности. Пример.
- Экспоненциальная функция полезности. Пример.
- Квадратичная функция полезности. Пример.
- Теоремы о несклонности к риску. Надбавка за риск.
- Теоремы о склонности к риску. Надбавка за риск.
- Пример функции полезности для лпр несклонного к риску.
- Пример функции полезности для лпр склонного к риску.
- Мера несклонности к риску. Обоснование. Интерпретация функции несклонности к риску.
- Связь между надбавкой за риск и функцией несклонности к риску.
- Особенности и признаки интеллектуальности информационных систем.
- Классификация иис. Системы с интеллектуальным интерфейсом
- Экспертные системы. Архитектура экспертной системы. Назначение составных частей эс.
- База знаний и механизм вывода на знаниях. Сравнительный анализ.
- Этапы создания экспертной системы. Идентификация предметной области. Построение концептуальной модели. Типы моделей
- Этапы проектирования экспертной системы. Формализация базы знаний. Классификация моделей представления знаний
- Особенности знаний и их отличие от данных. Декларативные и процедурные знания. Системы, основанные на знаниях. Этапы трансформации данных и знаний. Базы данных и базы знаний
- Самообучающиеся системы. Технологии olap и Data Mining. Определение Data Mining. Основные типы закономерностей, извлекаемых с помощью Data Mining
- Индукция и дедукция. Алгоритм индуктивного обучения. Деревья решений
- Искусственные нейронные сети. Обучение нейронных сетей
- Системы, основанные на прецедентах (Case Based Reasoning)
- Прямой логический вывод в эс на основе правила Modus Ponens.
- Обратный логический вывод в эс на основе правила Modus Ponens
- Семантические сети. Основные типы отношений в семантических сетях. Правила построения семантических сетей
- Теория фреймов. Структура фрейма. Слоты и присоединенные процедуры. Механизм вывода на фреймах
- Механизм вероятностного вывода на основе правил Байеса и коэффициентов уверенности
- Основные понятия теории нечетких множеств. Операции над нечеткими множествами. Понятия нечеткой и лингвистической переменной. Основы нечеткого логического вывода.
- Понятие нечеткого высказывания и нечеткого предиката
- Формирование базы правил систем нечеткого вывода
- Фаззификация
- Агрегирование
- Активизация
- Аккумуляция
- Понятие онтологии. Классификация онтологий и их применение.
- Редакторы онтологий, формализмы и форматы представления онтологий
- Подход к формированию онтологий в редакторе Protégé. Последовательность создания онтологий
- 37.2. Последовательность создания онтологий.
- Элементы фреймовых онтологий – классы, экземпляры, слоты (типы значений, кардинальность), отношения и т.Д.
- Язык создания экспертных систем clips: поддерживаемые парадигмы, основные структуры данных, конструкции языка для обработки данных и осуществления вывода.