ИИС Семенов Н

12.2. Машинное обучение

Машинное обучение – это синоним процедуры приобретения знаний, которая может быть использована, когда эксперт по знаниям:

не существует;
недостаточно надежен;
чересчур дорог;
недоступен постоянно во времени.

Процесс обучения машины в общем случае поясняется на рис. 12.3 [1].

Рис. 12.3. Модель обучения

Система генерирует знания, полученные в результате изучения среды. В процессе сравнения выходов ИИС и объекта информатизации в соответствии с критерием выявляется расхождение между результатами реального мира и выходом системы. Цель заключается в том, чтобы трансформировать реакцию среды и оценку в соответствии с критерием в форму знания.

Индуктивное обучение заключается в том, чтобы получить применимые правила из изучения прошлых специфических примеров. Таким образом, индуктивное обучение также называется обучением по примерам. В основу индуктивного обучения положены принципы индуктивных умозаключений. Индуктивным называется умозаключение, в котором на основании принадлежности признака отдельным предметам или частям некоторого класса делают вывод о его принадлежности классу в целом.

В связи с высокой трудоемкостью извлечения знаний по обычной технологии инженерии знаний в течение последних нескольких лет интенсивно разрабатываются методы автоматического извлечения знаний из накопленных фактов. В основе этих методов лежат известные из логики методы индуктивного вывода и ряд методов распознавания образов – «раскопка данных и открытие знаний». В отечественной литературе используется термин «интеллектуальный анализ данных (ИАД)» (рис. 12.4).

Рис.12.4. Классификация методов ИАД

Классической основой извлечения знаний из накопленных данных является математическая статистика.

ИАД – это процесс поддержки принятия решений, основанный на поиске данных скрытых закономерностей, то есть извлечения информации, _{которая могла быть охарактеризована как знания. В основу современной технологии ИАД положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки в виде распределений значений анализируемых показателей. Важное положение ИАД – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие скрытые знания.}

_{Все методы ИАД подразделяются на две группы по принципу работы с исходными обучающими данными.}

_{В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и анализа исключений (выявления аномалий в найденных закономерностях). Это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затруднительность их использования на больших объемах данных.}

_{Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции. Сам процесс поиска зависимостей распадается на три этапа: обнаружение зависимостей, прогнозирование, анализ аномалий. Обнаружение зависимостей состоит в просмотре БД с целью их автоматического выявления. Проблема заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое БД и делает правдоподобные предсказания относительно этих значений. Анализ аномалий – это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей.}

_{При выборе системы ИАД следует учитывать следующее:}

Система ИАД должна предсказывать значения целевой переменной и решать задачи классификации состояний объекта с тем, чтобы подбирать наилучшие модели для каждого класса состояний.
Система должна автоматически выполнять тесты, определяющие статистическую значимость развиваемой модели.
Полученная модель должна быть легко интерпретируема.
Система должна находить правила разнообразного вида.
Контроль за процессом обработки данных усилится, если воспользоваться ИАД-системой.
Важное значение имеет время обработки данных.

Основу программных средств ИАД составляет автоматический генератор функциональных процедур, который служит для описания скрытых закономерностей в данных. Процесс построения гипотез идет автоматически, независимо от их сложности. Система ИАД позволяет представить обнаруженные закономерности в символической форме – как математические формулы, таблицы, алгоритмы.

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы ИАД: ассоциация, последовательность, классификация, кластеризация, прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом.

Последовательность – если существует цепочка связанных во времени событий.

Классификация – выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы.

Прогнозирование – основой служит историческая информация, хранящаяся в БД в виде временных рядов.

Содержание