12.2. Машинное обучение
Машинное обучение – это синоним процедуры приобретения знаний, которая может быть использована, когда эксперт по знаниям:
не существует;
недостаточно надежен;
чересчур дорог;
недоступен постоянно во времени.
Процесс обучения машины в общем случае поясняется на рис. 12.3 [1].
Рис. 12.3. Модель обучения
Система генерирует знания, полученные в результате изучения среды. В процессе сравнения выходов ИИС и объекта информатизации в соответствии с критерием выявляется расхождение между результатами реального мира и выходом системы. Цель заключается в том, чтобы трансформировать реакцию среды и оценку в соответствии с критерием в форму знания.
Индуктивное обучение заключается в том, чтобы получить применимые правила из изучения прошлых специфических примеров. Таким образом, индуктивное обучение также называется обучением по примерам. В основу индуктивного обучения положены принципы индуктивных умозаключений. Индуктивным называется умозаключение, в котором на основании принадлежности признака отдельным предметам или частям некоторого класса делают вывод о его принадлежности классу в целом.
В связи с высокой трудоемкостью извлечения знаний по обычной технологии инженерии знаний в течение последних нескольких лет интенсивно разрабатываются методы автоматического извлечения знаний из накопленных фактов. В основе этих методов лежат известные из логики методы индуктивного вывода и ряд методов распознавания образов – «раскопка данных и открытие знаний». В отечественной литературе используется термин «интеллектуальный анализ данных (ИАД)» (рис. 12.4).
Рис.12.4. Классификация методов ИАД
Классической основой извлечения знаний из накопленных данных является математическая статистика.
ИАД – это процесс поддержки принятия решений, основанный на поиске данных скрытых закономерностей, то есть извлечения информации, которая могла быть охарактеризована как знания. В основу современной технологии ИАД положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки в виде распределений значений анализируемых показателей. Важное положение ИАД – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие скрытые знания.
Все методы ИАД подразделяются на две группы по принципу работы с исходными обучающими данными.
В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и анализа исключений (выявления аномалий в найденных закономерностях). Это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затруднительность их использования на больших объемах данных.
Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции. Сам процесс поиска зависимостей распадается на три этапа: обнаружение зависимостей, прогнозирование, анализ аномалий. Обнаружение зависимостей состоит в просмотре БД с целью их автоматического выявления. Проблема заключается в отборе действительно важных зависимостей из огромного числа существующих в БД. Прогнозирование предполагает, что пользователь может предъявить системе записи с незаполненными полями и запросить недостающие значения. Система сама анализирует содержимое БД и делает правдоподобные предсказания относительно этих значений. Анализ аномалий – это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей.
При выборе системы ИАД следует учитывать следующее:
Система ИАД должна предсказывать значения целевой переменной и решать задачи классификации состояний объекта с тем, чтобы подбирать наилучшие модели для каждого класса состояний.
Система должна автоматически выполнять тесты, определяющие статистическую значимость развиваемой модели.
Полученная модель должна быть легко интерпретируема.
Система должна находить правила разнообразного вида.
Контроль за процессом обработки данных усилится, если воспользоваться ИАД-системой.
Важное значение имеет время обработки данных.
Основу программных средств ИАД составляет автоматический генератор функциональных процедур, который служит для описания скрытых закономерностей в данных. Процесс построения гипотез идет автоматически, независимо от их сложности. Система ИАД позволяет представить обнаруженные закономерности в символической форме – как математические формулы, таблицы, алгоритмы.
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы ИАД: ассоциация, последовательность, классификация, кластеризация, прогнозирование.
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом.
Последовательность – если существует цепочка связанных во времени событий.
Классификация – выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы.
Прогнозирование – основой служит историческая информация, хранящаяся в БД в виде временных рядов.
- Введение
- Глава 1. Интеллектуальные информационные системы
- Основные направления в искусственном интеллекте
- Нейросетевые и нейрокомпьютерные технологии.
- Мультиагентные (многоагентные) системы.
- 1.2. Данные и знания
- Эволюция развития информационных систем
- 1.4. Основные разновидности иис и характеристики решаемых задач
- 1.5. Классификация иис
- Глава 2. Структура и этапы проектирования экспертных систем
- 2.1. Структура статической и динамической эс
- 2.2. Характеристики, стадии существования и этапы проектирования статических эс
- Глава 3. Модели представления знаний
- 3.1. Продукционная модель
- 3.2. Формально-логическая модель
- 3.3. Фреймовая модель
- 3.4. Семантические сети
- Глава 4. Методы обработки знаний в интеллектуальных системах. Нечеткие знания
- 4.1. Интерпретатор правил и управление выводом
- 4.2. Нечеткие знания и нечеткая логика
- Глава 5. Теоретические основы инженерии знаний
- 5.1. Процедура извлечения знаний
- 5.2. Основные аспекты извлечения знаний
- 5.3. Методы извлечения знаний
- Глава 6. Нейронные сети
- 6.1. Искусственный нейрон и функции активации
- 6.2. Нейронные сети с прямой связью
- 6.3. Алгоритмы обучения нейронных сетей
- Глава 7. Технология создания экономических советующих систем
- 7.1. Определение и виды информационных технологий
- 7.2. Технология «Ресурс – Обучение – Цель»
- 7.3. Определение коэффициента важности целей
- Глава 8. Программный инструментарий разработки систем, основанных на знаниях
- 8.1. Цели и принципы технологии разработки программных средств
- 8.2. Технология и инструментарий разработки программных средств
- Глава 9. Интеллектуальные интернет-технологии
- 9.1. Интеллектуальные агенты
- 9.2. Мультиагентные системы
- Мультиагентные системы различного функционального назначения
- Глава 10. Новые тенденции инженерии знаний,
- 10.1. Методы извлечения глубинных пластов экспертного знания
- 10.2. Хранилища данных
- 10.3. Управление знаниями
- 10.4. Технология создания систем управления знаниями
- Глава 11. Интеллектуальные информационные системы в условиях неопределенности и риска
- 11.1. Понятие риска в сппр слабоструктурированных проблем
- 11.2. Реализация эс инвестиционного проектирования
- * Эс определения целей инвестирования капитала.
- Глава 12. Системы, ориентированные на естественно-языковые запросы. Машинное обучение
- 12.1. Естественно-языковые интерфейсы
- 12.2. Машинное обучение
- Глава 13. Современные методы исследования,
- 13.1. Интеллектуальные методы проектирования сложных систем
- 13.2. Эвристические методы синтеза сложных систем
- 13.3. Интегрированные, гибридные и синергетические системы
- Библиографический список
- Оглавление
- Николай Александрович Семенов Интеллектуальные информационные системы
- 170026, Г. Тверь, наб. Афанасия Никитина, 22