6.5. Метод обратного распространения ошибки
Этот метод обучения многослойной нейронной сети называется обобщенным дельта-правилом или правилом errorbackpropagation (обратного распространения ошибки). Метод был предложен в 1986г. Руммельхартом, Маклеландом и Вильямсом [89]. Это ознаменовало возрождение интереса к нейронным сетям, который стал угасать в начале 70-х годов. Позже было обнаружено, что Паркер опубликовал подобные результаты в 1982г., а Вербос выполнил такую работу в 1984г. Однако такова природа науки, что ученые, работающие независимо друг от друга, не могут использовать все то прогрессивное, что есть в других областях, и поэтому часто случается повторение уже достигнутого. Однако статья Руммельхарта и др., опубликованная в журнале Nature (1986), является до сих пор наиболее цитируемой в этой области [81].
Обучение сети начинается с предъявления образа и вычисления соответствующей реакции (рис. 6.5.). Сравнение с желаемой реакцией дает возможность изменять веса связей таким образом, чтобы сеть на следующем шаге могла выдавать более точный результат. Обучающее правило обеспечивает настройку весов связей. Информация о выходах сети является исходной для нейронов предыдущих слоев. Эти нейроны могут настраивать веса своих связей для уменьшения погрешности на следующем шаге. Когда мы предъявляем ненастроенной сети входной образ, она будет давать некоторый случайный выход. Функция ошибки представляет собой разность между текущим выходом сети и идеальным выходом, который необходимо получить. Для
успешного обучения сети требуется приблизить выход сети к желаемому выходу, т.е. последовательно уменьшать величину функции ошибки. Это достигается настройкой межнейронных связей. Обобщенное дельта-правило обучает сеть путем вычисления функции ошибки для заданного входа с последующим ее обратным распространением (вот откуда название) от каждого слоя к предыдущему. Каждый нейрон в сети имеет свои веса, которые настраиваются, чтобы уменьшить величину функции ошибки. Для нейронов выходного слоя известны их фактические и желаемые значения выхода. Поэтому настройка весов связей для таких нейроновявляется относительно простой. Однако для нейронов предыдущих слоев настройка не столь очевидна. Интуитивно ясно, что нейроны внутренних слоев, которые связаны с выходами, имеющими большую погрешность, должны изменять свои веса значительно сильнее, чем нейроны, соединенные с почти корректными выходами. Другими словами, веса данного нейрона должны изменяться прямо пропорционально ошибке тех нейронов, с которыми данный нейрон связан. Вот почему обратное распространение этих ошибок через сеть позволяет корректно настраивать веса связей между всеми слоями. В этом случае величина функции ошибки уменьшается и сеть обучается.
Основные соотношения метода обратного распространения ошибки получены в [81] при следующих обозначениях:
величина функции ошибки для образа ;
желаемый выход нейронадля образа;
действительный выход нейрона для образа;
вес связи между м им нейронами.
Пусть функция ошибки прямо пропорциональна квадрату разности между действительным и желательным выходами для всей обучающей выборки:
(6.1)
Множитель вводится здесь для упрощения операции дифференцирования.
Активация каждого нейрона для образазаписывается в виде взвешенной суммы:
. (6.2)
Выход каждого нейрона является значением пороговой функции, которая активизируется взвешенной суммой. В многослойной сети это обычно переходная функция, хотя может использоваться любая непрерывно дифференцируемая монотонная функция:
(6.3)
Тогда можно будет записать по правилу цепочки:
(6.4)
Для второго сомножителя в (6.4), используя (6.2), получаем:
(6.5)
поскольку за исключением случая, когда эта производная равна единице.
Изменение ошибки как функция изменения входов нейрона определяется так:
(6.6)
Поэтому (6.4) преобразуется к виду:
(6.7)
Следовательно, уменьшение величиныозначает изменение веса пропорционально
(6.8)
где коэффициент пропорциональности, влияющий на скорость обучения.
Теперь нам необходимо знать значение для каждого нейрона. Используя (6.6) и правило цепочки, можно записать:
(6.9)
Исходя из (6.3), записываем второй сомножитель в (6.8):
. (6.10)
Теперь рассмотрим первый сомножитель в (6.9). Согласно (6.1), нетрудно получить:
(6.11)
Поэтому (6.12)
Последнее соотношение является полезным для выходных нейронов, поскольку для них известны целевые и действительные значения выходов. Однако для нейронов внутренних слоев целевые значения выходов не известны.
Таким образом, если нейрон не выходной нейрон, то снова, используя правило цепочки, а также соотношения (6.2) и (6.6), можно записать:
(6.13)
(6.14)
Здесь сумма поисчезает, поскольку частная производная не равна нулю только лишь в одном случае, также как и в (6.4). Подставив (6.11) в (6.8), получим окончательное выражение:
(6.15)
Уравнения (6.12) и (6.15) составляют основу метода обучения многослойной сети.
Преимущество использования сигмоидной функции в качестве нелинейного элемента состоит в том, что очень напоминает шаговую функцию и, таким образом, может демонстрировать поведение, подобное, естественному нейрону [81]. Сигмоидная функция определяется как
, (6.16)
и имеет диапазон
Здесь положительная константа, влияющая на растяжение функции: увеличениесжимает функцию, а прифункцияприближается к функции Хевисайда [94]. Этот коэффициент может использоваться в качестве параметра усиления, поскольку для слабых входных сигналов угол наклона будет довольно крутым и функция будет изменяться быстро, производя значительное усиление сигнала. Для больших входных сигналов угол наклона и, соответственно, усиление будут намного меньшими. Это означает, что сеть может принимать большие сигналы и при этом оставаться чувствительной к слабым изменениям сигнала.
Однако главный смысл в использовании данной функции состоит в том, что она имеет простую производную, и это значительно облегчает применение backpropagation-метода. Если выход нейрона задается как
(6.17)
то производная по отношению к данному нейрону вычисляется так:
(6.18)
т.е., является простой функцией от выходов нейронов.
- Предисловие
- Список использованных сокращений
- Часть 1.
- Глава 1. Математические основы формализации и методов описания
- Часть 2.
- Глава 2. Методы представления знаний с использованием
- Часть 3.
- Глава 3. Интеллектуальные технологии создания информационных систем. Способы получения информации и ее реализации для оценивания состояния агрегатов
- Часть 4.
- Глава 4. Источники информации и причины возникновения ее неопределенности
- 4.1. Переработка и использование информации в реальных условиях функционирования агрегатов
- Часть 5.
- Список использованных сокращений и обозначений
- Введение:
- Часть 1.
- Глава 1. Математические основы формализации и методов описания
- Формализация объекта и парадигмы
- 1.3. Множества и перечень базовых операций над множествами
- Перечень базовых операций над множествами
- Области определения функций
- Обратная функция
- Теорема
- Мера и нечеткая мера
- Задача построения нечетких мер
- Нечеткие множества: определение и формы записи в операциях и
- 1.7.Функции доверия и правило Демпстера а.Р.,[23]
- 1.8. Нормировка функций в теории нечётких множеств
- 1.9. Нечёткие отношения: прямая и обратная задачи
- Глава 2. Методы представления знаний с использованием приближенных и нечетких множеств
- 2.1.Нечеткие вычислительные технологии
- 2.2.Семантика объекта: определение и типизация
- 2.3.Создание Базы знаний: постановка, семантика, прагматика
- 2.4. Сопоставление объектов: постановка, семантика, прагматика
- 2.5.Распознавание объектов: постановка, семантика, прагматика
- 2.6. Управление процессом представления знаний
- Нечёткие множества: субъективность и неточность
- 2.8.Нечеткая алгебра
- 2.9.Нечеткие иерархические отношения
- 2.10.Естественность операций max и min
- 2.11.Нечеткая статистика
- 2.12. Совместимость и нечеткое ожидание
- Глава 3. Нечеткие технологии создания информационных систем. Способы получения информации и ее реализации для оценивания состояния агрегатов
- 3.2. Обработка нечетких данных как неопределенных чисел
- Методология представления агрегата в виде комплексного механизма
- 3.2.2. Описание исходной информации на языке размытых множеств
- Размытость интервалов, ограничений, критериев и целей управления в эксплуатации и диагностике
- 3.3.3. Размытые ограничения, цели и оптимизация работы агрегата в условиях нечеткой информации о состоянии
- Анализ информации для диагностики и оценивания состояния механизмов
- 3.5. Оценки погрешностей измерений и наблюдений за состоянием агрегатов
- Влияние погрешностей исходных данных на погрешности диагноза
- Глава 4. Источники информации и причины возникновения ее неопределенности
- 4. 2. Управление и идентификация на объекте в условиях неопределенности информации на основе знаний, получаемых при функциональной диагностике
- Тогда множество диагностических признаков g также будет нечетким
- 4.3.Представление и использование чётких и «размытых» знаний в математических моделях оценивания состояния агрегатов, на основе функциональной диагностики
- 4.3.1.Формализация решения задачи оценивания состояния
- 4.3.2. Особенности решения задач контроля и функционирования агрегата
- Глава 5. Введение в генетическое программирование
- 5.1. Введение в генетические и эволюционные алгоритмы
- 5.2. Сравнительный анализ эволюционных алгоритмов
- 5.3. Генетическое программирование
- 5.4. Перспективные направления развития гп
- Глава 6. Введение в нейронные сети
- 6.1. Алгоритмы их обучение и эластичные нейро-нечеткие системы
- 6.2. Имитация нервных клеток
- 6.3. Математическая модель нейрона
- 6.4. Обучение нейронных сетей
- 6.5. Метод обратного распространения ошибки
- 6.6. Алгоритм настройки нейронной сети
- Глава 7. Другие методы нечетких технологий для построения
- 7.1. Введение в теорию возможностей и смысла
- 7.1.1. Неопределенность и неточность
- 7.1.2. Традиционные модели неточности и неопределенности
- 7.1.3. Меры неопределенности
- 7.1.4. Меры возможности и необходимости
- 7.1.5. Возможность и вероятность
- 7.2. Языки и технологии логического программирования prolog, lisp
- Глава 8. Послесловие
- 8.1. Эволюция искусственного интеллекта для развития интеллектуальных
- 8.2.Экспертные системы нового уровня
- 8.3. Роботика
- 8.4. Преобразование речи искусственного языка
- 8.5. Интеллект муравьёв и его использование
- 8.6. Искусственная жизнь, мозг, познание, разум, память и мышление
- 8.7. Боты
- Optimizator подсистемы диагностики состояния энергоустановок, skais, для решения задач технического обслуживания
- Заключение
- Заключение
- Литература