Использование обучения
Искусственная нейронная сеть обучается посредством некоторого процесса, модифицирующего ее веса. Если обучение успешно, то предъявление сети множества входных сигналов приводит к появлению желаемого множества выходных сигналов. Имеется два класса обучающих методов: детерминистский и стохастический.
Детерминистский метод обучения шаг за шагом осуществляет процедуру коррекции весов сети, основанную на использовании их текущих значений, а также величин входов, фактических выходов и желаемых выходов. Обучение персептрона является примером подобного детерминистского подхода (см. гл. 2).
Стохастические методы обучения выполняют псевдослучайные изменения величин весов, сохраняя те изменения, которые ведут к улучшениям. Чтобы увидеть, как это может быть сделано, рассмотрим рис. 5.1, на котором изображена типичная сеть, в которой нейроны соединены с помощью весов. Выход нейрона является здесь взвешенной суммой его входов, которая, преобразована с помощью нелинейной функции (подробности см. гл. 2). Для обучения сети может быть использована следующая процедура:
Выбрать вес случайным образом и подкорректировать его на небольшое случайное Предъявить множество входов и вычислить получающиеся выходы.
Сравнить эти выходы с желаемыми выходами и вычислить величину разности между ними. Общепринятый метод состоит в нахождении разности между фактическим и желаемым выходами для каждого элемента обучаемой пары, возведение разностей в квадрат и нахождение суммы этих квадратов. Целью обучения является минимизация этой разности, часто называемой целевой функцией.
Выбрать вес случайным образом и подкорректировать его на небольшое случайное значение. Если коррекция помогает (уменьшает целевую функцию), то сохранить ее, в противном случае вернуться к первоначальному значению веса.
Повторять шаги с 1 до 3 до тех пор, пока сеть не будет обучена в достаточной степени.
Рис. 5.1. Двухслойная сеть без обратных связей
Этот процесс стремится минимизировать целевую функцию, но может попасть, как в ловушку, в неудачное решение. На рис. 5.2 показано, как это может иметь место в системе с единственным весом. Допустим, что первоначально вес взят равным значению в точке А. Если случайные шаги по весу малы, то любые отклонения от точки А увеличивают целевую функцию и будут отвергнуты. Лучшее значение веса, принимаемое в точке В, никогда не будет найдено, и система будет поймана в ловушку локальным минимумом, вместо глобального минимума в точке В. Если же случайные коррекции веса очень велики, то как точка А, так и точка В будут часто посещаться, но то же самое будет иметь место и для каждой другой точки. Вес будет меняться так резко, что он никогда не установится в желаемом минимуме.
Рис.5.2. Проблема локальных минимумов.
Полезная стратегия для избежания подобных проблем состоит в больших начальных шагах и постепенном уменьшении размера среднего случайного шага. Это позволяет сети вырываться из локальных минимумов и в то же время гарантирует окончательную стабилизацию сети.
Ловушки локальных минимумов досаждают всем алгоритмам обучения, основанным на поиске минимума, включая персептрон и сети обратного распространения, и представляют серьезную и широко распространенную трудность, которой часто не замечают. Стохастические методы позволяют решить эту проблему. Стратегия коррекции весов, вынуждающая веса принимать значение глобального оптимума в точке В, возможна.
В качестве объясняющей аналогии предположим, что на рис. 5.2 изображен шарик на поверхности в коробке. Если коробку сильно потрясти в горизонтальном направлении, то шарик будет быстро перекатываться от одного края к другому. Нигде не задерживаясь, в каждый момент шарик будет с равной вероятностью находиться в любой точке поверхности.
Если постепенно уменьшать силу встряхивания, то будет достигнуто условие, при котором шарик будет на короткое время «застревать» в точке В. При еще более слабом встряхивании шарик будет на короткое время останавливаться как в точке А, так и в точке В. При непрерывном уменьшении силы встряхивания будет достигнута критическая точка, когда сила встряхивания достаточна для перемещения шарика из точки А в точку В, но недостаточна для того, чтобы шарик мог вскарабкаться из В в А. Таким образом, окончательно шарик остановится в точке глобального минимума, когда амплитуда встряхивания уменьшится до нуля.
Искусственные нейронные сети могут обучаться по существу тем же самым образом посредством случайной коррекции весов. Вначале делаются большие случайные коррекции с сохранением только тех изменений весов, которые уменьшают целевую функцию. Затем средний размер шага постепенно уменьшается, и глобальный минимум в конце концов достигается.
Это сильно напоминает отжиг металла, поэтому для ее описания часто используют термин «имитация отжига». В металле, нагретом до температуры, превышающей его точку плавления, атомы находятся в сильном беспорядочном движении. Как и во всех физических системах, атомы стремятся к состоянию минимума энергии (единому кристаллу в данном случае), но при высоких температурах энергия атомных движений препятствует этому. В процессе постепенного охлаждения металла возникают все более низкоэнергетические состояния, пока в конце концов не будет достигнуто наинизшее из возможных состояний, глобальный минимум. В процессе отжига распределение энергетических уровней описывается следующим соотношением:
P(e) = exp(–e/kT) (5.1)
где Р(е) – вероятность того, что система находится в состоянии с энергией е; k – постоянная Больцмана; Т – температура по шкале Кельвина.
При высоких температурах Р(е) приближается к единице для всех энергетических состояний. Таким образом, высокоэнергетическое состояние почти столь же вероятно, как и низкоэнергетическое. По мере уменьшения температуры вероятность высокоэнергетических состояний уменьшается по сравнению с низкоэнергетическими. При приближении температуры к нулю становится весьма маловероятным, чтобы система находилась в высокоэнергетическом состоянии.
- Нейрокомпьютерная техника: Теория и практика
- Предисловие
- Благодарности
- Введение почему именно искусственные нейронные сети?
- Свойства искусственных нейронных сетей
- Обучение
- Обобщение
- Абстрагирование
- Применимость
- Исторический аспект
- Искусственные нейронные сети сегодня
- Перспективы на будущее
- Искусственные нейронные сети и экспертные системы
- Соображения надежности
- Литература
- Глава 1. Основы искусственных нейронных сетей
- Биологический прототип
- Искусственный нейрон
- Активационные функции
- Однослойные искусственные нейронные сети
- Многослойные искусственные нейронные сети
- Нелинейная активационная функция
- Сети с обратными связями
- Терминология, обозначения и схематическое изображение искусственных нейронных сетей
- Терминология
- Дифференциальные уравнения или разностные уравнения
- Графическое представление
- Обучение искусственных нейронных сетей
- Цель обучения
- Обучение с учителем
- Обучение без учителя
- Алгоритмы обучения
- Литература
- Глава 2. Персептроны персептроны и зарождение искусственных нейронных сетей
- Персептронная представляемость
- Проблема функции исключающее или
- Линейная разделимость
- Преодоление ограничения линейной разделимости
- Эффективность запоминания
- Обучение персептрона
- Алгоритм обучения персептрона
- Дельта-правило
- Трудности с алгоритмом обучения персептрона
- Литература
- Глава 3. Процедура обратного распространения введение в процедуру обратного распространения
- Обучающий алгоритм обратного распространения Сетевые конфигурации
- Многослойная сеть.
- Обзор обучения
- Дальнейшие алгоритмические разработки
- Применения
- Предостережение
- Паралич сети
- Локальные минимумы
- Размер шага
- Временная неустойчивость
- Литература
- Глава 4. Сети встречного распространения введение в сети встречного распространения
- Структура сети
- Нормальное функционирование Слои Кохоненна
- Слой Гроссберга
- Обучение слоя кохонена
- Предварительная обработка входных векторов
- Выбор начальных значений весовых векторов
- Режим интерполяции
- Статистические свойства обученной сети
- Обучение слоя гроссберга
- Сеть встречного распространения полностью
- Приложение: сжатие данных
- Обсуждение
- Литература
- Глава 5. Стохастические методы
- Использование обучения
- Больцмановское обучение
- Обучение Коши
- Метод искусственной теплоемкости
- Приложения к общим нелинейным задачам оптимизации
- Обратное распространение и обучение коши
- Трудности, связанные с обратным распространением
- Трудности с алгоритмом обучения Коши
- Комбинирование обратного распространения с обучением Коши
- Обсуждение
- Литература
- Глава 6. Сети Хопфилда
- Конфигурации сетей с обратными связями
- Бинарные системы
- Устойчивость
- Ассоциативная память
- Непрерывные системы
- Сети Хопфилда и машина Больцмана
- Термодинамические системы
- Статистичекие сети Хопфилда
- Обобщенные сети
- Приложения Аналого-цифровой преобразователь
- Задача коммивояжера
- Обсуждение Локальные минимумы
- Скорость
- Функция энергии
- Емкость сети
- Литература
- Глава 7. Двунаправленная ассоциативная память
- Структура дап
- Восстановление запомненных ассоциаций
- Кодирование ассоциаций
- Емкость памяти
- Непрерывная дап
- Адаптивная дап
- Конкурирующая дап
- Заключение
- Литература
- Глава 8. Адаптивная резонансная теория
- Архитектура apt
- Описание apt
- Упрощенная архитектура apt
- Функционирование сети apt в процессе классификации
- Реализация apt Обзор
- Функционирование сетей apt
- Пример обучения сети apt
- Характеристики apt
- Инициализация весовых векторов т
- Настройка весовых векторов Вj
- Инициализация весов bij
- Теоремы apt
- Заключение
- Литература
- Глава 9. Оптические нейронные сети
- Векторно-матричные умножители
- Электронно-оптические матричные умножители
- Сети Хопфилда на базе электронно-оптических матричных умножителей
- Голографические корреляторы
- Объемные голограммы
- Оптическая сеть Хопфилда, использующая объемные голограммы
- Заключение
- Литература
- Глава 10. Когнитрон и неокогнитрон
- Когнитрон
- Структура
- Обучение
- Неокогнитрон
- Структура
- Обобщение
- Вычисления
- Обучение
- Заключение
- Литература
- Приложение а. Биологические нейронные сети человеческий мозг: биологическая модель для искусственных нейронных сетей
- Организация человеческого мозга
- Мембрана клетки
- Компьютеры и человеческий мозг
- Приложение б. Алгоритмы обучения
- Обучение с учителем и без учителя
- Метод обучения хэбба
- Алгоритм обучения Хэбба
- Метод сигнального обучения Хэбба
- Метод дифференциального обучения Хэбба
- Входные и выходные звезды
- Обучение входной звезды
- Обучение выходной звезды
- Обучение персептрона
- Метод обучения уидроу-хоффа
- Методы статистического обучения
- Самоорганизация
- Литература