Методы статистического обучения
В гл. 5 детально описаны статистические методы обучения, поэтому здесь приводится лишь обзор этих методов.
Однослойные сети несколько ограничены с точки зрения проблем, которые они могут решать; однако в течение многих лет отсутствовали методы обучения многослойных сетей. Статистическое обучение обеспечивает путь решения этих проблем.
По аналогии обучение сети статистическими способами подобно процессу отжига металла. В процессе отжига температура металла вначале повышается, пока атомы металла не начнут перемещаться почти свободно. Затем температура постепенно уменьшается и атомы непрерывно стремятся к минимальной энергетической конфигурации. При некоторой низкой температуре атомы переходят на низший энергетический уровень.
В искусственных нейронных сетях полная величина энергии сети определяется как функция определенного множества сетевых переменных. Искусственная переменная температуры инициируется в большую величину, тем самым позволяя сетевым переменным претерпевать большие случайные изменения. Изменения, приводящие к уменьшению полной энергии сети, сохраняются; изменения, приводящие к увеличению энергии, сохраняются в соответствии с вероятностной функцией. Искусственная температура постепенно уменьшается с течением времени и сеть конвергирует в состояние минимума полной энергии.
Существует много вариаций на тему статистического обучения. Например, глобальная энергия может быть определена как средняя квадратичная ошибка между полученным и желаемым выходным вектором из обучаемого множества, а переменными могут быть веса сети. В этом случае сеть может быть обучена, начиная с высокой искусственной температуры, путем выполнения следующих шагов:
Подать обучающий вектор на вход сети и вычислить выход согласно соответствующим сетевым правилам.
Вычислить значение средней квадратичной ошибки между желаемым и полученным выходными векторами.
Изменить сетевые веса случайным образом, затем вычислить новый выход и результирующую ошибку. Если ошибка уменьшилась, оставить измененный вес; если ошибка увеличилась, оставить измененный вес с вероятностью, определяемой распределением Больцмана. Если изменения весов не производится, то вернуть вес к его предыдущему •значению.
Повторить шаги с 1 по 3, постепенно уменьшая искусственную температуру.
Если величина случайного изменения весов определяется в соответствии с распределением Больцмана, сходимость к глобальному минимуму будет осуществляться только в том случае, если температура изменяется обратно пропорционально логарифму прошедшего времени обучения. Это может привести к невероятной длительности процесса обучения, поэтому большое внимание уделялось поиску более быстрых методов обучения. Выбором размера шага в соответствии с распределением Коши может быть достигнуто уменьшение температуры, обратно пропорциональное обучающему времени, что существенно уменьшает время, требуемое для сходимости.
Заметим, что существует класс статистических методов для нейронных сетей, в которых переменными сети являются выходы нейронов, а не веса. В гл. 5 эти алгоритмы рассматривались подробно.
- Нейрокомпьютерная техника: Теория и практика
- Предисловие
- Благодарности
- Введение почему именно искусственные нейронные сети?
- Свойства искусственных нейронных сетей
- Обучение
- Обобщение
- Абстрагирование
- Применимость
- Исторический аспект
- Искусственные нейронные сети сегодня
- Перспективы на будущее
- Искусственные нейронные сети и экспертные системы
- Соображения надежности
- Литература
- Глава 1. Основы искусственных нейронных сетей
- Биологический прототип
- Искусственный нейрон
- Активационные функции
- Однослойные искусственные нейронные сети
- Многослойные искусственные нейронные сети
- Нелинейная активационная функция
- Сети с обратными связями
- Терминология, обозначения и схематическое изображение искусственных нейронных сетей
- Терминология
- Дифференциальные уравнения или разностные уравнения
- Графическое представление
- Обучение искусственных нейронных сетей
- Цель обучения
- Обучение с учителем
- Обучение без учителя
- Алгоритмы обучения
- Литература
- Глава 2. Персептроны персептроны и зарождение искусственных нейронных сетей
- Персептронная представляемость
- Проблема функции исключающее или
- Линейная разделимость
- Преодоление ограничения линейной разделимости
- Эффективность запоминания
- Обучение персептрона
- Алгоритм обучения персептрона
- Дельта-правило
- Трудности с алгоритмом обучения персептрона
- Литература
- Глава 3. Процедура обратного распространения введение в процедуру обратного распространения
- Обучающий алгоритм обратного распространения Сетевые конфигурации
- Многослойная сеть.
- Обзор обучения
- Дальнейшие алгоритмические разработки
- Применения
- Предостережение
- Паралич сети
- Локальные минимумы
- Размер шага
- Временная неустойчивость
- Литература
- Глава 4. Сети встречного распространения введение в сети встречного распространения
- Структура сети
- Нормальное функционирование Слои Кохоненна
- Слой Гроссберга
- Обучение слоя кохонена
- Предварительная обработка входных векторов
- Выбор начальных значений весовых векторов
- Режим интерполяции
- Статистические свойства обученной сети
- Обучение слоя гроссберга
- Сеть встречного распространения полностью
- Приложение: сжатие данных
- Обсуждение
- Литература
- Глава 5. Стохастические методы
- Использование обучения
- Больцмановское обучение
- Обучение Коши
- Метод искусственной теплоемкости
- Приложения к общим нелинейным задачам оптимизации
- Обратное распространение и обучение коши
- Трудности, связанные с обратным распространением
- Трудности с алгоритмом обучения Коши
- Комбинирование обратного распространения с обучением Коши
- Обсуждение
- Литература
- Глава 6. Сети Хопфилда
- Конфигурации сетей с обратными связями
- Бинарные системы
- Устойчивость
- Ассоциативная память
- Непрерывные системы
- Сети Хопфилда и машина Больцмана
- Термодинамические системы
- Статистичекие сети Хопфилда
- Обобщенные сети
- Приложения Аналого-цифровой преобразователь
- Задача коммивояжера
- Обсуждение Локальные минимумы
- Скорость
- Функция энергии
- Емкость сети
- Литература
- Глава 7. Двунаправленная ассоциативная память
- Структура дап
- Восстановление запомненных ассоциаций
- Кодирование ассоциаций
- Емкость памяти
- Непрерывная дап
- Адаптивная дап
- Конкурирующая дап
- Заключение
- Литература
- Глава 8. Адаптивная резонансная теория
- Архитектура apt
- Описание apt
- Упрощенная архитектура apt
- Функционирование сети apt в процессе классификации
- Реализация apt Обзор
- Функционирование сетей apt
- Пример обучения сети apt
- Характеристики apt
- Инициализация весовых векторов т
- Настройка весовых векторов Вj
- Инициализация весов bij
- Теоремы apt
- Заключение
- Литература
- Глава 9. Оптические нейронные сети
- Векторно-матричные умножители
- Электронно-оптические матричные умножители
- Сети Хопфилда на базе электронно-оптических матричных умножителей
- Голографические корреляторы
- Объемные голограммы
- Оптическая сеть Хопфилда, использующая объемные голограммы
- Заключение
- Литература
- Глава 10. Когнитрон и неокогнитрон
- Когнитрон
- Структура
- Обучение
- Неокогнитрон
- Структура
- Обобщение
- Вычисления
- Обучение
- Заключение
- Литература
- Приложение а. Биологические нейронные сети человеческий мозг: биологическая модель для искусственных нейронных сетей
- Организация человеческого мозга
- Мембрана клетки
- Компьютеры и человеческий мозг
- Приложение б. Алгоритмы обучения
- Обучение с учителем и без учителя
- Метод обучения хэбба
- Алгоритм обучения Хэбба
- Метод сигнального обучения Хэбба
- Метод дифференциального обучения Хэбба
- Входные и выходные звезды
- Обучение входной звезды
- Обучение выходной звезды
- Обучение персептрона
- Метод обучения уидроу-хоффа
- Методы статистического обучения
- Самоорганизация
- Литература