2.3. Требования к нелинейности элементов
Вообще то, требование использования более простых нелинейных функций нейронов можно было включить отдельным пунктом (критерием) предыдущего раздела. Однако достаточно большой объем изложения потребовал формирования отдельного раздела.
Имеется теорема, показывающая, что с помощью нейронных сетей можно сколь угодно точно приблизить любую непрерывную функцию, используя любуюнелинейность нейронов [4]. Хватает всего-навсего одной любой нелинейной функции. Однако такие широкие возможности для решения задачи приведения сети к логически прозрачному виду нам не нужны – нужно ограничиться теми нелинейными функциями, которые допускают простую интерпретацию. Наиболее проста из нелинейных единичная пороговая функцияh(функция Хевисайда). Если сумма сигналов, приходящих на нейрон с такой единичной нелинейной функцией, меньше или равна 0, то далее можно не обращать внимания на выходной сигнал нейрона – он будет нулевым и не повлияет на выдаваемые нейронами следующего слоя значения. Если эта сумма входных сигналов больше нуля, то нейрон генерирует единичный выходной сигнал и здесь нам опять не важна величина сигнала, а важно то, что воздействие на нейрон превысило некоторый критический уровень и нейрон возбудился. Такие пороговые нейроны допускают наиболее простую интерпретацию.
С другой стороны, просто линейная функция еще проще… Поэтому имеются предельные случаи:
“прозрачность”– линейная функция;
простой порог – функция Хевисайда.
Однако для обучения нейронной сети по методу двойственности необходимо наличие непрерывной первой производной у нелинейной функции нейрона, что для порогового нейрона не достигается. Поэтому можно предложить путь, использующий некоторые непрерывно дифференцируемые функции и переходящий к пороговым тогда, когда дальнейшее обучение сети не нужно.
Рассмотрим одну из наиболее часто используемых нелинейных функций нейрона – сигмоидную функцию f(A)=A/(c+|A|). Здесь c – настраиваемый параметр крутизны сигмоиды . Функция имеет непрерывную первую производную и принимает значения из диапазона[-1,1]. Устремлениеc кдает более пологую сигмоиду, а устремление к 0 – сигмоиду, близкую к пороговой функцииsgn(A), однако имеющую третье стабильное состояние, нуль, при нулевом входном сигнале. Однако значение c – параметр крутизны сигмоидной функции – обычно устанавливается одинаковым для всех нейронов в момент создания сети и не включается в число обучаемых параметров, поскольку в большинстве случаев это приводит к ухудшению интер- и экстраполяционных способностей нейронной сети. Действительно, поскольку нейронная сеть первоначально избыточна, то ей обычно проще научиться решению задачи, приближая задачник набором функций, близких к дельта-функциям (а точнее, набором“колоколообразных” функций), чем строя регрессионные зависимости. При этом параметры крутизны при обучении быстро устремляются к нулю, ускоряя обучение сети, но снижая качество решения тестовой выборки.
Исключение из сети малозначимых входных сигналов и элементов снижает избыточность и гибкость нейронной сети и поэтому появляется возможность начинать обучать и параметры крутизны сигмоиды для еще большего снижения избыточности сети.
Итак, надо пытаться заменить сигмоидный элемент пороговым элементом. При этом выход нейрона будет принимать дискретные значения, что упростит пользователю понимание сети. В качестве пороговой функции лучше брать трехзначную пороговую функцию вида
С другой стороны, не надо забывать о том, что сигмоиду можно приводить не к более крутой, а к более пологой функции. Тождественная функция f(A)=Aхоть и не является предельным случаем сигмоиды, но в окрестности нуля достаточно хорошо аппроксимирует сигмоиду при определенной крутизне последней. Поэтому можно пытаться заменять сигмоиду не только на порог, но и на линейную функцию. Подробно технология такой замены будет изложена в разделе 3.3.
- Методы нейроинформатики
- Фцп "интеграция"
- Предисловие редактора
- Моделирование данных при помощи кривыхдля восстановления пробелов в таблицах
- 660036, Красноярск-36, ивм со ран,
- 1. Общая схема метода
- 2. Итерационный метод главных компонент для данных с пропусками
- 3. Квазилинейные факторы и формулы Карлемана
- 4. Нейронный конвейер
- Литература
- Финитность и детерминированность простых программ для кинетической машины кирдина
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Понятие кинетической машины Кирдина
- 3. Модели выполнения программы
- 3.1. Последовательная модель
- 3.2. Параллельно-последовательная модель
- 3.3. Максимальная параллельно-последовательная модель
- 4. Программы, состоящие из одной команды
- 4.1. Распад
- 4.2. Синтез
- 4.3. Прямая замена
- 5. Заключение
- ЛитературА
- Алгоритмическая универсальность кинетической машины кирдина
- 660036, Красноярск-36, ивм со ран,
- Литература
- Погрешности нейронных сетей. Вычисление погрешностей весов синапсов
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Структура сети
- 3. Два базовых подхода к оценкам погрешности
- 4. Погрешности весов синапсов
- 5. Гарантированные интервальные оценки погрешностей весов синапсов
- 6. Среднеквадратические оценки погрешностей весов синапсов
- 7. Заключение
- Литература
- Нейросетевые методы обработки информации в задачах прогноза климатических характеристик и лесорастительных свойств ландшафтных зон
- 660036, Красноярск-36, ивм со ран,
- Введение
- 1. Проблемы обработки таблиц экспериментальных данных
- 2. Искусственные нейронные сети
- 2.1. Элементы нейронных сетей
- 2.2. Архитектуры нейронных сетей
- 2.3. Решение задач нейронными сетями
- 2.4. Подача входных сигналов и снятие выходных сигналов сети
- 2.5. Обучение нейронных сетей
- 2.6. Вычисление градиента функции оценки по подстроечным параметрам сети
- 2.7. Факторы, влияющие на обучение нейронной сети
- 2.8. Упрощение нейронных сетей
- 2.9 Вычисление показателей значимости параметров и входных сигналов сети
- 3. Транспонированная задача регрессии
- 4. Применение нейросетевых технологий для обработки таблицы климатических данных
- 4.1. Заполнение пропусков в таблице климатических данных
- 4.2. Построение классификационной модели ландшафтных зон и секторов континентальности
- 4.2.1. Классификация ландшафтных зон Сибири
- 4.2.2. Идентификация лесных зон по континентальности
- 4.3. Прогнозирование возможного изменения ландшафтных зон и секторов континентальности
- 5. Заключение
- Литература
- Интуитивное предсказание нейросетями взаимоотношений в группе
- 660049, Красноярск, пр. Мира 82
- 1. Проблема оценки взаимоотношений
- 2. Общая задача экспериментов
- 3. Применяемые в экспериментах психологические методики
- 4. Эксперименты по предсказанию группового статуса
- 5. Нейросетевое исследование структуры опросника
- 6. Оценка оптимизации задачника нейросетью с позиций теории информации
- 7 Эксперименты по предсказанию парных взаимоотношений
- Литература
- Аппроксимация многомерных функций полутораслойным предиктором с произвольными преобразователями
- 660049, Красноярск, пр. Мира 82
- 1. Постановка проблемы
- 2. Аналитическое решение
- 3. Запись решения в идеологии нейросетей
- 4. Алгоритмическая часть
- 5. Оценка информационной емкости нейронной сети при помощи выборочной константы Липшица
- 6. Соглашение о терминологии
- 7. Компоненты сети
- 8. Общий элемент сети
- 9. Вход сети
- 10. Выход сети
- 11. Синапс сети
- 12. Тривиальный сумматор
- 13. Нейрон
- 14. Поток сети
- 15. Скомпонованная полутораслойная поточная сеть
- Литература
- Использование нейросетевых технологий при решении аналитических задач в гис
- 660036, Красноярск-36, ивм со ран,
- Литература
- Использование нейросетевых технологий для проведения учебно-исследовательских работ
- 1. Введение
- 2. Зимняя Политехническая Школа по Нейроинформатике
- 3. Задачи
- 4. Результаты
- 5. Перспективы
- Литература
- Производство полуэмпирических знаний из таблиц данных с помощью обучаемых искусственных нейронных сетей
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Логически прозрачные нейронные сети
- 2.1. Архитектура логически прозрачных сетей
- 2.2. Критерии логической прозрачности нейронной сети
- 2.3. Требования к нелинейности элементов
- 3. Контрастирование нейронов
- 4. Приведение нейронных сетей к логически прозрачному виду
- 4.1. Наложение ограничений на архитектуру нейросети
- 4.2. Упрощение нейросети
- 4.3. Приведение настраиваемых параметров сети к предельным значениям и модификация нелинейных преобразователей нейронов
- 4.4. Проведение эквивалентных преобразований структуры нейросети
- 5. Вербализация нейронных сетей
- 6. Автоматическая генерация полуэмпирических теорий
- 7. Когнитологические аспекты
- 8. Влияние функции оценки на логическую прозрачность сети. Исключение примеров
- 9. Как выбирают американских президентов
- 10. Заключение
- Литература
- Содержание