2. Итерационный метод главных компонент для данных с пропусками
Пусть задана прямоугольная таблица, клетки которой либо заполнены действительными числами или значком @, означающим отсутствие данных. Требуется правдоподобным образом восстановить отсутствующие данные. При более детальном рассмотрении возникают три задачи:
заполнить пропуски в таблице;
отредактировать таблицу– изменить значения известных данных таким образом, чтобы наилучшим образом работали модели, используемые при восстановлении пропущенных данных;
построить по таблице вычислитель, заполняющий пробелы в приходящей для анализа строке данных с пробелами (в предположении, что данные в этой строке связаны теми же соотношениями, что и в строках таблицы).
Для решения этих задач предлагается использовать метод последовательного приближения множества векторов данных (строк таблицы) прямыми.
Основная процедура – поиск наилучшего приближения таблицы с пропусками матрицей видаxiyj+bj.
Пусть задана таблица с пропусками A=(aij). Ставится задача поиска наилучшего приближенияA матрицей видаxiyj+bj методом наименьших квадратов:
(1)
Если фиксированы два из трех векторов xi, yj иbj, то третий легко находится по явным формулам. Задаваясь практически произвольными начальными приближениями для двух из них, ищем значение третьего, далее, объявляем неизвестным другой вектор из трех, находим его значение, наконец, находим третий и т.д. (по кругу) – эти простые итерации, очевидно, сходятся. Более того, по фиксированномуxi, можно сразу по явным формулам посчитать значенияyjиbj– таким образом расщепление производится не на три, а на две составляющие.
При фиксированных векторах yjиbjзначенияxi, доставляющие минимум форме (1), определяются из равенствxi=0 следующим образом:
.
При фиксированном векторе xi значенияyjиbj, доставляющие минимум форме (1), определяются из двух равенствyj=0 и bj=0 следующим образом:
Для каждого j имеем систему из двух уравнений относительноyj иbj:
, где,,k=0..1, l=0..1.
Выражая из первого уравнения bjи подставляя полученное значение во второе, получим:
,.
Начальные значения:
y – случайный, нормирован на 1 (т.е.)
, где(число известных данных вj-ом столбце), т.е.bj определяется как среднее значение в столбце.
Критерий остановки – малость относительно улучшения /, где– полученное за цикл уменьшение значения, а– само текущее значение. Второй критерий – малость самого значения. Окончательно: процедура останавливается, еслиили для некоторых, 0.
Последовательное исчерпание матрицы A.
Для данной матрицы A ищем наилучшее приближение матрицейP1 видаxiyj+bj. Далее, дляA-P1ищем наилучшее приближение этого же видаP2 и т.д. Контроль ведется, например, по остаточной дисперсии столбцов.
Q-факторное заполнение пропусков есть их определение из суммыQполученных матриц видаxiyj+bj,
Q-факторный “ремонт” таблицы – замена ее на суммуQполученных матриц видаxiyj+bj.
Пусть в результате описанного процесса построена последовательность матриц Pq видаxiyj+bj (), исчерпывающая исходную матрицуA с заданной точностью. Опишем операцию восстановления данных в поступающей на обработку строкеaj с пробелами(некоторыеaj=@). Для каждогоq по заданной строке определим числоxq(a) и вектор:
;
;
;
…………….. (2)
;
;
……………..
Здесь многообразие M – прямая, координаты точек наM задаются параметрическим уравнениемzj=tyj+bj, а проекцияPrM(a) определяется согласно (2):
Pr(a)=t(a)yj+bj;
. (3)
Для Q-факторного восстановления данных полагаем:
,. (4)
Если пробелы отсутствуют, то описанный метод приводит к обычным главным компонентам – сингулярному разложению исходной таблицы данных. В этом случае, начиная с q=2, (b=0). В общем случае это не так и центрирование к данным с пробелами неприменимо.
Также следует учесть, что при отсутствии пробелов, полученные прямые будут ортогональны, то есть получим ортогональную систему факторов (прямых). Исходя из этого, при неполных данных возможен процесс ортогонализации полученной системы факторов, который заключается в том, что исходная таблица восстанавливается при помощи полученной системы, после чего эта система пересчитывается заново, но уже на полных данных.
- Методы нейроинформатики
- Фцп "интеграция"
- Предисловие редактора
- Моделирование данных при помощи кривыхдля восстановления пробелов в таблицах
- 660036, Красноярск-36, ивм со ран,
- 1. Общая схема метода
- 2. Итерационный метод главных компонент для данных с пропусками
- 3. Квазилинейные факторы и формулы Карлемана
- 4. Нейронный конвейер
- Литература
- Финитность и детерминированность простых программ для кинетической машины кирдина
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Понятие кинетической машины Кирдина
- 3. Модели выполнения программы
- 3.1. Последовательная модель
- 3.2. Параллельно-последовательная модель
- 3.3. Максимальная параллельно-последовательная модель
- 4. Программы, состоящие из одной команды
- 4.1. Распад
- 4.2. Синтез
- 4.3. Прямая замена
- 5. Заключение
- ЛитературА
- Алгоритмическая универсальность кинетической машины кирдина
- 660036, Красноярск-36, ивм со ран,
- Литература
- Погрешности нейронных сетей. Вычисление погрешностей весов синапсов
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Структура сети
- 3. Два базовых подхода к оценкам погрешности
- 4. Погрешности весов синапсов
- 5. Гарантированные интервальные оценки погрешностей весов синапсов
- 6. Среднеквадратические оценки погрешностей весов синапсов
- 7. Заключение
- Литература
- Нейросетевые методы обработки информации в задачах прогноза климатических характеристик и лесорастительных свойств ландшафтных зон
- 660036, Красноярск-36, ивм со ран,
- Введение
- 1. Проблемы обработки таблиц экспериментальных данных
- 2. Искусственные нейронные сети
- 2.1. Элементы нейронных сетей
- 2.2. Архитектуры нейронных сетей
- 2.3. Решение задач нейронными сетями
- 2.4. Подача входных сигналов и снятие выходных сигналов сети
- 2.5. Обучение нейронных сетей
- 2.6. Вычисление градиента функции оценки по подстроечным параметрам сети
- 2.7. Факторы, влияющие на обучение нейронной сети
- 2.8. Упрощение нейронных сетей
- 2.9 Вычисление показателей значимости параметров и входных сигналов сети
- 3. Транспонированная задача регрессии
- 4. Применение нейросетевых технологий для обработки таблицы климатических данных
- 4.1. Заполнение пропусков в таблице климатических данных
- 4.2. Построение классификационной модели ландшафтных зон и секторов континентальности
- 4.2.1. Классификация ландшафтных зон Сибири
- 4.2.2. Идентификация лесных зон по континентальности
- 4.3. Прогнозирование возможного изменения ландшафтных зон и секторов континентальности
- 5. Заключение
- Литература
- Интуитивное предсказание нейросетями взаимоотношений в группе
- 660049, Красноярск, пр. Мира 82
- 1. Проблема оценки взаимоотношений
- 2. Общая задача экспериментов
- 3. Применяемые в экспериментах психологические методики
- 4. Эксперименты по предсказанию группового статуса
- 5. Нейросетевое исследование структуры опросника
- 6. Оценка оптимизации задачника нейросетью с позиций теории информации
- 7 Эксперименты по предсказанию парных взаимоотношений
- Литература
- Аппроксимация многомерных функций полутораслойным предиктором с произвольными преобразователями
- 660049, Красноярск, пр. Мира 82
- 1. Постановка проблемы
- 2. Аналитическое решение
- 3. Запись решения в идеологии нейросетей
- 4. Алгоритмическая часть
- 5. Оценка информационной емкости нейронной сети при помощи выборочной константы Липшица
- 6. Соглашение о терминологии
- 7. Компоненты сети
- 8. Общий элемент сети
- 9. Вход сети
- 10. Выход сети
- 11. Синапс сети
- 12. Тривиальный сумматор
- 13. Нейрон
- 14. Поток сети
- 15. Скомпонованная полутораслойная поточная сеть
- Литература
- Использование нейросетевых технологий при решении аналитических задач в гис
- 660036, Красноярск-36, ивм со ран,
- Литература
- Использование нейросетевых технологий для проведения учебно-исследовательских работ
- 1. Введение
- 2. Зимняя Политехническая Школа по Нейроинформатике
- 3. Задачи
- 4. Результаты
- 5. Перспективы
- Литература
- Производство полуэмпирических знаний из таблиц данных с помощью обучаемых искусственных нейронных сетей
- 660036, Красноярск-36, ивм со ран,
- 1. Введение
- 2. Логически прозрачные нейронные сети
- 2.1. Архитектура логически прозрачных сетей
- 2.2. Критерии логической прозрачности нейронной сети
- 2.3. Требования к нелинейности элементов
- 3. Контрастирование нейронов
- 4. Приведение нейронных сетей к логически прозрачному виду
- 4.1. Наложение ограничений на архитектуру нейросети
- 4.2. Упрощение нейросети
- 4.3. Приведение настраиваемых параметров сети к предельным значениям и модификация нелинейных преобразователей нейронов
- 4.4. Проведение эквивалентных преобразований структуры нейросети
- 5. Вербализация нейронных сетей
- 6. Автоматическая генерация полуэмпирических теорий
- 7. Когнитологические аспекты
- 8. Влияние функции оценки на логическую прозрачность сети. Исключение примеров
- 9. Как выбирают американских президентов
- 10. Заключение
- Литература
- Содержание