logo
Романов В

Очистка и преобразование базы данных

Предварительное, до подачи на вход сети, преобразование данных с по­мощью стандартных статистических' приемов может существенно улучшить

как параметры обучения (длительность, сложность), так и работу системы. Например, если входной ряд имеет отчетливый экспоненциальный вид, то после его логарифмирования получится более простой ряд, и если в нем имеются сложные зависимости высоких порядков, обнаружить их теперь будет гораздо легче. Очень часто ненормально распределенные данные предварительно подвергают нелинейному преобразованию; исходный ряд значений переменной преобразуется некоторой функцией, и ряд, получен­ный на выходе, принимается за новую входную переменную. Типичные спо­собы преобразования - возведение в степень, извлечение корня, взятие об­ратных величин, экспонент или логарифмов.

для того чтобы улучшить информационную структуру данных, могут оказаться полезными определенные комбинации переменных - произведе­ния, частные и т.д. Например, когда вы пытаетесь предсказать изменения цен акций по данным о позициях на рынке опционов, отношение числа оп­ционов пут (put options, т.е. опционов на продажу) к числу опционов колл (саll options, т.е. опционов на покупку) более информативно, чем оба этих показателя в отдельности. К тому же, с помощью таких промежуточных комбинаций часто можно получить более простую модель, что особенно важно, когда число степеней свободы ограниченно.

Наконец, для некоторых функций преобразования, реализованных в вы­ходном узле, возникают проблемы с масштабированием. Сигмоид определен отрезке [0,1], поэтому выходную переменную нужно масштабировать так, чтобы она принимала значения в этом интервале. Известно несколько спосо­бов масштабирования: сдвиг на константу, пропорциональное изменение значений с новым минимумом и максимумом, центрирование путем вычита­ния среднего значения, приведение стандартного отклонения к единице, стандартизация (два последних действия вместе). Имеет смысл сделать так, чтобы значения всех входных и выходных величин в сети всегда лежали, например, в интервале [0,1] (или [-1,1]), - тогда можно будет без риска ис­пользовать любые функции преобразования.