logo
СППР_Часть1

2.2.3 Удаление аномалий и сглаживание

На диаграмме данных (рис. 2.7) видно, что данные содержат аномалии (выбросы) и шумы, за которыми трудно разглядеть тенденцию. Поэтому перед прогнозированием необходимо удалить аномалии и сгладить данные. Сделаем это при помощи парциальной обработки.

Парциальная предобработка служит для восстановления пропущенных данных, редактирования аномальных значений и спектральной обработки данных (например, сглаживания данных). Именно эти операции часто проводятся в первую очередь над данными.

Присутствие аномалий при построении моделей оказывает на них большое влияние, ухудшая качество результата. Воспользуемся Мастером обработки и выберем парциальную обработку.

В Мастере парциальной предобработки на втором шаге выбираем поле "Количество" и указываем ему тип обработки "Редактирование аномальных значений", степень подавления "Большая" (рис.2.9). Переходим на шаг запуска процесса обработки и нажимаем "Пуск".

Рисунок 2.9 – Настройка параметров парциальной предобработки

После выполнения процесса обработки на диаграмме (рис. 2.10) видно, что выбросы уменьшились, и стала проясняться реальная картина продаж.

Рисунок 2.10 – Временной ряд после удаления аномалий

Сглаживание данных применяется для удаления шумов из исходного набора, а также для выделения тенденции, трудно обнаруживаемой в исходном наборе. Платформа Deductor Studio предлагает несколько видов спектральной обработки: сглаживание данных путем указания полосы пропускания, вычитание шума путем указания степени вычитания шума и вейвлет-преобразования путем указания глубины разложения и порядка вейвлета.

Сгладим данные при помощи парциальной обработки, выберем переключатель «Вычитание шума» и укажем степень вычитания шума – «большая». Временной ряд после удаления шумов приведен на рисунке 2.11.

Как видно из примера данные стали более сглаженными и могут служить для дальнейшей обработки. Взглянув на данные легко понять общую тенденцию.

Рисунок 2.11 – Временной ряд после удаления шумов

Теперь перед аналитиком встает вопрос, а как, собственно, прогнозировать временной ряд. Обычно мы сталкивались с ситуацией, когда есть входные столбцы - факторы и есть выходные столбцы – результат. В данном случае столбец один. Строить прогноз на будущее будем, основываясь на данных прошлых периодов, т. е. предполагая, что количество продаж на следующий месяц зависит от количества продаж за предыдущие месяцы.

Это значит, что входными факторами для модели могут быть продажи за текущий месяц, продажи за месяц ранее и т.д., а результатом должны быть продажи за следующий месяц, т. е. здесь явно необходимо трансформировать данные к скользящему окну.