logo
ИС_і технол_управл_Лаб

2.1 Теоретические сведения

Корреляционный анализ применяется для оценки зависимости выходных полей данных от входных факторов и устранения незначащих факторов. Принцип корреляционного анализа состоит в поиске таких значений, которые в наименьшей степени коррелированны (взаимосвязаны) с выходным результатом. Такие факторы могут быть исключены из результирующего набора данных практически без потери полезной информации. Критерием принятия решения об исключении является порог значимости. Если модуль корреляции (степень взаимозависимости) между входным и выходным факторами меньше порога значимости, то соответствующий фактор отбрасывается как незначащий.

В процессе обработки значащие факторы могут выбираться вручную или автоматически. При ручном выборе около имени каждого входного поля устанавливается флажок, если это поле нужно включить в выходную выборку, и снимается в противном случае. В автоматическом режиме исключаются все факторы, корреляция которых с выходными полями меньше порога задаваемого уровня значимости.

Корреляционный анализ применяется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции, всегда обозначаемый латинской буквой r, используется для определения наличия взаимосвязи между двумя свойствами.

Связь между признаками (по шкале Чеддока) может быть сильной, средней и слабой. Тесноту связи определяют по величине коэффициента корреляции, который может принимать значения от -1 до +1 включительно.

Таблица 2.1 – Критерии оценки тесноты связи

Величина коэффициента корреляции

0,1 – 0,3

0,3 – 0,5

0,5 – 0,7

0,7 – 0,9

0,9 – 1,0

Характеристика силы связи

слабая

умеренная

заметная

высокая

весьма высокая

Пример 2.1.

В качестве примера рассмотрим, как определить товары-заменители и сопутствующие товары, имея временные ряды объемов продаж. У товаров-заменителей должна быть большая отрицательная корреляция, т.к. увеличение продаж одного товара ведет к спаду продаж второго. А у сопутствующих товаров – большая положительная корреляция.

Пусть есть такие временные ряды продаж товаров:

Таблица 2.1

Товар1

Товар2

Товар3

Товар4

10

20

15

25

12

22

12

26

14

25

9

26

13

24

10

25

14

25

9

24

14

25

9

23

12

21

12

24

10

18

14

23

16

24

9

22

13

21

9

23

17

25

7

25

Определим корреляцию Товар1 с остальными товарами. Данные о продажах находятся в файле товар.txt.

Для решения задачи будем использовать программу Deductor.

На первом шаге решения задачи нужно загрузить в Deductor данные из текстового файла. Для этого в левом окне программы Deductor нажимаем кнопку «Мастер импорта».

Импорт данных осуществляется в режиме диалога, вам нужно только правильно отвечать на вопросы мастера.

На первом шаге укажите, что данные будут читаться из текстового файла (Text), и и укажите имя файла. Файл можно выбрать, используя кнопку с многоточием (…). Результат представлен на рисунке 2.1.

Рисунок 2.1 – Ввод данных из файла

На третьем шаге мастера импорта выбираем переключатель «С разделителями». Поскольку данные в текстовом файле отделены друг от друга пробелами, на следующем шаге указываем, что разделителем является пробел.

На следующем шаге указываем типы данных в столбцах. Deductor определяет тип данных автоматически, вам нужно проверить, правильно ли определены типы данных и откорректировать их в случае необходимости. Результат работы на этом шаге представлен на рис. 2.2.

Рисунок 2.2 – Определение параметров стлбцов

На следующем шаге нажмите кнопку «Пуск», чтобы запустить процесс загрузки файла. Затем укажите способ отображения данных как показано на рис. 2.3.

На рис. 2.4 показан результат загрузки данных и отображение их в виде таблицы.

Теперь можно приступить к обработке данных. Для этого вызываем «Мастер обработки» и выбираем пункт «Корреляционный анализ», как показано на рис. 2.5.

Рисунок 2.3 – Выбор способа отображения данных

Рисунок 2.5 – Выбор метода обработки данных

На первом шаге корреляционного анализа нужно определить какие данные являются входными, а какие выходными. Также можно указать, какие данные не будут использоваться при анализе. В этом случае они могут быть информационными или неиспользуемыми.

Поскольку мы хотим определить степень зависимости между продажами Товара1 и остальных товаров, то указываем Товар1 как выходной, а остальные товары входными, как показано на рис. 2.6.

Рисунок 2.6 – Задание входных и выходных столбцов для корреляционного анализа.

На следующем шаге выбираем «Коэффициент корреляции Пирсона», а затем нажимаем кнопку «Пуск», чтобы запустить процесс вычисления коэффициентов корреляции.

На следущем шаге, когда коэффициенты корреляции посчитаны, можно отбирать значащие факторы. Это можно сделать вручную или автоматически. В последнем случае необходимо указать порог значимости. На рисунке 2.7 указан очень низкий порог значимости, поэтому отбираются все переменные.

Рисунок 2.7 – Выбор значащих факторов

Одним из доступных способов визуализации результатов является визуализатор «Матрица корреляции». В данном примере эта матрица имеет следующий вид:

Рисунок 2.8 – Результат корреляционного анализа

Как видно из рисунка 2.7, ряд продаж для Товар2 имеет очень большую положительную, а Товар3 – отрицательную корреляцию. Из этого можно сделать вывод, что Товар2, возможно, является сопутствующим товаром, а Товар3 – заместителем Товар1. Корреляция с продажами Товар4 Товара1 является отрицательной, но при этом абсолютное значение корреляции невелико, и, следовательно, можно говорить об отсутствии взаимосвязи между продажами Товар1 и продажами Товар4.