logo
МатМод экология / Лабораторные работы

II. Построение модели в среде Statistica. Общие сведения о программе Statistica.

Рабочее окно пакета STATISTICA.

В основу организации данных программы положена электронная таблица, которая поддерживает основные возможности таких табличных редакторов как MS Excel, Lotus 1-2-3, Quattro Pro и др.

Рис. 2.5 – Рабочее окно пакета STATISTICA

Данные располагаются на рабочем листе по столбцам, для чего вводится два понятия: Variables (Переменные) – это переменные (совокупности), располагаемые в столбец (на рисунке 2.5 отображены как Var1, var2, …, Var10). Второе понятие Cases (Значения, наблюдения) - это единицы совокупности или уровни ряда (в данном случае отображаются в левой части таблицы как 1, 2, 3, …10).

В электронной таблице допускаются незаполненные ячейки (пропущенные значения), однако при обработке таких разреженных данных необходимо указывать способ, которым эти пропуски будут заполняться: нулями, средними значениями переменной, конкретными значениями, удаляться из общей совокупности данных и т.п.

В верхней части рабочего окна пакета (как и в любом Windows- приложение) расположено главное меню (в русифицированной версии программы – на русском языке):

Рисунок 2.6 – Главное меню программы.

Как видим из рисунка 1.3, пункты из панели главного меню: File (Файл), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Tools (Сервис), Windows (Окно) и Help (Справка) по своей функциональной принадлежности являются стандартными для Windows-приложений.

Специфическими пунктами меню можно считать следующие:

Ввод данных эксперимента.

Ввод данных в пакет STATISTICA можно осуществить двумя способами:

  1. Импортировать готовые данные из других программ (баз данных, математических и статистических пакетов прикладных программ).

  2. Ввести необходимую информацию вручную.

Импорт данных из внешних программ

Для создания файла данных первым способом введем в табличном редакторе Excel данные представленные в таблице 2.1.

Таблица 2.1 - Динамика урожайности зерновых культур, ц/га

Год

УрожайностьY

1955г.

13,5

1956г.

11,6

1957г.

14,7

1958г.

16,2

1959г.

15,2

1960г.

15,1

1961г.

16,9

1962г.

16,8

1963г.

12,9

1964г.

13,8

1965г.

16,1

1966г.

20,4

1967г.

17,8

1968г.

18,3

1969г.

18,9

1970г.

22,8

1971г.

23,1

1972г.

19,6

1973г.

27,0

Далее сохраним файл с именем Книга 1.xls на диске С или папке Мои документы (или другой папке) после этого необходимо закрыть табличный редактор Excel.

Для импорта файла с данными в пакет STATISTICA необходимо пройти следующие шаги:

Шаг 1. В главном меню пакета выберем File Open (Файл Открыть).

Шаг 2. В появившемся окне (рисунок 1.4) необходимо выбрать тип файла, в данном случае файл электронной таблицы Excel (т.е. необходимо выбрать расширение *.xls) и имя искомого файла, далее нажать кнопку Открыть.

Рис. 2.7 - Диалоговое окно Open (Открытие)

Шаг 3. В открывшемся диалоговом окне (рисунок 2.8) будет предложено импортировать отдельную страницу или все страницы рабочей книги.

Рис. 2.7 – Диалоговое окно Открытие файла (Opening file)

В нашем случае выберем второй вариант и перейдем к следующему шагу

Шаг 4. В появившемся диалоговом окне (Выбор импортируемой страницы) выберем необходимую страницу и нажмем клавишу ОК.

Рисунок 2.8 – Диалоговое окно выбора листа для импорта

Шаг 5. В следующем окне будет предложено указать размерность таблицы, а также предоставлена возможность оставить имеющиеся имена импортируемых переменных и имена записей. Сделаем установки как показано на рисунке 2.9 и нажмем кнопку ОК.

Рисунок 2.9 – Диалоговое окно открытие файла Excel.

По умолчанию будет указан диапазон, охватывающий все ячейки в импортируемой таблице.

Пройдя вышеперечисленные шаги, получим следующий лист рабочей книги пакета STATISTICA (рисунок 2.10).

Рисунок 2.10 – Результат импорта файла табличного редактора Excel в пакет STATISTICA

Ручной ввод информации

Для иллюстрации создания файла данных вторым способом используем данные приведенные в таблице 2.2:

Таблица 2.2 – Показатели деятельности малых предприятий

Y

X1

X2

1

20

10

12

2

35

15

10

3

30

20

9

4

45

25

9

5

60

40

8

6

69

37

8

7

75

43

6

8

90

35

4

9

105

38

4

10

110

55

5

11

120

50

3

12

130

35

1

13

130

40

2

14

130

55

3

15

135

45

1

16

140

65

2

здесь Y – Прибыль предприятия, тыс. руб., X1 – Среднегодовая стоимость основных производственных фондов, тыс. руб., X2 – Численность работников предприятия, чел.

Шаг 1. После запуска программы STATISTICA в главном меню необходимо выбрать Файл→Создать (File New). В появившемся окне Создание нового документа (Create New Document), рис. 2.11, необходимо ввести количество переменных (Number of variables) – количество столбцов таблицы, и число наблюдений (Number of cases)- количество строк. В данном случае исходная матрица имеет размерность 316.

Рис. 2.11 – Окно задания параметров исходной матрицы данных

При необходимости задаются и другие характеристики данных и таблицы.

Шаг 2. После соответствующих установок переходим к рабочему листу электронной таблицы (рисунок 2.12).

Рис. 2.12 – Окно рабочей книги электронной таблицы

В данном случае переменные (столбцы) имеют стандартные имена Var1, Var2, Var3, …, как правило, исследователь заменяет их на необходимые обозначения, используемые в анализе. В нашем случае необходимо заменить Var1 на Y, Var2 на X1, Var3 на X2. Для этого, необходимо дважды щелкнуть по заглавию переменной (Var1) или выбрать в главном меню DataVariable Specs (Данные Спецификация переменной).

В появившемся окне (рис. 2.13) можно изменить шрифт, его размер и т.д. В группе опций Формат отображения (Display format) можно задать формат данных, содержащихся в соответствующим столбце. В поле Длинное метка или формула (вставка функции) (Long name (label or formula with Functions) можно внести дополнительную информацию по переменной или преобразовать (создать новую) переменную на базе существующей, введя формулу для ее вычисления.

В данном случае ограничимся внесением в поле Имя: (Name) вместо обозначения Var1 букву Y и нажмем кнопку ОК.

Рис. 2.13 – Окно индивидуальных установок переменной

Далее аналогичным образом вносим изменения в имена остальных переменных. Непосредственно вносить данные в ячейки таблицы можно двойным щелчком мыши по соответствующему полю, и записью туда необходимого значения (аналогично программе Excel, например). Получаем результат, представленный на рисунке 2.14.

Рис. 2.14 – Результат создания файла данных в пакет STATISTICA

Построение линейной парной регрессионной модели

Рассмотрим построение линейной модели по выборочным данным следующего примера.

Пример 2.1. В табл. 2.3 приведены данные по 45 предприятиям по статистической связи между стоимостью основных фондов (fonds, млн. денежных единиц) и средней выработкой на 1 работника (product, тыс. денежных единиц); z – вспомогательный признак: z = 1 – федеральное подчинение, z = 2 – муниципальное.

Таблица 2.3

fonds

product

z

fonds

product

z

fonds

product

z

6,5

18,3

1

9,3

17,2

2

10,4

21,4

2

10,3

31,1

1

5,7

19,0

2

10,2

23,5

2

7,7

27,0

1

12,9

24,8

2

18,0

31,1

2

15,8

37,9

1

5,1

21,5

2

13,8

43,2

2

7,4

20,3

1

3,8

14,5

2

6,0

19,5

2

14,3

32,4

1

17,1

33,7

2

11,9

42,1

2

15,4

31,2

1

8,2

19,3

2

9,4

18,1

2

21,1

39,7

1

8,1

23,9

2

13,7

31,6

2

22,1

46,6

1

11,7

28,0

2

12,0

21,3

2

12,0

33,1

1

13,0

30,9

2

11,6

26,5

2

9,5

26,9

1

15,3

27,2

2

9,1

31,6

2

8,1

24,0

1

13,5

29,9

2

6,6

12,6

2

8,4

24,2

1

10,5

34,9

2

7,6

28,4

2

15,3

33,7

1

7,3

24,4

2

9,9

22,4

2

4,3

18,5

1

13,8

37,4

2

14,7

27,7

2

Необходимо построить модель зависимости средней выработки от объемов фондов.

product=F(fonds)

Предварительно необходимо оценить примерный вид зависимости. Для этого данные необходимо ввести в среду Statistica (любым способом),

Рис. 2.15 – Таблица с данными зависимости.

А затем данные из таблицы необходимо отобразить на графике, или говорят «построить диаграмму рассеяния». Для этого в меню Графика (Graphs) выберем команду Диаграммы рассеяния (Scatter plots).

Рис. 2.16 – Задание параметров диаграммы рассеяния

В полученном окне нажмем кнопку Переменные (Variables), и устанавливаем как зависимую переменную (X) - переменную fonds, а как независимую (Y) - : product.

Рис. 2.16 – Задание переменных модели.

Переменная z, являясь вспомогательной, в модель включаться не будет. Если дополнительно включить опцию графика «Подборка» - Линейная ( Fit : Linear), то Statistica одновременно с построением диаграммы подберет линейную регрессионную модель.

Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке (рис. 4.1). Это означает, что уравнение линейной регрессии имеет вид y = 1,4344 x + 11,5021.

Рис. 2.17 – Диаграмма рассеяния с подобранной линейной моделью.

По общему виду диаграммы можно предположить, что зависимость действительно в среднем носит линейный характер.

Для более детального анализа построенной модели (определения коэффициентов корреляции и детерминации, например), необходимо воспользоваться специальными инструментами линейной регрессии. Для этого выберем пункт Множественная регрессия меню Агнализ (Statistics Multiple Regression).

Рис. 2.18 – Задание параметров линейной регрессии.

На вкладке «Быстрый» нажмем кнопку «Переменные» и в качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products. Обратите внимание, что если для построения диаграммы рассеяния сначала задавалась независимая переменная X , а затем зависимая Y, то здесь наоборот: сначала задается независимая переменная (в нашем случае - product), а затем зависимая – fonds.

Рис. 2.19 – Задание переменных регрессии.

Обратите внимание, что в парвом нижнем углу окна «Множественная регресия» задаётся правило обработки пропущенных данных: можно удалять строки, в которых присутствуют пропущенные данные, либо заменять пропущенные значения средними.

Нажав кнопку OK, получаем основные результаты анализа (рис. 2.19). Для нас наиболее важен коэффициент детерминации R2: 0.597 и значение критерия Фишера F: если критерий Фишера (в нашем случае F=63,544) меньше, чем уровень значимости p (в нашем случае p = 0.000000), то принимается гипотеза о линейной независимости переменной y от переменной x, и линейную модель строить было нецелесообразно. В нашем случае линейная зависимость есть, и не смотря на то, что коэффициент детерминации не очень большой, эта модель может считаться эффективной (возможно, более эффективную модель с точки зрения детерминации вообще невозможно построить).

Рис. 2.20 – Результаты построенной линейной модели.

Нажав на кнопку «Итоговая таблица регрессии» можно увидеть окно со всеми статистическими характеристиками модели (в заголовке таблицы) и, самое главное, с коэффициентами регрессии (столбец В таблицы).

Рис. 2.21 – Подробные характеристики модели.

Так, можно видеть, что линейная модель имеет вид:

product=11,505+1,4344*fonds

Остальные данные в окне означают:

Построение многомерной регрессионной модели

В пакете Statistica можно строить не только парные, или однофакторные, модели зависимости (y от x), но и множественные (многофакторные), когда зависимая переменная определяется сразу несколькими независимыми переменными:

y=f(x1,x2,… xk).

Кроме того, как парные, так и множественные модели могут быть нелинейными.

Построим несколько разных моделей зависимости прибыли предприятия от основных производственных фондов и численности работников:

Таблица 2.4 Показатели деятельности малых предприятий

Y

X1

X2

1

20

10

12

2

35

15

10

3

30

20

9

4

45

25

9

5

60

40

8

6

69

37

8

7

75

43

6

8

90

35

4

9

105

38

4

10

110

55

5

11

120

50

3

12

130

35

1

13

130

40

2

14

130

55

3

15

135

45

1

16

140

65

2

где: Y – Прибыль предприятия, тыс. руб., X1 – Среднегодовая стоимость основных производственных фондов, тыс. руб., X2 – Численность работников предприятия, чел.

Шаг 1. После ввода данных в пакет Statistica, выберем пункт меню «Анализ→ Углубленные методы анализа→ Множественная нелинейная регрессия»:

Рис. 2.22 Выбор углубленного метода построения модели

Шаг 2. В открывшемся окне нажмем кнопку «Переменные» и в качестве переменных для последующего анализа выберем все три переменные (Y, X1 и X2):

Рис. 2.22 Выбор переменных для анализа

Шаг 3. Нажав на кнопку «ОК» перейдем в окно выбора нелинейных компонентов модели:

Рис. 2.23 Выбор нелинейных составляющих модели.

В нашем случае в модель, кроме обязательных линейных слагаемых, можно будет включать вторую и четвертую степень переменных, а также квадратные корни и экспоненты от них. В практическом плане Statistica создает в памяти вспомогательную таблицу с данными, куда заносит результаты вычисления указанных функций от наших переменных. Такая «невидимая» таблица в нашем случае имеет вид:

Таблица 2.5. Внутреннее представление данных.

Y

X1

X2

Y^2

X1^2

X2^2

Y^4

X1^4

X2^4

Sqr(Y)

Sqr(X1)

Sqr(X2)

eY

eX1

eX2

1

20

10

12

400

100

144

160000

10000

20736

4,47

3,16

3,46

485165195

22026,47

162754,8

2

35

15

10

1225

225

100

1500625

50625

10000

5,91

3,87

3,16

1,586E+15

3269017

22026,47

3

30

20

9

900

400

81

810000

160000

6561

5,47

4,47

3

1,069E+13

4,85E+08

8103,084

4

45

25

9

2025

625

81

4100625

390625

6561

6,71

5

3

3,493E+19

7,2E+10

8103,084

5

60

40

8

3600

1600

64

12960000

2560000

4096

7,74

6,32

2,82

1,142E+26

2,35E+17

2980,958

6

69

37

8

4761

1369

64

22667121

1874161

4096

8,30

6,082

2,82

9,254E+29

1,17E+16

2980,958

7

75

43

6

5625

1849

36

31640625

3418801

1296

8,66

6,55

2,44

3,733E+32

4,73E+18

403,4288

8

90

35

4

8100

1225

16

65610000

1500625

256

9,48

5,91

2

1,22E+39

1,59E+15

54,59815

9

105

38

4

11025

1444

16

1,22E+08

2085136

256

10,24

6,16

2

3,99E+45

3,19E+16

54,59815

10

110

55

5

12100

3025

25

1,46E+08

9150625

625

10,48

7,41

2,23

5,921E+47

7,69E+23

148,4132

11

120

50

3

14400

2500

9

2,07E+08

6250000

81

10,95

7,071

1,73

1,304E+52

5,18E+21

20,08554

12

130

35

1

16900

1225

1

2,86E+08

1500625

1

11,40

5,91

1

2,873E+56

1,59E+15

2,718282

13

130

40

2

16900

1600

4

2,86E+08

2560000

16

11,40

6,32

1,41

2,873E+56

2,35E+17

7,389056

14

130

55

3

16900

3025

9

2,86E+08

9150625

81

11,40

7,41

1,73

2,873E+56

7,69E+23

20,08554

15

135

45

1

18225

2025

1

3,32E+08

4100625

1

11,61

6,70

1

4,263E+58

3,49E+19

2,718282

16

140

65

2

19600

4225

4

3,84E+08

17850625

16

11,83

8,06

1,41

6,327E+60

1,69E+28

7,389056

Важно! Для вычисления некоторых функций наложены ограничения: для вычисления логарифмов и квадратного корня входная переменная должна быть больше 0, экспонента вычисляется только для чисел в интервале от -40 до + 40 и т.д. На этом этапе Statistica не различает, какие переменные впоследствии будут входными (независимыми), а какие – выходными (зависимыми), и, как следует из вида внутренней таблицы, вычисляет значения функций от всех переменных. В результате может оказаться, что во внутренней таблице окажутся незаполненные ячейки – в нашем случае ячейки, выделенные красным курсивом. Соответствующие строки будут полностью исключены из построения модели. Обратите внимание: в строках 4-6, 8-9 и 12-13 пустыми окажутся ячейки для функции eY, которые впоследствии не понадобятся (Y-зависимая переменная), однако эти строки все равно будут удалены из таблицы. Так, в нашем случае в таблице останется всего три строки. Этого недостаточно для построения модели! В таком случае вычисление экспоненты лучше исключить:

Рис. 2.24. Повторный выбор нелинейных составляющих модели

Шаг 3. В окне «Определение модели» необходимо выбрать зависимые и независимую переменные. В нашем случае независимая переменная – Y, зависимые переменные: X1, X2, X1^2, X1^4, Sqr(X1), X2^2, X2^4 и Sqr(X2).

Рис. 2.25. Выбор зависимой и независимых переменных.

После запуска построения регрессионной модели появится окно с результатами, аналогичное случаю парной линейной регрессии:

Рис. 2.26. Результаты регрессии.

Итоговая таблица регрессии позволяет построить искомую модель:

Y=-16,857-2,73*X1-76,97*X2+0,044*X12-0*X24+19,75*Sqr(X1)+3,44*X22-0,0043*X24+148,83*Sqr(X2)

Рис. 2.27 Итоговая таблица с коэффициентами и параметрами модели.

Видно, что при построении модели не произошла потеря данных – число учтенных измерений N=16. Высокое значение коэффициента детерминации (R2=0,9846) говорит об эффективности и адекватности модели.

Замечание. При выборе зависимых и независимых переменных для модели можно указывать не все имеющиеся в таблице функции. Так, в нашем случае, мы могли попытаться построить чисто линейную модель:

Рис. 2.28. Выбор переменных для построения линейной модели.

С результатом: Y=114,78+0,6725*X1-9,4405*X2

Рис. 2.29. Результаты линейной множественной регрессии.

Или модель с линейными и квадратичными членами:

Рис. 2.30. Выбор переменных модели

Рис. 2.31. Результаты модели

Рис. 2.32. Подробные результаты с коэффициентами модели.

Вид модели: Y=109,14+1,09*X1-14,70*X2-0,0017*X12+0,52X22