МатМод экология / Лабораторные работы

II. Построение модели в среде Statistica. Общие сведения о программе Statistica.

Рабочее окно пакета STATISTICA.

В основу организации данных программы положена электронная таблица, которая поддерживает основные возможности таких табличных редакторов как MS Excel, Lotus 1-2-3, Quattro Pro и др.

Рис. 2.5 – Рабочее окно пакета STATISTICA

Данные располагаются на рабочем листе по столбцам, для чего вводится два понятия: Variables (Переменные) – это переменные (совокупности), располагаемые в столбец (на рисунке 2.5 отображены как Var1, var2, …, Var10). Второе понятие Cases (Значения, наблюдения) - это единицы совокупности или уровни ряда (в данном случае отображаются в левой части таблицы как 1, 2, 3, …10).

В электронной таблице допускаются незаполненные ячейки (пропущенные значения), однако при обработке таких разреженных данных необходимо указывать способ, которым эти пропуски будут заполняться: нулями, средними значениями переменной, конкретными значениями, удаляться из общей совокупности данных и т.п.

В верхней части рабочего окна пакета (как и в любом Windows- приложение) расположено главное меню (в русифицированной версии программы – на русском языке):

Рисунок 2.6 – Главное меню программы.

Как видим из рисунка 1.3, пункты из панели главного меню: File (Файл), Edit (Правка), View (Вид), Insert (Вставка), Format (Формат), Tools (Сервис), Windows (Окно) и Help (Справка) по своей функциональной принадлежности являются стандартными для Windows-приложений.

Специфическими пунктами меню можно считать следующие:

Statistics (Анализ) – данный пункт меню содержит огромное количество методов статистической обработки данных, начиная от расчета описательных статистик (максимум, минимум, средняя и т.д.) до сложнейших многомерных статистических алгоритмов.
Graphs (Графика) – в данном пункте доступны огромное количество разнообразных графиков и диаграмм, как двухмерных так и трехмерных.
Date (Данные) – в данном меню доступны алгоритмы, направленные на преобразование имеющихся данных (стандартизация, ранжирование и т.д.).

Ввод данных эксперимента.

Ввод данных в пакет STATISTICA можно осуществить двумя способами:

Импортировать готовые данные из других программ (баз данных, математических и статистических пакетов прикладных программ).
Ввести необходимую информацию вручную.

Импорт данных из внешних программ

Для создания файла данных первым способом введем в табличном редакторе Excel данные представленные в таблице 2.1.

Таблица 2.1 - Динамика урожайности зерновых культур, ц/га

Год	УрожайностьY
1955г.	13,5
1956г.	11,6
1957г.	14,7
1958г.	16,2
1959г.	15,2
1960г.	15,1
1961г.	16,9
1962г.	16,8
1963г.	12,9
1964г.	13,8
1965г.	16,1
1966г.	20,4
1967г.	17,8
1968г.	18,3
1969г.	18,9
1970г.	22,8
1971г.	23,1
1972г.	19,6
1973г.	27,0

Далее сохраним файл с именем Книга 1.xls на диске С или папке Мои документы (или другой папке) после этого необходимо закрыть табличный редактор Excel.

Для импорта файла с данными в пакет STATISTICA необходимо пройти следующие шаги:

Шаг 1. В главном меню пакета выберем File → Open (Файл →Открыть).

Шаг 2. В появившемся окне (рисунок 1.4) необходимо выбрать тип файла, в данном случае файл электронной таблицы Excel (т.е. необходимо выбрать расширение *.xls) и имя искомого файла, далее нажать кнопку Открыть.

Рис. 2.7 - Диалоговое окно Open (Открытие)

Шаг 3. В открывшемся диалоговом окне (рисунок 2.8) будет предложено импортировать отдельную страницу или все страницы рабочей книги.

Рис. 2.7 – Диалоговое окно Открытие файла (Opening file)

В нашем случае выберем второй вариант и перейдем к следующему шагу

Шаг 4. В появившемся диалоговом окне (Выбор импортируемой страницы) выберем необходимую страницу и нажмем клавишу ОК.

Рисунок 2.8 – Диалоговое окно выбора листа для импорта

Шаг 5. В следующем окне будет предложено указать размерность таблицы, а также предоставлена возможность оставить имеющиеся имена импортируемых переменных и имена записей. Сделаем установки как показано на рисунке 2.9 и нажмем кнопку ОК.

Рисунок 2.9 – Диалоговое окно открытие файла Excel.

По умолчанию будет указан диапазон, охватывающий все ячейки в импортируемой таблице.

Выбор поля «Имена наблюдений из первого столбца» указывает, что в первом столбце содержатся не данные, а имена наблюдений.
Выбор поля «Имена переменных из первой строки» указывает, что в первой строке содержатся не данные, а имена переменных.
Выбор поля «Импорт формата ячеек» говорит в импорте специально формата ячеек таблицы. такого, как дата/время, денежный формат и т.п.

Пройдя вышеперечисленные шаги, получим следующий лист рабочей книги пакета STATISTICA (рисунок 2.10).

Рисунок 2.10 – Результат импорта файла табличного редактора Excel в пакет STATISTICA

Ручной ввод информации

Для иллюстрации создания файла данных вторым способом используем данные приведенные в таблице 2.2:

Таблица 2.2 – Показатели деятельности малых предприятий

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

здесь Y – Прибыль предприятия, тыс. руб., X1 – Среднегодовая стоимость основных производственных фондов, тыс. руб., X2 – Численность работников предприятия, чел.

Шаг 1. После запуска программы STATISTICA в главном меню необходимо выбрать Файл→Создать (File →New). В появившемся окне Создание нового документа (Create New Document), рис. 2.11, необходимо ввести количество переменных (Number of variables) – количество столбцов таблицы, и число наблюдений (Number of cases)- количество строк. В данном случае исходная матрица имеет размерность 316.

Рис. 2.11 – Окно задания параметров исходной матрицы данных

При необходимости задаются и другие характеристики данных и таблицы.

Шаг 2. После соответствующих установок переходим к рабочему листу электронной таблицы (рисунок 2.12).

Рис. 2.12 – Окно рабочей книги электронной таблицы

В данном случае переменные (столбцы) имеют стандартные имена Var1, Var2, Var3, …, как правило, исследователь заменяет их на необходимые обозначения, используемые в анализе. В нашем случае необходимо заменить Var1 на Y, Var2 на X1, Var3 на X2. Для этого, необходимо дважды щелкнуть по заглавию переменной (Var1) или выбрать в главном меню Data → Variable Specs… (Данные Спецификация переменной).

В появившемся окне (рис. 2.13) можно изменить шрифт, его размер и т.д. В группе опций Формат отображения (Display format) можно задать формат данных, содержащихся в соответствующим столбце. В поле Длинное метка или формула (вставка функции) (Long name (label or formula with Functions) можно внести дополнительную информацию по переменной или преобразовать (создать новую) переменную на базе существующей, введя формулу для ее вычисления.

В данном случае ограничимся внесением в поле Имя: (Name) вместо обозначения Var1 букву Y и нажмем кнопку ОК.

Рис. 2.13 – Окно индивидуальных установок переменной

Далее аналогичным образом вносим изменения в имена остальных переменных. Непосредственно вносить данные в ячейки таблицы можно двойным щелчком мыши по соответствующему полю, и записью туда необходимого значения (аналогично программе Excel, например). Получаем результат, представленный на рисунке 2.14.

Рис. 2.14 – Результат создания файла данных в пакет STATISTICA

Построение линейной парной регрессионной модели

Рассмотрим построение линейной модели по выборочным данным следующего примера.

Пример 2.1. В табл. 2.3 приведены данные по 45 предприятиям по статистической связи между стоимостью основных фондов (fonds, млн. денежных единиц) и средней выработкой на 1 работника (product, тыс. денежных единиц); z – вспомогательный признак: z = 1 – федеральное подчинение, z = 2 – муниципальное.

Таблица 2.3

fonds	product	z	fonds	product	z	fonds	product	z
6,5	18,3	1	9,3	17,2	2	10,4	21,4	2
10,3	31,1	1	5,7	19,0	2	10,2	23,5	2
7,7	27,0	1	12,9	24,8	2	18,0	31,1	2
15,8	37,9	1	5,1	21,5	2	13,8	43,2	2
7,4	20,3	1	3,8	14,5	2	6,0	19,5	2
14,3	32,4	1	17,1	33,7	2	11,9	42,1	2
15,4	31,2	1	8,2	19,3	2	9,4	18,1	2
21,1	39,7	1	8,1	23,9	2	13,7	31,6	2
22,1	46,6	1	11,7	28,0	2	12,0	21,3	2
12,0	33,1	1	13,0	30,9	2	11,6	26,5	2
9,5	26,9	1	15,3	27,2	2	9,1	31,6	2
8,1	24,0	1	13,5	29,9	2	6,6	12,6	2
8,4	24,2	1	10,5	34,9	2	7,6	28,4	2
15,3	33,7	1	7,3	24,4	2	9,9	22,4	2
4,3	18,5	1	13,8	37,4	2	14,7	27,7	2

Необходимо построить модель зависимости средней выработки от объемов фондов.

product=F(fonds)

Предварительно необходимо оценить примерный вид зависимости. Для этого данные необходимо ввести в среду Statistica (любым способом),

Рис. 2.15 – Таблица с данными зависимости.

А затем данные из таблицы необходимо отобразить на графике, или говорят «построить диаграмму рассеяния». Для этого в меню Графика (Graphs) выберем команду Диаграммы рассеяния (Scatter plots).

Рис. 2.16 – Задание параметров диаграммы рассеяния

В полученном окне нажмем кнопку Переменные (Variables), и устанавливаем как зависимую переменную (X) - переменную fonds, а как независимую (Y) - : product.

Рис. 2.16 – Задание переменных модели.

Переменная z, являясь вспомогательной, в модель включаться не будет. Если дополнительно включить опцию графика «Подборка» - Линейная ( Fit : Linear), то Statistica одновременно с построением диаграммы подберет линейную регрессионную модель.

Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке (рис. 4.1). Это означает, что уравнение линейной регрессии имеет вид y = 1,4344 x + 11,5021.

Рис. 2.17 – Диаграмма рассеяния с подобранной линейной моделью.

По общему виду диаграммы можно предположить, что зависимость действительно в среднем носит линейный характер.

Для более детального анализа построенной модели (определения коэффициентов корреляции и детерминации, например), необходимо воспользоваться специальными инструментами линейной регрессии. Для этого выберем пункт Множественная регрессия меню Агнализ (Statistics – Multiple Regression).

Рис. 2.18 – Задание параметров линейной регрессии.

На вкладке «Быстрый» нажмем кнопку «Переменные» и в качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products. Обратите внимание, что если для построения диаграммы рассеяния сначала задавалась независимая переменная X , а затем зависимая Y, то здесь наоборот: сначала задается независимая переменная (в нашем случае - product), а затем зависимая – fonds.

Рис. 2.19 – Задание переменных регрессии.

Обратите внимание, что в парвом нижнем углу окна «Множественная регресия» задаётся правило обработки пропущенных данных: можно удалять строки, в которых присутствуют пропущенные данные, либо заменять пропущенные значения средними.

Нажав кнопку OK, получаем основные результаты анализа (рис. 2.19). Для нас наиболее важен коэффициент детерминации R²: 0.597 и значение критерия Фишера F: если критерий Фишера (в нашем случае F=63,544) меньше, чем уровень значимости p (в нашем случае p = 0.000000), то принимается гипотеза о линейной независимости переменной y от переменной x, и линейную модель строить было нецелесообразно. В нашем случае линейная зависимость есть, и не смотря на то, что коэффициент детерминации не очень большой, эта модель может считаться эффективной (возможно, более эффективную модель с точки зрения детерминации вообще невозможно построить).

Рис. 2.20 – Результаты построенной линейной модели.

Нажав на кнопку «Итоговая таблица регрессии» можно увидеть окно со всеми статистическими характеристиками модели (в заголовке таблицы) и, самое главное, с коэффициентами регрессии (столбец В таблицы).

Рис. 2.21 – Подробные характеристики модели.

Так, можно видеть, что линейная модель имеет вид:

product=11,505+1,4344*fonds

Остальные данные в окне означают:

R –коэффициент корреляции;
R2 –коэффициент детерминации;
Скорректир. R2- скорректированный коэффициент детерминации, определяемый по формуле:
N– количество наблюдений;
F – значение критерия Фишера;
p – критический уровень значимости модели;
Станд. ошибка оценки (Standard error of estimate) – среднеквадратическая ошибка модели по всем наблюдениям;

Построение многомерной регрессионной модели

В пакете Statistica можно строить не только парные, или однофакторные, модели зависимости (y от x), но и множественные (многофакторные), когда зависимая переменная определяется сразу несколькими независимыми переменными:

y=f(x₁,x₂,… x_k).

Кроме того, как парные, так и множественные модели могут быть нелинейными.

Построим несколько разных моделей зависимости прибыли предприятия от основных производственных фондов и численности работников:

Таблица 2.4 Показатели деятельности малых предприятий

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

где: Y – Прибыль предприятия, тыс. руб., X1 – Среднегодовая стоимость основных производственных фондов, тыс. руб., X2 – Численность работников предприятия, чел.

Шаг 1. После ввода данных в пакет Statistica, выберем пункт меню «Анализ→ Углубленные методы анализа→ Множественная нелинейная регрессия»:

Рис. 2.22 Выбор углубленного метода построения модели

Шаг 2. В открывшемся окне нажмем кнопку «Переменные» и в качестве переменных для последующего анализа выберем все три переменные (Y, X1 и X2):

Рис. 2.22 Выбор переменных для анализа

Шаг 3. Нажав на кнопку «ОК» перейдем в окно выбора нелинейных компонентов модели:

Рис. 2.23 Выбор нелинейных составляющих модели.

В нашем случае в модель, кроме обязательных линейных слагаемых, можно будет включать вторую и четвертую степень переменных, а также квадратные корни и экспоненты от них. В практическом плане Statistica создает в памяти вспомогательную таблицу с данными, куда заносит результаты вычисления указанных функций от наших переменных. Такая «невидимая» таблица в нашем случае имеет вид:

Таблица 2.5. Внутреннее представление данных.

	Y	X1	X2	Y^2	X1^2	X2^2	Y^4	X1^4	X2^4	Sqr(Y)	Sqr(X1)	Sqr(X2)	e^Y	e^X1	e^X2
1	20	10	12	400	100	144	160000	10000	20736	4,47	3,16	3,46	485165195	22026,47	162754,8
2	35	15	10	1225	225	100	1500625	50625	10000	5,91	3,87	3,16	1,586E+15	3269017	22026,47
3	30	20	9	900	400	81	810000	160000	6561	5,47	4,47	3	1,069E+13	4,85E+08	8103,084
4	45	25	9	2025	625	81	4100625	390625	6561	6,71	5	3	3,493E+19	7,2E+10	8103,084
5	60	40	8	3600	1600	64	12960000	2560000	4096	7,74	6,32	2,82	1,142E+26	2,35E+17	2980,958
6	69	37	8	4761	1369	64	22667121	1874161	4096	8,30	6,082	2,82	9,254E+29	1,17E+16	2980,958
7	75	43	6	5625	1849	36	31640625	3418801	1296	8,66	6,55	2,44	3,733E+32	4,73E+18	403,4288
8	90	35	4	8100	1225	16	65610000	1500625	256	9,48	5,91	2	1,22E+39	1,59E+15	54,59815
9	105	38	4	11025	1444	16	1,22E+08	2085136	256	10,24	6,16	2	3,99E+45	3,19E+16	54,59815
10	110	55	5	12100	3025	25	1,46E+08	9150625	625	10,48	7,41	2,23	5,921E+47	7,69E+23	148,4132
11	120	50	3	14400	2500	9	2,07E+08	6250000	81	10,95	7,071	1,73	1,304E+52	5,18E+21	20,08554
12	130	35	1	16900	1225	1	2,86E+08	1500625	1	11,40	5,91	1	2,873E+56	1,59E+15	2,718282
13	130	40	2	16900	1600	4	2,86E+08	2560000	16	11,40	6,32	1,41	2,873E+56	2,35E+17	7,389056
14	130	55	3	16900	3025	9	2,86E+08	9150625	81	11,40	7,41	1,73	2,873E+56	7,69E+23	20,08554
15	135	45	1	18225	2025	1	3,32E+08	4100625	1	11,61	6,70	1	4,263E+58	3,49E+19	2,718282
16	140	65	2	19600	4225	4	3,84E+08	17850625	16	11,83	8,06	1,41	6,327E+60	1,69E+28	7,389056

Важно! Для вычисления некоторых функций наложены ограничения: для вычисления логарифмов и квадратного корня входная переменная должна быть больше 0, экспонента вычисляется только для чисел в интервале от -40 до + 40 и т.д. На этом этапе Statistica не различает, какие переменные впоследствии будут входными (независимыми), а какие – выходными (зависимыми), и, как следует из вида внутренней таблицы, вычисляет значения функций от всех переменных. В результате может оказаться, что во внутренней таблице окажутся незаполненные ячейки – в нашем случае ячейки, выделенные красным курсивом. Соответствующие строки будут полностью исключены из построения модели. Обратите внимание: в строках 4-6, 8-9 и 12-13 пустыми окажутся ячейки для функции e^Y, которые впоследствии не понадобятся (Y-зависимая переменная), однако эти строки все равно будут удалены из таблицы. Так, в нашем случае в таблице останется всего три строки. Этого недостаточно для построения модели! В таком случае вычисление экспоненты лучше исключить:

Рис. 2.24. Повторный выбор нелинейных составляющих модели

Шаг 3. В окне «Определение модели» необходимо выбрать зависимые и независимую переменные. В нашем случае независимая переменная – Y, зависимые переменные: X1, X2, X1^2, X1^4, Sqr(X1), X2^2, X2^4 и Sqr(X2).

Рис. 2.25. Выбор зависимой и независимых переменных.

После запуска построения регрессионной модели появится окно с результатами, аналогичное случаю парной линейной регрессии:

Рис. 2.26. Результаты регрессии.

Итоговая таблица регрессии позволяет построить искомую модель:

Y=-16,857-2,73*X1-76,97*X2+0,044*X1²-0*X2⁴+19,75*Sqr(X1)+3,44*X2²-0,0043*X2⁴+148,83*Sqr(X2)

Рис. 2.27 Итоговая таблица с коэффициентами и параметрами модели.

Видно, что при построении модели не произошла потеря данных – число учтенных измерений N=16. Высокое значение коэффициента детерминации (R2=0,9846) говорит об эффективности и адекватности модели.

Замечание. При выборе зависимых и независимых переменных для модели можно указывать не все имеющиеся в таблице функции. Так, в нашем случае, мы могли попытаться построить чисто линейную модель:

Рис. 2.28. Выбор переменных для построения линейной модели.

С результатом: Y=114,78+0,6725*X1-9,4405*X2

Рис. 2.29. Результаты линейной множественной регрессии.

Или модель с линейными и квадратичными членами:

Рис. 2.30. Выбор переменных модели

Рис. 2.31. Результаты модели

Рис. 2.32. Подробные результаты с коэффициентами модели.

Вид модели: Y=109,14+1,09*X1-14,70*X2-0,0017*X1²+0,52X2²

Содержание

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2

	Y	X1	X2
1	20	10	12
2	35	15	10
3	30	20	9
4	45	25	9
5	60	40	8
6	69	37	8
7	75	43	6
8	90	35	4
9	105	38	4
10	110	55	5
11	120	50	3
12	130	35	1
13	130	40	2
14	130	55	3
15	135	45	1
16	140	65	2