logo

3.4.2. Идентификация характеристик технологических объектов с использованием стандартных методов Excel

Суть и этапы регрессионного анализа Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой так же результативным признаком) с независимыми случайными величинами X1, X2,…Xm (называемыми так же факторами). Форма связи результативного признака Y с факторами X1, X2,…Xm получила название уравнения регрессии. В зависимости, от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией. При изучении регрессии следует придерживаться определенной последовательности этапов: 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов. ^ Основное содержание этапов регрессионного анализа Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel. Этап 1. Уравнение линейной множественной регрессии имеет вид  , (3.45) где   – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;  – значения факторных признаков;  – параметры уравнения (коэффициенты регрессии). Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е. . (3.46) Рассматривая ^ S в качестве функции параметров ai и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ai):  (3.47) где n – число наблюдений; m – число факторов в уравнении регрессии. Решив систему уравнений, находим значения параметров ai, являющихся коэффициентами искомого теоретического уравнения регрессии. Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов Xнеобходимо знать следующие дисперсии: - общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов: , (3.48) где   – среднее значение результативного признака Y; - факторную дисперсию результативного признака Y, отображающую влияние только основных факторов: ; (3.49) - остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов: . (3.50) При корреляционной связи результативного признака и факторов выполняется соотношение  , при этом  . (3.51) Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле  (3.52) и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель. Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R2 на основе F-критерия Фишера: , (3.53) где n – число наблюдений; m – число факторов в уравнении регрессии. Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m. В математической статистике доказывается, что если гипотеза H0 : R2 = 0 выполняется, то величина F имеет F-распределение с k = m и l = n-m-1 числом степеней свободы, т.е. . (3.54) Гипотеза H0 : R2 = 0 о не значимости коэффициента детерминации R2 отвергается, если  . При значениях R2>0,7 считается, что вариация результативного признака ^ Y обусловлена в основном влиянием включенных в регрессионную модель факторов X. Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя так же и проверку значимости каждого коэффициента регрессии. Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента: , (3.55) где   – стандартное значение ошибки для коэффициента регрессии  . В математической статистике доказывается, что если гипотеза H0 : ai = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т.е. . (3.56) Гипотеза H0 : ai = 0 о незначимости коэффициента регрессии отвергается, если  . Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии:  (3.57) Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 3.22.). Рис. 3.22 В диалоговом окне Регрессия задаются следующие параметры: 1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.  2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.  3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.  4. ^ Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенное напротив флажки необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi. (Уровень надежности оставляем по умолчанию 95 %) 5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а0 = 0).  6. ^ Выходной интервал/Новый рабочий лист/Новая рабочая книга. В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.  В положении ^ Новый рабочий лист открывается новый лист, в который начиная с ячейки А1 вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.  В положении ^ Новая рабочая книга открывается новая Книга, на первом листе которой начиная с ячейки А1 вставляются результаты анализа. Вывод результатов: В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: - Множественный R – коэффициенту корреляции R; - R-квадрат – коэффициенту детерминации R2; - Стандартная ошибка – остаточному стандартному отклонению ; (3.58) - Наблюдения – числу наблюдений n.  В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2. 1. Столбец df – число степеней свободы. Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии  . Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии  . Для строки Итого число степеней свободы определяется суммой  . 2. Столбец SS – сумма квадратов отклонений. Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего: . (3.59) Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических: . (3.60) Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:  или  . (3.61) 3. Столбец MS – дисперсии, рассчитываемые по формуле  . (3.62) Для строки Регрессия – это факторная дисперсия  . Для строки Остаток – это остаточная дисперсия  . 4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp.  В последней таблице сгенерированы значения коэффициентов регрессии ai и их статические оценки. 1. Коэффициенты – значения коэффициентов ai; 2. Стандартная ошибка – стандартные ошибки коэффициентов ai; 3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле   (3.63) 4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям tp. 5. Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии ai. ^