3.4.2. Идентификация характеристик технологических объектов с использованием стандартных методов Excel

Суть и этапы регрессионного анализа Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой так же результативным признаком) с независимыми случайными величинами X₁, X₂,…X_m (называемыми так же факторами). Форма связи результативного признака Y с факторами X₁, X₂,…X_m получила название уравнения регрессии. В зависимости, от типа выбранного уравнения различают линейную и нелинейную регрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией. При изучении регрессии следует придерживаться определенной последовательности этапов: 1. Задание аналитической формы уравнения регрессии и определение параметров регрессии. 2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии. 3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов. ^ Основное содержание этапов регрессионного анализа Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel. Этап 1. Уравнение линейной множественной регрессии имеет вид , (3.45) где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; – значения факторных признаков; – параметры уравнения (коэффициенты регрессии). Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (a_i), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е. . (3.46) Рассматривая ^ S в качестве функции параметров a_i и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров a_i): (3.47) где n – число наблюдений; m – число факторов в уравнении регрессии. Решив систему уравнений, находим значения параметров a_i, являющихся коэффициентами искомого теоретического уравнения регрессии. Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов Xнеобходимо знать следующие дисперсии: - общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов: , (3.48) где – среднее значение результативного признака Y; - факторную дисперсию результативного признака Y, отображающую влияние только основных факторов: ; (3.49) - остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов: . (3.50) При корреляционной связи результативного признака и факторов выполняется соотношение , при этом . (3.51) Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R², называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле (3.52) и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель. Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R² на основе F-критерия Фишера: , (3.53) где n – число наблюдений; m – число факторов в уравнении регрессии. Примечание. Если в уравнении регрессии свободный член а₀ = 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m. В математической статистике доказывается, что если гипотеза H₀ : R² = 0 выполняется, то величина F имеет F-распределение с k = m и l = n-m-1 числом степеней свободы, т.е. . (3.54) Гипотеза H₀ : R² = 0 о не значимости коэффициента детерминации R² отвергается, если . При значениях R²>0,7 считается, что вариация результативного признака ^ Y обусловлена в основном влиянием включенных в регрессионную модель факторов X. Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R² включает в себя так же и проверку значимости каждого коэффициента регрессии. Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента: , (3.55) где – стандартное значение ошибки для коэффициента регрессии . В математической статистике доказывается, что если гипотеза H₀ : a_i = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т.е. . (3.56) Гипотеза H₀ : a_i = 0 о незначимости коэффициента регрессии отвергается, если . Кроме того, зная значение t_кр, можно найти границы доверительных интервалов для коэффициентов регрессии: (3.57) Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 3.22.). Рис. 3.22 В диалоговом окне Регрессия задаются следующие параметры: 1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца. 2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16. 3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона. 4. ^ Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенное напротив флажки необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R² и коэффициентов регрессии а_i. (Уровень надежности оставляем по умолчанию 95 %) 5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а₀= 0). 6. ^ Выходной интервал/Новый рабочий лист/Новая рабочая книга. В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные. В положении ^ Новый рабочий лист открывается новый лист, в который начиная с ячейки А1 вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя. В положении ^ Новая рабочая книга открывается новая Книга, на первом листе которой начиная с ячейки А1 вставляются результаты анализа. Вывод результатов: В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: - Множественный R – коэффициенту корреляции R; - R-квадрат – коэффициенту детерминации R²; - Стандартная ошибка – остаточному стандартному отклонению ; (3.58) - Наблюдения – числу наблюдений n. В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R². 1. Столбец df – число степеней свободы. Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии . Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии . Для строки Итого число степеней свободы определяется суммой . 2. Столбец SS – сумма квадратов отклонений. Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего: . (3.59) Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических: . (3.60) Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего: или . (3.61) 3. Столбец MS – дисперсии, рассчитываемые по формуле . (3.62) Для строки Регрессия – это факторная дисперсия . Для строки Остаток – это остаточная дисперсия . 4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению F_p. В последней таблице сгенерированы значения коэффициентов регрессии a_i и их статические оценки. 1. Коэффициенты – значения коэффициентов a_i; 2. Стандартная ошибка – стандартные ошибки коэффициентов a_i;3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле (3.63) 4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям t_p. 5. Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии a_i. ^

Содержание