2.3.2. Идентификация характеристик технологических объектов с использованием стандартных методов Excel
Суть и этапы регрессионного анализа
Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой так же результативным признаком) с независимыми случайными величинами X1, X2,…Xm (называемыми так же факторами).
Форма связи результативного признака Y с факторами X1, X2,…Xm получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.).
В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.
При изучении регрессии следует придерживаться определенной последовательности этапов:
1. Задание аналитической формы уравнения регрессии и определение параметров регрессии.
2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.
3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.
Основное содержание этапов регрессионного анализа
Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel.
Этап 1. Уравнение линейной множественной регрессии имеет вид
, (2.1)
где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;
– значения факторных признаков;
– параметры уравнения (коэффициенты регрессии).
Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е.
. (2.2)
Рассматривая S в качестве функции параметров ai и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ai):
(2.3)
где n – число наблюдений;
m – число факторов в уравнении регрессии.
Решив систему уравнений, находим значения параметров ai, являющихся коэффициентами искомого теоретического уравнения регрессии.
Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:
- общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:
, (2.4)
где – среднее значение результативного признака Y;
- факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:
; (2.5)
- остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:
. (2.6)
При корреляционной связи результативного признака и факторов выполняется соотношение
, при этом . (2.7)
Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле
(2.8)
и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.
Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R2 на основе F-критерия Фишера:
, (2.9)
где n – число наблюдений;
m – число факторов в уравнении регрессии.
Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m.
В математической статистике доказывается, что если гипотеза H0 : R2 = 0 выполняется, то величина F имеет F-распределение с k = m и l = n-m-1 числом степеней свободы, т.е.
. (2.10)
Гипотеза H0 : R2 = 0 о не значимости коэффициента детерминации R2 отвергается, если .
При значениях R2>0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.
Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя так же и проверку значимости каждого коэффициента регрессии.
Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:
, (2.11)
где – стандартное значение ошибки для коэффициента регрессии .
В математической статистике доказывается, что если гипотеза H0 : ai = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т.е.
. (2.12)
Гипотеза H0 : ai = 0 о незначимости коэффициента регрессии отвергается, если .
Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии:
(2.13)
Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 2.24.).
Рис. 2.24
В диалоговом окне Регрессия задаются следующие параметры:
1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.
2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.
3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.
4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi. (Уровень надежности оставляем по умолчанию 95 %).
5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а0 = 0).
6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.
В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.
В положении Новый рабочий лист открывается новый лист, в который начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.
В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.
Вывод результатов:
В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: 1. Множественный R – коэффициенту корреляции R;
2. R-квадрат – коэффициенту детерминации R2;
3. Стандартная ошибка – остаточному стандартному отклонению
; (2.14)
- Наблюдения – числу наблюдений n.
В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2.
1. Столбец df – число степеней свободы.
Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии .
Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии .
Для строки Итого число степеней свободы определяется суммой .
2. Столбец SS – сумма квадратов отклонений.
Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего:
. (2.15)
Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических:
. (2.16)
Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:
или . (2.17)
3. Столбец MS – дисперсии, рассчитываемые по формуле
. (2.18)
Для строки Регрессия – это факторная дисперсия .
Для строки Остаток – это остаточная дисперсия .
4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp.
В последней таблице сгенерированы значения коэффициентов регрессии ai и их статические оценки.
1. Коэффициенты – значения коэффициентов ai.
2. Стандартная ошибка – стандартные ошибки коэффициентов ai. 3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле
(2.19)
4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям tp.
5. Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии ai.
- Автоматизированные информационно-управляющие системы Учебное пособие
- Оглавление
- Часть I. Автоматизированные информационно-управляющие системы Основные понятия
- Глава 1. Информационно-управляющие системы реального времени §1.1. Особенности информационно-управляющих систем реального времени
- 1.1.1. Определение и основные характеристики информационно-управляющих систем реального времени
- 1.1.2. Операционные системы реального времени
- 1.1.3. Обзор систем реального времени
- §1.2. Построение информационно-управляющих систем реального времени на базе операционной системы qnx
- §1.3. Scada – системы
- §1.4. Scada – система trace mode
- 1.4.1. Обзор системы trace mode
- 1.4.2. Функциональная структура пакета
- 1.4.3. Обзор внедрения системы trace mode
- §1.5. Программно-технический комплекс DeltaV
- 1.5.1. Обзор системы DeltaV
- 1.5.2. Концепции системы DeltaV
- 1.5.3. Программные приложения DeltaV
- §1.6. Программно-технический комплекс Квинт
- 1.6.1. Описание
- 1.6.2. Структура программно-технического комплекса Квинт
- 1.6.3. Архитектура
- 1.6.4. Контроллеры
- 1.6.5. Рабочие станции
- 1.6.6. Сети
- 1.6.7. Система автоматизированного проектирования асу тп
- 1.6.8. Примеры внедрения
- §1.7. Системы автоматизации фирмы Siemens8
- 1.7.1. Состав программно-технического комплекса Totally Integrated Automation
- 1.7.2. Примеры автоматизации технологических процессов9
- §1.8. Системы автоматизации фирмы авв10
- 1.8.1. Основные направления деятельности
- 1.8.2. Системы управления, предлагаемые авв Автоматизация в России
- Глава 2. Обеспечивающие подсистемы информационно-управляющих систем и их характеристики §2.1. Программное обеспечение управления процессами
- 2.1.1. Реализация языков программирования стандарта мэк 6-1131/3 в системе trace mode
- 2.1.2. Описание языков программирования
- 2.1.3. Реализация регуляторов и объектов управления в scada-системе TraceMode
- §2.2. Программное обеспечение секвенциально-логического управления
- 2.2.1. Программируемые логические контроллеры
- 2.2.2. Языки программирования логических контроллеров
- 2.2.3. Пример реализации секвенциально-логических алгоритмов в trace mode
- §2.3. Средства идентификации и оптимизации
- 2.3.1. Идентификация характеристик технологических объектов
- 2.3.2. Идентификация характеристик технологических объектов с использованием стандартных методов Excel
- 2.3.3. Решение задачи оптимизация технологических объектов
- §2.4. Средства интеллектуального анализа данных
- 2.4.1. Общие представления о Data Mining13
- 2.4.2. Задачи Data Mining
- 2.4.3. Классы систем Data Mining
- 2.4.4. Основные этапы Data Mining
- Глава 3. Проектирование информационно-управляющих систем §3.1. Основные проблемы, системный подход и последовательность разработки
- §3.2. Адаптация информационно-управляющих систем к области применения
- §3.3. Информационные технологии проектирования иус
- §3.4. Концепции информационного моделирования
- Часть II. Примеры автоматизированных информационно-управляющих систем в управлении энергетической эффективностью технологических процессов
- 1. Оперативное управление технологическими процессами с прогнозом показателей энергетической эффективности16
- 2. Оперативное управление потоками энергетических ресурсов в производственных сетях с учетом динамики их аккумулирования19
- 3. Автоматизированная система диспетчерского управления теплоснабжением зданий на основе полевых технологий20
- 4. Паспортизация промышленных потребителей топливно-энергетических ресурсов с использованием средств автоматизации21
- 5. Оперативное управление экономичностью водяных тепловых сетей на основе макромоделирования22
- Подсистема автоматизированного анализа режимов теплоснабжения
- Методика анализа режимов тепловых сетей на основе макромоделирования
- Программное обеспечение анализа режимов тепловых сетей на основе макромоделирования
- 6. Оперативное регулирование экономичности горения в энергетических котлах24
- 7. Автоматизированный мониторинг тепловой экономичности оборудования электрических станций 27
- Резервы тепловой экономичности котлов
- Показатели энергетических ресурсов турбоагрегатов
- Резервы тепловой экономичности турбоагрегатов
- Оптимальное использование пара
- 8. Оптимизация нагрузки параллельно работающих турбоагрегатов по данным эксплуатации при неполных исходных данных28
- Постановка задачи оптимизации
- Решение задачи оптимизации
- Программа «тг-пар»
- Пример работы программы
- 9. Автоматизированная информационная система мониторинга остаточного ресурса энергетического оборудования30
- Методика оценки обобщенного остаточного ресурса энергетического оборудования
- Алгоритм оперативной оценки обобщенного остаточного ресурса энергооборудования с учетом состояния металла
- Программное обеспечение аис «Ресурс»
- 10. Автоматизированное управление процессами в охладительных установках электрических станций35
- Факторы, влияющие на охлаждение
- Устройство и основные характеристики градирен
- Оптимизация работы башенных градирен
- 11. Автоматизированная компрессорная установка41
- Математическое описание объекта управления
- Анализ вариантов установки пароструйного компрессора для подачи пара в деаэраторы энергокорпуса
- Автоматизированная система управления пароструйным компрессором
- 12. Лингвистический подход к оптимизации управления вельц-процессом45
- Алгоритм выделения области Парето-оптимальных режимов в информационной базе данных
- Нечеткие зависимости (лингвистические правила) в управлении процессом вельцевания
- 13. Энергетический менеджмент производства огнеупоров48
- Приложение. Обзор промышленных сетей
- 1. Протокол передачи данных modbus50
- 2. Протокол передачи данных bitbus
- 3. Протокол передачи данных anbus
- 4. Протокол передачи данных hart
- 5. Протокол передачи данных profibus52
- 5.1. Независимые от поставщика взаимодействия между промышленными объектами (Fieldbus Communication).
- 5.2. Семейство profibus
- 5.3. Основные характеристики profibus-fms и profibus-dp
- 5.3.1. Архитектура протокола profibus
- 5.3.2. Физический Уровень (1) протокола profibus
- 5.4.1. Прикладной Уровень (7)
- 5.4.2. Коммуникационная модель
- 5.4.3. Объекты коммуникации
- 5.4.4. Сервисные функции fms
- 6. Полевая шина foundation Fieldbus53