Сборник лабораторных работ МиМАПР

2. Регрессия.

Смысл регрессии состоит в подборе функции, аппроксимирующей экспериментальные данные. Регрессия сводится к подбору коэффициентов в той или иной аналитической зависимости. В Mathcad имеется несколько встроенных функций регрессии двух типов:

позволяющих увидеть аналитическую зависимость, то есть возвращающих набор аппроксимирующих коэффициентов;
не позволяющих увидеть аналитическую зависимость.

Рассмотрим две функции, которые не выводят коэффициентов и аппроксимируют массив данных одним степенным полиномом или отрезками нескольких полиномов.

В Mathcad регрессия с использованием одного полинома реализуется комбинацией встроенных функций регрессии и интерполяции:

interp(s, x, y, t)

regress(x, у, n)

Р ис. 3.2. Интерполяция исходных данных (продолжение)

Здесь:

x — вектор значений аргумента, элементы которого расположены в порядке возрастания;
у — вектор значений функции того же размера;
s — вектор коэффициентов для построения аппроксимирующего полинома, создаваемый функцией regress;
t — значение аргумента, при котором вычисляется интерполирующая функция;
n — степень аппроксимирующего полинома.

Степень аппроксимирующего полинома может быть любой. Практика показывает, что полинома 5-й степени достаточно для аппроксимации почти любой кривой. Обращение к указанным функциям выглядит следующим образом:

s:= regress(X, Y, n)

YY(t):= interp(s, Х, Y, t) Возможна и такая запись: YY(t):= interp(regress(X, У, n), Х, У, t) Регрессия с использованием нескольких отрезков полинома реализуется комбинацией встроенных функций регрессии и интерполяции:

interp(s. x, y., t) loess(x, у, span) Здесь:

s:= loess(Х, Y, span) — вектор коэффициентов для построения аппроксимирующего полинома второй степени, требуемый функцией interp;
span > 0 — параметр, определяющий размер отрезков полиномов. Параметр span задает степень сглаженности данных. На практике

0,2<span<2. При span=2 результат аппроксимации тот же, что при аппроксимации одной параболой. При span = 0.2 аппроксимирующая кривая почти точно описывает любой набор данных.

П римеры использования полиномиальной регрессии приведены на рис. 3.3.

Рис. 3.3. Регрессия исходных данных (см. рис. 3.1) без получения аналитической зависимости.

В Mathcad имеется большое количество встроенных функций, предназначенных для получения аналитического выражения аппроксимирующей функции. Однако в этом случае необходимо знать форму аналитического выражения. Функции, ис- пользующие любой произвольный вид аппроксимирующей функции, будут рассмотрены далее. Здесь ограничимся изучением только наиболее простых функций, каждая из которых строит аппроксимирующую функцию лишь определенного вида.

Используйте соответствующий вид регрессии, если хорошо представляете себе, какой зависимостью описывается ваш массив данных. Когда вид регрессии плохо соответствует набору данных, ее результат часто оказывается неудовлетворительным и зависит от выбора начальных приближений.

Из 8 встроенных в Mathcad функций 5 требуют предварительного задания вектора начальных приближений:

expfit(X, Y, g) - регрессия экспонентой f(t)=а*е^b^*t+ с;
sinfit(X, Y, g) - регрессия синусоидой f(t)=а*sin(t+b)+с;
pwrfit(X, Y, g) - регрессия степенной зависимостью f(t)=а*t^b+с;
lgsfit(X, Y, g) - регрессия логистической функцией а(е)=а/(1+ b*е^-^c*t);
logfit(X, Y, g) - регрессия логарифмической функцией f(t)=а*ln(t+b)+с.

В этих функциях:

x — вектор значений аргумента, элементы которого расположены в порядке возрастания;
у — вектор значений функции того же размера;
g — вектор начальных приближений коэффициентов а, b, с;
t — значение аргумента, при котором вычисляется интерполирующая функция.

Примеры использования этих функций приведены на рис. 3.2 и 3.5.

Рис. 3.4. Регрессия исходных данных (см. рис. 3.1) с выводом аналитической зависимости.

Функции, не требующие начальных приближений:

line(X, Y) — регрессия прямой линией, использующая минимизацию суммы квадратов ошибок f(t) = а+ b*t;
medfit(X, Y) — регрессия прямой линией, использующая медиан-медианную линейную регрессию f(t) = а+ b*t (функции line и medfit дают близкие результаты, слегка различающиеся наклоном прямых линий);
lnfit(X, Y) — регрессия логарифмической функцией f(t) = а*ln(t) + b.

Примеры использования этих функций приведены на рис. 3.5 - 3.7.

Рис. 3.5. Результаты регрессии исходных данных заданных массивом Y приведенными на рис. 3.3 функциями рис.3.4.

Рис. 3.6. Регрессия исходных данных (см. рис. 3.1) с выводом аналитической зависимости

Во всех примерах, представленных на рис. 3.2 — 3.7, использованы одни и те же массивы данных, характер распределения которых, естественно, не соответствует выбранным видам регрессии. Для оценки связи между массивом данных и значениями аппроксимирующей функции подсчитан коэффициент корреляции corr. Опытные данные неплохо аппроксимируются синусоидой (коэффициент корреляции 0.98). В остальных случаях связь между величинами плохая (коэффициент корреляции составляет примерно 0.6).

Рис.3.7. Результаты регрессии исходных данных (см. рис. 3.1) функциями, приведенными на рис. 3.6

Содержание