logo search
Mylnik_ISU / Мыльник_Исследование систем управления_2001

10.2. Поиск области оптимума

Отыскание области оптимума методами планирования эксперимента – это шаговая процедура, включающая факторный эксперимент, его статистический анализ и крутое восхождение по поверхности отклика. Эти этапы повторяют до тех пор, пока не будет достигнута область, близкая к оптимуму. Все опыты, поставленные вне оптимальной области, представляют интерес постольку, поскольку они могут использоваться как трамплин для попадания в область оптимума. Планирование эксперимента обеспечивает минимизацию их числа, приводя, тем самым, к экономии времени и средств. Рассмотрение этой процедуры начинается с вопросов организации и проведения дробных факторных экспериментов. Дробный факторный эксперимент является основным инструментом планирования эксперимента при отыскании области оптимума. Метод, который мы начинаем рассматривать, называется методом Бокса – Уилсона [2 ]. В этом разделе последовательно рассматриваются вопросы о выборе матрицы планирования и вычислении коэффициентов модели.

Выбор модели. Задача состоит в том, чтобы выбрать число и расположение в факторном пространстве экспериментальных точек так, чтобы при минимуме точек получить информацию, необходимую и достаточную для планирования следующего шага. В формулировке задачи необходимо уточнить следующие моменты. Какую область факторного пространства следует изучать на первом этапе? В какой форме должны быть представлены результаты первого этапа: т. е. какой должна быть модель?

В вопросе об области важны два обстоятельства: окрестности какой точки она должна представлять и как велика должна быть эта область. Последнее обстоятельство прямо связано с вопросом о модели. В соответствии с принципом последовательного усложнения модели естественно на первом этапе начать с линейной функции. Тогда ясно, что должно быть использовано планирование на двух уровнях (через две точки можно однозначно провести прямую). Остается выяснить, как выбрать область (интервалы варьирования факторов), чтобы линейная модель адекватно описывала результаты эксперимента. Данная постановка задачи налагает на этот выбор дополнительные требования. Можно доказать, что аналитическая функция аппроксимируется плоскостью в достаточно малой окрестности любой не экстремальной точки. Так как кривизна поверхности в окрестностях нулевой точки заранее не известна, то выбор «достаточно малой окрестности» должен быть интуитивным. Правда, после проведения первой серии опытов становится ясным, насколько он оказался удачным. Это позволяет ввести соответствующие коррективы. Кроме того, необходимо принимать во внимание то обстоятельство, что дальнейшее движение к оптимуму по градиенту линейной модели будет тем эффективнее, чем более симметрична модель относительно коэффициентов регрессии. Это значит, что чем больше ожидаемое влияние фактора, тем уже следует выбирать его интервал варьирования. Данные случайного баланса, если его проводили, дают некоторые ориентиры для такого выбора. В этом случае, предполагается, что поверхность отклика имеет один (или два близко расположенных) экстремум, так как в случае многоэкстремальной задачи результат будет зависеть от координат нулевой точки.

Выбор матрицы планирования. Основой для выбора матрицы планирования служат факторные планы типа 2k. Для этого используется кодирование факторов, определяемое соотношением:

Хi=,

Xi- кодированное текущее значение фактора;

xi0- натуральное значение нулевого уровня;

xi- натуральное текущее значение фактора;

Ji- натуральное значение интервала варьирования (волной над обозначением фактора будем обозначать натуральное значение).

Кодирование представляет собой линейное преобразование координат факторного пространства: перенос начала координат в нулевую точку плана и выбор масштабов по осям в единицах интервалов варьирования. Отождествление верхнего уровня со знаком плюс и нижнего со знаком минус приводит к стандартной форме матрицы планирования, использующей только знаки. Чтобы выбрать подходящий план, необходимо сформулировать критерии его оптимальности. Формулировка критериев зависит от поставленной цели. Важно, чтобы критерии соответствовали интуитивным представлениям экспериментатора. Если, например, экспериментатор ожидает сложного поведения функции отклика и хочет гарантировать себе максимум информации в наихудшей возможной ситуации, то он, естественно, придет к минимаксному критерию. Планы, построенные для этого критерия при одном факторе, - так называемые фибоначчиевые планы, - приведены в работах [4,5]. Возможно, обобщение этого подхода на случай нескольких факторов.

Поскольку линейную модель создают, прежде всего, для оценки направления градиента, которое заранее неизвестно, то можно использовать критерий: минимум дисперсии предсказанного значения параметра оптимизации в любой точке факторного пространства при равенстве этих дисперсий на равном расстоянии от нулевой точки в любом направлении. Это эквивалентно требованию инвариантности плана при вращении системы координат относительно центра. Отсюда возникло название планов, удовлетворяющих этому критерию – ротатабельные планы Принцип ротатабельности является важнейшим при выборе плана. Однако для случая линейной модели план можно сделать оптимальным в более широком смысле. Для этого вводят второй критерий – требование ортогональности плана. Ортогональность позволяет получить для коэффициентов уравнения оценки, независимые друг от друга, что очень важно при интерпретации. Как следствие выполнения этих требований, дисперсии для коэффициентов не только минимальны, но и равны друг другу. Все это создает идеальные условия для статистического анализа. Факторные планы удовлетворяют всем этим критериям, но так как полный факторный эксперимент содержит (при числе факторов больше трех) слишком много опытов, то используют дробные реплики. Реплики также должны удовлетворять всем критериям. Такими являются регулярные дробные реплики.

Ортогональность плана гарантирует отсутствие корреляции между факторами, поэтому кажется, что все оценки коэффициентов регрессии независимы и свободны от посторонних влияний. Однако это справедливо, если описываемая область факторного пространства действительно линейна (при данной ошибке опыта) и, следовательно, все члены уравнения, отражающие кривизну, имеют нулевые коэффициенты. В действительности кривизна может существовать, например, если интервалы варьирования велики и хотя бы некоторые коэффициенты при эффектах взаимодействия окажутся отличными от нуля. Тогда может получиться, что столбцы этих взаимодействий в матрице планирования будут закоррелированы с некоторыми столбцами линейных эффектов. В дробном факторном эксперименте, в отличие от полного, всегда существует такая корреляция хотя бы для некоторых столбцов. Это приводит к тому, что по результатам данного эксперимента оказывается невозможно разделить коэффициент регрессии между линейным эффектом и взаимодействием. Такие оценки называются смешанными (совместными), а сам факт корреляции – смешиванием. Смешиваемость оценок – дань за сокращение числа опытов. Экспериментатор может бороться со смешиванием путем уменьшения дробности реплики, уменьшения интервалов варьирования, выбора вида модели. Экспериментатор стремится к тому, чтобы максимальное число линейных эффектов оказалось не смешанным с парными взаимодействиями. Число линейных эффектов, которые не смешаны в данном плане, будем называть разрешающей способностью плана.

Прежде чем описать использование этих соотношений, следует сделать замечание о выборе дробности реплики. Чтобы реплика была ортогональной, она должна составлять такую часть полного факторного плана, которая сама является полным планом для меньшего числа факторов. Другими словами, в качестве подходящей реплики следует брать ближайший полный факторный эксперимент, число опытов в котором больше, чем число неизвестных коэффициентов в модели.

Вычисление коэффициентов модели . Вычисление коэффициентов – задача, решаемая методом наименьших квадратов. Метод наименьших квадратов и связанный с ним регрессионный анализ являются основным инструментом обработки экспериментальных данных при планировании эксперимента. Это обстоятельство, а также важность этого метода самого по себе заставляют нас рассмотреть его более подробно. Мы остановимся на трех моментах. Первый из них – регрессионный анализ для одной независимой переменной. Второй – общий случай многомерного регрессионного анализа. Наконец, третий – регрессионный анализ и планирование.

Уравнение искомой прямой имеет вид:

y=b0+b1x1

или

y-b0-b1x1=0

Но при подстановке в уравнение экспериментальных значений в силу рассеяния результатов равенство нулю соблюдаться не будет. При этом для построчного выполнения тождеств в правые части должны быть записаны величины, которые представляют собой отклонения от нуля. Тогда получится следующая система уравнений:

yi-b0-b1x1=i, i=1,2, …,n,

где - отклонение;

i - номер опыта;

n - число опытов.

Сформулированное выше условие наименьших квадратов может быть записано теперь как:

U=2i =min.

Аналитическим условием минимума функции является одновременное равенство нулю частных производных от этой функции по всем неизвестным.

Поскольку в нашем случае неизвестными являются два коэффициента, то, продифференцировав последнее уравнение дважды – сначала по одной, а потом по другой переменной, мы получим систему двух уравнений с двумя неизвестными. Имеем:

( yi-b0-b1x1i)2=min .

После дифференцирования имеем:

или, после раскрытия скобок и очевидных преобразований,

.

Решая систему в общем виде, получаем расчетные формулы:

Этими формулами и решается поставленная задача.

Метод наименьших квадратов, как и всякий метод обработки результатов, справедлив при некоторых ограничениях, налагаемых на исходные данные. При применении метода мы должны быть уверены в том, что эти условия выполняются достаточно хорошо. Для применения метода наименьших квадратов необходимо, чтобы параметр оптимизации являлся нормально распределенной случайной величиной с постоянной дисперсией, а все значения факторов должны быть неслучайными. Кроме того, все факторы должны быть не коррелированны. Некоррелированность факторов при ортогональном планировании выполняется автоматически.

Таким образом, метод наименьших квадратов весьма полезен и широко применим как простой математический инструмент. Метод наименьших квадратов можно обобщить на случай произвольного числа факторов. Неизвестную функцию аппроксимируем полиномом. Если степень полинома не задана априори, то расчеты придется вести несколько раз, постепенно увеличивая степень полинома до тех пор, пока полученная модель не станет адекватной. Чтобы получить общий случай, рассмотрим аппроксимацию нелинейным полиномом. При этом расчетам должна предшествовать операция линеаризации функции. Эта операция состоит в замене квадратов и эффектов взаимодействия факторов новыми переменными и вычислении для них соответствующих столбцов в матрице результатов наблюдений. Такая матрица называется Х-матрицей или матрицей условий экспериментов. В линеаризованном виде она соответствует расчетной матрице при планировании эксперимента. В общем виде Х-матрица может быть записана следующим образом:

Х=

Где n – число опытов.

Y – матрица-столбец наблюденных значений параметра оптимизации.

Х-матрица, конечно прямоугольна (nk). Но надо, пользуясь принципом наименьших квадратов, свести ее к квадратной матрице порядка k, т.е. получить так называемую систему нормальных уравнений метода наименьших квадратов. В матричной записи эта система имеет вид:

(Х*Х)В=Х*Y, (10.8)

где В – матрица-столбец искомых коэффициентов регрессии. Для получения системы нормальных уравнений надо Х-матрицу умножить слева на матрицу, транспонированную к ней:

Х*Х=ХY=

где (ij)= (ji)=; (ii)=; (iy)=

Из условия (ij)=(ji) следует, что матрица Х*Х симметрична. Если умножить уравнение (10.8) слева на матрицу, обратную матрице нормальных уравнений, то получим:

(Х*Х)-1(Х*Х)В=(Х*Х)-1(Х*Y), но

(Х*Х)-1(Х*Х)=Е, поэтому

В=(Х*Х)-1(Х*Y).

Это и есть решение. Для искомых коэффициентов регрессии имеем:

,

или

где сij – элементы обратной матрицы.

Посмотрим, что произойдет с расчетными формулами, если наложить на Х-матрицу условие ортогональности. Можно показать, что в этом случае матрица нормальных уравнений метода наименьших квадратов будет диагональной. Элементы обратной матрицы для диагональной матрицы равны обратным величинам соответствующих элементов прямой матрицы. Именно это обстоятельство позволяет при планировании экспериментов пользоваться простейшими расчетными формулами и делать операцию обращения матрицы практически в уме. Кроме того, как мы уже отмечали, это дает возможность независимо друг от друга оценивать все коэффициенты регрессии.

Статистические оценки. Рассмотрим общие вопросы, связанные со статистическими оценками. Ошибка опыта, точнее, дисперсия воспроизводимости, служит основой для всех суждений о качестве модели и ее элементов. Поэтому естественно, прежде всего, выяснить, как она оценивается. Основное условие для экспериментальной оценки ошибки опыта - это параллельные наблюдения. При пассивной регистрации какого-либо процесса приходится надеяться на то, что за длительное время процесс будет несколько раз возвращаться в одно и то же состояние. Но даже если это и так, все равно существует ряд трудностей с оценкой ошибки. Другое дело, когда объект управляем, а эксперимент планируется. Тогда мы сами можем решить вопрос о выборе числа параллельных опытов и их расположении.

Возможно, конечно, что, приступая к эксперименту, мы располагаем полной информацией об ошибке опыта. Тогда проблема снимается и параллельные опыты просто не нужны. Обычно априорная информация не столь полна. В зависимости от того, что известно и сколько опытов можно провести, мы располагаем несколькими возможностями. Весьма важно знать, близки ли ошибки разных областях факторного пространства, или, как говорят статистики, однородны ли дисперсии параметра оптимизации в разных точках. Дело в том, что однородность дисперсий является одним из требований регрессионного анализа. Если известно, что это требование выполняется, то его не надо проверять и можно ставить параллельные опыты в одной точке (как правило, в нулевой точке, на основных уровнях значений факторов). На практике часто предполагается, что такая ситуация возникает. Отсюда рекомендуется ставить 3-4 опыта в нулевой точке, вычислять по ним дисперсию и считать, что она справедлива во всех остальных экспериментальных точках.

Когда возникают сомнения в однородности дисперсии, такая рекомендация уже непригодна. Приходится ставить параллельные во всех (или, по крайней мере, в нескольких) различных точках и проверять однородность. Проверку можно осуществлять с помощью различных статистических критериев. Обычно используют так называемый критерий Кохрена, применимый, если во всех точках одинаковое число параллельных опытов. Вычисления выглядят следующим образом. Для каждой точки пишут формулу:

, (10.9)

и вычисляют дисперсии. В этой формуле s2i – дисперсия в i-той точке, m – число параллельных опытов, yji – отклик j-того параллельного опыта, - средний отклик в данном опыте.

Далее среди всех s2i находят наибольшую, которую делят на сумму всех дисперсий:

.

Это и есть критерий Кохрена. Если его значение не превышает табличного , то можно признать гипотезу об однородности дисперсий. В этом случае наилучшей оценкой дисперсии воспроизводимости будет средняя арифметическая дисперсия в точках:

,

При вычислении дисперсии воспроизводимости в нулевой точке пользуются формулой (10.9). Зная дисперсию воспроизводимости, мы знаем все о модели.

Оценка адекватности модели. Располагая ошибкой опыта, мы можем выяснить, является ли линейная модель адекватной. Для проверки адекватности строят F-критерий Фишера. Им проверяют гипотезу о том, что дисперсия относительно модели значимо превышает дисперсию опыта против альтернативы о незначимом различии между этими дисперсиями. Если различие незначимо (при некотором уровне значимости, обычно 5%-ном), то гипотеза об адекватности модели может быть принята. Значение критерия Фишера вычисляют по формуле:

, (10.10)

где s20 – дисперсия опыта; s2ад дисперсия адекватности.

Дисперсию адекватности, в свою очередь, вычисляют по формуле:

, (10.11)

где - значение параметра оптимизации, предсказываемое уравнением для условийj-того опыта.

Значение критерия Фишера, вычисленное по формуле (10.10) сравнивают с табличным значением для выбранного уровня значимости. Если расчетное значение не превышает табличного, то гипотезу адекватности принимают. Для отыскания табличного значения критерия требуется еще знать число степеней свободы, связанных с числителем и знаменателем выражения (10.10). Они представляют собой знаменатели тех формул, по которым вычисляют соответствующие дисперсии. Наряду с прямой оценкой адекватности, которая описана выше, существует ряд косвенных признаков, по которым можно судить о степени адекватности модели. Часто для оценки дисперсии опыта используют параллельные эксперименты в нулевой точке. Различие между средним значением из этих опытов и свободным членом линейного уравнения характеризует суммарный вклад квадратичных эффектов. Если это различие незначимо, например по критерию Стьюдента, то можно предполагать, что модель адекватна. Такая проверка не является абсолютной, так как возможно, что сумма положительных коэффициентов при квадратах близка к сумме отрицательных.

Оценка значимости коэффициентов. Оценка адекватности модели служит основой для того, чтобы принимать дальнейшие решения, однако всегда дают также и оценку значимости коэффициентов. Она важна при интерпретации модели и для дальнейшего отсеивания факторов. Основой для оценки значимости служит построение доверительных интервалов для коэффициентов, которое осуществляют следующим образом. Сначала определяют дисперсию коэффициентов регрессии:

, (10.12)

Далее на основании обычной статистической процедуры оценивают доверительный интервал.

, (10.13)

где - доверительный интервал i-го коэффициента;

t – значение критерия Стьюдента при выбранном уровне значимости, обычно 5%-ном;

- квадратичная ошибка коэффициента.

При ориентировочных оценках можно использовать значение критерия Стьюдента, равное двум. Тогда формула (10.13) примет вид:

, (10.14)

В случае линейной или неполной квадратичной модели доверительные интервалы для коэффициентов регрессии равны друг другу. Располагая значением доверительного интервала, можно проверить значимость коэффициентов, исходя из следующего. С вероятностью, соответствующей выбранному уровню значимости, справедливо соотношение:

, (10.15)

Незначимый коэффициент появляется у фактора, не оказывающего влияния на параметр оптимизации. В идеальном случае такой коэффициент, для которого значение «ноль» попадает в интервал, даваемый соотношением (10.12), должен быть признан незначимым. Признак незначимости – абсолютное значение доверительного интервала больше, чем абсолютное значение коэффициента. Значимость коэффициента зависит не только от роли данного фактора, но и от интервала варьирования. Это обстоятельство, вместе с оценкой адекватности, необходимо учитывать в ходе принятия решений.

Принятие решений. Возможны следующие случаи.

  1. Линейная модель адекватна.

Если все линейные коэффициенты незначимы, то в первой серии были выбраны слишком узкие интервалы варьирования факторов. Следующим шагом должно быть повторение эксперимента при более широких интервалах. Если все коэффициенты значимы, то решение однозначно – переход к движению по градиенту. Наиболее часто встречается случай, когда часть линейных коэффициентов значима, а часть незначима. Здесь важно определить судьбу незначимых факторов. Если первой серии предшествовало экспериментальное отсеивание факторов и незначимым оказался слабый эффект, включенный в планирование из осторожности, то, получив для него незначимый коэффициент, можно его отсеять. Если же отсеивание не предшествовало первой серии, то отбрасывать фактор только по незначимости коэффициента рискованно. Обычно расширяют его интервал варьирования в следующей серии, и только если и там он окажется незначимым, то его отсеивают. Отсеивание приводит к уменьшению числа факторов и позволяет значительно упростить задачу. Адекватность модели в случае построения интерполяционной формулы означает конец решения задачи, а при оптимизации – переход к движению по градиенту.

  1. Линейная модель неадекватна.

Возможно несколько причин неадекватности. Чаще всего неадекватность возникает в результате неудачного выбора интервалов варьирования. В этом случае центр плана (нулевая точка) переносится в экспериментальную точку, давшую наилучшие или одно из наилучших значение параметра оптимизации, а интервалы варьирования уменьшаются тем сильнее, чем больше по абсолютной величине коэффициент регрессии. Другой причиной неадекватности, кроме выбора интервалов варьирования, является попадание нулевой точки в «почти стационарную» область. На первых этапах планирования это случается редко. Если известно предельное значение параметра оптимизации, то о близости к оптимуму можно судить по его значениям в опытах. Если предельное значение неизвестно, то критерием служит движение по градиенту, рассмотренное ниже. Когда оптимальная область действительно достигнута, то в зависимости от постановки задачи либо исследование заканчивается, либо изучают «почти стационарную» область. Может оказаться, что после включения нескольких эффектов взаимодействия модель станет адекватной Тогда возникает задача движения по градиенту нелинейной модели. Эта задача имеет решение, но ее сложность служит препятствием для практического использования. Обычная альтернатива – движение по градиенту неадекватной модели.

Таким образом, после постановки одной-двух серий опытов исследователь переходит к движению по градиенту.

Движение по градиенту – «крутое восхождение» . Можно доказать, что движение из некоторой точки поверхности в направлении градиента – кратчайший путь к оптимуму. Это утверждение следует, например, из теории поля, в которой показано, что градиент скалярной функции задается соотношением:

, (10.16)

где - обозначение градиента;

- частная производная функция отклика по i-тому фактору;

- единичные векторы в направлении координатных осей факторного пространства.

По теореме о разложении аналитической функции в ряд Тейлора частные производные функции отклика по факторам равны по величине и знаку, соответствующим коэффициентам регрессии. Следовательно, если изменять факторы пропорционально их коэффициентам регрессии и в ту сторону, которую указывает знак коэффициента, то движение будет осуществляться по градиенту. Эффективность градиента существенно зависит от характера поверхности отклика. Поэтому он не инвариантен относительно всего, что формирует поверхность: от выбора параметра оптимизации и от выбора интервалов варьирования факторов. Действительно, если деформировать поверхность в направлении одной из осей, то градиент будет вращаться. Ясно, что максимум на сфере будет достигнут быстрее, чем при движении вдоль узкой горной гряды с медленным возрастанием. Чем симметричнее уравнение относительно коэффициентов, тем более благоприятна ситуация. В задачах построения интерполяционных моделей интервалы фиксированы, поэтому функция может оказаться резко несимметричной. При этом ее экстраполяция будет неэффективной.

Обобщение на случай k факторов делается механически – все эффекты независимы друг от друга. Важно, что существенно только соотношение произведений коэффициентов на соответствующие интервалы. Их абсолютные величины могут все одновременно умножаться или делиться на любое положительное число. При этом снова получаются точки, лежащие на градиенте, только с другим шагом. Шаги получаются, если к нулевому уровню последовательно алгебраически прибавлять строки из величин, пропорциональных составляющим градиента. Так как выбор длины шага произволен, то возникает вопрос, как его следует осуществлять. Здесь руководствуются следующим. Первый шаг, т. е. результат первого сложения полученной строки составляющих градиента с нулевым уровнем, должен давать точку, лежащую за экспериментальной областью хотя бы по одному их факторов. Однако этот шаг не должен быть столь большим, чтобы выйти за пределы области определения хотя бы одного из факторов. Если при выборе в этом диапазоне окажется, что для каких-либо факторов шаги различаются меньше, чем ошибки в установлении значений, то приходится изменять их через 2 – 3 шага. Для облегчения работы обычно шаги округляют.

Если цель исследования – поиски не максимума, а минимума, то знаки коэффициентов регрессии должны быть изменены на обратные. В случае нескольких параметров оптимизации обычно задачу разбивают на параллельные ветви, каждая из которых повторяет описанную процедуру для одного параметра. Когда движение по градиенту закончено, возникает задача принятия решений.

Принятие решений (продолжение). Основой для принятия решений служит рассмотрение возникшей при движении по градиенту ситуации. Возможны следующие ситуации.

При движении по градиенту адекватной модели может оказаться, что значения параметра оптимизации будут проходить через максимум. Это наиболее благоприятный случай. Решение однозначно – условия наилучшего опыта принимают за нулевую точку следующей серии. Интервалы варьирования, если возможно, должны быть уменьшены, так как ближе к максимуму сильнее проявляется кривизна поверхности. Вокруг нового центра снова делают линейное приближение, проверяют его адекватность, значимость коэффициентов, принимают решения и все повторяют до тех пор, пока либо линейное приближение при минимальных интервалах окажется неадекватным, либо движение по градиенту окажется неэффективным. Это значит, что достигнута «почти стационарная» область.

Может оказаться, что при движении по градиенту параметр оптимизации возрастает до границы области определения какого-либо фактора. Тогда можно либо стабилизировать этот фактор и продолжать восхождение по оставшимся, либо несколько отступить назад и снова ставить линейное приближение. Выбор пути осуществляют интуитивно. При этом оценивают важность фактора, который достиг границы. Может оказаться, что ни один из опытов на градиенте не дал результата, превосходящего лучший результат предыдущей серии. При этом, если модель была не адекватной, приходится вернуться назад и повторить эксперимент, уменьшив интервалы варьирования. Если же модель была адекватной, то, по-видимому, наблюдается плоский экстремум, что должно быть проверено дополнительными опытами.

Так, шаг за шагом, сочетая линейные приближения, движение по градиенту и не строго формализованные решения, осуществляют «вползание» в «почти стационарную» область. Вся процедура напоминает итерационные схемы в вычислительной математике. Выбором интервалов варьирования и шагов на градиенте определяется «быстрота сходимости» метода. оптимума