МИРЭА / Методичка_2010 / Методичка_2010

Способность распознавателя к обобщению. Регуляризация.

Казалось бы, чем больше пространство допустимых распознавателей F, тем лучший распознаватель в нем можно найти. Например, если допустимы распознаватели, вычисляющие любой набор значений в любом наборе из N точек X, то ошибку обучения можно свести к нулю, обеспечив чтобы f(x_i)=y_i для всех обучающих векторов (x_i,y_i). Таких распознавателей с нулевой ошибкой может быть много, какие из них действительно хорошие, а какие - плохие, остается только гадать. Крайний пример очень плохого, хотя и идеально обученного распознавателя: распознаватель f, такой что f(x_i)=y_i и f(x) принимает взятые с потолка случайные значения при x вне обучающего набора. Распознаватели, имеющие малую ошибку на обучающем наборе и большую вне его, называются неспособными к обобщению (результатов обучения) и довольно бесполезны. Другое название неспособности распознавателя к обобщению - переобучение (overfitting).

Проверить, насколько распознаватель способен к обобщению, можно сравнив его среднюю ошибку при обучении со средней ошибкой на независимом тесте. Но хочется сразу организовать обучение так, чтобы получить хорошо обобщающий распознаватель. Грубый способ состоит в том, чтобы очень сильно ограничить пространство допустимых распознавателей: настолько сильно, чтобы плохих распознавателей с малой ошибкой обучения в нем быть не могло. Например, когда пространства Y и F конечномерные топологические (в частности, евклидовы), полезно обеспечить, чтобы dim(F) < Ndim(Y), поскольку в ситуации общего положения коразмерность множества распознавателей с нулевой ошибкой при обучении равна Ndim(Y).

Можно рассматривать параметрическое семейство ограниченных подпространств пространства распознавателей и экспериментально подбирать значение параметра, при котором обученный распознаватель имеет достаточно малую среднюю ошибку на независимом тесте. На самом деле нужна не ограниченность подпространств, а ограничение на их размерности Вапника-Червоненкиса (VC-dimension), но в простых случаях метрической ограниченности тоже достаточно. Такой подход почему-то называется структурной минимизацией риска (structural risk minimization) с очень нетрадиционным использованием слова "структура". Например, для пространства распознавателей, параметризованных евклидовым пространством W, в качестве подпространств можно брать шары с центром в нуле, то есть при обучении вместо задачи (4) решать семейство задач

N  i=1

E(F(w,x_i),y_i) 

min w  C

(14)зависящих от параметра C. Здесь и далее вместо средней ошибки (как в задаче (4)) минимизируется суммарная ошибка обучения, чтобы не возиться с множителем [ 1/N].

Более гуманный на вид способ обучения состоит в том, чтобы не запрещать, а штрафовать. При моделирующем подходе "правильный" штраф иногда можно найти теоретически, а при наиболее прагматическом дискриминантном параметрическом подходе штраф подбирают эмпирически. Например, можно пространство параметров распознавателя W считать евклидовым (или банаховым, причем хоть бы и Rⁿ, но с неевклидовой нормой) и назначить штраф, пропорциональный норме параметра (или в более общем виде, какую-то непрерывную функцию  с компактными множествами подуровня {w(w)  C}), то есть при обучении вместо задачи (4) решать задачу

(w)+E(F(w,·),T) = (w)+

N  i=1

E(F(w,x_i),y_i) 

min w  W

(15)

В общематематической науке такой способ решения обратных задач - минимизация функционала (15) вместо решения относительно w системы уравнений F(w,x_i)=y_i - называется регуляризацией по Тихонову. В качестве функции штрафа обычно берут линейную функцию от нормы (w)=w (иногда квадратичную (w)=w²) с малым коэффициентом .

Содержание