logo
МИРЭА / Методичка_2010 / Методичка_2010

Дискриминантный анализ. Линейный дискриминант Фишера. Персептронная функция критерия. Линейный дискриминантный анализ (lda,дискриминант Фишера)

Сейчас мы покажем, что при очень простых (и потому, как правило, не соответствующих действительности) предположениях о пространстве совместных распределений P (см. раздел 1.1.3) инженерное решение (46), как загнать образ линейного оператора в симплекс, становится простым следствием теории, а обучение распознавателя проводится не итеративно, а по явным формулам. Подчеркиваем: для этого делаются простые, но, как правило, неверные предположения.

А именно, предположим, что для каждого из q классов (для j-го) распределение векторов признаков этого класса - гауссово с центром jX и одинаковой для всех классов матрицей ковариации . Вероятность j-го класса обозначим через j и будем считать, что j > 0 (а иначе j-й класс можно выкинуть). То есть7

pj(x)=p(xy=j)=(2)[ d/2][ 1/2] e[ 1/2]1(xj,xj),

p(x,y)=ypy(x)=y (2)[ d/2][ 1/2] e[ 1/2]1(xy,xy)

(52)и

p(x)=

q  j=1 

p(x,j)=

q  j=1 

j (2)[ d/2][ 1/2] e[ 1/2]1(xj,xj).

Тогда условные вероятности Py(x)=P{yx}, которые и должен оценивать классификатор, равны

Py(x)

=

 p(x,y)

p(x)

=

 y e[ 1/2]1(xy,xy)

q  j=1 

j e[ 1/2]1(xj,xj)

(53)

=

 e1(x,y)[ 1/2]1(y,y)+ln(y)

q  j=1 

e1(x,j)[ 1/2]1(j,j)+ln(j)

,

то есть в точности имеют вид (46).

Обучение классификатора состоит в оценке его параметров j, j при 1  j  q и  по имеющемуся обучающему набору T. Это можно сделать методом наибольшего правдоподобия, т.е. решением задачи

ln(p(T))=

N  i=1 

ln(p(xi,yi)) 

min ,, 

,

где плотности вероятностей p(xi,yi) вычисляются по формуле (52). Поскольку сумма вероятностей j всех классов равна 1, нужно написать лагранжиан

L(T,,,,)

=

ln(p(T))+(

q  j=1 

j1)

(54)

=

1(xiyi,xiyi)  ln 1 ln(2)1  ln(yi)  d

2

2

2

N  i=1 

+(

q  j=1 

j1)

и приравнять нулю его производные по всем переменным , j, j и  (точнее, удобно дифференцировать не по элементам матрицы , а по элементам матрицы 1). Получающаяся система уравнений8

0=

 L



=

q  j=1 

j1

0=

 L

j

=

 #{iyi=j}

j

+ 

0=

 L

j

=

 iyi=j 

1(xi  j)

0=

 L

1kl

=

 1

2

kl +

 1

2

N  i=1 

(xikyik)(xilyil)

легко решается:

=

N

j

=

 #{iyi=j}

N

(55)

j

=

 iyi=j 

xi

#{iyi=j}

(56)

kl

=

N  i=1 

(xikyik)(xilyil)

N

,

(57)и получаются традиционные в статистике оценки вероятности как частоты, математического ожидания как центра тяжести и ковариации.

Плотность совместного распределения (52) оценена, а значит обучен байесовский классификатор (раздел 1.2.3), самый лучший из возможных. При чем тут линейный дискриминантный анализ?

Дискриминантами называются функции, различающие классы, то есть такие функции ij(x), что неравенство pi(x) > pj(x) (вектор x скорее принадлежит i-му классу, чем j-му) равносильно неравенству ij(x) > 0. В частности, для любого классификатора, оценивающего условные плотности вероятностей pj(x) или совместные плотности вероятностей p(x,j), дискриминантами являются попарные разности pi(x)pj(x) или p(x,i)p(x,j). Для описываемого классификатора более удобными дискриминантами, причем линейными, являются функции

ln

 pi(x)

pj(x)

=

ln

 i

j

 1

2

( 1(xi,xi)1(xj,xj) )

=

ln

 i

j

 1

2

( 1(i,i)1(j,j) ) +1(x,ij)

=

ln

 i

j

+1(x

 i+j

2

,ij).

(58)

При  = Id и i=j множество уровня 0 дискриминанта (58) - это гиперплоскость, проходящая через середину отрезка [i,j] перпендикулярно ему. При i  j гиперплоскость смещена относительно середины, а при   Id она не перпендикулярна, а ее направление сопряжено направлению отрезка [i,j] относительно квадратичной формы 1 (см. рис. 3). Еще одно полезное геометрическое соображение: для классификации любого d-мерного вектора признаков достаточно знать его проекцию (при  = Id - ортогональную, в общем случае - вдоль сопряженной относительно 1 плоскости) на не более чем (q1)-мерную линейную оболочку точек j.

Рис.3: Разделяющие плоскости дискриминанта Фишера (58) для двух классов и разных соотношений между вероятностями j

Если распределения векторов признаков для разных классов считать гауссовыми, но не с общей матрицей ковариации, а с независимыми, то распознаватель тоже можно обучить методом наибольшего правдоподобия. При этом оценки (55) и (56) остаются неизменными, а оценка (57) естественно распадается на q независимых оценок

jkl=

 iyi=j 

(xiyi)k(xiyi)l

#{iyi=j}

.

Но аналог дискриминанта (58) будет уже не линейным, а квадратичным.

Конструкция дискриминанта (58), оценки (55,56,57) и геометрическая интерпретация разделяющих гиперплоскостей идут от работы Р.Фишера 1936 года [Fis36]. Линейный (и квадратичный тоже) дискриминантный анализ был полезен в докомпьютерные времена из-за явных формул для ответа и наглядной геометрической интерпретации. Более общий метод из раздела 2.2.1 тоже дает линейные дискриминанты, не требует никаких сомнительных предположений о распределении векторов признаков каждого класса и на практике приводит к лучшему распознаванию.