logo
МИРЭА / Методичка_2010 / Методичка_2010

Байесовская теория решений. Случай двух классов. Классификаторы, разделяющие функции и поверхности решений. Вероятности ошибок. Разделяющие функции для случая нормальной плотности.

Говоря о статистических методах распознавания, мы предполагаем установление связи между отнесением объекта к тому или иному классу (образу) и вероятностью ошибки при решении этой задачи. В ряде случаев это сводится к определению апостериорной вероятности принадлежности объекта образу при условии, что признаки этого объекта приняли значения. Начнём с байесовского решающего правила. По формуле Байеса

Здесь – априорная вероятность предъявления к распознаванию объекта-го образа:

.

для каждого

,

при признаках с непрерывной шкалой измерений

,

при признаках с дискретной шкалой измерений

.

При непрерывных значениях признаков представляет из себя функцию плотности вероятностей, при дискретных – распределение вероятностей.

Распределения, описывающие разные классы, как правило, "пересекаются", то есть имеются такие значения признаков , при которых

.

В таких случаях ошибки распознавания неизбежны. Естественно, неинтересны случаи, когда эти классы (образы) в выбранной системе признаков неразличимы (при равных априорных вероятностях решения можно выбирать случайным отнесением объекта к одному из классов равновероятным образом).

В общем случае нужно стремиться выбрать решающие правила так, чтобы минимизировать риск потерь при распознавании.

Риск потерь определяется двумя компонентами: вероятностью ошибок распознавания и величиной "штрафа" за эти ошибки (по­терями). Матрица ошибок распознавания:

,

где – вероятность правильного распознавания;

–вероятность ошибочного отнесения объекта -го образа к-му ().

Матрица потерь

,

где – "премия" за правильное распознавание;

–"штраф" за ошибочное отнесение объекта -го образа к-му ().

Необходимо построить решающее правило так, чтобы обеспечить минимум математического ожидания потерь (минимум среднего риска). Такое правило называется байесовским.

Разобьём признаковое пространство нанепересекающихся областей, каждая из которых соответствует определённому образу.

Средний риск при попадании реализаций -го образа в области других образов равен

, .

Здесь предполагается, что все компоненты имеют непрерывную шкалу измерений (в данном случае это непринципиально).

Величину можно назвать условным средним риском (при условии, что совершена ошибка при распознавании объекта-го образа). Общий (безусловный) средний риск определяется величиной

Решающие правила (способы разбиения на) образуют множество. Наилучшим (байесовским) решающим правилом является то, которое обеспечивает минимальный средний риск, где– средний риск при применении одного из решающих правил, входящих в.

Рассмотрим упрощённый случай. Пусть , а(). В таком случае байесовское решающее правило обеспечивает минимум вероятности (среднего количества) ошибок распознавания. Пусть. Вероятность ошибки первого рода (объект 1-го образа отнесён ко второму образу)

,

где – вероятность ошибки второго рода

.

Средние ошибки

.

Так как

, то

и

.

ясно, что минимум будет иметь минимум в том случае, если подынтегральное выражение в областибудет строго отрицательным, то есть в. В областидолжно выполняться противоположное неравенство. Это и есть байесовское решающее правило для рассматриваемого случая. Оно может быть записано иначе:; величина, рассматриваемая как функция от, называется правдоподобиемпри данном, а– отношением правдоподобия. Таким образом, байесовское решающее правило можно сформулировать как рекомендацию выбирать решениев случае, если отношение правдоподобия превышает определённое пороговое значение, не зависящее от наблюдаемого.

Без специального рассмотрения укажем, что если число распознаваемых классов больше двух (), решение в пользу класса (образа)принимается в области, в которой для всех.

После вычисления апостериорных вероятностей принадлежности неизвестного объекта с параметрами каждому из образов,, отрезок прямой длиной единица разбивают наинтервалов с длинами, численно равными, и каждому интервалу ставят в соответствие этот образ. Затем с помощью датчика случайных (псевдослучайных) чисел, равномерно распределённых на, генерируют число, определяют интервал, в который оно попало, и относят распознаваемый объект к тому образу, которому соответствует данный интервал. Понятно, что такое решающее правило не может быть лучше байесовского, но при больших значениях отношения правдоподобия ненамного ему уступает, а в реализации может оказаться достаточно простым (например, метод ближайшего соседа).

Байесовское решающее правило реализуется в компьютерах в основном двумя способами.

1. Прямое вычисление апостериорных вероятностей

,

где – вектор значений параметров распознаваемого объекта и выбор максимума. Решение принимается в пользу того образа, для которогомаксимально. Иными словами, байесовское решающее правило реализуется решением задачи.

Если пойти на дальнейшее обобщение и допустить наличие матрицы потерь общего вида, то условный риск можно определить по формуле ,. Здесь первый член определяет "поощрение" за правильное распознавание, а второй – "наказание" за ошибку. Байесовское решающее правило в данном случае состоит в решении задачи

2. "Топографическое" определение области , в которую попал векторзначений признаков, описывающих распознаваемый объект.

Такой подход используют в тех случаях, когда описание областей достаточно компактно, а процедура определения области, в которую попал, проста. Иными словами, данный подход естественно использовать, когда в вычислительном отношении он эффективнее (проще), чем прямое вычисление апостериорных вероятностей.

Рис. 19. Байесовское решающее правило для нормально распределённых признаков с равными ковариационными матрицами

Так, например (доказательство приводить не будем), если классов два, их априорные вероятности одинаковы, и– нормальные распределения с одинаковыми ковариационными матрицами (отличаются только векторами средних), то байесовская разделяющая граница – гиперплоскость. Запоминается она значениями коэффициентов линейного уравнения. При распознавании какого-либо объекта в уравнение подставляют значения признаковэтого объекта и по знаку (плюс или минус) получаемого решения относят объект кили(рис. 19).

Если у классов иковариационные матрицыине только одинаковы, но и диагональны, то байесовским решением является отнесение объекта к тому классу, евклидово расстояние до эталона которого минимально (рис. 20).

Рис. 20. Байесовское решающее правило для нормально распределённых признаков с равными диагональными ковариационными матрицами (элементы диагоналей одинаковы)

Таким образом, мы убеждаемся в том, что некоторые решающие правила, ранее рассмотренные нами как эмпирические (детерминированные, эвристические), имеют вполне чёткую статистическую трактовку. Более того, в ряде конкретных случаев они являются статистически оптимальными.