Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


9.5. Байесовский метод распознавания

В процессе регистрации объекта и измерения его характерных признаков получают множество чисел, которые составляют вектор наблюдения. Будем считать, что этот вектор наблюдений  представляет собой случайный вектор с условной плотностью вероятности, зависящей от принадлежности этого вектора определенному классу. При распознавании объектов задачу формально сводят к проверке многих гипотез , где  — гипотеза, предполагающая принадлежность объекта классу . Здесь принято, что априорные распределения вероятностей этих гипотез заданы, т. е. известно, с какой вероятностью  объект может принадлежать классу  (или как часто появляется объект данного класса). Причем, поскольку наверняка объект должен принадлежать какому-нибудь классу.

Процесс принятия решений в распознавании объектов можно рассматривать как игру статистического характера, которую классификационный механизм системы распознавания ведет с природой. При каждой реализации игры природа выбирает стратегию (в виде состояний природы, соответствующих образам или классам объектов), обозначаемую через . Стратегии игры, применяемые алгоритмом классификации, представляют собой решения, относящиеся к состояниям природы. Каждой паре действий, предпринятой игроками «природа - классификатор» ставится в соответствие некоторая функция потерь (или выигрыша). Считается, что число решений соответствует числу состояний природы (числу классов).

При каждой реализации игры природа выбирает стратегию (класс) , в соответствии с вероятностью . В результате хода игры, реализованного природой, появляется выборочный образ (объект) . Классификатору не известно, какой именно класс предпочла природа. Вся информация, имеющаяся в его распоряжении, ограничивается самим вектором признаков объекта. Задача классифицирующего механизма – определить, опираясь на эту информацию, к какому классу принадлежит объект . Ход игры классификатора, следовательно, представляет собой некоторое решение, определяющее класс , который («по мнению» классификатора), выбрала природа.

Игры рассматриваемого типа часто называют статистическими. Здесь природа не является «разумным противником», который способен сознательно выбирать свои стратегии таким образом, чтобы добиться максимизации потерь классификатора. Кроме того, у классификатора существует возможность «подсматривать» за игрой природы: он может осуществлять эксперименты и регистрировать обучающее множество объектов, которое затем использует при построении стратегии своей игры.

Пусть при реализации игры между природой и классификатором природа выбирает класс  - (стратегию игры) и предъявляет объект . Вероятность принадлежности объекта  классу  обозначим как . Если классификатор принимает решение о том, что объект   принадлежит классу , когда на самом деле он принадлежит классу , то классификатор несет потери, равные .Так как объект  может принадлежать любому из  рассматриваемых классов, то математическое ожидание потерь, связанных с отнесением наблюдаемого объекта к классу , определяется следующим выражением:

;                                      (9.2)

в теории статистических решений эту величину часто называют условным средним риском или условными средними потерями.

При распознавании каждого объекта, предъявляемого природой, классификатор может отнести его к одному из  возможных образов. Если для каждого объекта  вычисляются значения условных средних потерь  и классификатор причисляет объект к классу, которому соответствуют наименьшие условные потери, то очевидно, что и математическое ожидание полных потерь на множестве всех решений также будет минимизировано. Классификатор, минимизирующий математическое ожидание общих потерь, называется байесовским [9.8, гл.4]. Со статистической точки зрения байесовский классификатор соответствует оптимальному качеству классификации.

Пусть  есть плотность распределения элементов вектора  при условии, что он принадлежит классу . Хорошо известно, что вероятность принадлежности  классу  определяется формулой Байеса

,                        (9.3)

так как безусловная плотность распределения . Поскольку выражение  входит во все формулы вычисления условных средних потерь  в качестве общего множителя, его можно устранить из данного соотношения. В таком случае выражение для средних потерь сводится к следующему:

.

При  и выборе классификатором стратегии (гипотезы) , средние его потери для предъявленного природой объекта  равны

,

а при выборе стратегии (гипотезы)  -

.

Как мы знаем, байесовский классификатор обеспечивает отнесение объекта  к классу с наименьшим значением средних потерь . Поэтому объект  причисляется к классу , если выполняется условие ; это должно означать, что

или, что то же самое,

.                    (9.4)

Принято считать (и это соответствует здравому смыслу), что потери от ошибочно принятого решения выше «потерь» при правильном выборе. Этому соответствуют неравенству: . Тогда байесовское решающее правило (9.4) принимает, естественно, следующий вид:

, если                  

или

.                             (9.5)

Величину  называют отношением правдоподобия и обозначают через . Так как  представляет собой отношение двух функций случайной величины, то и само является случайной величиной. Величина в правой части неравенства (9.5) является пороговым значением  критерия отношения правдоподобия, к которому в итоге свелось байесовское решающее правило:

.                     (9.6)

Отсюда видно, что вся процедура принятия решения сводится к вычислению отношения правдоподобия (зависящего лишь от вектора признаков и параметров распределений классов) и распределение априорных вероятностей или величины потерь на данное отношение  влияния не оказывает. Указанная инвариантность процедуры обработки информации имеет большое практическое значение. Часто величины потерь и априорные вероятности являются квалифицированными предположениями на основе предыдущего опыта (интуиции). Неравенство (9.6) позволяет построить решающее правило, рассматривая  как переменный порог, учитывающий изменения в оценках априорных вероятностей и потерь в процессе накопления опыта.

Хорошо известно, что проведение статистического анализа и классификации многомерных наблюдений (признаков природных объектов) зачастую невозможно ограничить применением некоторых стандартных методов. Необходим детальный анализ структуры наблюдаемой совокупности данных, чтобы путем углубленного исследования представленного числового материала выявить скрытые в нем закономерности, его вероятностную и геометрическую природу. Такой предмодельный (разведочный) анализ данных может оказать решающую помощь в компактном и понятном описании структуры наблюдений (например, в форме визуального представления этой структуры — см. рис. 9.2). Отталкиваясь от него, можно «осознанно» поставить вопрос о направлении более детального исследования данных с помощью того или иного метода, а также, возможно, сделать некоторые заключения о причинной модели данных. Если мы хотим использовать двумерное отображение входных данных для понимания внутренней структуры полученной информации с целью последующей классификации, то должны выбрать преобразование (многомерных) данных, сохраняющее разделимость классов. Мы видели, что в случае двух классов отношение правдоподобия несет полную информацию о разделимости классов в байесовском смысле. Следовательно, две плотности вероятностей или монотонные функции от них (отрицательные логарифмы, например) являются подходящей парой переменных. Отображение с использованием этих переменных показано на рис. 9.4. В этом пространстве байесовская граница представляет собой прямую, проходящую под углом 45°, независимо от вида распределений.

Рис. 9.4. Двумерное отображение данных

Отображение на рис. 9.4 не приводит к потере информации, необходимой для классификации. Единственная сложность здесь — это сложность вычисления функции -. Если плотности вероятностей задаются набором параметров, решение этой задачи связано с оцениванием параметров. Например, если известно, что плотности вероятностей нормальны, функция  примет вид

,

где  и  — оценки математического ожидания и ковариационной матрицы. В непараметрическом случае можно воспользоваться одним из множества методов оценивания плотностей (разложением по базисным функциям, например [9.7, гл.7]).

Пример 9.1. Пусть при гипотезе , наблюдаемый фрагмент изображения соответствует постоянному «фону» с яркостью , а по гипотезе  фрагмент изображения соответствует «объекту» с постоянной яркостью  (рис. 9.5). Наблюдаемый яркостный сигнал подвержен шумовым искажениям. Будем считать, что фрагмент однородный по яркости и содержит  отсчетов. Результаты наблюдений представляют ряд из  независимых гауссовых величин  с известным средним значением: либо , при гипотезе , либо  при гипотезе . Вследствие статистической независимости нетрудно записать совместные плотности вероятности величин  при каждой из гипотез:

,

где  — известная дисперсия шума. Критерий отношения правдоподобия в этом случае имеет простой вид:

После приведения подобных членов и взятия логарифма получим

и критерий Байеса запишется в виде , если

,

или в эквивалентной форме

.

Рис. 9.5. Изображение сцены в инфракрасном диапазоне (источник [9.16]). Рамками отмечены фоновый фрагмент (вверху) и фрагмент, соответствующий изображению объекта (яркая область повышенной теплоотдачи работающего двигателя)

Нетрудно видеть, что процедура классификации сводится просто к суммированию результатов наблюдений яркости на распознаваемом фрагменте и сравнению суммы с порогом

.

Так как реализация байесовского классификатора предполагает знание плотности распределения для каждого класса, то становится совершенно очевидным, что оценка плотностей — основная проблема такой схемы классификации. С точки зрения статистического анализа при выборе модели распределений вполне обоснованным представляется принцип: среди множества моделей следует использовать модель, которая позволяет делать максимально надежные выводы о лежащей в основе структуры данных статистике (функции данных). Общим выражением этого положения является принцип максимальной энтропии (МЭ), который гласит: если мы делаем выводы по неполной информации, то должны опираться на такое распределение вероятностей, которое имеет максимальную энтропию, допускаемую нашей априорной информацией. При этом признается, что модельное распределение с более высокой энтропией в некотором смысле «предпочтительнее» модели распределения с малой энтропией (позволяет извлечь больше информации из наблюдаемых данных). Поэтому можно показать, что если исходная информация о параметрах модели распределения состоит лишь из вектора средних значений (признаков) и элементов ковариационной матрицы, то распределением с максимальной энтропией является многомерное нормальное [9.12]. Принцип МЭ строит Гауссовскую форму как распределение, которое может быть реализовано «Природой» наибольшим числом способов (можно считать это оптимальной стратегией природы в статистической игре), совместимых с исходными данными (средними и ковариациями выборки).

Пример 9.2. Рассмотрим модель двух многомерных нормальных совокупностей с равными ковариационными матрицами , и , где  и  — вектора средних значений классов. Соответствующие (предполагающиеся заданными) ковариационные матрицы имеют вид

,

где  - ковариация -й и -й компонент вектора признаков , а  - дисперсия -й компоненты вектора измерений . Поскольку в случае нормального распределения имеем

,              (9.7)

( - известный вектор математического ожидания  при гипотезе ), то отношение двух плотностей для байесовского правила (9.5) определяется выражением

.             (9.8)

Областью , при попадании в которую наблюдение классифицируется как принадлежащее первому классу, является множество векторов , для которых величина  больше некоторой константы , выбираемой подходящим способом. В частности, при выборе двоичной функции потерь (- правильное решения, — ошибка) условие, определяющее принадлежность образа  классу , принимает вид

,

где, если и известны априорные вероятности . Группируя соответствующие члены представления , получаем

                  (9.9)

Первый член данного выражения носит название собственно дискриминантной (решающей) функции . В результате область  определяется линейной разделяющей функцией следующим образом:

.    (9.10)

Рассмотрим случай, когда два многомерных нормальных распределения имеют разные ковариационные матрицы. Решающее правило приобретает вид

.

Видно, что решающая граница является квадратичной формой относительно вектора признаков (рис. 9.6, а). Для таких ситуаций рекомендован простой подход к синтезу линейной разделяющей функции [9.8]. Он состоит в замене каждой из ковариационных матриц их средним значением, т. е. .

Рис. 9.6. Решающие границы для нормальных распределений: a - ;б -

Пример 9.3. Проанализируем сейчас практически более важную ситуацию, когда имеются две обучающие выборки — , но параметры соответствующих им классов (нормальных распределений) неизвестны. На основе этой информации необходимо классифицировать вектор признаков  неизвестного объекта. Очевидно, наилучшими оценками  являются статистики , а эффективной оценкой ковариационной матрицы  является матрица , определяемая в виде

.

Тогда оценка дискриминантной функции, полученная по обучающим выборкам, имеет вид

.

Это линейная функция (случайная величина), имеющая наибольшую дисперсию между выборками относительно дисперсии внутри выборок. Чаще всего в качестве статистики критерия классификации привлекают следующую величину (так называемая модель Фишера) [9.13]

.

 



<< ПредыдущаяОглавлениеСледующая >>