9.5. Байесовский метод распознаванияВ процессе регистрации объекта и измерения его характерных признаков получают множество чисел, которые составляют вектор наблюдения. Будем считать, что этот вектор наблюдений Процесс принятия решений в распознавании объектов можно рассматривать как игру статистического характера, которую классификационный механизм системы распознавания ведет с природой. При каждой реализации игры природа выбирает стратегию (в виде состояний природы, соответствующих образам или классам объектов), обозначаемую через При каждой реализации игры природа выбирает стратегию (класс) Игры рассматриваемого типа часто называют статистическими. Здесь природа не является «разумным противником», который способен сознательно выбирать свои стратегии таким образом, чтобы добиться максимизации потерь классификатора. Кроме того, у классификатора существует возможность «подсматривать» за игрой природы: он может осуществлять эксперименты и регистрировать обучающее множество объектов, которое затем использует при построении стратегии своей игры. Пусть при реализации игры между природой и классификатором природа выбирает класс
в теории статистических решений эту величину часто называют условным средним риском или условными средними потерями. При распознавании каждого объекта, предъявляемого природой, классификатор может отнести его к одному из Пусть
так как безусловная плотность распределения
При
а при выборе стратегии (гипотезы)
Как мы знаем, байесовский классификатор обеспечивает отнесение объекта или, что то же самое,
Принято считать (и это соответствует здравому смыслу), что потери от ошибочно принятого решения выше «потерь» при правильном выборе. Этому соответствуют неравенству:
или
Величину
Отсюда видно, что вся процедура принятия решения сводится к вычислению отношения правдоподобия (зависящего лишь от вектора признаков и параметров распределений классов) и распределение априорных вероятностей или величины потерь на данное отношение Хорошо известно, что проведение статистического анализа и классификации многомерных наблюдений (признаков природных объектов) зачастую невозможно ограничить применением некоторых стандартных методов. Необходим детальный анализ структуры наблюдаемой совокупности данных, чтобы путем углубленного исследования представленного числового материала выявить скрытые в нем закономерности, его вероятностную и геометрическую природу. Такой предмодельный (разведочный) анализ данных может оказать решающую помощь в компактном и понятном описании структуры наблюдений (например, в форме визуального представления этой структуры — см. рис. 9.2). Отталкиваясь от него, можно «осознанно» поставить вопрос о направлении более детального исследования данных с помощью того или иного метода, а также, возможно, сделать некоторые заключения о причинной модели данных. Если мы хотим использовать двумерное отображение входных данных для понимания внутренней структуры полученной информации с целью последующей классификации, то должны выбрать преобразование (многомерных) данных, сохраняющее разделимость классов. Мы видели, что в случае двух классов отношение правдоподобия несет полную информацию о разделимости классов в байесовском смысле. Следовательно, две плотности вероятностей или монотонные функции от них (отрицательные логарифмы, например) являются подходящей парой переменных. Отображение с использованием этих переменных показано на рис. 9.4. В этом пространстве байесовская граница представляет собой прямую, проходящую под углом 45°, независимо от вида распределений. Рис. 9.4. Двумерное отображение данных Отображение на рис. 9.4 не приводит к потере информации, необходимой для классификации. Единственная сложность здесь — это сложность вычисления функции -
где Пример 9.1. Пусть при гипотезе
где После приведения подобных членов и взятия логарифма получим и критерий Байеса запишется в виде
или в эквивалентной форме
Рис. 9.5. Изображение сцены в инфракрасном диапазоне (источник [9.16]). Рамками отмечены фоновый фрагмент (вверху) и фрагмент, соответствующий изображению объекта (яркая область повышенной теплоотдачи работающего двигателя) Нетрудно видеть, что процедура классификации сводится просто к суммированию результатов наблюдений яркости на распознаваемом фрагменте и сравнению суммы с порогом
Так как реализация байесовского классификатора предполагает знание плотности распределения для каждого класса, то становится совершенно очевидным, что оценка плотностей — основная проблема такой схемы классификации. С точки зрения статистического анализа при выборе модели распределений вполне обоснованным представляется принцип: среди множества моделей следует использовать модель, которая позволяет делать максимально надежные выводы о лежащей в основе структуры данных статистике (функции данных). Общим выражением этого положения является принцип максимальной энтропии (МЭ), который гласит: если мы делаем выводы по неполной информации, то должны опираться на такое распределение вероятностей, которое имеет максимальную энтропию, допускаемую нашей априорной информацией. При этом признается, что модельное распределение с более высокой энтропией в некотором смысле «предпочтительнее» модели распределения с малой энтропией (позволяет извлечь больше информации из наблюдаемых данных). Поэтому можно показать, что если исходная информация о параметрах модели распределения состоит лишь из вектора средних значений (признаков) и элементов ковариационной матрицы, то распределением с максимальной энтропией является многомерное нормальное [9.12]. Принцип МЭ строит Гауссовскую форму как распределение, которое может быть реализовано «Природой» наибольшим числом способов (можно считать это оптимальной стратегией природы в статистической игре), совместимых с исходными данными (средними и ковариациями выборки). Пример 9.2. Рассмотрим модель двух многомерных нормальных совокупностей с равными ковариационными матрицами
где
(
Областью
где
Первый член данного выражения носит название собственно дискриминантной (решающей) функции
Рассмотрим случай, когда два многомерных нормальных распределения имеют разные ковариационные матрицы. Решающее правило приобретает вид
Видно, что решающая граница является квадратичной формой относительно вектора признаков (рис. 9.6, а). Для таких ситуаций рекомендован простой подход к синтезу линейной разделяющей функции [9.8]. Он состоит в замене каждой из ковариационных матриц их средним значением, т. е. Рис. 9.6. Решающие границы для нормальных распределений: a - Пример 9.3. Проанализируем сейчас практически более важную ситуацию, когда имеются две обучающие выборки —
Тогда оценка дискриминантной функции, полученная по обучающим выборкам, имеет вид
Это линейная функция (случайная величина), имеющая наибольшую дисперсию между выборками относительно дисперсии внутри выборок. Чаще всего в качестве статистики критерия классификации привлекают следующую величину (так называемая модель Фишера) [9.13]
|