Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 7. Три пути решения задачи о минимизации среднего риска

Существуют три традиционных пути решения задачи минимизации среднего риска.

Первый путь связан с идеей восстановления функции распределения вероятностей. Предположим, что наряду с функцией распределения  существуют условные плотности распределения ,  и вероятности , . Здесь  – плотность распределения вероятностей векторов первого класса, а  – плотность распределения вероятностей векторов второго класса. Величины ,  определяют вероятность появления векторов соответственно первого и второго классов.

Зная эти функции, можно с помощью формулы Байеса определить вероятность принадлежности вектора  первому или второму классу:

,

.                     (2.3)

В формуле (2.3)

– нормирующий множитель.

Нетрудно понять, что минимальные потери будут получены при такой классификации векторов, при которой вектор  будет отнесен к первому классу в случае выполнения неравенства

(т. е. если более вероятно, что он принадлежит к первому классу, чем ко второму) и относится ко второму классу в противном случае.

Иначе говоря, учитывая (2.3), вектор  должен быть отнесен к первому классу, если выполняется неравенство

,

или, что то же самое, оптимальная классификация векторов производится с помощью характеристической функции

.              (2.4)

Такие характеристические функции иногда называют дискриминантными. Таким образом, знание плотностей условных распределений ,  и вероятностей ,  гарантирует отыскание оптимального правила классификации.

Первый путь заключается в том, чтобы сначала восстановить по выборке неизвестные функции распределения векторов первого и второго классов, а затем по восстановленным функциям распределения построить дискриминантную функцию.

Однако следует заметить, что в этом случае решение сравнительно простой задачи – построение дискриминантной функции – подменяется решением значительно более сложной задачи – задачи о восстановлении функции распределения. Ведь восстанавливаемые функции распределения вероятностей составляют исчерпывающие сведения о классах векторов, в то время как нужная нам дискриминантная функция отражает только одну из характеристик взаимного расположения векторов различных классов.

Поэтому, вообще говоря, решать задачу обучения распознаванию образов, восстанавливая неизвестные функции распределения вероятностей, нерационально. Исключения составляют случаи, когда задачи о восстановлении многомерных функций распределений сильно вырождаются. Например, когда функция распределения такова, что координаты вектора  распределены независимо, т. е.

.

В этом случае задача о восстановлении двух -мерных функций распределения вероятностей вырождается в задачу о восстановлении  одномерных функций

,   .

Второй путь связан с организацией рекуррентной процедуры поиска параметра , доставляющего минимум функционалу (2.2).

Если бы функция распределения вероятностей  была известна, то при определенных условиях рекуррентная процедура поиска минимума могла бы быть организована с помощью градиентного спуска по функции . В данном случае градиент может быть найден так:

.

Процедура спуска представляла бы собой следующее правило:

,                    (2.5)

где  – величина -го шага.

Прямым обобщением градиентного метода поиска минимума функции  на случай неизвестной функции распределения вероятностей  является процедура метода стохастической аппроксимации

,                    (2.6)

где вектор-функцию  можно понимать как градиент по  функции  в точке .

В (2.6) вектор  определяет направление движения. В отличие от (2.5) направление, вдоль которого будет происходить изменение вектора , зависит не только от предыдущего значения , но и от случайной величины . Таким образом, вектор  определяет стохастический градиент – направление, случайное вследствие влияния переменной . В этой процедуре сходимость к минимуму обеспечивает такая последовательность величин шагов , что

,

(эти условия обеспечивают возможность, во-первых, подойти к точке минимума из сколь угодно «далекой» точки пространства , а во-вторых, приблизиться к точке минимума как угодно близко).

Теория таких итерационных методов поиска минимума направлена на то, чтобы выяснить, каким условиям должны подчиняться функция двух групп переменных , вектор-функция  и константы , чтобы с помощью процедуры (2.6) можно было обеспечить сходимость последовательности  к значению , на котором достигается минимум функционала . Используя эту теорию, можно для определенных (не для любых!) функций потерь  строить рекуррентную процедуру поиска нужных значений вектора параметров .

Второй путь как раз и связан с построением итерационной процедуры (2.6) для поиска минимума .

Наконец, третий путь связан с идеей замены неизвестного функционала

,

функцией

,

построенной по случайной и независимой выборке .

Функция  получила название функции, исчисляющей величину эмпирического риска. Для каждого фиксированного значения параметра  она определяет среднюю величину потерь на выборке .

Идея метода состоит в том, чтобы найти значение параметров , обеспечивающих минимум функции эмпирического риска, а затем в качестве решения задачи о минимизации среднего риска предложить функцию с этими значениями параметров, т. е. .

Такой метод решения задачи называется методом минимизации эмпирического риска. Теория метода минимизации эмпирического риска призвана ответить на вопросы, когда (для каких функций ) такая подмена возможна и какая при этом совершается ошибка.

Развитие методов обучения распознаванию образов пошло по всем трем путям минимизации среднего риска.

 



<< ПредыдущаяОглавлениеСледующая >>