§ 4.8. Поисковые алгоритмы обучения

Хотя каждому дискретному алгоритму, приведенному в табл. 4.1, можно поставить в соответствие поисковый алгоритм обучения, вряд ли нужно в этих случаях отдавать какое-либо предпочтение поисковым алгоритмам. Ведь для алгоритмов, с которыми мы познакомились в § 4.7, градиент реализации вычисляется, как только выбрана функция .

Тем не менее в ряде случаев (и при несколько иной постановке задачи опознавания), по-видимому, единственно возможными являются поисковые алгоритмы обучения. Вот эту постановку задачи опознавания мы здесь и рассмотрим.

Рассмотрим два класса образов и , или, что эквивалентно, два класса — 1 и 2. Если образ класса мы отнесем к классу , то эта ситуация оценивается штрафом . Величина этих штрафов задается матрицей .

Средний риск, представляющий собой математическое ожидание штрафов, можно представить в форме, которая является частным случаем функционала (1.3):

, (4.22)

где — вероятность появления образа 1-го класса, — вероятность появления образа 2-го класса, — условные плотности распределения образов обоих классов, a — решающее правило:, если образ относится к 1-му классу, , если образ относится ко 2-му классу. Если бы плотности распределения были известны, то для решения поставленной задачи можно было бы использовать все могущество теории статистических решений, основаннойна байесовском подходе. Но в нашем случае эти плотности распределения неизвестны, и мы не можем непосредственно воспользоваться результатами этой изящной теории.

Конечно, их можно применить, если предварительно каким-либо путем определить плотности распределении. Так иногда и поступают. Но не лучше ли не тратить время на этот «лишний» этап, а воспользоваться алгоритмами обучения? Ведь риск , выражаемый формулой (4.22), представляет собой частный случай среднего риска (1.5). Поэтому можно представить в виде

, (4.23)

где , если при заданном решающем правиле мы этот образ отнесем к классу , тогда как на самом деле он принадлежит классу .

Решающее правило будем искать в виде известной функции с неизвестным вектором параметров . Поскольку зависит от вектора лишь неявным образом, то для определения оптимального вектора уместно воспользоваться поисковым алгоритмом

, (4.24)

причем

где

, если принадлежит к классу

и ,

, если принадлежит классу

и .

Поисковый алгоритм адаптации (4.24) и решает задачу обучения. Этот алгоритм перебрасывает мост между алгоритмическим подходом и теорией статистических решений, основанной на байесовском критерии. С подобного рода связью мы еще встретимся в задачах фильтрации, точнее, в задачах обнаружения и выделения сигналов, которые рассматриваются в гл. VI.