Обучение распознаванию образов: § 3. Конечно-сходящиеся рекуррентные процедуры

§ 3. Конечно-сходящиеся рекуррентные процедуры

Итак, существует универсальная процедура (4.1), порождающая различные рекуррентные алгоритмы построения разделяющей гиперплоскости. Однако эти алгоритмы гарантируют успех лишь при неограниченном увеличении выборки. Это связано с тем, что процедура (4.1) достаточно универсальна, и потому поиск нужных коэффициентов ведется весьма осторожно: вспомним, что величина шага быстро падает с ростом (последовательность такова, что ). Такая осторожность иногда может оказаться чрезмерной. Пусть, например, класс решающих правил задан в виде

По-прежнему рассматривается детерминистская постановка задачи; геометрически это значит, что множества векторов и , которые должны быть отнесены к первому и второму классам соответственно, разделяются гиперплоскостью

(иначе говоря, выпуклые оболочки этих множеств не пересекаются). Исключая из рассмотрения те задачи, для которых расстояние между выпуклыми оболочками множеств и равно нулю, рассмотрим только такие задачи, для которых это расстояние отлично от нуля (равно некоторой положительной величине ). Кроме того, будем считать, что диаметр объединенного множества и ограничен и равен .

В данных условиях поиск функции, минимизирующей функционал , можно вести менее осторожно.

В частности, для рекуррентной процедуры (4.1) шаг может быть выбран равным постоянной величине, например , и тогда можно гарантировать, что минимум функционала будет найден после того, как произойдет конечное число изменений величин . При этом величина заведомо ограничена числом (теорема Новикова). Алгоритмы, с помощью которых можно за конечное число исправлений найти нужное решающее правило, получили название конечно-сходящихся.

Конечно-сходящиеся алгоритмы гарантируют также, что минимум функционала будет найден с помощью обучающей последовательности конечной длины. Однако в общем случае оценить длину обучающей последовательности оказывается невозможно.

Можно представить себе такой вариант обучающей последовательности, где исправление коэффициентов разделяющей гиперплоскости будет происходить на каждом ее элементе (возможно, искусство педагога и заключается в умении так подобрать материал обучения). Длина такой обучающей последовательности равна необходимому числу исправлений. Возможен и такой состав обучающей последовательности, когда между двумя элементами, на которых происходят исправления, находится некоторое число элементов, не приводящих к изменению коэффициентов. В этом случае длина обучающей последовательности, на которой произойдут все необходимые исправления, будет значительно больше числа исправлений. В случае, когда на обучающей последовательности произойдут все необходимые исправления, полученная решающая гиперплоскость обеспечит нуль функционалу .

Однако в нашей постановке задачи требуется отыскание не оптимальной, а близкой к ней гиперплоскости, притом отыскание такой гиперплоскости должно произойти не безусловно, а лишь с заданной вероятностью.

Такое решение задачи можно гарантировать на обучающей последовательности фиксированной длины. Ниже будет показано, что если алгоритм конечно-сходящийся, то для любых и существует такое число шагов , на котором хотя бы однажды будет получено решающее правило требуемого качества. Поэтому возникает необходимость установить, в какой момент (после какого шага рекуррентной процедуры) с вероятностью можно утверждать, что построено требуемое решающее правило.

Теоремы, устанавливающие этот момент, т. е. момент окончания процесса обучения, получили название теорем об останове рекуррентных алгоритмов.