Распознавание образов: § 11. Замечания об особенностях метода минимизации эмпирического риска

§ 11. Замечания об особенностях метода минимизации эмпирического риска

Характерной особенностью изложенной теории минимизации эмпирического риска является полное отсутствие каких бы то ни было указаний на конструктивную возможность построения алгоритма. Это обстоятельство имеет как свои недостатки, так и преимущества. Недостаток заключается в том, что построенная теория не указывает на регулярные процедуры, которые должна реализовать обучающая программа, как было в теории рекуррентных алгоритмов. Здесь исследователю каждый раз приходится изобретать алгоритмы, подчиняющиеся определенным общим правилам.

Преимущество такой теории – ее общность. Так, при исследовании задачи обучения распознаванию образов не возникает необходимости различать две постановки задачи – детерминистскую и стохастическую. И если все существующие рекуррентные алгоритмы обучения распознаванию образов, по существу, строят в спрямляющем пространстве разделяющую гиперплоскость, то конструктивные идеи алгоритмов обучения распознаванию образов, использующих метод минимизации эмпирического риска, значительно богаче. В частности, метод минимизации эмпирического риска может быть применен в классе кусочно-ломаных функций, логических функций определенного вида и др.

Все эти преимущества связаны с тем, что метод минимизации эмпирического риска отвечает на вопрос «что надо делать», оставляя в стороне вопрос о том, «как это сделать». Поэтому для минимизации эмпирического риска широко могут быть использованы различные методы, в том числе и эвристические.

Применение эвристических методов в этом случае имеет теоретическое оправдание: если в классе решающих правил, емкость которого невелика, выбрать правило, которое хотя и не минимизирует эмпирический риск, но доставляет ему достаточно малую величину, то в силу равномерной сходимости выбранное правило будет иметь достаточно высокое качество.

Таким образом, алгоритм заведомо способен обучаться, если:

1) емкость класса решающих правил алгоритма невелика,

2) выбирается правило, которое доставляет величине эмпирического риска малое значение.

Конструктивные идеи таких алгоритмов имеют чрезвычайно наглядную геометрическую интерпретацию: в пространстве надо построить гиперповерхность, принадлежащую заданному классу гиперповерхностей (характер класса гиперповерхностей существенно определяет особенность алгоритма), которая по возможности с меньшим количеством ошибок, разделяет векторы обучающей последовательности одного класса от векторов обучающей последовательности второго класса. Методы построения таких разделяющих поверхностей и составляют конструктивную особенность алгоритмов обучения распознаванию образов. При этом принято различать два класса алгоритмов: алгоритмы, строящие «гладкие» разделяющие гиперповерхности, и алгоритмы, строящие «не гладкие» разделяющие поверхности. Методы построения гладких разделяющих поверхностей основаны на построении разделяющей гиперплоскости в соответствующем спрямляющем пространстве. Один из них – метод обобщенного портрета будет подробно рассмотрен в третьей части книги. Методы построения «не гладких» разделяющих гиперповерхностей берут свое начало с работ М. М. Бонгарда и М. И. Вайнцвайга, предложивших один из наиболее популярных алгоритмов обучения такого типа – алгоритм «Кора» [4, 9].