Распознавание образов: § 2. Равномерная сходимость частот появления событий к их вероятностям

§ 2. Равномерная сходимость частот появления событий к их вероятностям

Рассмотрим снова функционал, минимизация которого в нашей постановке составляет суть задачи обучения распознаванию,

Как уже указывалось, этот функционал для каждого решающего правила определяет вероятность ошибочной классификации. Эмпирическая оценка функционала, вычисленная на обучающей последовательности

для каждого решающего правила , определяет частоту неправильной классификации на обучающей последовательности.

Согласно классическим теоремам теории вероятностей частота появления любого события сходится к вероятности этого события при неограниченном увеличении числа испытаний. Однако из этих теорем никак не следует, что решающее правило , которое имеет минимальную частоту ошибок , будет иметь минимальную (среди этих же правил) или близкую к минимальной вероятность ошибки. Это утверждение является очень важным и поэтому разберем его подробнее.

Предположим для наглядности, что решающие правила задаются скаляром , который может принимать значения от 0 до 1. Каждому значению ставится в соответствие решающее правило, для которого существует вероятность ошибки . Таким образом, каждому может быть поставлено в соответствие число . Рассмотрим функцию (рис. 10).

Рис. 10

Наряду с этой функцией может быть построена и функция , которая для каждого определяет частоту ошибочной классификации с помощью правила , вычисленную на обучающей последовательности.

Метод минимизации эмпирического риска предлагает по минимуму функции судить о минимуме функции . Для того чтобы по точке минимума и минимальному значению функции можно было судить о точке минимума функции и о ее минимальном значении, достаточно, чтобы кривая находилась внутри -трубки кривой . Напротив, выброс хотя бы в одной точке (как на рис. 10) может привести к тому, что в качестве минимального значения будет выбрана точка выброса. В этом случае минимум никак не характеризует минимум функции . Если же функция приближает равномерно по с точностью , то качество эмпирически оптимального решающего правила отличается от качества истинно оптимального правила не более чем на .

Формально это означает, что нас интересуют не классические условия, когда для любых и имеет место

а более сильные условия, когда для любого справедливо

. (5.1)

В случае, когда выполняется (5.1), говорят, что имеет место равномерная сходимость частот к вероятностям по классу событий . Каждое событие в классе задается решающим правилом как множество векторов , которое это правило ошибочно классифицирует.

Таким образом, эффективность решения задачи обучения распознаванию образов методом минимизации эмпирического риска оказалась связанной с существованием равномерной сходимости частот к вероятностям по классу событий .