Распознавание образов: § 2. Качество обучения

§ 2. Качество обучения

Какие же требования предъявляются к обучающему устройству? Попытаемся в первую очередь уточнить, какой смысл вкладывается в понятие «хорошее» решающее правило, т. е. каков смысл утверждения «решающее правило классифицирует ситуации так же, как учитель».

Очевидно, оно должно означать, что между классификацией учителя и тем, как ее проводит машина, несовпадения составляют небольшой процент. Однако если существует хотя бы одна ситуация, которую машина и «учитель» классифицируют по-разному, то процент несовпадения в ответах существенно зависит от той последовательности ситуаций, по которой оп будет исчисляться. Например, если в последовательности много раз встречается ситуация, которую машина классифицирует не так, как учитель, то процент несовпадений будет велик, в то время как при другом составе последовательности он может оказаться мал.

Поэтому необходимо заранее условиться, как будет определяться качество решающего правила, т. е. по какой последовательности будет исчисляться процент несовпадений. Можно условиться, чтобы процент несовпадений вычислялся по отношению ко всем возможным входным ситуациям. Однако такое определение качества решающего правила не является удовлетворительным: в жизни требуется правильно распознавать как можно больший процент встречающихся, а не всех возможных ситуаций. Различие здесь заключается в том, что некоторые ситуации встречаются чаще, их желательно классифицировать правильно, другие ситуации, хотя и возможны, но встречаются сравнительно редко, ошибка (так дальше будем называть несовпадение в классификациях учителя и машины) в последнем случае менее опасна.

Такое положение идеализирует гипотеза о том, что на множестве всех возможных ситуаций задана функция распределения вероятностей . Иначе говоря, считается, что в соответствие каждой возможной ситуации ставится вероятность появления ее среди элементов, подлежащих классификации. Тогда «потери» от ошибки на ситуации могут быть оценены величиной, пропорциональной вероятности появления этой ситуации. Для каждого решающего правила можно подсчитать средние потери от всех его ошибок. Хорошим решающим правилом следует считать в этом случае то, которое дает минимальные средние потери, т. е. обеспечивает минимальную вероятность ошибок при классификации.

Гипотеза о существовании функции распределения вероятностей вовсе не предполагает, что она нам известна. Важно лишь то, что она существует и что ситуации, предъявляемые для классификации, появляются случайно согласно этой функции. Образно говоря, функция является характеристикой среды, в которой будет работать классифицирующее устройство. Качество решающего правила определяется вероятностью ошибок при работе в этой среде.

Несмотря на то, что функция нам не известна, качество любого решающего правила может быть оценено эмпирически.

Для этого случайно и независимо отбирается некоторое количество примеров, относительно которых выясняется, к какому классу отнес их учитель. Такое множество примеров принято называть экзаменационной последовательностью. На экзаменационной последовательности определяется процент несовпадений в классификациях учителя и машины. Найденный процент характеризует качество решающего правила точно так же, как вычисленная по конечной выборке частота характеризует вероятность.