Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 6. Математическая постановка задачи обучения

Такая постановка задачи на формальном языке имеет простое выражение. В среде, которая характеризуется распределением вероятностей , случайно и независимо появляются ситуации . Существует «учитель», который классифицирует их, т. е. относит к одному из  классов (для простоты ). Пусть он делает это согласно условной вероятности , где  означает, что вектор  отнесен к первому классу,  – ко второму. Ни характеристика среды , ни правило классификации  нам не известны. Однако известно, что обе функции существуют, т. е. существует совместное распределение вероятностей

.

Пусть теперь определено множество  решающих правил . В этом множестве каждое правило определяется заданием параметра  (иногда удобно понимать параметр  как вектор). Все правила  – характеристические функции, т. е. могут принимать только одно из двух значений: нуль или единица (наполним: нуль означает, что вектор  отнесен к первому классу, а единица – ко второму). Для каждой функции  может быть определено качество  как вероятность различных классификаций ситуаций  учителем (с помощью правила  и с помощью характеристической функции ). На формальном языке качество  функции  определяется так:

а) в случае, когда пространство  дискретно и состоит из точек ,

,                  (2.1')

где  – вероятность возникновения ситуации ;

б) в случае, когда в пространстве  существует плотность распределения ,

;                   (2.1")

в) в общем случае можно считать, что в пространстве  задана вероятностная мера . При этом  выражается так:

.                       (2.1''')

Среди всех функций  есть такая , которая минимизирует вероятность ошибок. Эту-то наилучшую в классе функцию (или близкую к yей, т. е. функцию с качеством, отличным от  не более чем на малую величину ) и следует найти. Однако, поскольку совместное распределение вероятностей  неизвестно, поиск ведется с использованием обучающей последовательности

,

т. е. случайной и независимой выборки примеров фиксированной длины . Как уже указывалось, нельзя найти алгоритм, который по конечной выборке безусловно гарантировал бы успех поиска. Успех можно гарантировать лишь с некоторой вероятностью .

Таким образом, задача заключается в том, чтобы для любой функции  среди характеристических функций  найти по обучающей последовательности фиксированной длины  такую функцию , о которой с надежностью, не меньшей , можно было бы утверждать, что ее качество отличается от качества лучшей функции  на величину, не превышающую .

Для персептрона в соответствии с (2.1) качество решающего правила определяется так:

.

Задача заключается в том, чтобы по обучающей последовательности найти решающее правило, которое доставляет либо минимум , либо значение, близкое к минимальному.

Такая задача не является новой в математике. Она известна в более общей постановке: требуется найти минимум по  функционала

,                  (2.2)

если неизвестна функция распределения , но зато дана случайная и независимая выборка . Эта задача получила название задачи о минимизации величины среднего риска. Она имеет простую интерпретацию: функция  для всякого фиксированного значения параметра  определяет величину потерь при появлении сигнала . Средняя по  величина потерь для фиксированного значения параметра определяется согласно (2.2).

Задача заключается в том, чтобы выяснить, при каких значениях параметра  средняя величина потерь (чаще говорят: величина среднего риска) будет минимальной.

Задача обучения распознаванию образов есть частный случай задачи о минимизации среднего риска. Особенность ее заключается в том, что функция  (эту функцию двух переменных часто называют функцией потерь) не обладает таким произволом, как в общей постановке задачи и минимизации риска. На функцию  наложены ограничения:

вектор  задается  координатами: координатой  и координатами ;

Функция потерь  задана в виде , где  - характеристическая функция множеств.

 



<< ПредыдущаяОглавлениеСледующая >>