§ 6. Математическая постановка задачи обученияТакая постановка задачи на формальном языке имеет простое выражение. В среде, которая характеризуется распределением вероятностей , случайно и независимо появляются ситуации . Существует «учитель», который классифицирует их, т. е. относит к одному из классов (для простоты ). Пусть он делает это согласно условной вероятности , где означает, что вектор отнесен к первому классу, – ко второму. Ни характеристика среды , ни правило классификации нам не известны. Однако известно, что обе функции существуют, т. е. существует совместное распределение вероятностей . Пусть теперь определено множество решающих правил . В этом множестве каждое правило определяется заданием параметра (иногда удобно понимать параметр как вектор). Все правила – характеристические функции, т. е. могут принимать только одно из двух значений: нуль или единица (наполним: нуль означает, что вектор отнесен к первому классу, а единица – ко второму). Для каждой функции может быть определено качество как вероятность различных классификаций ситуаций учителем (с помощью правила и с помощью характеристической функции ). На формальном языке качество функции определяется так: а) в случае, когда пространство дискретно и состоит из точек , , (2.1') где – вероятность возникновения ситуации ; б) в случае, когда в пространстве существует плотность распределения , ; (2.1") в) в общем случае можно считать, что в пространстве задана вероятностная мера . При этом выражается так: . (2.1''') Среди всех функций есть такая , которая минимизирует вероятность ошибок. Эту-то наилучшую в классе функцию (или близкую к yей, т. е. функцию с качеством, отличным от не более чем на малую величину ) и следует найти. Однако, поскольку совместное распределение вероятностей неизвестно, поиск ведется с использованием обучающей последовательности , т. е. случайной и независимой выборки примеров фиксированной длины . Как уже указывалось, нельзя найти алгоритм, который по конечной выборке безусловно гарантировал бы успех поиска. Успех можно гарантировать лишь с некоторой вероятностью . Таким образом, задача заключается в том, чтобы для любой функции среди характеристических функций найти по обучающей последовательности фиксированной длины такую функцию , о которой с надежностью, не меньшей , можно было бы утверждать, что ее качество отличается от качества лучшей функции на величину, не превышающую . Для персептрона в соответствии с (2.1) качество решающего правила определяется так: . Задача заключается в том, чтобы по обучающей последовательности найти решающее правило, которое доставляет либо минимум , либо значение, близкое к минимальному. Такая задача не является новой в математике. Она известна в более общей постановке: требуется найти минимум по функционала , (2.2) если неизвестна функция распределения , но зато дана случайная и независимая выборка . Эта задача получила название задачи о минимизации величины среднего риска. Она имеет простую интерпретацию: функция для всякого фиксированного значения параметра определяет величину потерь при появлении сигнала . Средняя по величина потерь для фиксированного значения параметра определяется согласно (2.2). Задача заключается в том, чтобы выяснить, при каких значениях параметра средняя величина потерь (чаще говорят: величина среднего риска) будет минимальной. Задача обучения распознаванию образов есть частный случай задачи о минимизации среднего риска. Особенность ее заключается в том, что функция (эту функцию двух переменных часто называют функцией потерь) не обладает таким произволом, как в общей постановке задачи и минимизации риска. На функцию наложены ограничения: вектор задается координатами: координатой и координатами ; Функция потерь задана в виде , где - характеристическая функция множеств.
|