§ 6. Математическая постановка задачи обучения
Такая постановка задачи на формальном языке имеет простое выражение. В среде, которая характеризуется распределением вероятностей
, случайно и независимо появляются ситуации
. Существует «учитель», который классифицирует их, т. е. относит к одному из
классов (для простоты
). Пусть он делает это согласно условной вероятности
, где
означает, что вектор
отнесен к первому классу,
– ко второму. Ни характеристика среды
, ни правило классификации
нам не известны. Однако известно, что обе функции существуют, т. е. существует совместное распределение вероятностей
.
Пусть теперь определено множество
решающих правил
. В этом множестве каждое правило определяется заданием параметра
(иногда удобно понимать параметр
как вектор). Все правила
– характеристические функции, т. е. могут принимать только одно из двух значений: нуль или единица (наполним: нуль означает, что вектор
отнесен к первому классу, а единица – ко второму). Для каждой функции
может быть определено качество
как вероятность различных классификаций ситуаций
учителем (с помощью правила
и с помощью характеристической функции
). На формальном языке качество
функции
определяется так:
а) в случае, когда пространство
дискретно и состоит из точек
,
, (2.1')
где
– вероятность возникновения ситуации
;
б) в случае, когда в пространстве
существует плотность распределения
,
; (2.1")
в) в общем случае можно считать, что в пространстве
задана вероятностная мера
. При этом
выражается так:
. (2.1''')
Среди всех функций
есть такая
, которая минимизирует вероятность ошибок. Эту-то наилучшую в классе функцию (или близкую к yей, т. е. функцию с качеством, отличным от
не более чем на малую величину
) и следует найти. Однако, поскольку совместное распределение вероятностей
неизвестно, поиск ведется с использованием обучающей последовательности
,
т. е. случайной и независимой выборки примеров фиксированной длины
. Как уже указывалось, нельзя найти алгоритм, который по конечной выборке безусловно гарантировал бы успех поиска. Успех можно гарантировать лишь с некоторой вероятностью
.
Таким образом, задача заключается в том, чтобы для любой функции
среди характеристических функций
найти по обучающей последовательности фиксированной длины
такую функцию
, о которой с надежностью, не меньшей
, можно было бы утверждать, что ее качество отличается от качества лучшей функции
на величину, не превышающую
.
Для персептрона в соответствии с (2.1) качество решающего правила определяется так:
.
Задача заключается в том, чтобы по обучающей последовательности найти решающее правило, которое доставляет либо минимум
, либо значение, близкое к минимальному.
Такая задача не является новой в математике. Она известна в более общей постановке: требуется найти минимум по
функционала
, (2.2)
если неизвестна функция распределения
, но зато дана случайная и независимая выборка
. Эта задача получила название задачи о минимизации величины среднего риска. Она имеет простую интерпретацию: функция
для всякого фиксированного значения параметра
определяет величину потерь при появлении сигнала
. Средняя по
величина потерь для фиксированного значения параметра определяется согласно (2.2).
Задача заключается в том, чтобы выяснить, при каких значениях параметра
средняя величина потерь (чаще говорят: величина среднего риска) будет минимальной.
Задача обучения распознаванию образов есть частный случай задачи о минимизации среднего риска. Особенность ее заключается в том, что функция
(эту функцию двух переменных часто называют функцией потерь) не обладает таким произволом, как в общей постановке задачи и минимизации риска. На функцию
наложены ограничения:
вектор
задается
координатами: координатой
и координатами
;
Функция потерь
задана в виде
, где
- характеристическая функция множеств.