§ 2. Детерминистская и стохастическая постановки задачи обучения распознаванию образовИдея применения метода стохастической аппроксимации для решения задачи обучения распознаванию образов связана с заменой функции потерь (4.2) другой функцией, такой, чтобы по ней была возможна организация рекуррентной процедуры. Замена функции потерь, по существу, означает, что задача об обучении распознаванию образов подменяется некоторой другой задачей. В одних случаях такая подмена приемлема, а в других – неприемлема, так как дает результаты, значительно отличающиеся от оптимальных. Чтобы разделять эти случаи, принято различать два варианта постановки задачи обучения распознаванию образов – детерминистскую постановку и стохастическую. В детерминистской постановке предполагается, что среди характеристических функций Оказывается, что в первом случае удается построить такую функцию потерь, что, с одной стороны, минимум соответствующего функционала достигается на той же функции В качестве примера вновь обратимся к классу решающих правил персептрона. Вспомним, что для персептрона Розенблатта может быть выписан функционал, минимизация которого составляет суть задачи обучения. В координатах спрямляющего пространства функционал имеет вид
Предположим, что существует точное решение задачи распознавания, т. е. существует такое
а для векторов второго класса
Построим новый функционал, например, со следующей функцией потерь:
График этой функции при фиксированных Рис. 7. Введенная функция потерь имеет простой смысл: для каждого
Если с помощью разделяющей гиперплоскости вектор
то штраф численно равен
то величина штрафа численно равна Используя эту функцию потерь, можно подменить задачу о минимизации функционала на том основании, что точка минимума нового функционала доставляет минимум исходному функционалу. Для функции потерь Соответствующая рекуррентная процедура означает, что если вектор Полученный алгоритм поиска характеристической функции очень напоминает алгоритм построения коэффициентов элемента Конечно,
График этой функции потерь для фиксированных Рис. 8. Для такого функционала определяется рекуррентная процедура
в которой вектор-функция Такой алгоритм (при условии, что Существует много различных функционалов (различающихся функциями потерь), для каждого из которых стандартная процедура (4.1) порождает рекуррентный алгоритм обучения распознаванию образов. Исторически, однако, алгоритмы обучения распознаванию образов были получены не так. Авторы каждого из алгоритмов находили законы поиска разделяющей гиперплоскости, исходя из различных соображений. Поэтому сразу же после сообщений о персептроне Розенблатта появился целый ряд алгоритмов, обеспечивающих выбор нужной гиперплоскости. Только в середине 60-х годов Я. 3. Цыпкин заметил, что все эти алгоритмы могут быть получены по одной и той же схеме и различаются между собой так как различаются функционалы, экстремум которых достигается на одной и той же решающей функции.
|