§ 10. Упорядочение по эмпирическим оценкам относительного расстояния и задача минимизации суммарного рискаВ этом параграфе мы рассмотрим постановку задачи обучения распознаванию образов, которая отличается от рассматриваемой до сих пор, но которая для многих случаев, встречающихся на практике, может оказаться более естественной. Для этой постановки задачи будут построены некоторые априори упорядоченные классы решающих правил и применен метод упорядоченной минимизации риска. Итак, до сих пор исследовалась постановка задачи обучения распознаванию образов, согласно которой в классе характеристических функций
если функция
Величина Особенность рассматриваемой здесь постановки состоит в том, что наряду с обучающей последовательностью задается выборка векторов
которую будем называть рабочей выборкой. Рабочая выборка получена из выборки пар, найденной при случайных и независимых испытаниях, согласно распределению
(Из этой выборки пар отбираются только элементы
Таким образом, разница в постановках состоит в том, что в одном случае требуется найти функцию Если наша цель состоит в том, чтобы классифицировать некоторые векторы (а не в том, чтобы найти общее решающее правило!), предлагаемая постановка кажется более разумной. Итак, будем решать задачу обучения распознаванию образов в постановке, которая требует с помощью правил из класса В этой постановке задачи обучения распознаванию образов также будем различать два варианта постановок – детерминистскую и стохастическую. Детерминистская постановка предполагает, что решающее правило Замечательная особенность задачи минимизации суммарного риска состоит в том, что можно считать, что до начала обучения (до начала поиска решающего правила) множество Нетрудно понять, что число классов эквивалентных разделяющих гиперплоскостей для
где В нашем случае число классов эквивалентных гиперплоскостей оценивается величиной
где В дальнейшем для упрощения выкладок будем считать, что длины обучающей и рабочей выборок равны, т. е. Итак, путь дана выборка длины
состоящая из векторов
Упорядочим теперь класс линейных решающих правил по следующему принципу. К первому классу
где
Заметим, что упорядочение решающих правил проводится по известным значениям Справедливы следующие две теоремы. Теорема 6.2. Вероятность того, что хотя бы для одного решающего правила из
где
Теорема 6.3. Вероятность того, что найдется решающее правило из
где
Доказательство. Число различных разбиений выборки
где
здесь Как показано в приложении к главе X, при любом
Поэтому вероятность
Аналогично для теоремы 6.3 показывается, что для фиксированного решающего правила вероятность где и соответственно при
Тогда вероятность
Для доказательства теорем остается оценить число
где Пусть теперь дано Тот факт, что условие
Тогда число
Из соображения симметрии ясно, что
достигается, когда
Начиная с
Из (6.12) и (6.14) следует, что
Окончательно, учитывая, что разбиение осуществляется гиперплоскостью, имеем
и соответственно
Оценка величины Эти теоремы дают возможность вычислить доверительные интервалы оценок качества правила класса Приравнивая правые части (6.10) и (6.11) к величине
для общего случая и
для детерминистского случая. В формулах (6.17) и (6.18) Таким образом, с вероятностью
при решении задачи в общей постановке и
в детерминистской постановке. Существование оценок (6.19) и (6.20) позволяет построить упорядоченную процедуру минимизации риска. Для детерминистской постановки задача состоит в том, чтобы так отнести элементы рабочей выборки к первому и второму классам, чтобы, во-первых, разделение множества векторов первого и второго классов, состоящих из элементов обучающей и рабочей последовательностей, было возможно, а во-вторых, расстояние между выпуклыми оболочками объединенных множеств было бы максимальным (по сравнению с другими вариантами разделения рабочей выборки на два класса). При этом качество полученного решающего правила оценивается с помощью функционала (6.20). В общем случае проводится индексация не только рабочей выборки, но и переиндексация элементов обучающей последовательности. При этом количество переиндексированных векторов задает число ошибочных классификаций материала обучения. Задача состоит в том, чтобы так индексировать рабочую выборку и переиндексировать обучающую последовательность, чтобы минимизировать функционал (6.19).
|