§ 11. О выборе оптимальной совокупности признаковСоображения предыдущего параграфа указывают на то, что при построении конечно-оптимальных решающих правил следует учитывать не только число ошибок на обучающей последовательности и размерность выбираемого подпространства, но и относительное расстояние между проекциями классов на подпространство. Для того чтобы учесть все эти особенности, рассмотрим двухступенчатую схему упорядочения класса решающих правил. Пусть сначала задана ранжировка системы признаков. Как и ранее, разобьем класс Рассмотрим сначала задачу в детерминистской постановке. Пусть дана обучающая выборка Теперь естественно принять в качестве критерия выбора величину доверительного интервала
где
Здесь как величина Оценка доверительного интервала (6.20') меняется, вообще говоря, не монотонно с ростом размерности подпространства. Поэтому выбранное процедурой второго уровня подпространство может содержать больше признаков, чем минимально необходимо для разделения классов. Описанная процедура эквивалентна упорядоченному поиску при одноступенчатом упорядочении, определенном следующим образом. К первому классу относятся либо все те решающие правила, которые либо производят разделение в подпространстве, заданном первым признаком, либо такие, которые характеризуются числом
Ко второму классу относятся разделяющие гиперплоскости, которые либо производят разделение в подпространстве, заданном первыми двумя признаками, либо характеризуются числом и т. д. Иначе говоря, к
В общей постановке не требуется, чтобы выбираемое правило было безошибочным на материале обучающей последовательности. Обозначим
В том случае, когда априорная ранжировка признаков не задана, упорядочение класса линейных правил производится по следующему правилу: к В случае детерминистской постановки задачи алгоритмы первого уровня выбирают каждый в своем классе решающее правило, которое правильно классифицирует материал обучения (если такое есть) и при этом доставляет максимум величине Алгоритм высшего уровня выбирает из числа предложенных алгоритмами первого уровня такое решающее правило, для которого минимальна величина
где
В общем случае алгоритмы первого уровня действуют так, как это было описано в конце предыдущего параграфа, а на втором уровне выбор проводится по критерию
При использовании некоторых алгоритмов построения линейных разделяющих гиперплоскостей (в частности, алгоритмов метода обобщенного портрета) можно ввести такой способ упорядочения, при котором достигается более глубокий гарантированный минимум. Идея этого способа упорядочения связана с тем, что в формуле (6.19') Рассмотрим следующий способ упорядочения: к
т. е. минимум трех величин равен При таком способе упорядочения оценка качества выбранного решающего правила также определяется критериями (6.19), (6.20). Итак, рассмотрено три способа упорядочения класса линейных решающих правил. Каждый следующий способ позволял достичь, вообще говоря, более глубокого гарантированного минимума. Это происходило за счет того, что разделяющая гиперплоскость строилась не в исходном пространстве признаков, а в некотором его подпространстве, обладающем экстремальными свойствами. Таким образом, оказалось, что попытка построить по выборке фиксированного объема наилучшее решающее правило приводит к выбору того или иного набора признаков из фиксированного множества признаков и построению в пространстве выбранных признаков разделяющей гиперплоскости. Часто множество отобранных признаков называют информативным набором признаков. «Информативность» этого набора может быть оценена числом, равным минимальной величине критерия (6.19'), которая достигается в пространстве этих признаков. Можно оценивать «вклад» каждого признака в информативность набора признаков как разность между величиной оценки набора признаков, из которого исключен данный признак, и информативностью набора признаков. Однако, вероятно, понятие «информативность набора признаков» или «информативность данного признака» не несет достаточно глубокого содержания. И вот почему: 1) понятие «информативность пространства признаков» определяется не само по себе, а в связи с конкретным алгоритмом опознания; 2) информативность набора признаков зависит от конкретной обучающей последовательности. Ясно, что чем больше объем выборки, тем большим будет, вообще говоря, информативный набор признаков. Тем не менее можно привести примеры задач, когда информативный набор признаков, найденный по выборке меньшего объема, и информативный набор признаков, найденный по обучающей последовательности большего объема, не имеют ни одного общего элемента.
|