Глава 12 Другие задачи анализа данных в λ-пространстве
§ 1. Критерии информативности λ-пространства
В предыдущей главе введено понятие функции принадлежности
-го объекта своему образу
:
, где
—
-расстояние между точкой
и ближайшей к ней точкой образа
. Аналогично определяется функция принадлежности к чужим образам:
. Риск для точки
быть распознанной в качестве объекта чужого образа
. При скользящем контроле каждая точка обучающей выборки по очереди становится контрольной и распознается по всем остальным обучающим объектам с использованием правила ближайшего соседа. Если окажется, что точка
имеет величину
, то она будет распознана с ошибкой.
Если среди
объектов обучающей выборки ошибочно были распознаны
объектов, то отношение
можно считать мерой информативности данного признакового пространства. Действительно, если
, то информативность признаков достаточна для безошибочного распознавания обучающей выборки, и величина
максимальна и равна единице. Если же
(см. рис. 35), то это свидетельствует о том, что мы имеем случай «воды в губке», для которого не выполняется даже самая слабая гипотеза — гипотеза локальной
-компактности
, и рассчитывать на успешное распознавание контрольных объектов нет никаких оснований.

Рис. 35
Заметим, что алгоритм
-STOLP для этого случая будет вынужден оставить в качестве прецедентов все
объектов обучающей выборки. Так что количество
необходимых прецедентов также говорит об информативности признакового пространства. Величина
может служить еще одной мерой информативности признаков. Здесь
— количество образов. Информативность максимальна, если оказалось, что можно ограничиться одним прецедентом на каждый образ:
. Если же
, то
.
Величина
характеризует сложность стратегии природы, а величина
— сложность требуемого решающего правила. Мы видим, что эти две характеристики однозначно связаны друг с другом. Аналогичный факт был замечен Г. С. Лбовым и Н. Г. Старцевой при исследовании зависимости сложности статистических решающих правил от сложности стратегий природы [109].
Обычно рассматриваются два подхода [139]. При первом задается сложность природы и исследуются сложностные характеристики потребовавшихся решающих правил. При втором подходе задается сложность класса решающих правил и исследуются стратегии природы, с которыми справляются эти правила. Теперь становится очевидной полная эквивалентность этих подходов и их методологическое равноправие.