Глава 12 Другие задачи анализа данных в λ-пространстве§ 1. Критерии информативности λ-пространстваВ предыдущей главе введено понятие функции принадлежности -го объекта своему образу : , где — -расстояние между точкой и ближайшей к ней точкой образа . Аналогично определяется функция принадлежности к чужим образам: . Риск для точки быть распознанной в качестве объекта чужого образа . При скользящем контроле каждая точка обучающей выборки по очереди становится контрольной и распознается по всем остальным обучающим объектам с использованием правила ближайшего соседа. Если окажется, что точка имеет величину , то она будет распознана с ошибкой. Если среди объектов обучающей выборки ошибочно были распознаны объектов, то отношение можно считать мерой информативности данного признакового пространства. Действительно, если , то информативность признаков достаточна для безошибочного распознавания обучающей выборки, и величина максимальна и равна единице. Если же (см. рис. 35), то это свидетельствует о том, что мы имеем случай «воды в губке», для которого не выполняется даже самая слабая гипотеза — гипотеза локальной -компактности , и рассчитывать на успешное распознавание контрольных объектов нет никаких оснований. Рис. 35 Заметим, что алгоритм -STOLP для этого случая будет вынужден оставить в качестве прецедентов все объектов обучающей выборки. Так что количество необходимых прецедентов также говорит об информативности признакового пространства. Величина может служить еще одной мерой информативности признаков. Здесь — количество образов. Информативность максимальна, если оказалось, что можно ограничиться одним прецедентом на каждый образ: . Если же , то . Величина характеризует сложность стратегии природы, а величина — сложность требуемого решающего правила. Мы видим, что эти две характеристики однозначно связаны друг с другом. Аналогичный факт был замечен Г. С. Лбовым и Н. Г. Старцевой при исследовании зависимости сложности статистических решающих правил от сложности стратегий природы [109]. Обычно рассматриваются два подхода [139]. При первом задается сложность природы и исследуются сложностные характеристики потребовавшихся решающих правил. При втором подходе задается сложность класса решающих правил и исследуются стратегии природы, с которыми справляются эти правила. Теперь становится очевидной полная эквивалентность этих подходов и их методологическое равноправие.
|