Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 2. Гипотеза λ-компактности

Гипотеза компактности оперирует абсолютными значениями расстояний между векторами в пространстве характеристик. Однако на некоторых примерах можно показать, что важную роль в задачах анализа данных играют не только сами расстояния, но и отношения между ними. Так, расстояние между точками 5 и 6 на рис. 2, а меньше, чем между 6 и 7, но, делая «вручную» таксономию этого множества точек на два таксона, эксперты обычно проводят границу по ребру 5-6. Глаз человека улавливает на этой границе нарушение однородности расстояний между соседними точками и придает этому факту большее значение, чем абсолютной величине расстояний.

Зрительный аппарат человека обладает уникальными способностями делать классификацию (таксономию) множества объектов, если они представлены точками на плоскости [68]. На рис. 3 представлены примеры множеств, таксономия которых для человека не составляет труда. Результаты получаемой при этом естественной для человека таксономии (два сгустка и фон) не могут быть получены или объяснены с позиций гипотезы компактности. Гипотеза же -компактности позволяет легко получать и просто объяснять такие результаты.

image1

Рис. 3

Формулировка гипотезы -компактности опирается на понятие -расстояния, которое учитывает нормированное расстояние  между элементами множества и характеристику  локальной плотности множества в окрестностях этих элементов.

Если определить расстояния между всеми парами точек множества , то можно построить полный граф, соединяющий все точки со всеми, и найти самое длинное ребро — диаметр графа . Выделим две любые точки  и  и обозначим длину связывающего их ребра через . Будем считать нормированным расстоянием между этими точками величину  (см. рис. 2, б).

Теперь среди ребер, смежных ребру , найдем самое короткое, длину которого обозначим через . Отношение длин этих смежных отрезков обозначим через . Чтобы сделать эту величину нормированной в диапазоне от нуля до единицы, найдем в полном графе наибольшее значение . Величина  является нормированной характеристикой локальной неоднородности плотности множества в окрестностях точек  и . Величину  называем -расстоянием между точками  и . Для определения степени влияния параметров  и  на -расстояние были проведены эксперименты, в которых сравнивались результаты таксономии двумерного множества точек экспертами и программами, использующими разные виды функции . Выяснилось, что использование -расстояний вместо евклидовых позволяет получать более естественную с точки зрения экспертов таксономию, совпадающую с результатами, полученными экспертами. При этом оказалось, что параметр  играет более важную роль по сравнению с параметром . Наилучшее совпадение экспертных суждений с формальными получалось в том случае, если в качестве меры расстояния использовалась величина .

Находя -характеристики для всех отрезков, соединяющих точки множества , мы делаем отображение этого множества из евклидова пространства в новое -пространство. В этом пространстве можно построить граф без петель, который связывает между собой все точки и имеет минимальную суммарную -длину своих ребер. Такой граф в евклидовом пространстве называется кратчайшим незамкнутым путем (КНП). По аналогии с этим, КНП в -пространстве обозначим через -КНП. Строятся такие графы следующим способом [135]. Сначала находятся две самые близкие точки, которые соединяются ребром. Затем соединяется ребром следующая пара самых близких точек. Для каждой следующей пары ближайших точек предварительно проверяется, нельзя ли пройти из одной из них в другую по ребрам уже построенного графа. Если можно, то они из дальнейшего рассмотрения исключаются, а если нет, то строится ребро графа между ними. Так продолжается до объединения в общий граф всех  точек множества . На рис. 4 представлен пример полного графа (ПГ) и графов КНП и -КНП для одного и того же множества . Теперь -расстоянием между двумя любыми точками считаем сумму -характеристик тех ребер, по которым проходит путь между ними по -КНП.

image1

Рис. 4.

Если геометрическая близость точек связывалась с понятием компактность, то близость по -расстояниям называем компактностью. Исходя из этого по аналогии с гипотезой компактности гипотезу -компактности (Н) можно сформулировать следующим образом: реализации одного и того же образа обычно отражаются в признаковом -пространстве в близкие точки, образуя -компактные сгустки.

Если выделить  описывающих признаков  и целевой признак , то в пространстве  -компактное множество объектов  характеризуется тем, что оно -компактно одновременно и по признакам , и по признаку . Это означает, что между признаками  и  есть закономерная связь или что система описывающих признаков  информативна для предсказания значений целевого признака . Если к множеству  добавить новый объект  с известными значениями описывающих признаков  и неизвестным значением целевого признака  и при этом окажется, что множество  -компактно в пространстве , то из гипотезы -компактности следует, что оно будет -компактно и в пространстве  . Это дает возможность предсказывать значение целевого признака  для нового объекта . Обозначим факт -компактности объектов  в пространстве  символом . Тогда тестовый алгоритм гипотезы -компактности можно представить следующим выражением: .

Как видно из дальнейшего, в задачах разделения множества  на таксоны простой формы, которые описываются непересекающимися выпуклыми оболочками, стремление к наибольшей компактности или -компактности приводит к одинаковым результатам. Но для более сложных случаев гипотеза -компактности обеспечивает получение результата, более естественного по сравнению с гипотезой компактности. Следовательно, гипотеза -компактности является более сильной эмпирической гипотезой, чем широко применяемая сейчас гипотеза компактности.

Однако за гипотезой компактности — многолетние традиции и большое количество алгоритмов и программ, построенных на ее основе. Кроме того, переход к -пространству сопряжен с дополнительными затратами машинных ресурсов, что в простых случаях себя не оправдывает. В связи с этим в дальнейшем будут описаны методы анализа, основанные на той и другой гипотезах.

 



<< ПредыдущаяОглавлениеСледующая >>