§ 4. Иерархические структурыВ последнее время в области анализа данных отмечается рост интереса к анализу так называемых символьных объектов [50], с помощью которых описываются разного рода обобщенные характеристики некоторого массива исходных данных. Символьным объектом может быть обнаруженная в этом массиве логическая закономерность типа «если ... то ...», направленный граф, отражающий зависимость одних объектов от других и т. п. В частности, результаты иерархической таксономии выявляют структуру множества объектов, которую можно наглядно представить графически в виде иерархического дерева, начальные вершины (листья) которого отображают все объекты исходного множества, промежуточные вершины (ветви) описывают все более крупные таксоны (концепты), а конечная вершина (корень) представляет собой объединение всего исходного множества объектов в один таксон. Такую форму могут иметь, например, описания структур баз данных, технических систем, организационных структур предприятий. При изучении нескольких различных массивов данных может потребоваться сравнение между собой их внутренних структур, что приводит к необходимости измерять степень близости, похожести между иерархическими структурами. В работах [76,78] и предыдущей главе описаны методы анализа символьных объектов, имеющих форму конъюнкций типа «если ... то ...». Данная работа посвящена введению меры близости или расстояния на множестве символьных объектов типа иерархий [88]. Определим понятие «иерархия». Обозначим через Иерархией 1) 2) 3) для любых вершин Таким образом, иерархия — это многоуровневая структура, в которой объекты, находящиеся в одном таксоне на некотором ( Обозначим точкой каждый таксон иерархии. Тогда отрезки, соединяющие эти точки (или вершины иерархии), передают порядок образования таксонов, который отвечает пп. 1-3 определения. На рис. 45 показана, например, иерархия Можно представить себе и вырожденный случай иерархии, свернутую в одну изолированную вершину на первом уровне (иерархия Рис. 45 Терминальные вершины могут быть равнозначными, но могут и отличаться по значимости (насыщенности, весу). Так может быть, например, когда листья представляют собой таксоны с разным числом входящих в них объектов. Весовой индекс вершины обозначим через
|