Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 9. Некоторые дополнительные замечания о таксономии

Неискушенного пользователя обычно занимает вопрос, существует ли «объективная», «естественная» таксономия или она всегда «субъективна»? Ответ на этот вопрос состоит в том, что в каждой таксономии или классификации имеются элементы как субъективного, так и объективного. Это хорошо иллюстрирует пример из книги М. Бонгарда [20], приведенный на рис. 11. Здесь изображены шесть фигур, которые можно разделить по-разному и на разное число таксонов. Так, если обращать внимание на цвет, то выделится два таксона: светлые и заштрихованные фигуры. Если измерять число углов, то обнаружатся три таксона: фигуры с тремя, четырьмя и бесконечным числом углов. Если смотреть на площадь фигур, то можно выделить и два таксона (большие и малые), и три таксона (большие, средние и малые).

image1

Рис. 11

Отсюда видно, что одной, «самой естественной», «абсолютно объективной», таксономии не существует. Все реальные объекты имеют бесконечное число свойств, и выделение некоторого конечного подмножества этих свойств — акт субъективный. Меры близости, критерии качества также выбираются субъективно. Если известна цель, для достижения которой делается таксономия (т. е. при наличии «суперцели»), то качество таксономии проверяется тем, хорошо ли она способствует достижению этой цели, удобна ли, экономична и т. д. Эта проверка носит объективный характер, но выбор суперцели опять-таки субъективен и для одной суперцели данная таксономия будет хорошей, а для другой — нет.

Иногда можно встретиться с суждением такого рода: «Алгоритм таксономии дал плохой результат: выделился один очень большой таксон, три поменьше и остальные точки рассыпались по единичным таксонам». Не всегда в таком результате повинен алгоритм таксономии. Встречаются данные, которые порождены одним однородным процессом, могут быть описаны нормальным законом распределения, и никакой алгоритм таксономии не разделит такую выборку на 5 или 7 «самостоятельных» таксонов. В таком случае в утешение можно сказать, что таксономия не только позволяет выявить структуру хорошо структурированного множества, но и показать, что некоторое множество гомогенно, оно не расслаивается на изолированные подмножества. Часто именно это и надо было узнать.

Бывают и такие ситуации: «Меня не устраивает такая таксономия. Один таксон получился хороший, в него попали действительно объекты одной и той же природы. А в других все перемешано». Да, таксономия не исключает такого результата, причина которого может лежать и в плохом качестве алгоритма, но может отражать и неудачный выбор характеристик, описывающих объекты. Можно обнаружить, что характеристики неинформативны с точки зрения той суперцели, которую интуитивно ставит перед собой пользователь. Так что алгоритмы таксономии могут помочь разобраться в том, достаточно ли информативны имеющиеся признаки. Кстати, если пользователю известна частичная классификация, т. е. если он знает относительно некоторой части объектов, какие должны быть в одном таксоне, а какие обязательно в разных, то эту информацию можно использовать с пользой для дела, например в алгоритме ROST. При одних и тех же свойствах объектов результат таксономии может быть разным, если мы учитываем их относительные веса («важность»). При вычислении расстояния между объектами  и  вклад признака  должен быть пропорционален его весовому коэффициенту , так что евклидово расстояние  в -мерном пространстве определяется следующим образом:

Значение весов  можно установить заранее, но иногда задача состоит именно в том, чтобы найти относительную важность различных характеристик. Если известна желательная таксономия, то, решая обратную задачу, можно подобрать такое сочетание весов , при котором получается именно эта таксономия.

Многолетний опыт применения алгоритмов таксономии показал, что таксономический анализ данных является мощным средством познания закономерностей изучаемых объектов или явлений.

 



<< ПредыдущаяОглавлениеСледующая >>