Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


Глава 9 Согласование разнотипных шкал

§ 1. Расстояние между объектами в пространстве разнотипных признаков

До сих пор мы работали с объектами, все характеристики которых измерялись в одной из сильных шкал, и потому оценивать расстояние между объектами было несложно. Однако в реальных задачах часто встречаются таблицы со свойствами, измеренными в разных шкалах, в том числе в порядковых и номинальных. В этом случае возникает непростая проблема оценки меры расстояния, близости, похожести как между объектами (строками), так и между свойствами (столбцами).

Этой проблеме посвящены многие работы (см., например, [36,60,73,98, 99,163,165]). Как правило, ищутся такие меры, которые удовлетворяли бы обычным аксиомам метрического пространства (непрерывности, симметричности и т. п.), были инвариантны к допустимым преобразованиям для данного типа шкалы и не зависели от состава изучаемых объектов. Итоги этих рассмотрений сводятся к тому, что меры, инвариантные к допустимым преобразованиям для многих шкал, можно указать, а мер, которые не зависели бы от состава выборки, не существует. Добавление к конечной выборке  или изъятие из нее какого- нибудь объекта может изменить прежние порядковые номера объектов  и  (для шкал порядка) или нормировку (для более сильных шкал), что приводит к изменению расстояния  между -м и -м объектами.

Какой же вывод нужно сделать из этих результатов? Не следует ли признать, что адекватных мер близости между объектами любой конечной выборки нет, а следовательно, нет и оснований верить результатам решения всех тех задач, в которых существенно используются меры близости или меры расстояния между объектами, т. е. задач таксономии, распознавания образов, корреляционного, регрессионного анализа и т. п.?

Не будем спешить соглашаться с таким пессимистическим заключением. Вспомним, что  меняется не при всяком изменении состава выборки . Действительно, при нормировке сильных шкал по разности между самым большим и самым малым значением характеристики  в таблице, т. е. по , мера  будет сохраняться всегда, пока изменения состава объектов не коснутся объектов с  или . Для любых шкал нормированная мера  остается неизменной, если в таблице продублировать все объекты любое число раз. Если же встречаются другие ситуации, то это означает, что первоначальный состав выборки  плохо отражал свойства генеральной совокупности.

Таким образом, указанные выше трудности отражают фундаментальную для всех естественнонаучных дисциплин проблему представительности выборки. Формальными методами эту проблему решить невозможно. Исследователь должен либо знать, что выборка  включает полный набор изучаемых объектов, и тогда трудности, описанные выше, возникнуть не могут. Либо он должен верить в то, что выборка  представляет лишь часть генеральной совокупности , но достаточно хорошо отражает ее закономерности, т. е. что выборка представительна. Тогда меры  будут одинаковыми для объектов  и  независимо от того, рассматриваем ли мы их на фоне выборки  или на фоне генеральной совокупности . Выводы (т. е. таксономия, решающие правила, регрессионные уравнения и т. д.), сделанные на основании такой выборки, будут сохраняться и на генеральной совокупности. Некоторые отклонения от идеальной представительности можно частично компенсировать применением процедур, повышающих устойчивость  к случайным возмущениям. Например, нормировку делать не по крайним значениям характеристик, а по их дисперсии или медиане.

А если выборка  непредставительна, то никакие формальные ухищрения, в том числе и гарантии инвариантности  к допустимым преобразованиям шкал, не имеют смысла: из-за непредставительности  индуктивные выводы для  все равно будут ложными.

В итоге вопрос о том, верить или нет мере расстояния , сводится к вопросу о том, представительна выборка  или нет. Эвристические способы получения некоторого представления о степени представительности выборки при решении задач распознавания образов обсуждались в § 10 главы 5. Если есть возможность, то малопредставительную выборку пополняют новыми объектами и тем самым увеличивают ее представительность. После того, как все такие возможности исчерпаны, вырабатывается оценка ожидаемой ошибки анализа и, если она устраивает пользователя, переходят к решению задачи анализа этих данных, полагаясь при этом на меры расстояния  между объектами, вычисляемые по данным из таблицы .

Рассмотрим, какие меры расстояния можно использовать при обработке разнотипных шкал. Нам хотелось бы иметь меры , обладающие следующими очевидными свойствами:

а)  непрерывности: мера  должна быть непрерывной функцией своих аргументов;

б)  симметричности: предполагая пространство значений аргументов изотропным, потребуем, чтобы выполнялось соотношение ;

в)  нормированности: мера  должна меняться в пределах от нуля до единицы, причем , если ;

г)   инвариантности: для преобразования , допустимого в шкале данного типа, ;

д)  свойствам треугольника: для любых трех объектов  справедливо, что .

Не для всех задач анализа данных нужны меры, которые удовлетворяли бы всем указанным выше требованиям. Часто достаточно, чтобы сохранялась информация о свойствах объектов лишь с точностью до порядка, так что требование г) можно было бы ослабить, а требование д) снять совсем. Однако мы попытаемся найти более универсальную меру, удовлетворяющую всем требованиям от а) до д). Не будем останавливаться на сильных шкалах (выше шкалы порядка). Для них свойствам а)-д) удовлетворяет, например, мера . Оговоримся лишь, что для частного случая, когда , неопределенное отношение 0/0 принимается равным нулю.

Рассмотрим шкалу порядка. Напомним, что при всех допустимых преобразованиях для этой шкалы  отношения из набора  между двумя числами , и  должны сохраняться и для чисел  и . Если мы построим матрицу размером  (где  — число объектов в выборке ), в которой для каждой пары объектов укажем их отношение в шкале порядка, то эта матрица не изменится при всех возможных преобразованиях группы . В -й строке этой матрицы представлена информация о том, в каких порядковых отношениях находится -й объект ко всем остальным объектам таблицы  или какую порядковую роль играет он в этой таблице (матрице ролей). Естественно считать, что одинаковы два объекта, имеющие одинаковые порядковые отношения со всеми другими объектами. Различия  в отношениях -го и -го объектов к некоторому -му объекту будем оценивать, анализируя содержание элементов на пересечении -го столбца с -й и -й строками. При этом будем считать, что

Суммарное различие между ролями объектов  и  во множестве  получаем из равенства

Легко видеть, что если , то , и что для объектов  и , имеющих максимально разные порядковые позиции, . Очевидно выполнение и других требований к .

Напомним, что данные, измеренные в шкале порядка, можно без искажения содержания представить в шкале «нормированных рангов»: первому по порядку присваивается число 1, второму — число 2 и так до конца. Если встретятся  объектов с одинаковым порядковым номером (так называемые серии), то всем им присваивается номер «среднего» для них места: , где  — количество объектов, предшествовавших серии. После такой канонизации расстояние  находится по правилу

В том, что эта мера равна мере, вычисленной выше по матрице ролей, легко убедиться на примере, приведенном в табл. 4. Здесь данные в шкале порядка имеют следующие значения: . Те же данные в нормированных рангах принимают значения: .

Таблица 4.Матрица ролей в шкале порядка

11

6

9

11

4

109

11

=

=

6

=

=

9

=

11

=

=

4

=

109

=

Перейдем теперь к шкале наименований. Допустимые преобразования  для шкал этого типа всегда сохраняют отношения «равно» и «неравно», так что при всех возможных переименованиях в матрице ролей  будут сохраняться значения отношений между всеми парами объектов из выборки  в виде символов  и  .

Как и в предыдущем случае, будем в качестве меры расстояния между объектами  и  использовать разницу ролей, которую они играют среди объектов множества , т. е. разницу их отношений ко всем остальным объектам из . При этом будем пользоваться правилом

где

Эта мера расстояния в шкале наименований удовлетворяет требованиям а)-д). Как отмечено в [163], такая мера  может  быть найдена и без построения матрицы ролей, а прямо через числа  и , указывающие, сколько в выборке  имеется объектов с именем  и с именем  соответственно:

Пример, подтверждающий сказанное, приведен в табл. 5, в которой данные в шкале наименований имеют следующие значения: , так что , , .

Таблица 5. Матрица ролей в шкале наименований

=

=

=

=

=

=

=

=

=

=

=

=

=

=

Легко видеть, что по приведенному правилу и по матрице ролей получаются одинаковые значения расстояний между объектами: , , ,  и .

Можно отметить, что при наличии в выборке  объектов только с двумя разными именами имеет место равенство  и тогда . Следовательно, для бинарных таблиц эта мера точно соответствует мере близости, вычисляемой через хеммингово расстояние.

Мерами ,  и  для шкал разных типов можно теперь пользоваться в многомерном случае, определяя расстояние  по типу евклидова расстояния:

Меры такого типа удовлетворяют всем требованиям а)-д).

 



<< ПредыдущаяОглавлениеСледующая >>