Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


2.3. Периодический закон Менделеева [65]

Согласно философии Data Mining обнаружение закономерностей одной из своих целей имеет отображение данных из исходного пространства описания  в некоторое другое пространство , более удобное для восприятия человеком.

Пространство описывающих характеристик  может быть произвольным — любой размерности, с любым числом объектов наблюдения. Пространство же восприятия должно отвечать некоторым условиям, вытекающим из ограниченных возможностей человеческой системы восприятия информации. Одно из таких ограничений связано с размерностью пространства : она не должна быть большой, так как объектами в многомерном пространстве человек оперирует с большим трудом. При большом количестве объектов восприятие облегчается, если эти объекты отобразить в малоразмерное пространство , в котором объекты оказываются упорядоченными по их свойствам. При этом можно обнаружить наиболее легко воспринимаемые человеком линейные зависимости свойств  от свойств . Если глобальной линейной зависимости во всем диапазоне значений  добиться не удается, то можно попытаться воспользоваться суперпозицией локальных линейных зависимостей.

Сформулируем принцип локальной линейной гладкости : «Свойства  в -окрестностях точки  пространства  меняются по линейному закону, так что свойства объекта в точке  равны среднему значению свойств его левого и правого соседей: ». Пользуясь этим принципом, можно для некоторого множества  сконструировать пространство восприятия . Покажем это на простом числовом примере.

Пусть множество  состоит из семи объектов, свойство  которых указано в табл. 11. Построим одномерное пространстве восприятия  с целочисленными значениями координаты . Поместим в точку  любой объект, например . Подберем к нему ближайшего левого соседа по свойству . Это, очевидно, будет объект . Из приведенного выше соотношения можно найти ожидаемые (прогнозные) свойства правого соседа: . Этим соседом оказывается объект . Разместим найденные три объекта рядом друг с другом по оси  (см. рис. 37).

Таблица 11. Объекты множества  в пространстве описания

5

1

3,2

7

7,9

2,2

6

Теперь можно предсказать соседей для крайних из этих элементов: левого для  и правого для . Соседом  должен быть объект со свойством . Объекта с точно таким значением  нет. Ближайшим к нему оказывается объект . Условимся считать, что разница 8 — 7,9 = 0,1 меньше допустимого порога нарушения гладкости (например, 0,3), и поставим объект  справа от объекта .

Прогнозное значение свойства  у левого соседа объекта  равно 4. Ближайшее к нему значение  у объекта  равно 3,2. Отклонение в 0,8 превышает заданный порог, и мы приходим к заключению, что ближайший левый сосед для объекта  в таблице отсутствует. Предположим, что в природе такой объект с  существует и он случайно не попал в таблицу. Поставим его условно слева от  (пунктир на рис. 37) и продолжим процедуру. Соседом слева от условного элемента является объект , его левым соседом будет , а его левым соседом . Все объекты табл. 11 нашли на оси  свое место. Теперь легко видеть, что если объект  поместить в точку , то между свойствами  и  существует простая закономерность: .

Рис. 37

Если объекты множества  обладают числом свойств, большим чем одно, то прогноз и подбор соседей нужно делать по всем этим свойствам. В случае двумерного пространства восприятия  соседями объекта  являются четыре объекта: сосед слева , справа , сверху  и снизу . Связь их свойств определяется соотношением

Процедура двумерного линейного упорядочения аналогична той, что описана выше для одномерного случая: выбор начального элемента  и ближайших к нему двух соседей слева и сверху. Затем прогноз свойств двух соседей — справа и снизу, подбор объектов, свойства которых отличаются от прогнозных не более чем на заданную величину, установка этих объектов на свои места и прогноз новых соседей. На каждом шаге устанавливается только один объект, самый близкий к прогнозу, и после этого прогнозы всех соседей повторяются.

На этом принципе построен алгоритм ПАМИР [65], предназначенный для решения задач многомерного упорядочения. С помощью программы ПАМИР был проведен ряд экспериментов по двумерному упорядочению объектов  различной физической природы. В табл. 12 и 13 показаны множества объектов с целочисленными значениями одного свойства  и наилучший их порядок на двумерной плоскости . Наилучшим считается такой вариант, при котором сумма локальных отклонений от линейной зависимости минимальна. Если истинные значения свойств объекта  равны , а его прогнозные свойства оказались равными , то отклонения от линейной зависимости для всех  объектов имеют значения

Пусть нам дано множество , описанное характеристикой : 4, 8, 3, 12, 9, 7, 6, 7, 10, 2, 8, 7, 11, 4, 9, 6, 7, 7, 5, 10, 6, 11, 8, 5, 4, 5, 9, 7, 3, 6, 9, 6, 10, 8, 9. Применение алгоритма ПАМИР позволило отобразить это множество в двумерное пространство восприятия , представленное в табл. 12.

Таблица 12. Двумерное упорядочение множества объектов

В табл. 13 представлен результат аналогичной обработки множества объектов , описанных свойством : 18, 30, 2, 8, 15, 12, 2, 4, 24, 10, 6, 16, 6, 9, 24, 15, 6, 20, 4, 18, 5, 12, 25, 4, 36, 12, 1, 10, 3, 3, 5, 12, 8, 30.

Таблица 13. Двумерное упорядочение множества объектов

Закономерность, легко наблюдаемая в табл. 12, выражается формулой , а в табл. 13  формулой .

Напрашивается вывод, что исходный набор объектов «не полон», отсутствующие объекты должны были бы занять места пустых клеточек в таблицах. Свойства этих «зкообъектов» легко прогнозируются по приведенным выше интерполяционным формулам.

Возможности алгоритма ПАМИР были испытаны в экспериментах по переоткрытию периодического закона Менделеева.

Множество  было представлено химическими элементами первых семи рядов — с 1-го (водород) по 54-й (ксенон). Пространство описания включало в себя лишь три свойства элементов:  — атомный вес,  — валентность по кислороду и  — валентность по водороду. В качестве пространства восприятия была использована плоскость с дискретными значениями переменных   и . Для каждого элемента определялось восемь соседей, как показано на рис. 38. Программа может анализировать гладкость по двум, четырем или восьми направлениям.

Рис. 38

В табл. 14 представлен результат работы программы ПАМИР. В качестве начального был выбран элемент с атомным весом 15 (фосфор). Рамкой показана граница таблицы в стандартном современном представлении [130]. Отклонения от стандартного вида имеют место для элементов длинного ряда VI группы VIII (элементы 44, 45 и 46).

Таблица 14. Двумерное упорядочение химических элементов

В табл. 15 показан результат упорядочения множества элементов таблицы с 1-го по 54-й за исключением крайних элементов длинных рядов (27, 28, 45, 46), а также элементов 12, 22, 35 и 39, которые были не известны во времена Менделеева. Программа, начав с элемента 17, расставила все элементы на те места, которые они занимают в таблице Менделеева, оставив пустые клетки в местах, соответствующих пропущенным элементам. Свойства пропущенных элементов легко можно найти по интерполяционным формулам, как это и делал Д. И. Менделеев.

Таблица 15. Результат упорядочения неполного множества элементов

Как видно из этих примеров, если столбцам в табл. 14 и 15 сопоставить номера групп, а строкам — номера рядов, то результат программы ПАМИР почти совпадает с результатом, полученным Д. И. Менделеевым. Однако следует отметить существенные различия в пространствах , использованных Менделеевым и программой ПАМИР. Д. И. Менделеев, кроме атомного веса и валентностей, использовал большое число других химических и физических свойств элементов: виды соединений с хлором, растворимость сернистых соединений, температуру плавления, цвет, запах летучих соединений и многое другое [97,122]. Все эти глубокие знания облегчали ему поиск «соседей» при упорядочивании элементов. Следует отметить, что задача группировки ряда элементов решалась еще и предшественниками Менделеева. Так, было известно, что в одну группу следует относить элементы с современными номерами: 7-15-33-51; 8-16-34-52; 9-17-53; 20-38-56 и т. д. Подсказка такого рода могла бы существенно облегчить работу программы ПАМИР.

С другой стороны, машина использовала современные данные об атомных весах. До Менделеева атомные веса были известны неточно, ему приходилось исправлять их путем предсказания на основании всей таблицы. Ошибки в значениях атомных весов могут существенно исказить упорядочение, если использовать такое бедное описание свойств , которое использовала программа.

Результаты данной работы можно сформулировать так: принцип локальной гладкости является эффективным средством отображения пространства описания  в пространство восприятия . Свойствами локальной гладкости обладают пространства восприятия, построенные для многих известных законов природы — законов Ома, Ньютона, Менделя, Менделеева и др. Этот принцип должен найти свое заметное место в ряду концептов, используемых в алгоритмах обнаружения закономерностей или DM.

Если пространство описания  наблюдаемых объектов множества  достаточно информативно, чтобы можно было построить пространство восприятия  со свойством локальной гладкости, то сам процесс построения пространства  с помощью ЭВМ принципиальных затруднений не вызывает. Это тем более справедливо для таких удачно найденных пространств , для которых пространство  удовлетворяет свойству глобальной линейной гладкости.

 



<< ПредыдущаяОглавлениеСледующая >>