2.3. Периодический закон Менделеева [65]
Согласно философии Data Mining обнаружение закономерностей одной из своих целей имеет отображение данных из исходного пространства описания
в некоторое другое пространство
, более удобное для восприятия человеком.
Пространство описывающих характеристик
может быть произвольным — любой размерности, с любым числом объектов наблюдения. Пространство же восприятия должно отвечать некоторым условиям, вытекающим из ограниченных возможностей человеческой системы восприятия информации. Одно из таких ограничений связано с размерностью пространства
: она не должна быть большой, так как объектами в многомерном пространстве человек оперирует с большим трудом. При большом количестве объектов восприятие облегчается, если эти объекты отобразить в малоразмерное пространство
, в котором объекты оказываются упорядоченными по их свойствам. При этом можно обнаружить наиболее легко воспринимаемые человеком линейные зависимости свойств
от свойств
. Если глобальной линейной зависимости во всем диапазоне значений
добиться не удается, то можно попытаться воспользоваться суперпозицией локальных линейных зависимостей.
Сформулируем принцип локальной линейной гладкости
: «Свойства
в
-окрестностях точки
пространства
меняются по линейному закону, так что свойства объекта в точке
равны среднему значению свойств его левого и правого соседей:
». Пользуясь этим принципом, можно для некоторого множества
сконструировать пространство восприятия
. Покажем это на простом числовом примере.
Пусть множество
состоит из семи объектов, свойство
которых указано в табл. 11. Построим одномерное пространстве восприятия
с целочисленными значениями координаты
. Поместим в точку
любой объект, например
. Подберем к нему ближайшего левого соседа по свойству
. Это, очевидно, будет объект
. Из приведенного выше соотношения можно найти ожидаемые (прогнозные) свойства правого соседа:
. Этим соседом оказывается объект
. Разместим найденные три объекта рядом друг с другом по оси
(см. рис. 37).
Таблица 11. Объекты множества
в пространстве описания ![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image001.gif)
Теперь можно предсказать соседей для крайних из этих элементов: левого для
и правого для
. Соседом
должен быть объект со свойством
. Объекта с точно таким значением
нет. Ближайшим к нему оказывается объект
. Условимся считать, что разница 8 — 7,9 = 0,1 меньше допустимого порога нарушения гладкости (например, 0,3), и поставим объект
справа от объекта
.
Прогнозное значение свойства
у левого соседа объекта
равно 4. Ближайшее к нему значение
у объекта
равно 3,2. Отклонение в 0,8 превышает заданный порог, и мы приходим к заключению, что ближайший левый сосед для объекта
в таблице отсутствует. Предположим, что в природе такой объект с
существует и он случайно не попал в таблицу. Поставим его условно слева от
(пунктир на рис. 37) и продолжим процедуру. Соседом слева от условного элемента является объект
, его левым соседом будет
, а его левым соседом
. Все объекты табл. 11 нашли на оси
свое место. Теперь легко видеть, что если объект
поместить в точку
, то между свойствами
и
существует простая закономерность:
.
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image024.jpg)
Рис. 37
Если объекты множества
обладают числом свойств, большим чем одно, то прогноз и подбор соседей нужно делать по всем этим свойствам. В случае двумерного пространства восприятия
соседями объекта
являются четыре объекта: сосед слева
, справа
, сверху
и снизу
. Связь их свойств определяется соотношением
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image030.gif)
Процедура двумерного линейного упорядочения аналогична той, что описана выше для одномерного случая: выбор начального элемента
и ближайших к нему двух соседей слева и сверху. Затем прогноз свойств двух соседей — справа и снизу, подбор объектов, свойства которых отличаются от прогнозных не более чем на заданную величину, установка этих объектов на свои места и прогноз новых соседей. На каждом шаге устанавливается только один объект, самый близкий к прогнозу, и после этого прогнозы всех соседей повторяются.
На этом принципе построен алгоритм ПАМИР [65], предназначенный для решения задач многомерного упорядочения. С помощью программы ПАМИР был проведен ряд экспериментов по двумерному упорядочению объектов
различной физической природы. В табл. 12 и 13 показаны множества объектов с целочисленными значениями одного свойства
и наилучший их порядок на двумерной плоскости
. Наилучшим считается такой вариант, при котором сумма локальных отклонений от линейной зависимости минимальна. Если истинные значения свойств объекта
равны
, а его прогнозные свойства оказались равными
, то отклонения от линейной зависимости для всех
объектов имеют значения
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image035.gif)
Пусть нам дано множество
, описанное характеристикой
: 4, 8, 3, 12, 9, 7, 6, 7, 10, 2, 8, 7, 11, 4, 9, 6, 7, 7, 5, 10, 6, 11, 8, 5, 4, 5, 9, 7, 3, 6, 9, 6, 10, 8, 9. Применение алгоритма ПАМИР позволило отобразить это множество в двумерное пространство восприятия
, представленное в табл. 12.
Таблица 12. Двумерное упорядочение множества объектов ![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image007.gif)
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image037.jpg)
В табл. 13 представлен результат аналогичной обработки множества объектов
, описанных свойством
: 18, 30, 2, 8, 15, 12, 2, 4, 24, 10, 6, 16, 6, 9, 24, 15, 6, 20, 4, 18, 5, 12, 25, 4, 36, 12, 1, 10, 3, 3, 5, 12, 8, 30.
Таблица 13. Двумерное упорядочение множества объектов ![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image038.gif)
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image040.jpg)
Закономерность, легко наблюдаемая в табл. 12, выражается формулой
, а в табл. 13 формулой
.
Напрашивается вывод, что исходный набор объектов «не полон», отсутствующие объекты должны были бы занять места пустых клеточек в таблицах. Свойства этих «зкообъектов» легко прогнозируются по приведенным выше интерполяционным формулам.
Возможности алгоритма ПАМИР были испытаны в экспериментах по переоткрытию периодического закона Менделеева.
Множество
было представлено химическими элементами первых семи рядов — с 1-го (водород) по 54-й (ксенон). Пространство описания включало в себя лишь три свойства элементов:
— атомный вес,
— валентность по кислороду и
— валентность по водороду. В качестве пространства восприятия была использована плоскость с дискретными значениями переменных
и
. Для каждого элемента определялось восемь соседей, как показано на рис. 38. Программа может анализировать гладкость по двум, четырем или восьми направлениям.
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image048.jpg)
Рис. 38
В табл. 14 представлен результат работы программы ПАМИР. В качестве начального был выбран элемент с атомным весом 15 (фосфор). Рамкой показана граница таблицы в стандартном современном представлении [130]. Отклонения от стандартного вида имеют место для элементов длинного ряда VI группы VIII (элементы 44, 45 и 46).
Таблица 14. Двумерное упорядочение химических элементов
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image049.jpg)
В табл. 15 показан результат упорядочения множества элементов таблицы с 1-го по 54-й за исключением крайних элементов длинных рядов (27, 28, 45, 46), а также элементов 12, 22, 35 и 39, которые были не известны во времена Менделеева. Программа, начав с элемента 17, расставила все элементы на те места, которые они занимают в таблице Менделеева, оставив пустые клетки в местах, соответствующих пропущенным элементам. Свойства пропущенных элементов легко можно найти по интерполяционным формулам, как это и делал Д. И. Менделеев.
Таблица 15. Результат упорядочения неполного множества элементов
![](/archive/arch.php?path=../htm/book_zg/files.book&file=zg_91.files/image050.jpg)
Как видно из этих примеров, если столбцам в табл. 14 и 15 сопоставить номера групп, а строкам — номера рядов, то результат программы ПАМИР почти совпадает с результатом, полученным Д. И. Менделеевым. Однако следует отметить существенные различия в пространствах
, использованных Менделеевым и программой ПАМИР. Д. И. Менделеев, кроме атомного веса и валентностей, использовал большое число других химических и физических свойств элементов: виды соединений с хлором, растворимость сернистых соединений, температуру плавления, цвет, запах летучих соединений и многое другое [97,122]. Все эти глубокие знания облегчали ему поиск «соседей» при упорядочивании элементов. Следует отметить, что задача группировки ряда элементов решалась еще и предшественниками Менделеева. Так, было известно, что в одну группу следует относить элементы с современными номерами: 7-15-33-51; 8-16-34-52; 9-17-53; 20-38-56 и т. д. Подсказка такого рода могла бы существенно облегчить работу программы ПАМИР.
С другой стороны, машина использовала современные данные об атомных весах. До Менделеева атомные веса были известны неточно, ему приходилось исправлять их путем предсказания на основании всей таблицы. Ошибки в значениях атомных весов могут существенно исказить упорядочение, если использовать такое бедное описание свойств
, которое использовала программа.
Результаты данной работы можно сформулировать так: принцип локальной гладкости является эффективным средством отображения пространства описания
в пространство восприятия
. Свойствами локальной гладкости обладают пространства восприятия, построенные для многих известных законов природы — законов Ома, Ньютона, Менделя, Менделеева и др. Этот принцип должен найти свое заметное место в ряду концептов, используемых в алгоритмах обнаружения закономерностей или DM.
Если пространство описания
наблюдаемых объектов множества
достаточно информативно, чтобы можно было построить пространство восприятия
со свойством локальной гладкости, то сам процесс построения пространства
с помощью ЭВМ принципиальных затруднений не вызывает. Это тем более справедливо для таких удачно найденных пространств
, для которых пространство
удовлетворяет свойству глобальной линейной гладкости.