9.2. Алгоритм DW [120]
В основе этого алгоритма также лежит гипотеза проективной компактности. Рассмотрим его работу на примере распознавания двух образов. Элементарным высказыванием
в этом алгоритме называется выражение следующего вида:
а)
для признака
, измеренного в номинальной шкале;
б)
для признака в любой более сильной шкале.
В этих выражениях
— фиксированное (пороговое) значение. Будем называть высказывания
и
дополнительными к вышеприведенным и обозначать через
. Конъюнкцией длины
на элементарных высказываниях называем выражение вида
. Набор конъюнкций представим в виде дихотомического дерева
, в котором каждой ветви соответствует одна конъюнкция. Конечные вершины дерева содержат имена объектов обучающей выборки, прошедших сюда от начальной вершины дерева. Если в некоторой конечной вершине имеются объекты разных образов, то считается, что эта вершина принадлежит тому образу, чьих объектов в ней больше.
Работа по проверке истинности или ложности выражений
по отношению к объекту
организуется с помощью таблицы
. Вершине дерева с номером
(т. е. высказыванию
) сопоставляется
-я строка таблицы, в которой описываются характеристики
этой вершины:
— номер строки, занимаемый данной вершиной;
— номер строки, куда следует переходить, если
истинно;
— номер строки, куда следует переходить, если
ложно;
— номер признака, на котором построено высказывание
;
— порог
, использованный при построении высказывания
;
— количество объектов первого образа в
-й вершине;
— количество объектов второго образа в
-й вершине.
Конечные вершины дерева будут помечены тем, что у них
. Движение по дереву с помощью таблицы
осуществляется следующим образом. Пусть мы находимся в вершине
. Если
, то проверяем, удовлетворяет ли объект
условиям высказывания
, отраженным в
и
. Если да, то идем в вершину
, если нет — в вершину
. Если очередная вершина является конечной, то проверяется содержимое ее элементов
и
. Если окажется, что
, то объект
будет распознан в качестве реализации первого образа, и наоборот. Если же
, то решение принимается в пользу того или иного образа с вероятностью 0,5.
При выборе вариантов пороговых значений
и их сочетаний возникает большой перебор, сокращение которого основано на методе наращивания «лучшего к лучшему» [2]. На первом шаге строится наилучшее в смысле некоторого критерия
элементарное высказывание
и его дополнение
. С помощью этих высказываний обучающая выборка делится на две группы: группу объектов
, удовлетворяющих
, и группу
, удовлетворяющих
. Если группа
содержит объекты разных образов, то для нее ищется высказывание
и его дополнение
, наилучшие с точки зрения критерия
. Та же процедура для группы
дает наилучшее высказывание
и его дополнение
. В результате обучающая выборка делится на четыре группы. Процесс такого деления можно представить в виде дерева
, показанного на рис. 22.

Рис. 22
Вопрос о том, нужно ли дальше продолжать процесс наращивания ветвей, решается проверкой содержимого каждой из полученных групп. Если в группе
обнаружится
объектов первого образа и
объектов второго образа и
, где
— положительная константа, меньшая единицы, а
— общее число объектов обучающей выборки, то деление группы
на подгруппы должно быть продолжено. В противном случае группа
образует конечную вершину, и новый объект, попадающий в нее, относится к тому образу, чьих обучающих реализаций больше в этой вершине. Если принять
, то в нашем примере при
дальнейшее деление требуется делать для вершины
.
Логические решающие правила оказались очень эффективным средством решения задач распознавания. Они могут работать с разнотипными признаками. Не страшно, если какой-то признак у нового объекта не известен: может оказаться, что по имеющимся признакам он удовлетворяет определенным закономерностям и хорошо распознается. Процесс построения ЛРП сложен, но процесс принятия решений по найденным правилам очень прост и может делаться даже вручную.
Большое значение имеет наглядная форма представления ЛРП в виде списка правил типа «если ... то ...». Как показал опыт, некоторые заказчики, получив решение в виде ЛРП, признаются, что оно само по себе им более интересно и полезно, чем возможность использовать его для автоматического распознавания новых объектов: им становятся видны и понятны простые закономерности, которые имеют место в изучаемой ими области.
Наконец, самое важное достоинство ЛРП состоит в том, что формулировка закономерностей в виде конъюнкций соответствует форме представления знаний в интеллектуальных системах. Следовательно, методы поиска ЛРП могут использоваться для автоматического извлечения знаний из данных.