9.2. Алгоритм DW [120]В основе этого алгоритма также лежит гипотеза проективной компактности. Рассмотрим его работу на примере распознавания двух образов. Элементарным высказыванием в этом алгоритме называется выражение следующего вида: а) для признака , измеренного в номинальной шкале; б) для признака в любой более сильной шкале. В этих выражениях — фиксированное (пороговое) значение. Будем называть высказывания и дополнительными к вышеприведенным и обозначать через . Конъюнкцией длины на элементарных высказываниях называем выражение вида . Набор конъюнкций представим в виде дихотомического дерева , в котором каждой ветви соответствует одна конъюнкция. Конечные вершины дерева содержат имена объектов обучающей выборки, прошедших сюда от начальной вершины дерева. Если в некоторой конечной вершине имеются объекты разных образов, то считается, что эта вершина принадлежит тому образу, чьих объектов в ней больше. Работа по проверке истинности или ложности выражений по отношению к объекту организуется с помощью таблицы . Вершине дерева с номером (т. е. высказыванию ) сопоставляется -я строка таблицы, в которой описываются характеристики этой вершины: — номер строки, занимаемый данной вершиной; — номер строки, куда следует переходить, если истинно; — номер строки, куда следует переходить, если ложно; — номер признака, на котором построено высказывание ; — порог , использованный при построении высказывания ; — количество объектов первого образа в -й вершине; — количество объектов второго образа в -й вершине. Конечные вершины дерева будут помечены тем, что у них . Движение по дереву с помощью таблицы осуществляется следующим образом. Пусть мы находимся в вершине . Если , то проверяем, удовлетворяет ли объект условиям высказывания , отраженным в и . Если да, то идем в вершину , если нет — в вершину . Если очередная вершина является конечной, то проверяется содержимое ее элементов и . Если окажется, что , то объект будет распознан в качестве реализации первого образа, и наоборот. Если же , то решение принимается в пользу того или иного образа с вероятностью 0,5. При выборе вариантов пороговых значений и их сочетаний возникает большой перебор, сокращение которого основано на методе наращивания «лучшего к лучшему» [2]. На первом шаге строится наилучшее в смысле некоторого критерия элементарное высказывание и его дополнение . С помощью этих высказываний обучающая выборка делится на две группы: группу объектов , удовлетворяющих , и группу , удовлетворяющих . Если группа содержит объекты разных образов, то для нее ищется высказывание и его дополнение , наилучшие с точки зрения критерия . Та же процедура для группы дает наилучшее высказывание и его дополнение . В результате обучающая выборка делится на четыре группы. Процесс такого деления можно представить в виде дерева , показанного на рис. 22. Рис. 22 Вопрос о том, нужно ли дальше продолжать процесс наращивания ветвей, решается проверкой содержимого каждой из полученных групп. Если в группе обнаружится объектов первого образа и объектов второго образа и , где — положительная константа, меньшая единицы, а — общее число объектов обучающей выборки, то деление группы на подгруппы должно быть продолжено. В противном случае группа образует конечную вершину, и новый объект, попадающий в нее, относится к тому образу, чьих обучающих реализаций больше в этой вершине. Если принять , то в нашем примере при дальнейшее деление требуется делать для вершины . Логические решающие правила оказались очень эффективным средством решения задач распознавания. Они могут работать с разнотипными признаками. Не страшно, если какой-то признак у нового объекта не известен: может оказаться, что по имеющимся признакам он удовлетворяет определенным закономерностям и хорошо распознается. Процесс построения ЛРП сложен, но процесс принятия решений по найденным правилам очень прост и может делаться даже вручную. Большое значение имеет наглядная форма представления ЛРП в виде списка правил типа «если ... то ...». Как показал опыт, некоторые заказчики, получив решение в виде ЛРП, признаются, что оно само по себе им более интересно и полезно, чем возможность использовать его для автоматического распознавания новых объектов: им становятся видны и понятны простые закономерности, которые имеют место в изучаемой ими области. Наконец, самое важное достоинство ЛРП состоит в том, что формулировка закономерностей в виде конъюнкций соответствует форме представления знаний в интеллектуальных системах. Следовательно, методы поиска ЛРП могут использоваться для автоматического извлечения знаний из данных.
|