Глава 5 Распознавание образов
Методы таксономии, описанные в предыдущей главе, позволяют создать начальную классификацию заданного множества то объектов. Эту классификацию
можно зафиксировать для будущего по-разному, в зависимости от ее назначения. Напомним, что по классификации задач анализа данных (гл. 2, §2) задача типа 1.3.Н или задача таксономии заключается в предсказании всех элементов нового
-го (классификационного) столбца
в шкале наименований, в котором для каждого объекта
, должен быть указывай номер его таксона (класса)
. Поэтому наиболее распространенный способ представления результата таксономии состоит в переформировании исходной таблицы данных путем собирания в отдельные слои всех
строк (объектов), входящих в один и тот же
-й таксон.
Для более краткого представления основного содержания такой таблицы можно записать, например, средние значения и дисперсию характеристик объектов каждого таксона. Можно сохранить по одному или несколько типичных представителей (прецедентов) из каждого таксона. Можно в пространстве характеристик описать границы, которыми таксоны отделяются друг от друга.
Любое из таких описаний представляет собой обобщенный образ каждого класса. Если после этого предъявляется новый объект
, не участвовавший в таксономии, и требуется отнести его к одному из
имеющихся классов, то нужно проанализировать характеристики объекта
и распознать образ того класса
, на который данный объект наиболее похож. Такая процедура получила в литературе по анализу данных название распознавание образов и соответствует задаче типа 1.1.Н, в которой требуется предсказать один элемент в столбце, измеренном в шкале наименований. Ее решению посвящено большое число работ (например, [26,62,63,69,94,132,140]). На вход алгоритма распознавания обычно подается таблица данных, которая содержит
объектов
, описанных характеристиками
. Характеристика
измерена в номинальной шкале и отражает результат предварительно проведенной классификации (таксономии). Эта таблица обычно носит название обучающая выборка.
Процесс распознавания включает в себя два основных этапа: этап обучения и этап принятия решения или контроля. На первом этапе алгоритм должен обнаружить закономерную связь между значениями описывающих характеристик
и значением целевой характеристики
. Эта закономерность выражается в виде решающего правила, с помощью которого на этапе контроля по характеристикам любого объекта
можно принимать решение о его принадлежности к одному из
имеющихся образов.