Глава 5 Распознавание образов

Методы таксономии, описанные в предыдущей главе, позволяют создать начальную классификацию заданного множества то объектов. Эту классификацию можно зафиксировать для будущего по-разному, в зависимости от ее назначения. Напомним, что по классификации задач анализа данных (гл. 2, §2) задача типа 1.3.Н или задача таксономии заключается в предсказании всех элементов нового -го (классификационного) столбца в шкале наименований, в котором для каждого объекта , должен быть указывай номер его таксона (класса) . Поэтому наиболее распространенный способ представления результата таксономии состоит в переформировании исходной таблицы данных путем собирания в отдельные слои всех строк (объектов), входящих в один и тот же -й таксон.

Для более краткого представления основного содержания такой таблицы можно записать, например, средние значения и дисперсию характеристик объектов каждого таксона. Можно сохранить по одному или несколько типичных представителей (прецедентов) из каждого таксона. Можно в пространстве характеристик описать границы, которыми таксоны отделяются друг от друга.

Любое из таких описаний представляет собой обобщенный образ каждого класса. Если после этого предъявляется новый объект , не участвовавший в таксономии, и требуется отнести его к одному из имеющихся классов, то нужно проанализировать характеристики объекта и распознать образ того класса , на который данный объект наиболее похож. Такая процедура получила в литературе по анализу данных название распознавание образов и соответствует задаче типа 1.1.Н, в которой требуется предсказать один элемент в столбце, измеренном в шкале наименований. Ее решению посвящено большое число работ (например, [26,62,63,69,94,132,140]). На вход алгоритма распознавания обычно подается таблица данных, которая содержит объектов , описанных характеристиками . Характеристика измерена в номинальной шкале и отражает результат предварительно проведенной классификации (таксономии). Эта таблица обычно носит название обучающая выборка.

Процесс распознавания включает в себя два основных этапа: этап обучения и этап принятия решения или контроля. На первом этапе алгоритм должен обнаружить закономерную связь между значениями описывающих характеристик и значением целевой характеристики . Эта закономерность выражается в виде решающего правила, с помощью которого на этапе контроля по характеристикам любого объекта можно принимать решение о его принадлежности к одному из имеющихся образов.