9.4. Алгоритмы классификации (краткий обзор)Варианты основных алгоритмов классификации различают по количеству шагов (этапов) принятия решения, а также по степени и характеру учета статистики признаков. Так, различают одношаговые и многошаговые (последовательные) алгоритмы принятия решений [9.9, гл.4]. В первом варианте принятие решений предусматривает обязательную выдачу оценки По степени учета статистических закономерностей различают синтаксические и собственно статистические алгоритмы. Из статистических алгоритмов, в свою очередь, выделяют параметрические (байесовские и небайесовские), непараметрические и нейрокомпьютерные алгоритмы. Синтаксические алгоритмы [9.7, гл.8;9.9, гл.8] вводимые признаки учитывают качественно, часто двоичными цифрами Параметрические байесовские алгоритмы, в отличие от небайесовских учитывают не только статистику распределений значений признаков в классах, но и определенные гипотезы об априорных вероятностях Непараметрические алгоритмы синтезируют эвристически в расчете на неизвестные заранее статистические распределения признаков объектов различных классов. Они используют локальную оценку вероятности появления реализации объекта в заданной области по эмпирической частоте (на основе обучающей выборки). Это алгоритмы типа «обобщенной гистограммы» (методы парзеновского окна, ближайших соседей), алгоритмы вычисления оценок, алгебраические алгоритмы и т.д. [9.8, гл.6;9.11, гл. 3-5]. Нейрокомпыотерные алгоритмы отличаются своей заранее заданной универсальной структурой, с большим числом неизвестных параметров, уточняемых в процессе адаптации к входной информации (обучение) [9.10]. Универсальность структуры постулируется из аналогий с гипотетическими нейросистемами (нейросетями). Практические достижения в этой области часто трактуют как проявление возможностей искусственного интеллекта. Обучение (адаптация) нейрокомпьютерных систем (а чаще всего просто специальных алгоритмов) проводится на основе предъявления большого числа обучающих объектов, выбираемых случайно из заданных классов. Статистические закономерности векторов признаков объектов здесь автоматически учитываются в процессе обучения. Признаковое пространство разделяется в результате нелинейными границами на области, соответствующие различным классам. В настоящее время идет рост универсализации структур нейросистем, приводящий к увеличению вычислительных затрат, компенсируемому повышением производительности вычислительных средств. Далее мы основное внимание уделим лишь параметрическим статистическим методам распознавания. Поэтому перейдем к соответствующему анализу данных в условиях дискриминантной модели, известной иначе как модель классификации при наличии обучающих выборок. Здесь используем два вида информации: предположения о свойствах распределений (гладкость, принадлежность к некоторому известному параметрическому семейству) и обучающую выборку.
|