Распознавание. Методы обучения: § 1. О восстановлении распределения вероятностей

Глава III. МЕТОДЫ ОБУЧЕНИЯ, ОСНОВАННЫЕ НА ВОССТАНОВЛЕНИИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

§ 1. О восстановлении распределения вероятностей

В задачах математической статистики чрезвычайно важным является случай, когда функция распределения вероятностей известна с точностью до значения параметров. В этом случае восстановление распределения вероятностей сводится к установлению значений параметров на основе имеющейся выборки. Методы исследования, разработанные здесь, получили название методов параметрической статистики.

Выше было указано, что задача обучения распознаванию образов может быть решена путем построения дискриминантной функции по восстановленным функциям распределения вероятностей различных классов объектов. В этой главе будут рассмотрены такие параметрические методы решения задачи. Как уже указывалось, идея решения задачи обучения распознаванию путем восстановления распределения вероятностей, вообще говоря, кажется малопривлекательной и реальных успехов на этом пути можно ждать лишь для вырожденных случаев.

Параметрические методы решения задач обучения распознаванию связаны с двумя классами функций распределения.

Первый класс распределений. Распределение вероятностей для каждого класса векторов , зависящее от вектора параметров , таково, что координаты вектора распределены независимо, т. е.

, (3.1)

и, кроме того, каждая координата вектора может принимать лишь фиксированное число значений. Для определенности будем считать, что каждая координата принимает значений .

Таким образом, рассматривается случай, когда распределение вероятностей для каждого класса объектов задано выражением (3.1), где функция может быть записана так:

, (3.1')

Здесь есть вероятность того, что примет значение . Восстановить распределение вероятностей (3.1') значит найти значения параметров .

Второй класс распределений. Плотность распределения вероятностей для каждого класса объектов задана нормальным законом

. (3.2)

Восстановить плотности распределения вероятностей значит найти вектор средних и ковариационную матрицу для каждого класса объектов. Однако часто решение такой задачи на выборках ограниченного объема оказывается недостаточно точным и поэтому рассматриваются еще более узкие постановки, где наложены ограничения на свойства ковариационных матриц (например, считается, что ковариационные матрицы различных классов равны либо являются диагональными или даже единичными). Согласно формуле (2.4) знание плотностей распределения вероятностей векторов для различных классов объектов и вероятностей появления представителя каждого класса дают возможность немедленно определить оптимальное решающее правило.

Представим, как это часто принято в теории обучения распознаванию образов, -мерный вектор , каждая координата которого может принимать лишь значений, как бинарный вектор размерности . Это делается так. Каждой координате ставится в соответствие вектор , координаты которого определяются следующим образом:

Например, если координата может принимать четыре значения и имеет значение , то соответствующий вектор равен .

Координаты векторов записываются подряд, образуя новый вектор , так что первые координат этого вектора совпадают с , следующие – образуют и т. д.

Тогда для первого класса функций, согласно (2.4), оптимальным решающим правилом является линейная дискриминантная функция

где и – соответственно вероятности появления векторов первого и второго классов; – вероятность того, что для векторов первого класса; – вероятности того, что для векторов второго класса.

Для нормальных распределений оптимальное решающее правило, согласно (2.4), оказывается, вообще говоря, квадратичной дискриминантной функцией

где и - параметры плотности распределения векторов первого класса, а и – векторов второго класса.

Таким образом, задача построения решающего правила сводится к нахождению соответствующих параметров плотностей распределения вероятностей.

Среди параметрических методов восстановления плотности распределения вероятностей наиболее эффективными являются метод максимума правдоподобия и методы, основанные па байесовой оценке. Применение этих двух методов для восстановления плотностей распределения вероятностей в описанных классах и составляет содержание теории параметрических методов обучения распознаванию образов. Прежде чем перейти к изложению этой теории, напомним некоторые понятия статистической теории оценивания.