2.3. Персептрон

Модель МакКаллока-Питтса стала отправной точкой для построения простейшей однонаправленной нейронной сети, названной персептроном. Такую сеть предложил и исследовал Розенблатт [18] в конце пятидесятых - начале шестидесятых годов XX века. На рис. 2.4 представлена структура персептрона, иногда называемого простейшим персептроном.

Рис. 2.4. Персептрон.

В качестве функции в модели МакКаллока-Питтса (2.2) применялась биполярная функция активации (2.4).

Сигнал на выходе линейной части персептрона задается выражением

, (2.8)

где , .

Задача персептрона заключается в классификации вектора в смысле отнесения его к одному из двух классов, обозначаемых символами и . Персептрон относит вектор к классу , если выходной сигнал принимает значение 1, и к классу , если выходной сигнал принимает значение . После этого персептрон разделяет -мерное пространство входных векторов на два полупространства, разделяемые -мерной гиперплоскостью, задаваемой уравнением

. (2.9)

Гиперплоскость (2.9) называется решающей границей (decision boundary). Если , то решающая граница - это прямая линия, задаваемая уравнением

. (2.10)

Точка , лежащая над этой прямой (рис. 2.5), относится к классу , тогда как точка , лежащая под этой прямой, относится к классу . Точки, лежащие на границе решения, можно произвольно отнести и к классу и к классу .

Рис. 2.5. Решающая граница для .

Для дальнейших рассуждений допустим, что веса , в уравнении гиперплоскости (2.9) неизвестны, тогда как на вход персептрона последовательно подаются так называемые обучающие сигналы , где .

Неизвестные значения весов будут определяться в процессе обучения персептрона. Такой подход получил название «обучение с учителем» или «обучение под надзором». Роль «учителя» заключается в корректном отнесении сигналов к классам или , несмотря на неизвестность весов уравнения решающей границы (2.9). По завершении процесса обучения персептрон должен корректно классифицировать поступающие на его вход сигналы, в том числе и те, которые отсутствовали в обучающей последовательности , . Кроме того, примем, что множества векторов , , для которых выходной персептрона принимает соответственно значения и , линейно отделены, т.е. лежат в двух различных полупространствах, разделенных гиперплоскостью (2.9). Другими словами, допускается разделение обучающей последовательности на две последовательности и так, что и .

В -й момент времени сигнал на выходе линейной части персептрона определяется выражением

, (2.11)

где

, (2.12)

. (2.13)

Обучение персептрона заключается в рекуррентной коррекции вектора весов согласно формулам

(2.14)

(2.15)

где параметр при - шаг коррекции, тогда как начальные значения компонент вектора весов устанавливаются равными нулю, т.е.

. (2.16)

Зависимости (2.14) и (2.15) можно представить в более сжатом виде. Для этого определим так называемый эталонный (заданный) сигнал в форме

. (2.17)

Кроме того, отметим, что выходной сигнал персептрона может быть описан выражением

. (2.18)

С учетом введенных обозначений рекурсии (2.14) и (2.15) принимают вид

. (2.19)

Разность можно интерпретировать как погрешность между эталонным (заданным) сигналом и фактическим выходным сигналом .

Сходимость алгоритма (2.19) исследовал Розенблатт в оригинальной работе [18], а также другие авторы в более поздних публикациях (например, [5, 7, 8]). С учетом принятого выше условия линейной сепарабельности входных сигналов алгоритм (2.19) сходится, т.е.

. (2.20)

По завершении обучения решающая граница персептрона определяется выражением

, (2.21)

а персептрон корректно классифицирует как сигналы, которые принадлежат к обучающей выборке , так и не входящие в это множество, но выполняющие условие линейной сепарабельности. Напомним, что условию линейной сепарабельности не отвечает логическая функция XOR, заданная таблицей 2.1.

Из рис. 2.6 следует, что не существует прямой, которая отделила бы точки со значениями функции XOR, равными , от точек со значениями, равными 1. В этом случае роль примерной границы играет эллипс, и поэтому алгоритм (2.18) не был бы сходящимся. Проблему XOR можно разрешить с помощью двухслойного персептрона. Эта проблема детально исследована в работах [13] и [24].