Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


2.6. Применение рекуррентного метода наименьших квадратов для обучения нейронных сетей

Обучение сети с использованием изложенного в п. 2.5 алгоритма обратного распространения ошибки требует большого количества итераций. Поэтому в литературных источниках приводятся сведения о различных попытках создания более быстрых алгоритмов (см., например, [12]).

В работе [1] для обучения нейронных сетей применялся рекуррентный метод наименьших квадратов (recursive least squares - RLS). В качестве меры погрешности использовалось выражение

,                (2.88)

где  - так называемый коэффициент забывания (forgetting factor), значение которого выбирается из интервала . Обратим внимание на то, что степень влияния членов выражения (2.88) на его значение возрастает с увеличением номера члена. В ходе дальнейших рассуждений будем использовать обозначения, введенные в п. 2.5, с учетом особенностей, показанных на рис. 2.13, т.е.

,              (2.89)

а также

,                    (2.90)

где  - обратимая функция, , , .

030.jpg

Рис. 2.13. Структура нейрона, применяемого для реализации алгоритма RLS.

Если рассчитать градиент меры погрешности и приравнять его к нулю, то получим уравнение

             (2.91)

При использовании зависимостей (2.68) и (2.69) уравнение (2.91) принимает вид

                  (2.92)

где

.                     (2.93)

Выражение (2.93) задает способ последовательного определения погрешностей в каждом слое, начиная с последнего. При дальнейших преобразованиях получаем последовательность равенств вида

             (2.94)

где

.

При использовании аппроксимации

              (2.95)

получаем нормальное уравнение

,                 (2.96)

векторная форма которого имеет вид

,              (2.97)

где

,                (2.98)

.                   (2.99)

Уравнение (2.97) можно решить рекуррентным способом, без инвертирования матрицы . Это требует использования алгоритма RLS (например, [19]), согласно которому адаптивная коррекция всех весов  производится согласно правилам

,                    (2.100)

,              (2.101)

,                  (2.102)

,                 (2.103)

где , .

Начальные значения в алгоритме RLS, как правило, устанавливаются следующим образом:

, ,                       (2.104)

.               (2.105)

Начальные значения весов  нейронной сети могут также выбираться случайным способом из заранее установленного диапазона.

 

Пример 2.1

Сравним функционирование алгоритма обратного распространения ошибки (2.86), модифицированного алгоритма (2.87) и алгоритма RLS (2.103). Для этого двухслойную нейронную сеть с сигмоидальными функциями будем использовать для имитации логической системы XOR и декодера 4-2-4. Процесс имитации должен длиться достаточно долго для того, чтобы значение погрешности  стало меньше заданного порога , т.е.

,                      (2.106)

где  в случае логической системы XOR и  в случае декодера 4-2-4. На рисунках, иллюстрирующих результаты моделирования, под эпохой (ер) понимается количество итераций, равное числу различных пар векторов входных и эталонных сигналов (один цикл предъявления обучающей выборки). В обоих примерах каждая эпоха состоит из четырех итераций обучающего алгоритма.

а) Логическая система XOR. Нейронная сеть имеет 2 входа, 2 нейрона в скрытом слое и 1 выход. Заданный порог  равен 0,02. В отдельные эпохи выделены следующие пары векторов входных и эталонных сигналов:

, , , .

Результаты моделирования представлены на рис. 2.14.

б) Декодер 4-2-4. Нейронная сеть имеет 4 входа, 2 нейрона в скрытом слое и 4 нейрона в выходном слое. Заданный порог  равен 0,02. В отдельные эпохи выделены следующие пары векторов входных и эталонных сигналов:

                   ,

                   .

033.jpg

Рис. 2.14. Результаты моделирования логической системы XOR: а) алгоритм обратного распространения ошибки; б) модифицированный алгоритм обратного распространения ошибки (с учетом момента); в) алгоритм RLS.

034.jpg

Рис. 2.15. Результаты моделирования декодера 4-2-4: а) алгоритм обратного распространения ошибки; б) модифицированный алгоритм обратного распространения ошибки (с учетом момента); в) алгоритм RLS.

Результаты моделирования представлены на рис. 2.15.

Легко заметить, что модифицированный (с учетом момента) алгоритм обратного распространения ошибки работает в несколько раз быстрее традиционного алгоритма, тогда как применение алгоритма RLS позволяет увеличить эту скорость еще на порядок.

 



<< ПредыдущаяОглавлениеСледующая >>