2.6. Применение рекуррентного метода наименьших квадратов для обучения нейронных сетейОбучение сети с использованием изложенного в п. 2.5 алгоритма обратного распространения ошибки требует большого количества итераций. Поэтому в литературных источниках приводятся сведения о различных попытках создания более быстрых алгоритмов (см., например, [12]). В работе [1] для обучения нейронных сетей применялся рекуррентный метод наименьших квадратов (recursive least squares - RLS). В качестве меры погрешности использовалось выражение
где
а также
где Рис. 2.13. Структура нейрона, применяемого для реализации алгоритма RLS. Если рассчитать градиент меры погрешности и приравнять его к нулю, то получим уравнение
При использовании зависимостей (2.68) и (2.69) уравнение (2.91) принимает вид
где
Выражение (2.93) задает способ последовательного определения погрешностей в каждом слое, начиная с последнего. При дальнейших преобразованиях получаем последовательность равенств вида
где
При использовании аппроксимации
получаем нормальное уравнение
векторная форма которого имеет вид
где
Уравнение (2.97) можно решить рекуррентным способом, без инвертирования матрицы
где Начальные значения в алгоритме RLS, как правило, устанавливаются следующим образом:
Начальные значения весов
Пример 2.1 Сравним функционирование алгоритма обратного распространения ошибки (2.86), модифицированного алгоритма (2.87) и алгоритма RLS (2.103). Для этого двухслойную нейронную сеть с сигмоидальными функциями будем использовать для имитации логической системы XOR и декодера 4-2-4. Процесс имитации должен длиться достаточно долго для того, чтобы значение погрешности
где а) Логическая система XOR. Нейронная сеть имеет 2 входа, 2 нейрона в скрытом слое и 1 выход. Заданный порог
Результаты моделирования представлены на рис. 2.14. б) Декодер 4-2-4. Нейронная сеть имеет 4 входа, 2 нейрона в скрытом слое и 4 нейрона в выходном слое. Заданный порог
Рис. 2.14. Результаты моделирования логической системы XOR: а) алгоритм обратного распространения ошибки; б) модифицированный алгоритм обратного распространения ошибки (с учетом момента); в) алгоритм RLS. Рис. 2.15. Результаты моделирования декодера 4-2-4: а) алгоритм обратного распространения ошибки; б) модифицированный алгоритм обратного распространения ошибки (с учетом момента); в) алгоритм RLS. Результаты моделирования представлены на рис. 2.15. Легко заметить, что модифицированный (с учетом момента) алгоритм обратного распространения ошибки работает в несколько раз быстрее традиционного алгоритма, тогда как применение алгоритма RLS позволяет увеличить эту скорость еще на порядок.
|