§ 10.24. Марковское обучение
Пусть некоторый источник информации посылает сигналы. Эти полезные сигналы
, принадлежащие двоичному алфавиту {0, 1} смешиваются с помехой
. Наблюдатель принимает сигнал, маскируемый шумами,
, и сравнивает его с порогом
.
Задача обучения наблюдателя сводится к последовательной настройке порога
так, чтобы условные вероятности желательных исходов увеличивались, а нежелательных — уменьшались. В отличие от результатов § 6.13 мы теперь будем предполагать, что порог изменяется не непрерывно, а определен на конечном и, в частности, на целочисленном алфавите. Именно дискретность, а часто и конечность алфавита характерны для марковского обучения. Отождествим алфавит порога с алфавитом состояний автомата без выходного преобразователя. Иными словами, положим
и
.
Тогда
(10.99)
Погрузим этот автомат в среду
(10.100)
Случайный сигнал
делает эту среду стохастической. Наконец, в отличие от способа штрафования, принятого ранее, теперь штрафы или поощрения определяются разностью между указаниями учителя
и реакцией среды
:
(10.101)
где
задано на алфавите
. В простейшем случае можно принять
(10.102)
и тогда из уравнений (10.99) — (10.101) легко получить алгоритм марковского обучения
(10.103)
Этот алгоритм отличается от алгоритма обучения адаптивного приемника (6.65) тем, что теперь
. По своему духу алгоритм (10.103) весьма близок к алгоритму обучения пороговых элементов (10.74).
Постоянство значения
в таких марковских алгоритмах приводит к тому, что мы должны распрощаться с надеждой получить сходимость состояний
с ростом
к одному оптимальному состоянию
по вероятности либо с вероятностью единица, как это было ранее, когда
с ростом
стремилось надлежащим образом к нулю. Теперь мы можем лишь довольствоваться тем, что при
только мода
стремится к
. Это становится особенно очевидным, если представить себе, что при рассмотрении стохастического автомата, эквивалентного марковской цепи, мы можем говорить лишь о вероятности достижения тех или иных состояний.
Существует тесная связь между алгоритмами марковского обучения и последовательным декодированием, к которому в последнее время возник большой интерес. Но мы уже не будем касаться этой темы, понимая, что желание все постичь всегда останется неосуществленным.