§ 10.24. Марковское обучение

Пусть некоторый источник информации посылает сигналы. Эти полезные сигналы , принадлежащие двоичному алфавиту {0, 1} смешиваются с помехой . Наблюдатель принимает сигнал, маскируемый шумами, , и сравнивает его с порогом .

Задача обучения наблюдателя сводится к последовательной настройке порога так, чтобы условные вероятности желательных исходов увеличивались, а нежелательных — уменьшались. В отличие от результатов § 6.13 мы теперь будем предполагать, что порог изменяется не непрерывно, а определен на конечном и, в частности, на целочисленном алфавите. Именно дискретность, а часто и конечность алфавита характерны для марковского обучения. Отождествим алфавит порога с алфавитом состояний автомата без выходного преобразователя. Иными словами, положим и .

Тогда

(10.99)

Погрузим этот автомат в среду

(10.100)

Случайный сигнал делает эту среду стохастической. Наконец, в отличие от способа штрафования, принятого ранее, теперь штрафы или поощрения определяются разностью между указаниями учителя и реакцией среды :

(10.101)

где задано на алфавите . В простейшем случае можно принять

(10.102)

и тогда из уравнений (10.99) — (10.101) легко получить алгоритм марковского обучения

(10.103)

Этот алгоритм отличается от алгоритма обучения адаптивного приемника (6.65) тем, что теперь . По своему духу алгоритм (10.103) весьма близок к алгоритму обучения пороговых элементов (10.74).

Постоянство значения в таких марковских алгоритмах приводит к тому, что мы должны распрощаться с надеждой получить сходимость состояний с ростом к одному оптимальному состоянию по вероятности либо с вероятностью единица, как это было ранее, когда с ростом стремилось надлежащим образом к нулю. Теперь мы можем лишь довольствоваться тем, что при только мода стремится к . Это становится особенно очевидным, если представить себе, что при рассмотрении стохастического автомата, эквивалентного марковской цепи, мы можем говорить лишь о вероятности достижения тех или иных состояний.

Существует тесная связь между алгоритмами марковского обучения и последовательным декодированием, к которому в последнее время возник большой интерес. Но мы уже не будем касаться этой темы, понимая, что желание все постичь всегда останется неосуществленным.