§ 10.22. Обучение автоматов

При создании и обучении автоматов разумно требовать от них не просто целесообразного поведения, а оптимального по целесообразности поведения. Иначе говоря, такого поведения, при котором не только выполняется условие (10.89), но и математическое ожидание штрафа достигает минимума. Это может быть достигнуто изменением в результате обучения структуры как самого автомата, т. е. , так и характеристики преобразователя .

Мы рассмотрим здесь для простоты последний случай. В силу уравнений (10.80) и второго уравнения (10.82) представим в виде

(10.90)

Попробуем теперь найти такую характеристику преобразователя , для которой минимально. Будем искать в знакомой нам форме

(10.91)

Это возможно, если определить систему линейно независимых функции, например, следующим образом:

(10.92)

или аналитически

(10.93)

где

(10.94)

Схема таких преобразователей и их условное обозначение приведены на рис. 10.12. Функции представляют собой единичные дискреты, а коэффициенты в (10.94) — дискреты из алфавита . Поэтому представляется комбинацией не приближенно, как это было для непрерывных и импульсных систем, а точно (рис. 10.13).

Рис. 10.12.

Условие оптимальности автомата теперь можно представить так:

(10.95)

и задача обучения состоит в достижении этого условия путем обработки реализации поведения автомата.

Рис. 10.13.

Поскольку градиент реализации нельзя определить, то мы вычислим оценку

(10.96)

где

(10.97)

и воспользуемся поисковым алгоритмом типа (3.15) при . Тогда получим алгоритм обучения

(10.98)

Теперь уже можно построить структурную схему обучающегося автомата. Она изображена на рис. 10.14. При погружении автомата в некую среду в результате обучения происходит такая «настройка» характеристики преобразователя, при которой автомат достигает оптимального поведения. Обучение может осуществляться при постоянной характеристике преобразователя путем изменения случайного воздействия , создаваемого специальным генератором. При этом будет происходить такое перераспределение переходных вероятностей, что вероятность перехода из любого состояния в состояния, приводящие к штрафу, уменьшалась.

Рис. 10.14.

Такие обучающиеся автоматы обладают гибким поведением и хорошим приспособлением к сравнительно медленным изменениям свойств среды. Они платят минимальный штраф «в том случае, когда за вчерашние грехи сегодня награждают, и в том случае, когда грехи остаются грехами».

Для того чтобы сделать маленькую передышку, прежде чем переходить к несколько иному, хотя и близкому кругу вопросов, мы хотели бы спросить читателя: «По какой системе обучаются автоматы — очной или заочной»? В § 4.14 мы говорили об этом.