§ 10.22. Обучение автоматовПри создании и обучении автоматов разумно требовать от них не просто целесообразного поведения, а оптимального по целесообразности поведения. Иначе говоря, такого поведения, при котором не только выполняется условие (10.89), но и математическое ожидание штрафа достигает минимума. Это может быть достигнуто изменением в результате обучения структуры как самого автомата, т. е. , так и характеристики преобразователя . Мы рассмотрим здесь для простоты последний случай. В силу уравнений (10.80) и второго уравнения (10.82) представим в виде (10.90) Попробуем теперь найти такую характеристику преобразователя , для которой минимально. Будем искать в знакомой нам форме (10.91) Это возможно, если определить систему линейно независимых функции, например, следующим образом: (10.92) или аналитически (10.93) где (10.94) Схема таких преобразователей и их условное обозначение приведены на рис. 10.12. Функции представляют собой единичные дискреты, а коэффициенты в (10.94) — дискреты из алфавита . Поэтому представляется комбинацией не приближенно, как это было для непрерывных и импульсных систем, а точно (рис. 10.13). Рис. 10.12. Условие оптимальности автомата теперь можно представить так: (10.95) и задача обучения состоит в достижении этого условия путем обработки реализации поведения автомата. Рис. 10.13. Поскольку градиент реализации нельзя определить, то мы вычислим оценку (10.96) где (10.97) и воспользуемся поисковым алгоритмом типа (3.15) при . Тогда получим алгоритм обучения (10.98) Теперь уже можно построить структурную схему обучающегося автомата. Она изображена на рис. 10.14. При погружении автомата в некую среду в результате обучения происходит такая «настройка» характеристики преобразователя, при которой автомат достигает оптимального поведения. Обучение может осуществляться при постоянной характеристике преобразователя путем изменения случайного воздействия , создаваемого специальным генератором. При этом будет происходить такое перераспределение переходных вероятностей, что вероятность перехода из любого состояния в состояния, приводящие к штрафу, уменьшалась. Рис. 10.14. Такие обучающиеся автоматы обладают гибким поведением и хорошим приспособлением к сравнительно медленным изменениям свойств среды. Они платят минимальный штраф «в том случае, когда за вчерашние грехи сегодня награждают, и в том случае, когда грехи остаются грехами». Для того чтобы сделать маленькую передышку, прежде чем переходить к несколько иному, хотя и близкому кругу вопросов, мы хотели бы спросить читателя: «По какой системе обучаются автоматы — очной или заочной»? В § 4.14 мы говорили об этом.
|