§ 10.22. Обучение автоматовПри создании и обучении автоматов разумно требовать от них не просто целесообразного поведения, а оптимального по целесообразности поведения. Иначе говоря, такого поведения, при котором не только выполняется условие (10.89), но и математическое ожидание штрафа достигает минимума. Это может быть достигнуто изменением в результате обучения структуры как самого автомата, т. е. Мы рассмотрим здесь для простоты последний случай. В силу уравнений (10.80) и второго уравнения (10.82) представим
Попробуем теперь найти такую характеристику преобразователя
Это возможно, если определить систему линейно независимых функции, например, следующим образом:
или аналитически
где
Схема таких преобразователей и их условное обозначение приведены на рис. 10.12. Функции Рис. 10.12. Условие оптимальности автомата теперь можно представить так:
и задача обучения состоит в достижении этого условия путем обработки реализации поведения автомата. Рис. 10.13. Поскольку градиент реализации
где
и воспользуемся поисковым алгоритмом типа (3.15) при
Теперь уже можно построить структурную схему обучающегося автомата. Она изображена на рис. 10.14. При погружении автомата в некую среду в результате обучения происходит такая «настройка» характеристики преобразователя, при которой автомат достигает оптимального поведения. Обучение может осуществляться при постоянной характеристике преобразователя путем изменения случайного воздействия Рис. 10.14. Такие обучающиеся автоматы обладают гибким поведением и хорошим приспособлением к сравнительно медленным изменениям свойств среды. Они платят минимальный штраф «в том случае, когда за вчерашние грехи сегодня награждают, и в том случае, когда грехи остаются грехами». Для того чтобы сделать маленькую передышку, прежде чем переходить к несколько иному, хотя и близкому кругу вопросов, мы хотели бы спросить читателя: «По какой системе обучаются автоматы — очной или заочной»? В § 4.14 мы говорили об этом.
|