Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 10.22. Обучение автоматов

При создании и обучении автоматов разумно требовать от них не просто целесообразного поведения, а оптимального по целесообразности поведения. Иначе говоря, такого поведения, при котором не только выполняется условие (10.89), но и математическое ожидание штрафа достигает минимума. Это может быть достигнуто изменением в результате обучения структуры как самого автомата, т. е. , так и характеристики преобразователя .

Мы рассмотрим здесь для простоты последний случай. В силу уравнений (10.80) и второго уравнения (10.82) представим  в виде

                                                                     (10.90)

Попробуем теперь найти такую характеристику преобразователя , для которой  минимально. Будем  искать в знакомой нам форме

                                            (10.91)

Это возможно, если определить систему линейно независимых функции, например, следующим образом:

                                                 (10.92)

или аналитически

                                                     (10.93)

где

                                                       (10.94)

Схема таких преобразователей и их условное обозначение приведены на рис. 10.12. Функции   представляют собой единичные дискреты, а коэффициенты  в (10.94) — дискреты из алфавита . Поэтому  представляется комбинацией  не приближенно, как это было для непрерывных и импульсных систем, а точно (рис. 10.13).

Рис. 10.12.

Условие оптимальности автомата теперь можно представить так:

                                               (10.95)

и задача обучения состоит в достижении этого условия путем обработки реализации поведения автомата.

Рис. 10.13.

Поскольку градиент реализации  нельзя определить, то мы вычислим оценку

                                      (10.96)

где

                                (10.97)

и воспользуемся поисковым алгоритмом типа (3.15) при . Тогда получим алгоритм обучения

                      (10.98)

Теперь уже можно построить структурную схему обучающегося автомата. Она изображена на рис. 10.14. При погружении автомата в некую среду в результате обучения происходит такая «настройка» характеристики преобразователя, при которой автомат достигает оптимального поведения. Обучение может осуществляться при постоянной характеристике преобразователя путем изменения случайного воздействия , создаваемого специальным генератором. При этом будет происходить такое перераспределение переходных вероятностей, что вероятность перехода из любого состояния в состояния, приводящие к штрафу, уменьшалась.

Рис. 10.14.

Такие обучающиеся автоматы обладают гибким поведением и хорошим приспособлением к сравнительно медленным изменениям свойств среды. Они платят минимальный штраф «в том случае, когда за вчерашние грехи сегодня награждают, и в том случае, когда грехи остаются грехами».

Для того чтобы сделать маленькую передышку, прежде чем переходить к несколько иному, хотя и близкому кругу вопросов, мы хотели бы спросить читателя: «По какой системе обучаются автоматы — очной или заочной»? В § 4.14 мы говорили об этом.

 



<< ПредыдущаяОглавлениеСледующая >>