§ 10.8. Алгоритмы управления

Из (10.35) следует, что задача об оптимальном управлении сводится к задаче решения непрерывной игры. Введем платежную функцию непрерывной игры

(10.36)

Тогда из теоремы о минимаксе (10.11) следует, что рассмотренная в § 10.7 задача об оптимальном управлении сводится к решению непрерывной игры с платежной функцией (10.36). Чтобы применить алгоритмы обучения решению игр типа (10.20), нужно предварительно аппроксимировать непрерывную игру дискретной. Можно, однако, поступить и иначе — из дискретных алгоритмов получить предельным путем непрерывные алгоритмы и их уже затем применить к непрерывной игре. Так, дискретным алгоритмам (10.22) будут теперь соответствовать непрерывные алгоритмы вида

(10.37)

где теперь и представляют собой оптимальные ответы при наличии помех.

Схема управляющего устройства, вычисляющего оптимальное управляющее воздействие, имеет вид, аналогичный рис. 10.2.