§ 10.8. Алгоритмы управленияИз (10.35) следует, что задача об оптимальном управлении сводится к задаче решения непрерывной игры. Введем платежную функцию непрерывной игры (10.36) Тогда из теоремы о минимаксе (10.11) следует, что рассмотренная в § 10.7 задача об оптимальном управлении сводится к решению непрерывной игры с платежной функцией (10.36). Чтобы применить алгоритмы обучения решению игр типа (10.20), нужно предварительно аппроксимировать непрерывную игру дискретной. Можно, однако, поступить и иначе — из дискретных алгоритмов получить предельным путем непрерывные алгоритмы и их уже затем применить к непрерывной игре. Так, дискретным алгоритмам (10.22) будут теперь соответствовать непрерывные алгоритмы вида (10.37) где теперь и представляют собой оптимальные ответы при наличии помех. Схема управляющего устройства, вычисляющего оптимальное управляющее воздействие, имеет вид, аналогичный рис. 10.2.
|