§ 10.9. Одно обобщениеВозможно, рассмотренная в §§ 10.7 и 10.8 задача об управлении вызовет некоторое неудовлетворение, поскольку минимизируемый функционал очень чувствителен к начальным условиям. И если нам неизвестны начальные условия, то мы не можем определить и оптимальное управление. Чтобы обойти это затруднение, рассмотрим усредненный по начальным условиям функционал (10.29): (10.38) Тогда соответствующая непрерывной игре платежная функция будет равна (10.39) Эта «средняя» платежная функция нам неизвестна, ибо неизвестна плотность распределения начальных условий. Но, как мы знаем, это не является препятствием для адаптивного подхода. Мы можем использовать алгоритмы обучения типа (10.37) с той лишь разницей, что теперь вместо неизвестной «средней» платежной функции для определения и будет использоваться ее оценка, которая вычисляется с помощью алгоритмов определения среднего значения. Разумеется, в этом случае время обучения возрастает: за незнание мы уже неоднократно расплачивались временем. Мы не будем углубляться в этот интересный, но пока еще мало разработанный вопрос, а обратимся к совершенно иным задачам, для которых оказывается полезным применение алгоритмов обучения решению игр.
|