Читать в оригинале

<< Предыдущая Оглавление Следующая >>


§ 10.5. Алгоритмы обучения решению игр

Представим уравнения (10.15) в виде

                                       (10.19)

и применим к ним вероятностные итеративные алгоритмы обычного типа. Тогда мы получим алгоритмы обучения решению игр

              (10.20)

Здесь  и  — оптимальные чистые стратегии на шаге ;  определяется номером максимальной компоненты вектора , а  определяется номером минимальной компоненты вектора . Для сходимости алгоритмов обучения достаточно, чтобы коэффициенты  и   удовлетворяли обычным условиям (3.34, а). Алгоритмы (10.20) соответствуют процессу последовательного совершенствования игроками стратегий, т. е. обучению игре «опытным путем».

Подобным же образом, представляя уравнения (10.18) в виде

                                               (10.21)

находим алгоритмы обучения решению игр при наличии погрешностей:

                (10.22)

Алгоритмы (10.22) соответствуют процессу последовательного совершенствования игроками стратегий «опытным путем» при наличии мешающих факторов — погрешностей.

Любопытно отметить, что наличие погрешностей с нулевым средним значением не является препятствием к выработке оптимальных стратегий, лишь удлиняя время обучения.

По  и  на каждом шагу определяется функция

      (10.23)

которая при  стремится к величине, равной цене игры. Алгоритмы обучения решению игр (10.20), (10.22) реализуются системами, схемы которых изображены на рис. 10.1 и 10.2.

Полученные общие алгоритмы обучения (10.20), (10.22) в частных случаях приводят и к известным итерационным алгоритмам, приведенным в табл. 10.1.

Алгоритмы обучения решению игр сходятся, вообще говоря, довольно медленно. Для ускорения сходимости алгоритмов можно использовать различные способы ускорения сходимости, о которых речь шла, например, в § 3.15. Все эти способы связаны в конечном итоге с изменением коэффициентов  и  в процессе обучения решению игры.

Рис. 10.1

Рис. 10.2

Так, например, сходимость алгоритмов может быть ускорена, если заменить те итерации, в которых повторяются одни и те же чистые стратегии, одной итерацией. Это соответствует такому выбору :

                                   (10.24)

где  — число итераций на -м шаге, в которых повторились одни и те же чистые стратегии. Вооружившись алгоритмами обучения решению игр, мы теперь можем заняться применением их к разнообразным задачам.

 



<< Предыдущая Оглавление Следующая >>