§ 10.5. Алгоритмы обучения решению игрПредставим уравнения (10.15) в виде (10.19) и применим к ним вероятностные итеративные алгоритмы обычного типа. Тогда мы получим алгоритмы обучения решению игр (10.20) Здесь и — оптимальные чистые стратегии на шаге ; определяется номером максимальной компоненты вектора , а определяется номером минимальной компоненты вектора . Для сходимости алгоритмов обучения достаточно, чтобы коэффициенты и удовлетворяли обычным условиям (3.34, а). Алгоритмы (10.20) соответствуют процессу последовательного совершенствования игроками стратегий, т. е. обучению игре «опытным путем». Подобным же образом, представляя уравнения (10.18) в виде (10.21) находим алгоритмы обучения решению игр при наличии погрешностей: (10.22) Алгоритмы (10.22) соответствуют процессу последовательного совершенствования игроками стратегий «опытным путем» при наличии мешающих факторов — погрешностей. Любопытно отметить, что наличие погрешностей с нулевым средним значением не является препятствием к выработке оптимальных стратегий, лишь удлиняя время обучения. По и на каждом шагу определяется функция (10.23) которая при стремится к величине, равной цене игры. Алгоритмы обучения решению игр (10.20), (10.22) реализуются системами, схемы которых изображены на рис. 10.1 и 10.2. Полученные общие алгоритмы обучения (10.20), (10.22) в частных случаях приводят и к известным итерационным алгоритмам, приведенным в табл. 10.1. Алгоритмы обучения решению игр сходятся, вообще говоря, довольно медленно. Для ускорения сходимости алгоритмов можно использовать различные способы ускорения сходимости, о которых речь шла, например, в § 3.15. Все эти способы связаны в конечном итоге с изменением коэффициентов и в процессе обучения решению игры. Рис. 10.1 Рис. 10.2 Так, например, сходимость алгоритмов может быть ускорена, если заменить те итерации, в которых повторяются одни и те же чистые стратегии, одной итерацией. Это соответствует такому выбору : (10.24) где — число итераций на -м шаге, в которых повторились одни и те же чистые стратегии. Вооружившись алгоритмами обучения решению игр, мы теперь можем заняться применением их к разнообразным задачам.
|