Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 4. Условия сходимости рекуррентных алгоритмов

Итак, пусть задана выпуклая по  при любом фиксированном  функция потерь  и определена процедура получения последовательности :

.

Рассмотрим несколько более общую, чем в главе IV, процедуру образования последовательности

,                   (9.13)

отличающуюся тем, что  – случайная помеха при измерении обобщенного градиента, которая удовлетворяет условиям

,

.

Будем считать, что величины , образующие бесконечную последовательность неотрицательных чисел, таковы, что

,

.

Процедура (9.13) для заданного начального условия  определяет случайный процесс. Реализации этого случайного процесса индуцируются последовательностями точек  которые появляются независимо в соответствии с распределением . Распределение же  таково, что для любого  существует

и

.

Справедлива теорема.

Теорема 9.1. (Б. М. Литваков [441]: Если:

1) функционал  ограничен снизу,

2) функция  ограничена сверху, т. е.,

3) дисперсия помехи  ограничена сверху, т. е. , то при любом начальном векторе  последовательность с вероятностью 1.

Доказательство теоремы опирается на следующие леммы.

Лемма 1. Для любых  и  можно подобрать такое , чтобы вероятность того, что вектор  окажется внутри гипершара  с центром в  и радиусом , была больше .

Доказательство. Покажем сначала, что для любого  существует ограниченная величина . Согласно процедуре (9.13) справедливо равенство

         (9.14)

Увеличим правую часть этого равенства. Согласно условию теоремы

,

,

.

Поэтому . Кроме того, используя то, что для выпуклой функции и любых ,  и  справедливо неравенство

                                           ,

оценим величину :

где .

Таким образом, оказывается справедливым неравенство

,                      (9.15)

где .

Используя неравенство (9.15) и учитывая, что

,

непосредственно получаем, что

,

т. е. величина  ограничена числом .

Для доказательства леммы воспользуемся неравенством Чебышева для нецентрированных случайных величин

.

Усилим это неравенство; учитывая, что

,

получим

.

Потребуем, чтобы эта вероятность не превосходила . Это произойдет, если величины , ,  будут связаны соотношением

,

откуда следует, что с вероятностью, превышающей , точка  будет находиться внутри гипершара  с центром в  и радиусом

.

Лемма 1 доказана.

Пусть, далее,

.

Обозначим через  область значений :

.

Лемма 2. Для любых  и  последовательность  с вероятностью 1 хоть раз войдет в область  при .

Утверждение леммы 2 эквивалентно такому: вероятность того, что подпоследовательность  ни разу не заходит в область  стремится к нулю при .

Доказательство. Для доказательства удобно рассмотреть процедуру, отличающуюся от (9.13) только тем, что если последовательность при  входит в область , то она там и остается.

Для этого будем считать, что соотношение

выполняется всегда при , а при  – лишь для . В случае же, когда при  элемент  принадлежит , последовательность «залипает», т. е.

.

Очевидно, что если последовательность , построенная в силу исходного алгоритма, ни разу не заходит в  при , то последовательность, построенная по новому правилу, ничем не отличается от исходной и, в частности, не заходит в  при . Поэтому достаточно оценить вероятность того, что новая последовательность ни разу не войдет в  при .

В области  выберем точку , для которой

(это всегда можно сделать), и оценим величину  для процедуры

               (9.16)

Согласно этой процедуре при

В силу условий теоремы

,

а также

 и .

Поэтому справедливо неравенство

              (9.17)

Далее, поскольку функция  выпукла, то

и поэтому

.       (9.18)

Но точки  и  выбраны так, что

(поскольку ) и

и, следовательно,

.                  (9.19)

Объединяя (9.17), (9.18) и (9.19), получаем, что при

.

Если же при  элемент , то

.

Пусть  – вероятность того, что . Тогда, переходя к безусловному математическому ожиданию, получим для

.

Из этого рекуррентного соотношения, очевидно, следует, что при

.

В силу леммы 1 величина

ограничена, и по условию теоремы ряд  сходится. Поэтому

,                  (9-20)

где  – константа, не зависящая от .

Далее, поскольку процедура (9.16) организована так, что, попав в , последовательность «залипает», вероятность  не возрастает с ростом .

Если бы при этом  оставалась больше некоторого , то величина

с ростом  неограниченно возрастала, поскольку при этом

,

а ряд  расходится.

Но это невозможно, потому что тогда правая часть неравенства (9.20) становилась бы отрицательной при достаточно больших , тогда как левая часть положительна. Следовательно, последовательность  стремится к нулю при .

Остается отметить, что последовательность  организована процедурой (9.16) так, что если она хоть раз войдет в  при , то она там и останется к моменту . Следовательно, вероятность того, что последовательность  ни разу не заходит в , равна  и стремится к нулю при .

Лемма доказана.

Лемма 3. Для любых  и  существует такое , что при всех  вероятность последовательности  выйти из области

,

при условии , меньше .

Доказательство. Оценим вероятность  того, что в последовательности  хотя бы один элемент не принадлежит  при условии, что . Для этого изменим процедуру (9.13) при , положив

                    (9.21)

Очевидно, что величина  равна вероятности того, что  при условии , если, начиная с , действует процедура (9.21).

Обозначим через  точку множества , ближайшую к , и оценим величину

.

Очевидно, справедливо неравенство

.

Поэтому при  в силу процедуры (9.21)

В силу выпуклости  справедливо неравенство

Но при  элементы  и  совпадают, а при

.

Поэтому

.

Следовательно,

Если же  при , то

.

Таким образом, всегда

Из этого рекуррентного соотношения следует, что при  справедливо

          (9.22)

поскольку при  имеет место

.

Далее, оценим расстояние  между произвольным элементом  и множеством , т. е. ширину зоны, которую должна пройти точка , чтобы из  уйти за пределы . Так как функция  выпукла,

,

для всякой точки  выполняется неравенство

и для всякой точки  – неравенство

,

то

.                   (9.23)

Поэтому

.

Воспользуемся неравенством Чебышева

Учитывая далее (9.22) и (9.23), получаем

.

Правая часть неравенства не зависит от , поэтому, выбрав  достаточно большим, можно добиться, чтобы  было меньше  при всех , а это и значит, что последовательность выходит из  с вероятностью, меньшей .

Лемма доказана.

Докажем теперь теорему 9.1.

Для заданных  и  подберем  так, чтобы для всякого  вероятность последовательности выйти за пределы области

при условии, что , была меньше . Это можно сделать в силу леммы 3.

Далее, в силу леммы 2 последовательность  с вероятностью 1 хоть раз войдет в  после момента  и, следовательно, выйдет из  с вероятностью, меньшей . Ввиду произвольности  и  это означает, что

с вероятностью единица.

Теорема доказана.

 



<< ПредыдущаяОглавлениеСледующая >>