Распознавание образов: § 3. Обобщенный градиент

§ 3. Обобщенный градиент

Вернемся к процедуре (9.2). Здесь обычно в случае, когда функция дифференцируема по , в качестве вектора берется градиент по функции при , . Градиент функции будем обозначать . Таким образом, (9.2) имеет вид

. (9.9)

Как известно, градиентом функции в точке называется вектор такой, что функция является главной линейной частью приращения

т.е.

, (9.10)

где – величина более высокого порядка малости по сравнению с .

Известно, что понятие градиента может быть обобщено для недифференцируемых выпуклых функций следующим образом. Обобщенным градиентом выпуклой функции в точке называется такой вектор , что для всех

. (9.11)

Существование обобщенного градиента для выпуклых функций в любой точке показано, например, в работе [27].

Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обычным. В самом деле, допустим, что в некоторой точке . Тогда существует вектор такой, что

Положим

Тогда

. (9.12)

Поскольку , a – величина второго порядка малости, при достаточно малых обе части равенства (9.12) становятся меньше, чем , что противоречит (9.11).

Рассмотрим пример выпуклой функции, которая не всюду дифференцируема:

где – некоторый фиксированный вектор, а – фиксированный скаляр. Эта функция имеет градиент всюду, за исключением многообразия

Определим обобщенный градиент следующим образом:

При сообщенный градиент совпадает с обычным, а при условие (9.11), очевидно, выполняется, поскольку при этом

в то время как

В главе IV была введена в рассмотрение функция потерь

Как нетрудно убедиться, в качестве обобщенного градиента суммы функций можно взять сумму обобщенных градиентов.

Поэтому для этой функции обобщенный градиент можно положить равным

В дальнейшем будем рассматривать только выпуклые по функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и выполнены условия