§ 3. Обобщенный градиент
Вернемся к процедуре (9.2). Здесь обычно в случае, когда функция
дифференцируема по
, в качестве вектора
берется градиент по
функции
при
,
. Градиент функции
будем обозначать
. Таким образом, (9.2) имеет вид
. (9.9)
Как известно, градиентом функции
в точке
называется вектор
такой, что функция
является главной линейной частью приращения
,
т.е.
, (9.10)
где
– величина более высокого порядка малости по сравнению с
.
Известно, что понятие градиента может быть обобщено для недифференцируемых выпуклых функций следующим образом. Обобщенным градиентом
выпуклой функции
в точке
называется такой вектор
, что для всех 
. (9.11)
Существование обобщенного градиента для выпуклых функций в любой точке
показано, например, в работе [27].
Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обычным. В самом деле, допустим, что в некоторой точке
. Тогда существует вектор
такой, что
.
Положим
.
Тогда
. (9.12)
Поскольку
, a
– величина второго порядка малости, при достаточно малых
обе части равенства (9.12) становятся меньше, чем
, что противоречит (9.11).
Рассмотрим пример выпуклой функции, которая не всюду дифференцируема:
,
где
– некоторый фиксированный вектор, а
– фиксированный скаляр. Эта функция имеет градиент всюду, за исключением многообразия
.
Определим обобщенный градиент следующим образом:

При
сообщенный градиент совпадает с обычным, а при
условие (9.11), очевидно, выполняется, поскольку при этом
,
в то время как
.
В главе IV была введена в рассмотрение функция потерь
.
Как нетрудно убедиться, в качестве обобщенного градиента суммы функций можно взять сумму обобщенных градиентов.
Поэтому для этой функции обобщенный градиент можно положить равным
.
В дальнейшем будем рассматривать только выпуклые по
функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и выполнены условия
.