§ 3. Обобщенный градиентВернемся к процедуре (9.2). Здесь обычно в случае, когда функция дифференцируема по , в качестве вектора берется градиент по функции при , . Градиент функции будем обозначать . Таким образом, (9.2) имеет вид . (9.9) Как известно, градиентом функции в точке называется вектор такой, что функция является главной линейной частью приращения , т.е. , (9.10) где – величина более высокого порядка малости по сравнению с . Известно, что понятие градиента может быть обобщено для недифференцируемых выпуклых функций следующим образом. Обобщенным градиентом выпуклой функции в точке называется такой вектор , что для всех . (9.11) Существование обобщенного градиента для выпуклых функций в любой точке показано, например, в работе [27]. Очевидно, что во всех точках, где выпуклая функция дифференцируема, обобщенный градиент совпадает с обычным. В самом деле, допустим, что в некоторой точке . Тогда существует вектор такой, что . Положим . Тогда . (9.12) Поскольку , a – величина второго порядка малости, при достаточно малых обе части равенства (9.12) становятся меньше, чем , что противоречит (9.11). Рассмотрим пример выпуклой функции, которая не всюду дифференцируема: , где – некоторый фиксированный вектор, а – фиксированный скаляр. Эта функция имеет градиент всюду, за исключением многообразия . Определим обобщенный градиент следующим образом: При сообщенный градиент совпадает с обычным, а при условие (9.11), очевидно, выполняется, поскольку при этом , в то время как . В главе IV была введена в рассмотрение функция потерь . Как нетрудно убедиться, в качестве обобщенного градиента суммы функций можно взять сумму обобщенных градиентов. Поэтому для этой функции обобщенный градиент можно положить равным . В дальнейшем будем рассматривать только выпуклые по функции потерь. Это будет означать, что для таких функций всегда существует обобщенный градиент и выполнены условия .
|