凸優化中strongly convex和L smooth有什麼應用？

1樓：梁令

這些很大程度是為了證明演算法收斂性和收斂率而假設的。

乙個簡單的應用是，在這些條件下， accelerated proximal gradient (APG)等一階演算法可以有複雜度結果（O(1/k^2)).

當沒有這些條件時，分析起來會很難，比如如果沒有這兩個條件，大家又轉頭去考慮類似自洽（self-concordant) 函式。

2樓：Xenophon Tony

-smooth中的，和 -strongly convex中的這一對CP，如果函式是二次可微的，可以認為它們就等同於函式Hessian矩陣的最大和最小奇異值的上界和下界，也就可以被看作梯度的最大變化速度和最小變化速度。由於SGD實在是乙個短視的演算法，每一步雖然也是在求解二階近似，但都把Hessian暴力換成identity matrix了，這麼說就明白了，梯度的變化率範圍越小，在做GD step的時候越可控，由此反映在了GD的收斂效能上，具體可見這個答案～

什麼是ill-conditioning 對SGD有什麼影響？

3樓：Zeap

如果是L-Lipschitz的，就有了乙個二次函式的上界：

+ \frac\|x-x_0\|^2 \quad \forall x" eeimg="1"/>

如果是 -strongly convex的，就有了乙個二次函式的下界：

+ \frac\|x-x_0\|^2 \leqslant f(x) \quad \forall x" eeimg="1"/>

畫個示意圖，大概長這個樣子：

由於被迫長成乙個二次函式的樣子，於是很多演算法在 -strongly convex + L-Lipschiz下都有比較好的表現。

Zeap：非凸優化基石：Lipschitz Condition

潘潤琦：非凸優化的基石2：Regularity Condition

Zeap：當我們談論收斂速度時，我們都在談什麼？

Zeap：如何理解非凸優化極值條件: 梯度= 0 & 二階導》 0？

凸優化中strongly convex和L smooth有什麼應用？

怎麼判斷乙個優化問題是凸優化還是非凸優化？

為什麼在光滑凸優化研究中，Lipschitz gradient比strongly convex更普遍？

傳統優化演算法與智慧型優化演算法與凸優化演算法如何界定其區別？都屬於最優化演算法嗎？

其他用戶還看了：