為什麼在光滑凸優化研究中，Lipschitz gradient比strongly convex更普遍？

1樓：遠處群山

其實啊，在不同的領域裡，對Lipschitz continuity和strong convexity的看法也是大不同的。

在優化理論的研究裡，大家希望不要做Lipschitz continuity和strong convexity假設，因為假設越多，侷限性就越大。我們肯定是希望盡量不要出現限制性條件。所以當前有很多人在研究不假設Lipschitz continuity和strong convexity時演算法的收斂性，比如文獻[1,2,3]。

也就是說，對於純粹的理論研究來說，Lipschitz continuity假設和strong convexity假設一樣「惡劣」，我們是不希望它們出現的。

那麼為什麼Lipschitz continuity假設會出現的更頻繁一些呢？原因在於Lipschitz continuity表徵的是梯度的弱變性，通俗的說，就是滿足Lipschitz continuity的梯度的變化是相對緩慢的。在自然界中，弱變是常態，大部分事物都是緩慢變化的。

而strong convexity表徵的是函式本身的強變性，而強變的事物是相對稀少的。所以很多問題中涉及的目標函式都不是強凸的。

當然我們都知道，Lipschitz continuity和strong convexity其實是一組互相對偶的概念。

上面談的是優化理論的研究。在偏應用的領域裡，情況就大不一樣了，通常是要麼大家都不care Lipschitz continuity和strong convexity（或者說即便care也沒用），要麼它們倆都很容易滿足。

比如在深度學習裡，如果你要訓練乙個深度神經網路的，那Lipschitz continuity和strong convexity是肯定沒有的，這時候你care也沒用。但是在傳統的機器學習裡，Lipschitz continuity和strong convexity都很容易滿足。Strong convexity容易滿足是因為很多任務裡都會加l2正則項，比如regularized logsitic regression，Lipschitz continuity容易滿足則是因為你可以假設問題的feasible region是bounded，這時候只要目標函式是連續可微的，Lipschitz continuity通常比較容易滿足。

[3]Necoara I, Nesterov Y, Glineur F. Linear convergence of first order methods for non-strongly convex optimization[J]. Mathematical Programming, 2019, 175(1):

69-107.

為什麼在光滑凸優化研究中，Lipschitz gradient比strongly convex更普遍？

為什麼現代文化研究的主導權掌握在西方研究者手中呢？

為什麼在Fate stay night中的fate線中，saber在聖杯戰爭中獲勝後不留在現實世界？

為什麼在 CPU 中要用 Cache 從記憶體中快速提取資料？

其他用戶還看了：