為什麼在光滑凸優化研究中,Lipschitz gradient比strongly convex更普遍?

時間 2021-12-22 01:23:12

1樓:遠處群山

其實啊,在不同的領域裡,對Lipschitz continuity和strong convexity的看法也是大不同的。

在優化理論的研究裡,大家希望不要做Lipschitz continuity和strong convexity假設,因為假設越多,侷限性就越大。我們肯定是希望盡量不要出現限制性條件。所以當前有很多人在研究不假設Lipschitz continuity和strong convexity時演算法的收斂性,比如文獻[1,2,3]。

也就是說,對於純粹的理論研究來說,Lipschitz continuity假設和strong convexity假設一樣「惡劣」,我們是不希望它們出現的。

那麼為什麼Lipschitz continuity假設會出現的更頻繁一些呢?原因在於Lipschitz continuity表徵的是梯度的弱變性,通俗的說,就是滿足Lipschitz continuity的梯度的變化是相對緩慢的。在自然界中,弱變是常態,大部分事物都是緩慢變化的。

而strong convexity表徵的是函式本身的強變性,而強變的事物是相對稀少的。所以很多問題中涉及的目標函式都不是強凸的。

當然我們都知道,Lipschitz continuity和strong convexity其實是一組互相對偶的概念。

上面談的是優化理論的研究。在偏應用的領域裡,情況就大不一樣了,通常是要麼大家都不care Lipschitz continuity和strong convexity(或者說即便care也沒用),要麼它們倆都很容易滿足。

比如在深度學習裡,如果你要訓練乙個深度神經網路的,那Lipschitz continuity和strong convexity是肯定沒有的,這時候你care也沒用。但是在傳統的機器學習裡,Lipschitz continuity和strong convexity都很容易滿足。Strong convexity容易滿足是因為很多任務裡都會加l2正則項,比如regularized logsitic regression,Lipschitz continuity容易滿足則是因為你可以假設問題的feasible region是bounded,這時候只要目標函式是連續可微的,Lipschitz continuity通常比較容易滿足。

[3]Necoara I, Nesterov Y, Glineur F. Linear convergence of first order methods for non-strongly convex optimization[J]. Mathematical Programming, 2019, 175(1):

69-107.

為什麼現代文化研究的主導權掌握在西方研究者手中呢?

喀秋莎夫斯基 可能有點答非所問,但還是想說一下自己對相關問題的想法當我們想要掙脫西方學術霸權而自立門戶的時候,某種程度上是不是也表現了一種 文化自卑 的傾向?天下大同 美美與共不好嗎?世界文學的時代不是已經到來了嗎?在乎誰主導幹什麼?只要是對人類發展有益,那就虛心 潛心地學啊好了不皮了,說幾點how...

為什麼在Fate stay night中的fate線中,saber在聖杯戰爭中獲勝後不留在現實世界?

秘密公尺粒 這裡表達的,正式相比於 永恆的生命 更肯定 有限的生命 的思想 相比於 永恆 還是 瞬間 更有意義,這正是貫穿FGO的巨大主題。同時,這個主題與 月姬 和 Fate staynight 之間也有著強烈共鳴。月姬 中,主人公遠野志貴,面對無法抑制自己吸血衝動的女主人公阿爾奎特,倡議她吸自己...

為什麼在 CPU 中要用 Cache 從記憶體中快速提取資料?

sand cpu 計算速度太快,二內記憶體的讀取速度很慢,所以需要 cpu 那邊的快取來提高讀取速度。快取的材料是 SRAM 成本比記憶體高,但是快取的讀取速度快。如果沒有快取,隨著cpu越來越快,cpu 會消耗更多的時鐘週期來等待記憶體的載入,從而 cpu 的利用率越來越低。 lalala 首先在...