梯度下降法是萬能的模型訓練演算法嗎?

時間 2021-05-06 12:03:20

1樓:螃蟹貓

梯度下降是最優化最基本的方法。機器學習把問題抽象為最優化問題。因此你覺得梯度下降成了機器學習的萬能方法。

然而,就像梯度下降的缺點一樣,你這個「覺得」很可能是個區域性最優。

2樓:田star

並不是。

如果有梯度的資訊,有限記憶體BFGS是更好的辦法!

而且所謂的學習率,如果不是凸問題就不能設定為常數,需要線搜尋來確定學習率

3樓:Martin Tan

並不是。

一方面,梯度並不是在任何時候都可以計算的。實際中很多問題的目標函式並不是可導的,這時梯度下降並不適用,這種情況下一般需要利用問題的結構資訊進行優化,比如說Proximal gradient方法。甚至有些問題中目標函式的具體形式都不知道,更別談求梯度,比如說Bayesian Optimization。

另一方面,即使問題可導,梯度下降有時並不是最佳選擇。梯度下降的效能跟問題的條件數相關,在條件數比較大時問題中梯度下降可能會非常慢。相對來說,以擬牛頓法為代表的二階方法沒有這個問題,雖然擬牛頓法在高維問題中會有計算量偏大的問題,但在很多場景還是比梯度下降有優勢。

再比如,在梯度計算代價比較大時,SGD及其變種會遠比普通的梯度下降快。

當然,總體來說,在機器學習的各種教科書中梯度下降是最常見的優化方法。主要因為它非常簡單易懂,而且大多數情況下效率比較高,但同時也是因為機器學習中大多數問題的懲罰函式是比較smooth的。

4樓:

一般而言,判斷「stationary points是不是區域性最優解」是NP-Complete的:

Some NP-complete problems in quadratic and nonlinear programming

所以即使你為乙個非凸的目標函式算出乙個梯度為零的點,你也很難對它作出什麼確定性的判斷。

但另一方面,有研究表明,對於某些非凸的目標函式,隨機梯度下降(SGD)的解能大概率地接近區域性最優甚至全域性最優。如

Escaping From Saddle Points — Online Stochastic Gradient for Tensor Decomposition

Global Convergence of Stochastic Gradient Descent for Some Non-convex Matrix Problems

5樓:Wei Ma

當引數之間的correlation很強且維度很高的時候,一階梯度下降法幾乎沒有什麼卵用。你大概只能說,在多數簡單的machine learning模型裡,梯度下降是萬能的,但是對complex engineering模型,還是要乖乖解析模型結構,分析出更適合的優化演算法比較靠譜。

6樓:王贇 Maigo

可以算是萬能的,但對於特定的模型,不一定是最優的解法。

更好的解法比如針對SVM的SMO演算法、針對含隱變數的模型的EM演算法等等。

7樓:

梯度下降法用在神經網路或者Logistic回歸還行,SVM還是用SMO吧。 能找到導數,說明問題還算比較簡單的,可以用梯度下降區域性最優點,但是這個區域性最優和全域性最優差多遠,要看你有沒有額外的策略,比如隨機退火之類的。

梯度提公升樹採用的是梯度下降法嗎?

雜言 是的,巨集觀來看是這樣的。GBDT的過程有點像神經網路的梯度下降到達最值,只要把神經網路的負梯度更新引數視為函式 基分類器 完成即可。另外,我覺得其實名字很迷惑,我當時還覺得明明是梯度下降的思想,為什麼要用梯度提公升樹這個名字?我感覺梯度提公升樹,應該是指使用梯度的提公升樹,所以梯度提公升樹準...

錢,真的是萬能的嗎?

tong0071985 其實這問題可以引申為 萬能 是萬能的嗎?比如研究時光機肯定需要超量的資源,如果研究出來,那麼就可以說錢是萬能的,因為只有足夠的錢才能買到足夠的資源來進行研究,如果沒研究出來要麼是錢還不夠,要麼證明了時光機不在萬能的範圍內。錢兌現成其他東西是需要時間的,錢本身不能吃,但可以買到...

你覺得金錢是萬能的嗎?

酷gril 錢不是萬能的。在風華正茂年輕的時候,我們都一樣,恰好很缺錢。只是有些人是缺錢,有些人是缺乏賺錢的耐心和能力,有些人焦慮的是如何變得更強,有些人焦慮的是不能一夜暴富快速發財而已。別讓錢把你逼得更現實,讓錢把你逼得更務實。 明顯不是,權利的源頭是暴力,而不是金錢。金錢需要在規則內起作用,而暴...