梯度下降法是萬能的模型訓練演算法嗎？

1樓：螃蟹貓

梯度下降是最優化最基本的方法。機器學習把問題抽象為最優化問題。因此你覺得梯度下降成了機器學習的萬能方法。

然而，就像梯度下降的缺點一樣，你這個「覺得」很可能是個區域性最優。

2樓：田star

並不是。

如果有梯度的資訊，有限記憶體BFGS是更好的辦法！

而且所謂的學習率，如果不是凸問題就不能設定為常數，需要線搜尋來確定學習率

3樓：Martin Tan

並不是。

一方面，梯度並不是在任何時候都可以計算的。實際中很多問題的目標函式並不是可導的，這時梯度下降並不適用，這種情況下一般需要利用問題的結構資訊進行優化，比如說Proximal gradient方法。甚至有些問題中目標函式的具體形式都不知道，更別談求梯度，比如說Bayesian Optimization。

另一方面，即使問題可導，梯度下降有時並不是最佳選擇。梯度下降的效能跟問題的條件數相關，在條件數比較大時問題中梯度下降可能會非常慢。相對來說，以擬牛頓法為代表的二階方法沒有這個問題，雖然擬牛頓法在高維問題中會有計算量偏大的問題，但在很多場景還是比梯度下降有優勢。

再比如，在梯度計算代價比較大時，SGD及其變種會遠比普通的梯度下降快。

當然，總體來說，在機器學習的各種教科書中梯度下降是最常見的優化方法。主要因為它非常簡單易懂，而且大多數情況下效率比較高，但同時也是因為機器學習中大多數問題的懲罰函式是比較smooth的。

4樓：

一般而言，判斷「stationary points是不是區域性最優解」是NP-Complete的：

Some NP-complete problems in quadratic and nonlinear programming

所以即使你為乙個非凸的目標函式算出乙個梯度為零的點，你也很難對它作出什麼確定性的判斷。

但另一方面，有研究表明，對於某些非凸的目標函式，隨機梯度下降（SGD）的解能大概率地接近區域性最優甚至全域性最優。如

Escaping From Saddle Points — Online Stochastic Gradient for Tensor Decomposition

Global Convergence of Stochastic Gradient Descent for Some Non-convex Matrix Problems

5樓：Wei Ma

當引數之間的correlation很強且維度很高的時候，一階梯度下降法幾乎沒有什麼卵用。你大概只能說，在多數簡單的machine learning模型裡，梯度下降是萬能的，但是對complex engineering模型，還是要乖乖解析模型結構，分析出更適合的優化演算法比較靠譜。

6樓：王贇 Maigo

可以算是萬能的，但對於特定的模型，不一定是最優的解法。

更好的解法比如針對SVM的SMO演算法、針對含隱變數的模型的EM演算法等等。

7樓：

梯度下降法用在神經網路或者Logistic回歸還行，SVM還是用SMO吧。能找到導數，說明問題還算比較簡單的，可以用梯度下降區域性最優點，但是這個區域性最優和全域性最優差多遠，要看你有沒有額外的策略，比如隨機退火之類的。

梯度下降法是萬能的模型訓練演算法嗎？

梯度提公升樹採用的是梯度下降法嗎？

錢，真的是萬能的嗎？

你覺得金錢是萬能的嗎？

其他用戶還看了：