最小二乘極大似然梯度下降有何區別？

1樓：天青色等煙雨

LR裡，loss函式用似然函式去做而不是最小二乘是因為如果是最小二乘的話那麼目標函式成了非凸函式，不好求解。我感覺最小二乘和最大似然是相同作用的，都是去求解loss function 得到最佳的引數。乙個是以概率角度，另乙個不是

2樓：大內密探咯嗨疼

最小二乘法（極大似然法）是線性回歸（邏輯回歸）用來建立目標函式（損失函式）的，

而梯度下降法是用來求解目標函式（損失函式）的最小值的

3樓：

極大似然和最小二乘可以用來構造目標函式。梯度下降是優化演算法，就是在確定目標函式後用梯度下降法求解最優解。

就像logistic回歸可以用極大似然構造目標函式求解使目標函式最優的解；也可以變換一下變成求g=wx，以離差平方和最小為目標求解最優的w。而具體求最優解的方法，比如梯度下降法、牛頓法、黃金分割法等優化演算法。

比如同樣是採用極大似然來構造目標函式，周志華的「機器學習」裡求解最優解用了牛頓法，而「機器學習實戰」裡則用了梯度上公升法（和梯度下降本質一樣）。

至於說為什麼不用最小二乘，乙個是我以前貌似看見過是說誤差可能比較大，其他的解釋題主可以看一下http://www.

4樓：

機器學習的基本框架大都是模型、目標和演算法！

重要的事情說三遍！

對於乙個資料集，首先你要根據資料的特點和目的來選擇合適模型。

就你問的而言，選定的模型是Logistic Regression。現在既然已經選擇了模型，那麼接下來的問題是：怎麼才能讓這個模型盡可能好的擬合或者分類資料呢？

那麼就需要有目標，所以要定下模型的cost function，但是cost function怎麼定呢？憑直覺隨便選嗎！不！

可！能！

我們都知道，Linear Regression的cost function是最小二乘，即

但是Logistic Regression的cost function卻是

為什麼Logistic Regression不使用最小二乘做cost function呢？

答案是各自的響應變數服從不同的概率分布。

在Linear Regression中，前提假設是服從正態分佈，即，而Logistic中的是服從二項分布的，即。(為什麼不服從正態？因為非0即1啊！)

因而，在用極大似然估計計算時，所得到的cost function自然是不一樣的。(可自行推導)

然而，只有目標是沒用的，我們還要有方法來達到目標，這裡的方法就是上述的演算法——最優化演算法。包括常用的梯度下降法(最速下降法)、牛頓法、擬牛頓法等。這樣，乙個機器學習演算法就算完整了，因為可以用這些最優化演算法來求出。

所以！結論是：三者完全沒有可比性！

由一些前提假設和極大似然估計從概率的角度推導出了cost function（Linear中是最小二乘，Logistic中是對數似然），而梯度下降只是乙個最優化演算法，用來優化cost function的。

5樓：

第二個問題：最大似然只是一種目標函式，除了最大似然之外你還可以構建其他的目標函式。而梯度下降是在目標函式構建完成後求出其中的引數的一種優化方法，兩者完全不是一類的東西。

參考」：機器學習演算法與Python實踐之（七）邏輯回歸（Logistic Regression）

Stanford機器學習---第三講. 邏輯回歸和過擬合問題的解決 logistic Regression & Regularization

最小二乘 極大似然 梯度下降有何區別？