最小二乘 極大似然 梯度下降有何區別?

時間 2021-05-30 14:41:48

1樓:天青色等煙雨

LR裡,loss函式用似然函式去做而不是最小二乘是因為如果是最小二乘的話那麼目標函式成了非凸函式,不好求解。 我感覺最小二乘和最大似然是相同作用的,都是去求解loss function 得到最佳的引數。乙個是以概率角度,另乙個不是

2樓:大內密探咯嗨疼

最小二乘法(極大似然法)是線性回歸(邏輯回歸)用來建立目標函式(損失函式)的,

而梯度下降法是用來求解目標函式(損失函式)的最小值的

3樓:

極大似然和最小二乘可以用來構造目標函式。梯度下降是優化演算法,就是在確定目標函式後用梯度下降法求解最優解。

就像logistic回歸可以用極大似然構造目標函式求解使目標函式最優的解;也可以變換一下變成求g=wx,以離差平方和最小為目標求解最優的w。而具體求最優解的方法,比如梯度下降法、牛頓法、黃金分割法等優化演算法。

比如同樣是採用極大似然來構造目標函式,周志華的「機器學習」裡求解最優解用了牛頓法,而「機器學習實戰」裡則用了梯度上公升法(和梯度下降本質一樣)。

至於說為什麼不用最小二乘,乙個是我以前貌似看見過是說誤差可能比較大,其他的解釋題主可以看一下http://www.

4樓:

機器學習的基本框架大都是模型、目標和演算法!

機器學習的基本框架大都是模型、目標和演算法!

機器學習的基本框架大都是模型、目標和演算法!

重要的事情說三遍!

對於乙個資料集,首先你要根據資料的特點和目的來選擇合適模型。

就你問的而言,選定的模型是Logistic Regression。現在既然已經選擇了模型,那麼接下來的問題是:怎麼才能讓這個模型盡可能好的擬合或者分類資料呢?

那麼就需要有目標,所以要定下模型的cost function,但是cost function怎麼定呢?憑直覺隨便選嗎!不!

可!能!

我們都知道,Linear Regression的cost function是最小二乘,即

但是Logistic Regression的cost function卻是

為什麼Logistic Regression不使用最小二乘做cost function呢?

答案是各自的響應變數服從不同的概率分布。

在Linear Regression中,前提假設是服從正態分佈,即,而Logistic中的是服從二項分布的,即。(為什麼不服從正態?因為非0即1啊!)

因而,在用極大似然估計計算時,所得到的cost function自然是不一樣的。(可自行推導)

然而,只有目標是沒用的,我們還要有方法來達到目標,這裡的方法就是上述的演算法——最優化演算法。包括常用的梯度下降法(最速下降法)、牛頓法、擬牛頓法等。這樣,乙個機器學習演算法就算完整了,因為可以用這些最優化演算法來求出。

所以!結論是:三者完全沒有可比性!

由一些前提假設和極大似然估計從概率的角度推導出了cost function(Linear中是最小二乘,Logistic中是對數似然),而梯度下降只是乙個最優化演算法,用來優化cost function的。

5樓:

第二個問題:最大似然只是一種目標函式,除了最大似然之外你還可以構建其他的目標函式。 而梯度下降是在目標函式構建完成後求出其中的引數的一種優化方法,兩者完全不是一類的東西。

參考」:機器學習演算法與Python實踐之(七)邏輯回歸(Logistic Regression)

Stanford機器學習---第三講. 邏輯回歸和過擬合問題的解決 logistic Regression & Regularization

計量分析中最小二乘法和二階最小二乘法有什麼區別呀?

今天心情好,是時候來個硬核的三本回答騙面次了 先上OLS,考慮高斯 馬爾科夫假設 定理 BLUE 其它非奇異的預設你懂了,後面不提滿秩非奇異就是因為我三本什麼都不會 考慮E X,res 0,考慮Y X res 得到beta估計量 X X 1X Y X X 1X Y X X 1X res 考慮右邊第二...

簡單線性回歸中最小二乘推導怎麼證明駐點是最小值?

jacobian 對於目標函式 我們可以研究海塞矩陣的正定性,問題中已經給出了不同的二階偏導的情況即,如果我們能判斷海塞矩陣的正定性就能知道很多有用的資訊,如何判斷乙個矩陣的正定性呢,只要乙個矩陣的每階子式正定即可,1階子式毫無疑問大於0,二階子式是 構建兩個向量 利用柯西施瓦茨公式知道 leq a...

Fama Macbath 方法比最小二乘法好在哪?

童話李 有乙個經濟學的詞語叫路徑依賴。當初英國的火車軌道軸距是根據馬車的軸距確定的,具體這個軸距是不是最優的沒人知道。後來各地的鐵軌都已經按照這個標準鋪設好,究竟這個軸距是不是最優的就不重要了,反正也沒人能承擔的起把所有的鐵路重鋪一遍的成本。FM方法有類似的特點。其出現的時間點是在計算能力不足的歷史...