嶺回歸和lasso回歸的用法有什麼不同?

時間 2021-06-03 12:08:04

1樓:寶珠道人

線性回歸很簡單,用線性函式擬合資料,用 mean square error (mse) 計算損失(cost),然後用梯度下降法找到一組使 mse 最小的權重。

lasso 回歸和嶺回歸(ridge regression)其實就是在標準線性回歸的基礎上分別加入 L1 和 L2 正則化(regularization)。

本文的重點是解釋為什麼 L1 正則化會比 L2 正則化讓線性回歸的權重更加稀疏,即使得線性回歸中很多權重為 0,而不是接近 0。或者說,為什麼 L1 正則化(lasso)可以進行 feature selection,而 L2 正則化(ridge)不行。

線性回歸(linear regression),就是用線性函式 f(x)=wx+b 去擬合一組資料 D= 並使得損失 J=1n∑ni=1(f(xi)yi)2 最小。線性回歸的目標就是找到一組 (w,b),使得損失 J 最小。

(1)cost function (mse) 為: (2)

上面是最小二乘法的核心演算法,通過公式我們可以看到該公式成立的條件就是不等於0,也就是能求逆(可以用linalg.det(X)等方法判斷),而當變數之間的相關性較強(多重共線性),或者m(特徵數)大於n(樣本數),上式中的X不是滿秩矩陣。那就會使得的結果趨近於0,造成擬合引數的數值不穩定性增加(引數間的差距變化很大),這也就是普通最小二乘法的侷限性。

普通最小二乘法帶來的侷限性,導致許多時候都不能直接使用其進行線性回歸擬合,尤其是下面兩種情況:

資料集的列(特徵)數量 > 資料量(行數量),即 X 不是列滿秩。

資料集列(特徵)資料之間存在較強的線性相關性,即模型容易出現過擬合。

Lasso 回歸和嶺回歸(ridge regression)都是在標準線性回歸的基礎上修改 cost function,即修改式(2),其它地方不變。

Lasso 的全稱為 least absolute shrinkage and selection operator,又譯最小絕對值收斂和選擇運算元、套索演算法。

Lasso 回歸對式(2)加入 L1 正則化,其 cost function 如下:

(3)嶺回歸對式(2)加入 L2 正則化,其 cost function 如下:

(4)L1:L1正則化最大的特點是能稀疏矩陣,進行龐大特徵數量下的特徵選擇

L2:L2正則能夠有效的防止模型過擬合,解決非滿秩下求逆困難的問題

相同: 都可以用來解決標準線性回歸的過擬合問題。 不同:

lasso 可以用來做 feature selection,而 ridge 不行。或者說,lasso 更容易使得權重變為 0,而 ridge 更容易使得權重接近 0。 從貝葉斯角度看,lasso(L1 正則)等價於引數 w 的先驗概率分布滿足拉普拉斯分布,而 ridge(L2 正則)等價於引數 w 的先驗概率分布滿足高斯分布

2樓:Jazz-Z

嶺回歸的regulization term是二範數,lasso的是一範數,嶺回歸得出的引數傾向於使用所有的資料,即每個引數基本不會為0,而lasso傾向於得到乙個稀疏解,即有許多的0。lasso有乙個重要作用是feature selection。就是得到稀疏解的那些0所對應的feature是不重要的,也可以理解為dimension reduction。

如何看待大華回歸和妹妹的互動?

我開始看嚮往時大華和妹妹的互動覺得很不舒服,第一次見面是不是太親密了?也沒有分寸感。後來看韓綜我獨自生活又看到大華了,才發現他對誰都這樣 他在那個綜藝裡第一次見到乙個叫旗安84 的男漫畫家,就給人家傳送愛的親親 會給乙個叫時彥的男演員餵飯,餵飯過程是空空空 但我看著覺得不舒服嗎?沒有,因為裡面的綜藝...

回歸和插值的區別是什麼

數籤籤 回歸和插值的目的都是擬合。回歸是從全域性出發,依賴經驗模型的設定,必須提前預設要擬合的曲線模型,力求滿足對整體樣本走勢的刻畫,比如多項式,logic等等。模型始終固定,而模型引數會隨著樣本點的變化而變動。但很多時候我們不可能知道滿足所有樣本點的精確理論模型,插值則是從區域性出發,利用一定的插...

如何評價B站有黑料的UP回歸

Dear三多 B站官方都沒有限制其賬號的繼續使用,我們有什麼理由不敞開心扉呢?B站對於情節嚴重的黑料UP主都採取了永久封號的處理原則,對於有黑料但不至於判死刑的UP主還是採取寬容的態度。B站能夠攬回乙個有實力的UP主,這對於B站本身來說也是一種財富。B站如果攬回乙個有黑料的UP主,這對於B站本身來講...