邏輯回歸和SVM的區別是什麼?各適用於解決什麼問題?

時間 2021-05-12 09:07:20

1樓:NLP小學生

SVM和對數機率回歸(Logistic Regression)有相似和不同之處,先從軟間隔支援向量機的目標函式觀察:

原本對 的期待是距離劃分超平面至少 ,引入鬆弛變數後允許 距離超平面至少 就行了。這等價於:

即 叫做hinge函式。

如果把優化目標當做損失函式,把 代入 ,再乘以 ,那麼SVM的損失函式可表示為:

再看對數機率回歸。 是正樣本的概率 ,是負樣本的概率 ,那麼

其中 。

應用極大似然估計,損失函式是負對數似然:

加入L2正則後,對數機率回歸的最終損失是:

觀察 和 ,發現SVM和對數機率回歸的關係是:

它們的目標都是減少「錯誤率」。SVM通過尋找最佳劃分超平面來減少錯誤率,相應的損失函式是hinge函式;對數機率回歸通過最大化樣本輸出到正確分類的概率來減少錯誤率,相應的損失函式是負對數似然。它們的正則化項都是L2正則。

其他的區別都是損失函式不同的副產品。

原文:SVM和對數機率回歸的關係

2樓:

SVM =L2 norm regularization + hinge loss

LR =L2 norm regularization + sigmoid probability (entropy loss)

3樓:蘇三

簡單來說,邏輯回歸和SVM都用來做分類,邏輯回歸和SVM的區別主要有如下幾點:

對非線性表達上,邏輯回歸只能通過人工的特徵組合來實現,而SVM可以很容易引入非線性核函式來實現非線性表達,淡然也可以通過特徵組合。

邏輯回歸產出的是概率值,而SVM只能產出是正類還是負類,不能產出概率。

邏輯回歸的損失函式是log loss,而SVM使用的是hinge loss。

SVM主要關注的是「支援向量」,也就是和分類最相關的少數點,即關注區域性關鍵資訊;而邏輯回歸是在全域性進行優化的。這導致SVM天然比邏輯回歸有更好的泛化能力,防止過擬合。

損失函式的優化方法不同,邏輯回歸是使用梯度下降來求解對數似然函式的最優解;SVM使用SMO方法,來求解條件約束損失函式的對偶形式。

個人認為:在實際工作中,很少會使用到SVM,雖然SVM分類效果通常會比LR要好。因為LR可以很快速處理億級的資料,同時,因為產出的是概率形式,預估結果更容易解釋。

同時,能夠進行非線性表達的分類模型有更優的選擇,通常GBDT效果更佳。

4樓:辛普森悖論

邏輯回歸是廣義的線性回歸,通過S型函式變化而已,取乙個閾值作為分類標誌,在行業的應用中很多直接用概率值解決放貸或者營銷策略,不同概率值使用不同策略,邏輯回歸便於實施易於解釋都是業務常用的,而支援向量機通過超平面分割資料,追求的是分類結果。

5樓:墨子

1.損失函式不一樣,邏輯回歸的損失函式是log loss,svm的損失函式是hinge loss

2.損失函式的優化方法不一樣,邏輯回歸用剃度下降法優化,svm用smo方法進行優化

3.邏輯回歸側重於所有點,svm側重於超平面邊緣的點4.svm的基本思想是在樣本點中找到乙個最好的超平面

6樓:radiohead

對計算機來說,歸根結底還是優化目標, 也就是損失函式的不同造成兩種模型的差異。 LR是logloss, SVM是hinge loss. 我一般將SVM的損失函式理解為最關鍵的點造成的損失。

其他的區別並沒有特別重要。

7樓:DomainAdaptation

如果從分介面的形狀出發,來看待這兩種學習模型,那麼結果會是下面這樣的。

邏輯回歸和軟間隔SVM(線性核)都是線性分類器,其分介面是超平面(w0 + w1*x1 +...+ wd*xd = 0),所以兩者適用於資料本質上是線性可分或近似線性可分的情形。軟間隔SVM(非線性核)是非線性分類器,其分介面是曲面,適用於資料非線性可分的情形。

注:作為SVM的原型——硬間隔SVM(線性核),剛開始只能解決資料線性可分的分類問題。因為引入了核函式,才使得分類器可以解決資料非線性可分的問題。

同樣的,作為最最簡單的神經網路——邏輯回歸也只能解決線性分類問題。因為進行了函式的復合,同樣使得分類器可以解決資料非線性可分的問題。

8樓:NC少年AI

第一的答案已經解釋很清楚了。

SVM的理論性強,最nb的地方是核函式的引入,可以來逼近非線性目標函式。不過如果非線性的話,工業界GBDT用得更廣些。

9樓:Charles Xiao

邏輯回歸和支援向量機之間的區別也是面試經常會問的一道題,特地找了一些相關資料看了下。

我們先來看一下SVM 和正則化的邏輯回歸它們的損失函式

其中, .

可以將兩者統一起來,

也就是說,它們的區別就在於邏輯回歸採用的是 log loss(對數損失函式),svm採用的是hinge loss 。

- SVM 損失函式 :

- LR 損失函式:

其實,這兩個損失函式的目的都是增加對分類影響較大的資料點的權重,減少與分類關係較小的資料點的權重。SVM的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性對映,大大減小了離分類平面較遠的點的權重,相對提公升了與分類最相關的資料點的權重,兩者的根本目的都是一樣的。

svm考慮區域性(支援向量),而logistic回歸考慮全域性,就像大學裡的輔導員和教師間的區別[2]。

輔導員關心的是掛科邊緣的人,常常找他們談話,告誡他們一定得好好學習,不要浪費大好青春,掛科了會拿不到畢業證、學位證等等,相反,對於那些相對優秀或者良好的學生,他們卻很少去問,因為輔導員相信他們一定會按部就班的做好分內的事;而大學裡的教師卻不是這樣的,他們關心的是班裡的整體情況,大家是不是基本都理解了,平均分怎麼樣,至於某個人的分數是59還是61,他們倒不是很在意。

[1]: Machine learning: lecture 7

[2]: SVM(一) 基本概念、模型建立

10樓:Billionairess

1,優化目標不同。LR的目標函式是logloss,SVM是最大化分類面間距。

2,對非線性問題的處理方式不同。LR主要靠特徵構造,必須組合交叉特徵,特徵離散化。SVM也可以這樣,還可以通過kernel。

3,處理的資料規模不同。LR一般用來處理大規模的學習問題。如十億級別的樣本,億級別的特徵。

回歸和插值的區別是什麼

數籤籤 回歸和插值的目的都是擬合。回歸是從全域性出發,依賴經驗模型的設定,必須提前預設要擬合的曲線模型,力求滿足對整體樣本走勢的刻畫,比如多項式,logic等等。模型始終固定,而模型引數會隨著樣本點的變化而變動。但很多時候我們不可能知道滿足所有樣本點的精確理論模型,插值則是從區域性出發,利用一定的插...

分類與回歸區別是什麼?

Nii 我覺得 回歸問題 這個提法就有問題,回歸是一種方法,不是問題,分類和擬合才是問題,而回歸方法既能用於分類問題,也能用於擬合問題。所以為什麼要比較乙個方法和乙個問題的區別呢?好像沒什麼可比性 小蝴蝶 資料只分為是連續和不連續的,不連續的叫離散。那麼 f x y,x 和 y 都是資料 就共有四種...

泊松回歸模型和對數線性模型的區別是什麼?

靜學社 學無止境 泊松回歸很顯然是y符合泊松分布或者假設y符合泊松分布 到底是不是真的泊松分布並不重要 對應 廣義線性模型 中的泊松分布模型。如果 鏈結函式 是g u u 這種鏈結函式用的非常少 則泊松回歸並不屬於 對數線性模型 只有g u ln u 時才屬於 對數線性模型 對數線性模型 包含了很多...