當正負樣本不均時,做二分類得到的概率怎麼理解

時間 2021-05-06 13:31:20

1樓:僻露泠泠

這是類不平衡問題。用來評價機器學習模型的指標有很多種,準確率並不是唯一的選擇。類不平衡時準確率不是最佳選擇,需要結合實際問題決定哪種最合適

2樓:VVValar

你這裡的概率指的是估計的概率,在實際中用它來近似真正的概率。首先要認清楚這一點。其次樣本1比1時,概率大於0.

5就是1—這句話蘊含著乙個基本假設,即取樣是均勻的,樣本能無偏地表達總體—但是實際中是否符合要具體分析。

說回問題,無論樣本比是多少,概率及估計值的含義並不會改變。但是作出決策的前提的變了。之前假設的是總體正負比相同,所以對於某資料點估計值大於0.

5就分為正。但是如果總體正負比差距很大,你估計某資料點在正的概率為0.51,這反而代表它很可能不是正的。

這時候需要進一步完善方法,包括對資料的處理,如重抽樣,和對方法的改進,如加權重換損失函式等。具體的方法很多教科書都有寫。

3樓:GeorgeLee

個人認為,無論樣本比例是多少,輸出概率向量的含義都不變,$i.e.$

classifier認為是兩種類別的概率均相同

無非區別在於你此時訓練的classifier是否可能過擬合某一類別而已。

假設原始資料正負樣本1000 1。是直接訓練還是先做不平衡處理(比如取樣)?

Qeexo 不平衡資料集是機器學習中需要解決的常見問題之一。常見的機器學習模型,在處理不平衡資料集時,如果單純使用精確度來評估模型,往往會對最終結果產生誤導。因而,在訓練集極度不平衡的情況下,比如原始樣本正負樣本數量比為10000 1,我們往往可以採用如下幾種方法來處理 1.盡量使用多個指標評估模型...

當自己努力了幾年的事,最後卻發現自己根本不適合做這件事怎麼辦?

tomorro 自認為自己是適合做設計的。專業 策劃 因此,我找設計的工作。在此之前,我自學3年設計。在自學中,我有那麼一點點意識到自己顏色搭配這方面不是很有天分,但是自己的下意識不承認,因為從小很有idea 實習的時候,我去找設計的工作。目前找乙份實習工作,設計學徒,上班兩天。去了那裡好多東西我都...

當漸漸發現一直深愛的人,根本不在乎自己的時候,該怎麼辦?

三焚 當你喜歡貓,是因為它很可愛,你於是花了大代價買了乙個,可買過來之後完全和你想的不一樣,一而再再而三的不和你互動甚至會抓傷你,你會開始失去興趣,扔掉它,是你對它最後的溫柔。 西瓜苗上的火烈鳥 放棄吧。乙個不屬於你的東西,何必攥在手裡?滾蛋吧,什麼gp暗戀,該刪刪,該拉黑拉黑。在沒遇到你在前,自己...