機器學習,特徵值A的取值大部分是a,極少數是b,應該怎麼處理?

時間 2021-07-02 20:00:43

1樓:祁崑崙

題主問題描述不是很完全,處理方法和你的資料收集以及目的有關。首先如果你的樣本不存在偏差,也就是說根據資料可以得出樣本中主要以男性為主,這時性別分布基本能夠代表性別維度對於結果的影響水平;但如果是由於樣本有偏,收集不足的問題,則要需要樣本不均衡性處理的方法,比如異常檢測方法,或者給性別維度做OneHot的編碼,然後給男性和女性賦權重,或者樣本生成的方法等。同意 @InsaneGuy 的回答,基本上乙個意思。

2樓:

NB,這個特徵就能有99%的準確度了,你還想哪樣,但是關鍵是測試集是什麼樣的啊,只一訓練集沒卵用啊,說白了其實很多時候我們目的是去擬合測試集,而不是訓練集

3樓:

推薦三種方法

第一,降取樣,也就是說你訓練你的演算法模型時,人為從9900個男性資料中隨機選取100個,然後用這100個男性資料與已有的100個女性資料作為訓練與測試集(由於這種情況下資料量較小,訓練、交叉驗證、測試資料的推薦比例為8:1:1)

第二,公升取樣,可以用一些常見的演算法模型對skew的資料進行擴充,推薦使用SMOTE演算法。如果熟悉生成對抗網路(GAN)的話也可以用這種方法

第三,利用整合演算法確定該特徵的重要性,如果發現無關緊要,可以剔除此特徵;否則,對於此類離散型特徵可先採用決策樹GINI演算法,再利用堆疊的思想進行建模。

4樓:

我猜題主是誤和樣本不均衡聯絡起來了。但你這個例子中是屬性分布差異大,不是 label 不均衡,更容易學習。聯絡實際,你認為乙個程式設計師是男性的機率和是女性的機率哪個更大?

一般認知是男性程式設計師機率更大,你的資料恰好反映了這一點,僅從屬性分布上來看不存在什麼問題。

顏值高的人大部分是內向嗎?

就我個人來看,顏值挺高,逼格也高 所以難以找到臭味相 投勢均力敵的朋友和物件。也就長期缺乏溝通 長期沒有性生活 精神狀態和身體狀態都不太好,所以更不想說話更不想去社交也討厭鬧騰的環境,脾氣也不大好。話說好看的人都長得比較仙,這種氣質的人確實不太願意和凡夫俗子打交道。除非遇到另乙個小仙女或者大仙? 伊...

大部分機器學習演算法具有隨機性,只需多次實驗求平均值即可嗎?

ADimon 這個問題我深有體會。總之關於這個隨機種子數你是可以自己設定的,不設定每次隨機性都不同,設定了 相當於固定了random seed 每次的結果就能復現。關於設定與不設定來說說我的看法 如果你想使你的實驗結果能夠被復現,你就設定乙個固定的數值。如果你期待乙個更加接近期望的結果,你就不要設定...

為什麼大部分的EASY girl都顏值不錯學歷不低家境尚可,感覺家境很差的反而不會變成EG?

哈庫那馬塔塔 超現實問題,超現實回答。誠邀各位來舊金山灣區留學,看看多少黑發黑眸成雙對。我認識的女孩子當中甚至找了本地男朋友的都沒有,文化有代溝啊外中國人圈子融入不進去啊。 因為家境差的人,大部分都沒有自信,男的也不選她們,一般她們追求是能有男友都不錯了,沒有選擇的條件,自然不可能成為easy gi...