想做乙個三分類,輸出每種類別的概率,資料集是自己採集的所以很少每類不到100條,應該用什麼方法呢?

時間 2021-05-29 22:19:05

1樓:yyHaker

可以考慮使用邏輯回歸模型,這樣可以輸出每種類別的概率;此外,由於你的資料量很小,可以考慮去採集更多資料,或者根據資料的特點進行一些資料增強。

2樓:Jack Stark

每類不到100條指的是全部資料集嗎?這樣再分一下訓練/測試集,訓練集確實太少了。

資料量少那麼訓練會很快呀,所以多嘗試各種方法更好一點。建議SVM、nn和樹模型等都試一下,每個方法都盡可能調到最好,最後哪個效果好選哪乙個。

3樓:Narusaki

不知道這麼小的樣本量用神經網路會怎麼樣,不敢妄下斷言,但也許使用傳統方法(如logstic regression;如果用sklearn的svm的話,也可以得到概率值,但那是用logistic regression加交叉驗證後得到的結果——這一方法本身對小樣本量可能就不work,且無法保證和不輸出概率值的結果一致)會更好。

另外,如果是ph值這種本身是取過log的feature,按我的理解有沒有可能構造乙個指數形式的特徵轉換比較好?比如所有ph值的feature x都處理成e^x。

4樓:jackwang

理解有點歧義。如果是一些沒有打過標籤的資料,你想分三類,看每一類的概率,那就k means. 如果是監督學習,可以用你的方式或者KNN.

但是KNN是直接給出了答案,即分類標準,不是概率值。當然你可以嘗試使用貝葉斯分類。

5樓:弱雞

SVM給不了概率。

如果我是你的話,首先是想人能不能做分類,比如給你個feature,你能不能給這三個做分類。

如果人分不出來,就有以下兩個方案。1是PCA, 看看出來的feature能不能幫你(我是指人觀察)做分類,2是看kernel density畫一下分布,看看三個類是不是都分開了。

如果能,那很簡單的logistic regression或者Bayesian rule可能就能做 ,就是傳統方法

如果不能,也就是說feature裡面不包含與label有關的直觀資訊,那這個事就只能NN做了,但是結果就保證不了了。

三分類不平衡資料集,第一類佔比95 以上,stacking後為何少數類識別效果都不如基模型?

張先生 前提 我假設你的訓練準確率是還不錯的 因為你沒具體說 首先資料極端不平衡本來就會出問題,像你目前的資料分布,分類器即便把所有樣本都分成A類,由於A類佔比95 所以也能得到很高的訓練準確率,但實際上並沒有學習到太多B類和C類的特徵,導致分類器過度學習了A類的特徵,而對B類和C類的泛化效果並不好...

新人想做乙個死亡細胞那種型別的橫版2d遊戲,有什麼軟體推薦?

庫拉托斯 同意 莉姆莉莉姆的觀點,pixel game maker mv是乙個可以嘗試的選擇,但這只是我的個人建議,我並不確定,因為我沒有真正使用過這款引擎製作遊戲,只是對他略有耳聞。這款引擎不需要程式設計基礎,很適合熟悉遊戲開發邏輯的新手,而且這款引擎自帶的各種模板就是橫版act,很符合題主的要求...

如何做好乙個三分鐘演講

coco 只是因為不知道怎樣去講,那就從吸引做起,上去演講重要的是台下的人聽進去多少比你自己講什麼會更重要,那首先不管是溝通 演講 授課 談判乙個好的聲音就是您的第二個形象,好聽的聲音的直擊人心同時可以傳達更多的情緒和情感,如果您也經常擔任企業內訓師又或者是經常演講的話,那在您經過練習之後一定會在課...