想做乙個三分類，輸出每種類別的概率，資料集是自己採集的所以很少每類不到100條，應該用什麼方法呢？

1樓：yyHaker

可以考慮使用邏輯回歸模型，這樣可以輸出每種類別的概率；此外，由於你的資料量很小，可以考慮去採集更多資料，或者根據資料的特點進行一些資料增強。

2樓：Jack Stark

每類不到100條指的是全部資料集嗎？這樣再分一下訓練/測試集，訓練集確實太少了。

資料量少那麼訓練會很快呀，所以多嘗試各種方法更好一點。建議SVM、nn和樹模型等都試一下，每個方法都盡可能調到最好，最後哪個效果好選哪乙個。

3樓：Narusaki

不知道這麼小的樣本量用神經網路會怎麼樣，不敢妄下斷言，但也許使用傳統方法（如logstic regression；如果用sklearn的svm的話，也可以得到概率值，但那是用logistic regression加交叉驗證後得到的結果——這一方法本身對小樣本量可能就不work，且無法保證和不輸出概率值的結果一致）會更好。

另外，如果是ph值這種本身是取過log的feature，按我的理解有沒有可能構造乙個指數形式的特徵轉換比較好？比如所有ph值的feature x都處理成e^x。

4樓：jackwang

理解有點歧義。如果是一些沒有打過標籤的資料，你想分三類，看每一類的概率，那就k means. 如果是監督學習，可以用你的方式或者KNN.

但是KNN是直接給出了答案，即分類標準，不是概率值。當然你可以嘗試使用貝葉斯分類。

5樓：弱雞

SVM給不了概率。

如果我是你的話，首先是想人能不能做分類，比如給你個feature，你能不能給這三個做分類。

如果人分不出來，就有以下兩個方案。1是PCA, 看看出來的feature能不能幫你（我是指人觀察）做分類，2是看kernel density畫一下分布，看看三個類是不是都分開了。

如果能，那很簡單的logistic regression或者Bayesian rule可能就能做，就是傳統方法

如果不能，也就是說feature裡面不包含與label有關的直觀資訊，那這個事就只能NN做了，但是結果就保證不了了。

三分類不平衡資料集，第一類佔比95 以上，stacking後為何少數類識別效果都不如基模型？

張先生前提我假設你的訓練準確率是還不錯的因為你沒具體說首先資料極端不平衡本來就會出問題，像你目前的資料分布，分類器即便把所有樣本都分成A類，由於A類佔比95 所以也能得到很高的訓練準確率，但實際上並沒有學習到太多B類和C類的特徵，導致分類器過度學習了A類的特徵，而對B類和C類的泛化效果並不好...

新人想做乙個死亡細胞那種型別的橫版2d遊戲，有什麼軟體推薦？

庫拉托斯同意莉姆莉莉姆的觀點，pixel game maker mv是乙個可以嘗試的選擇，但這只是我的個人建議，我並不確定，因為我沒有真正使用過這款引擎製作遊戲，只是對他略有耳聞。這款引擎不需要程式設計基礎，很適合熟悉遊戲開發邏輯的新手，而且這款引擎自帶的各種模板就是橫版act，很符合題主的要求...

如何做好乙個三分鐘演講

coco 只是因為不知道怎樣去講，那就從吸引做起，上去演講重要的是台下的人聽進去多少比你自己講什麼會更重要，那首先不管是溝通演講授課談判乙個好的聲音就是您的第二個形象，好聽的聲音的直擊人心同時可以傳達更多的情緒和情感，如果您也經常擔任企業內訓師又或者是經常演講的話，那在您經過練習之後一定會在課...

想做乙個三分類，輸出每種類別的概率，資料集是自己採集的所以很少每類不到100條，應該用什麼方法呢？

三分類不平衡資料集，第一類佔比95 以上，stacking後為何少數類識別效果都不如基模型？

新人想做乙個死亡細胞那種型別的橫版2d遊戲，有什麼軟體推薦？

如何做好乙個三分鐘演講

其他用戶還看了：