sklearn 中的模型對於大資料集如何處理

時間 2021-05-10 06:30:57

1樓:只想要麵包和奶茶

樓上的答案都有提到partial_fit,但是只有少量模型可以,svm.LinearSVC沒有該函式,無法實現增量式的訓練,但是可以用SGDClassifier代替該函式。

sklearn中有SGDClassifier 通過更改損失函式loss可以對應到不同的分類回歸學習器,如下圖所示:

預設是使用hinge loss,即實現了乙個linear SVM

2樓:

注意設定cross_val_score裡的pre_dispatch。這個不調很容易MemoryError。

sklearn cross_val_score中的引數pre_dispatch-SofaSofa

3樓:白熊

看了上面的匿名使用者的回答,然後去看了sklearn的文件,解決了我的問題。

順便寫了乙個部落格記錄增量學習的用法:使用sklearn進行增量學習

4樓:努力刷題的渣渣

建議使用支援scipy sparse matrix的演算法 RF好像就可以如果你一定要dense matrix的話有些演算法使可以使用Online learning的

5樓:

有的,linearsvc,還有lr/sgd這樣的模型,都可以分批訓練。但是非線性svm是不可以的。

另外如果你資料集稀疏的話就應該用稀疏矩陣,這樣不需要分批訓練也不會超過記憶體,如果是非線性svm這樣的模型,你應該用svd先降維,這樣也不會記憶體不足。如果資料集完全超過了記憶體量級,並且你不滿足於lr這樣的模型的話,你只能自己去寫乙個

如何在pytorch訓練模型的過程中,對於某一層的權重最大最小值進行限制?

sakuraiii import torch from torch import nnclass Model nn Module def init self super Model self init self lin1 nn Linear 5 10,bias False self lin2 nn ...

大資料分析中,有哪些常見的大資料分析模型?

牛博 模型其實就是一數學函式對映,從應用層角度來看,會有一些通俗的名字,簡單羅列一下 一 使用者模型 二 事件模型 三 漏斗模型 四 熱圖分析模型 五 自定義留存分析模型 六 粘性分析 七 全行為路徑分析 八 使用者分群模型 九 Session 分析 十 間隔分析 十一 分布分析 十二 營銷廣告投放...

對於如今的模型圈,現狀是神馬樣子的?

天天 十幾年前感覺這個圈子已經快死的差不多了,然後坦克世界帶了一波人,然後國內的廠家質量越來越好,現在圈子也慢慢在擴大了,反正是在往好的方向發展吧 啥時候高達模型就代表全部模型圈了 針對軍模簡單一說,民用模型可能過段時間再說?目前全球軍模市場仍然以塑膠射出模型為主,主要的生產商以中國和日本兩國的生產...