怎麼處理很大的csv檔案,一千多萬行,短文本分類思路?

時間 2021-06-06 17:13:29

1樓:西南交一枝花

寫乙個簡單baseline處理步驟,首先確定任務主要是短文本分類,類別有n類。也就是最後做個n分類。

如果檔案比較大,使用按行讀取。

構建詞彙表,建立word2id 和 id2word,注意留個UNK 和 PAD的位置

確定最大長度文字,後面做padding使用將每個短文本ID化,就是依據word2id 變為數字搭建文字分類模型,可從github 上隨便找簡單的,框架任選。

確定超參如epoch batch 等。

文字每個batch按最大長度做padding,然後可喂進網路在每個epoch 結束可以使用精確度召回率 F1評價指標評測表現,確定訓練結束時間。

模型train完,使用測試集測試模型效能。完

2樓:我就不告訴你

有點寬泛,你可以通過groupby進行多層分組,這樣可以依次解決。具體問題具體分析,最好是有一些錶樣出來,這樣好對症下藥。

PS:我看了你的資料,首先說結論。你的問題應該屬於自然語言處理(英語:

Natural Language Processing,縮寫:NLP)範疇,因為最大的問題是你的資料並不是關鍵字,甚至連關鍵字都沒有,靠理解的話只能用第三方的NLP,不過據我所知中文的NLP並不理想。

假設你的資料中有關鍵字,那麼解決思路是先定義乙個關鍵字字典,把資料分隔成單詞,再進行匹配,返回key(也就是類別),就可以了。如下圖(僅為示意):

hive中怎麼匯入帶引號的csv檔案

kidong wang 如果每個列都帶雙引號,有一種變通的方法 匯入原始csv檔案,對映為所有列都是string型別的表,建立檢視來處理雙引號和型別轉換。 Gerodan hive CREATE TABLE csv1 table a string,b string ROWFORMAT SERDE o...

女友要租一千多的婚紗怎麼勸

竇漪房 根本不用勸!直接買一套送到新娘面前!必須得正告新娘,替我省錢也不是這麼省的,直接行動就是最有力的答覆。畢竟,一千多租的婚紗質量真的很一般,婚紗店對外出租的婚紗一般都是外觀比較複雜的款式,卻不一定符合新娘的氣質和需求。最關鍵的是,這些都是別人穿過的款式!真的就不如自己買一套!如果只是一件主紗的...

udp檔案傳輸的問題,採用nack,怎麼處理最後幾個包丟失的情況

ggffss kcp 作者說的很清楚了,KCP是為了低延遲而生。例如流式傳輸等等。講道理用Kcp就是為了低延遲。所以。這些功能都有些多餘。傳輸效率Kcp就segment的報頭就至少是32位元組了。怎麼和TCP的20位元組比? SakyaZhu 可以考慮用飛馳傳輸的產品 http ftrans.cn ...