1樓:
1、首先評估人類專家在該資料集上所能達到的水準,從而對模型的表現上限產生乙個相應的心理預期。推薦系統和語音頻譜圖除外,因為前者人也不知道要怎麼推薦商品,後者只有極少數經過訓練的人可以勉強看懂一點點而且看的效率很低(但後者可以直接聽語音)。
2、自然語言的很多文字都是爬蟲從網路上爬下來的,注意看一下文字是否通順(例如有沒有被反爬蟲系統投毒),是否有大量 html 標籤等。
3、統計一下文字的詞頻分布、句長分布。一般來說平均句長短的語料質量都不怎麼樣,也別指望模型能學到多少東西。詞頻分布用來選詞表大小,詞表至少得覆蓋語料裡 95% 的 token 吧,99% 以上更好。
但詞表也別太大,只出現一次的單詞很多都是錯拼的單詞,不用全部覆蓋。
4、如果是有標註的資料,隨機選 100 條左右,看看標註質量如何,如果有標註錯誤可以對錯誤進行分類,看看每種錯誤所佔的比例。
5、粗略評估資料的多樣性。有一些感性認識即可,無需量化。例如做 QA,看看問題是不是都是從一些模板裡生成的,有固定的規律。
為什麼空符號串可以成立?如何理解數理邏輯的公理系統 王浩演算法的規則
午時葵 實名反對本答案之前出現的幾乎所有文字,明明啥都不懂還在那一直瞎說。清華的紫皮爛書嘴裡的 王浩演算法 其實就是sequent calculus系統 因為 裡的規則是 invertible 的可以拿來倒著寫做證明搜尋,這事是王浩第乙個說的所以叫王浩演算法。公式串 的意思和公式是大不一樣的,書上有...
你所理解的大資料是什麼?
最近正在看一本書,吳軍寫的 智慧型時代 這本書是我看過的大資料相關的書中把大資料介紹的最清楚,本質講的最透徹的,就著這個問題,正好總結一下最近讀書的心得。書中講了大資料的三個特點 1.體量大 相信大家沒有異議 2.多維度。這個大家也沒有異議 3.完備性。第三點,在我看過的好多其他的書中都講的不是太清...
關於這張圖你的理解是什麼?
Moon 天空並不明朗。如果只是累積疊加,可能只會成為乙個書蠹。心中的世界還是混沌一片。唯有內化於心,外化於行,方得朗朗乾坤。守得心月明,方見彩雲開。 寧缺 沒有看過書的人,他看到的是別人描繪的世界 看過一些書的人,他看到的是世界的殘酷和不公平,還有世俗表面的東西 而看過相當多的書的人,並且思考過的...