大資料分析 資料探勘用什麼例子來練習?

時間 2021-05-06 21:02:56

1樓:NLPIR

大資料探勘、資料探勘根據行業的不同其訓練的文字語料也不同,在一般情況分為:經濟、政治、文化、體育、環境、教育、軍事等類別,每乙個類別都有自己的特性,所以要按照自己的行業要求進行大資料語料訓練。由於篇幅原因在這裡就分享乙個文化方面的資料探勘訓練過程:

分析《紅樓夢》作者是否為同乙個人?

針對《紅樓夢》的研究已經進行了很長時間,從研究的結果也有很多的爭議,最主要的就是對文章的風格有很大的不同。很多人認為《紅樓夢》不是曹雪芹一人所寫,可能有其他人或更多人寫作完成。所以我們運用自然語言處理、文字挖掘技術進行了分析,從用詞和文風上來判斷《紅樓夢》的作者前八十回和後四十回到底是不是同乙個作者?

《紅樓夢》的作者前八十回和後四十回到底是不是同乙個作者?我們都在讀書的時候學過《紅樓夢》的作者有兩個!曹雪芹寫了前八十回,高鶚續寫了後四十回。

然而,紅學上關於《紅樓夢》的作者爭議一直很大,存在著很多種版本。

我們使用大資料語義智慧型技術對《紅樓夢》進行了分析:

首先將《紅樓夢》一百二十回按順序均分為

三、六、十二等份,將其命名為「三組」、「六組」、「十二組」。將各組作為語料源,使用大資料分析工具分別進行批量分詞的分析操作。然後統計出文言虛詞的詞頻。

最後對不同組資料之間進行KL距離計算。(注:KL距離(相對熵)可以衡量兩個隨機分布之間的距離,當兩個隨機分布相同時,它們的相對熵為零,當兩個隨機分布的差別增大時,它們的相對熵也會增大。

所以相對熵(KL散度)可以用於比較文字的相似度。其公式為

接下來以「三組」為例詳細介紹,「六組」與「十二組」等同。將一百二十回按順序均分為三等份即第1回-第40回、第41回-第80回、第81-第120回。統計出四十七個虛字在每組的詞頻及概率。

「三組」資料中部分虛詞以及該詞的概率如表1所示,其中概率值得計算為本組資料中某個虛詞的個數與本組資料虛詞的總數的比值。

根據KL計算公式將表2中的行所在回數的各個虛詞的概率值記為P(x),將表2中列所在回數的各個虛詞的概率值記為Q(x)。其它組實驗等同。例如計算第1回-第40回與第41回-第80回的KL值時,公式中的x表示某個虛詞,P(x)表示x在第1回-第40回中的概率。

Q(x)表示x在第41回-第80回中的概率。需要注意的是D(P||Q)與D(Q||P)不同。

表1 各個虛詞在各組的頻率及概率

這3組資料的KL值結果如表2所示。從表中可以觀察到第一行中1-40與81-120的KL值是1-40與41-80的KL值的十倍。由於當兩個隨機分布的差別增大時,它們的相對熵也會增大。

所以1-40與81-120的相似性比1-40與41-80低。

表2 「三組」資料結果

表2對應的直觀圖如圖1,可以觀察到第1回-第40回與第41回-第80回的相似性較大,第1回-第40回和第41回-第80回與第81-第120回的相似性出現明顯變化。

圖1 「三組」資料結果

「六組」將120回按順序均分為六等份即第1回-第20回、第21回-第40回、第41-第80回、第81回-第100回、第101-第1200回。

這6組資料的結果如表3所示。對應直觀圖如圖2所示。

表3 「六組」資料結果

根據當兩個隨機分布的差別增大時,它們的KL值也會增大。發現前四等份在跟後兩等份進行比較時KL值會明顯增加。同時後兩等份在跟前四等份進行比較時KL值會明顯降低。

圖2 「六組」資料結果

「十二組」將120回按順序均分為十二等份即第1回-第10回、第11回-第20回、第21-第30回... ...第111-第1200回。這12組資料的結果如表4所示。

表4 「十二組」資料結果

從表4中可以觀察到前八十回中的任意一組資料在與一百二十回的其他組比較時,與後四十回的各組資料的KL值比與前八十回其他組資料的KL值高。當兩個隨機分布的差別增大時,它們的KL值也會增大。

圖3各組與後四十回均分的4組資料的對比

圖3為一百二十回與後四十回均分的4組資料的對比圖。可以看出前八十回的各組資料的KL值與後四十回的資料的KL值有不同程度的差距。後四十回之間的KL值比其他組得KL值要小,說明後四十回的相似度較高。

經過一系列的分析,前八十回與後四十回確實在用詞習慣上有明顯的區別。可以大膽猜測後四十回是出自於另外乙個人。

以上是分享的《紅樓夢》分析案例,是使用專業的大資料探勘工具,從特定的角度來分析,並得出相關結論。,其他類似資料分析也可以使用相同方法可行行業資料探勘和分析,如果感興趣可以試一試。

2樓:RonLarkin

最好自己去抓下資料。比如豆瓣的美圖~然後分析他們的城市,年齡,在哪個時間段發得比較多。在哪個年份發表得最多,哪個小組發得多。繼續開闊下思維。

資料分析如何轉資料探勘?

位元組Funk飛 資料分析如何轉資料探勘?雖然這二者都是直接根據接觸的職業,但是對於資料的處理和跟資料的關係還是有著很大的去唄的,資料分析師針對已有的資料進行不同的模型構建然後分析,將有價值的東西提取出來,但是資料探勘呢,只是單純的資料探勘,是一種資料收集和提取的過程 我之前也是資料分析,感覺沒什麼...

大資料分析中,有哪些常見的大資料分析模型?

牛博 模型其實就是一數學函式對映,從應用層角度來看,會有一些通俗的名字,簡單羅列一下 一 使用者模型 二 事件模型 三 漏斗模型 四 熱圖分析模型 五 自定義留存分析模型 六 粘性分析 七 全行為路徑分析 八 使用者分群模型 九 Session 分析 十 間隔分析 十一 分布分析 十二 營銷廣告投放...

資料探勘和資料分析之間的聯絡,搞資料分析基礎是啥?就業情況怎樣?

mengyuancf 資料分析的基礎是要具備一定的數學 統計統籌的知識,當然你可定具備了,另外需要掌握一些必備的工具軟體的使用 如R Python excel 資料可基礎等 也就是你說的程式設計那一塊,這個在資料分析領域是屬於基礎知識的,只要你懂些即可,最關鍵的確實是你說的偏理論的東西,如演算法 資...