有哪些現代分析方法可以用於解決「紅樓夢續寫爭議」?有哪些例子?

時間 2021-05-31 00:36:48

1樓:hhhhhhhhh

原始碼:GitHub - WheatonCS/Lexos: Python/Flask-based website for text analysis workflow.

然後我們的 testSuit 裡面就有紅樓:

Lexos/TestSuite/Experiments/Chinese/ClassicalChinese/紅樓夢HongLouMeng_Dream_of_the_Red Chamber at master · WheatonCS/Lexos · GitHub

okay,好的,我們來看看這個會發生什麼吧。

具體的指南可以看這個檔案:

Lexos/_README_HongLouMeng_Dream_of_the_Red_Chamber.txt at master · WheatonCS/Lexos · GitHub

把它 scrub 和 cut 完了以後 (後 40 章分成四段,前 80 張分成 8 段)

然後我們用 Hierarchical Clustering 然後每個詞定義為兩個字元長:

完美的分成了兩個 cluster

然後用 kmean:

發現後四十章的完美的被擠到了左下角。。。

大概如此。。。我不是搞文學那邊的,這個軟體還有其他的用途,但是有了 result 我完全搞不懂這些 result 都是幹嘛的。。。這個是兩個比較好的 result。。。

更新。。。我又偷偷用了 jieba 做了一下分詞上傳了上去。。。

然後 Silhouette Score 公升高為了 0.7123,這個看起來不錯了。。。

然後依然兩個 40 和 80 完美分開。

kmean 我好像發現了乙個 bug。。。

2樓:tensorspace

這個嘛,其實早就有人用計算機的文字分析分析過紅樓夢了,但是沒有乙個令人信服的統一結論。高票答案說前後的用詞風格相差很大,但是還有人發過文章說兩者是接近的,可以說明作者是同乙個人,跟誰說理去?

3樓:unstory

1、參考:

基於計算機的詞頻統計研究

作者把紅樓夢分為3部分(A部分1~40回、B部分41~80回、C部分81~120回),運用檢索程式統計出三個部分副詞出現的次數,然後求A與B,A與C,B與C之間的相關係數,結果r(ab)、r(ac)、r(bc)相差甚微,因此作者認為後四十回為同一人所作。

個人覺得這種方法最不可靠。

2、參考:

4樓:永琳

我自己來一發!從文體的角度~

統計整部《紅樓夢》裡頻率最高的100個字(最好是100個詞啦),

分別統計它們在各章的頻率,用PCA搞一下:

紅色的是前80回,藍色的是後40回,還是挺理想地分開了嘛~

具體用法上的區別的話,前80回的作者「一」用得比較多,後40回的作者「不」用得比較多,像這樣:

因為是用高頻字作的分析,所以因為情節不同帶來的用詞上的影響被最大限地排除了(應該

當然,我是隨便從網上爬來的文字,可靠性值得懷疑,以上內容僅供娛樂~

----補充說明一下----

這個答案的手法屬於「計量文體學」(或其他名字)的常用手法,學術界用統計方法研究文學的有很多,像《紅樓夢》這樣的超大作更是熱點,(國外)一有新方法肯定第乙個被拿來試驗。(好吧,我不是這個圈子的研究者啦,推己及人了...

我來答題是為了娛樂自己和大家的。(盡量多圖少字,不浪費大家寶貴的娛樂時間)

如果感興趣的話請自行搜尋一下這個學科,還有不少其他有趣手法呢。

5樓:

有乙個比較初級的例子記得是檢驗勃朗特去世後她家人出版的她的剩餘作品是否為她所寫。檢驗的方法是非參的某種頻數檢驗(抱歉記不太清了)具體就是將這幾本與原來的[簡愛]等作品中某些特定詞彙出現的頻率進行對比。

哪些統計方法可以用於判斷因果關係?

小心假設 陸壹 在我認識中,統計學方法在做casual inference方面遠非主力 且在對於這個問題,題主提到的時間序列模型本身也並不能有所作用 常常做因果推斷研究的學科,如Eco Management Psychology和流行病學都有各自喜歡與擅長的方法。主要有 RCTEconometric...

質譜分析可以用於臨床診斷嗎?有什麼技術障礙?

媛媛 國內這個領域正在興起,現在發展飛越來越好了。主要的應用方面,比如說新生兒篩查,膽汁酸譜的檢測,維生素D的檢測,甾醇類激素的分析。目前的專案還是比較少的,但是隨著質譜技術在中國的發展,國家精準醫療專案的建立,臨床質譜是很有前景的,肯定越來越好。質譜應用在臨床的困難很多,技術上儀器上都有。一方面,...

人性的哪些弱點可以用於營銷方面?

鹽選推薦 比如,人容易被忽悠,銷售人員可以把忽悠當作一種營銷方式。在日常生活中,我們通常作為貶義詞來用,有點像坑蒙拐騙 誘人上當這種欺騙行為。比如春晚裡頭趙本山的 賣拐 就是通過忽悠來完成的。可實際上 忽悠 是乙個中性詞,在管理學上,忽悠是有理論根據的,是說乙個公司通過傳達資訊對顧客的心理進行引導甚...