是否可以用演算法,從一門(人類)語言的語料庫算出這門語言的語法(以 CF 或者 CS 產生式表示)?

時間 2021-06-01 21:43:57

1樓:斷水流大師兄

正好在上Machine Learning 和Text Analytics這兩門課, 提供乙個思路, 說的不對求輕噴:

假如這是一門外星人的語言,地球上沒有人看得懂但是獲取了足夠龐大的語料庫,在沒有任何訓練集的情況下用機器學習的思路試圖分析出語法結構。這裡我把語法簡單的理解為基於詞性的排列組合(對語言學沒有深入研究,望指正)。

把問題簡化成三個步驟:

一、首先根據出這個新語言中的最小字元單元(letter)分析出所有單詞(word)的集合(corpora)。舉例來說,在英文中單詞是被空格隔開的,根據這個特點很輕鬆就可以得到所有單詞的集合。但是在一些語言(中文)裡單詞和單詞之間是沒有間隔的,需要以letter為單位對語料庫進行分析,根據letter出現的順序和頻率來算出所有單詞的集合(corpora)。

二、得到corpora後需要進一步分析每個單詞的詞性,在事先沒人看得懂這門語言的情況下,只能採用Unsupervised learning(非監督式學習)這種方法來分析語料庫,把具有相同詞性的單詞貼上標籤歸為一類。在這個過程中,單詞的feature的選取是關鍵也是難點。

三、用和第一步中相似的方法,以句子為單位分析具有各種詞性的單詞出現的順序和頻率來得到語法的表示式。

答完了發現是Belleve大神的提問,有種想匿名的衝動,轉念一想不匿名也沒人認識我怕個吊(逃

如果人為的設計一門人類語言,那會是怎麼樣的呢

Wittaner 拿 藝術語 指基於某種語系 語族創造的人造語言 來說吧,肯定要參考所屬語系和語族的一般共同特徵,但是無非就是從同族不同語言的發音詞彙取最大公約數 比如Lingua Franca nova,主要基於法意西葡4種羅曼語 或者根據語族的祖語按照自行設定的演變規律變化 比如Interlin...

如果一門語言用乙個詞就可以表達很多不同的意思,那麼這門語言是更高階還是更低階?

馬鹿野郎 這點做個簡單的答覆 我個人認為沒有什麼高低階之分。因為你要知道,語言這個東西是會進化的。我打個比方,古希伯來文裡shema這玩意兒它叫 聆聽 然後鬼知道後來怎麼進化出來的 乖巧 的定義 語言有他自己的特色,我個人覺得語言特色是它最重要的分別點。法語它單詞不重複,日語它發音不複雜,中文有同音...

人類一切財富的本質,是否可以用負熵流來定義呢?

六華 財富本質上是通過實際體力勞動創造,然後再由腦力勞動通過資本調節分配平衡的。王朝初期,人們思治,百廢待興,大家都竭盡全力努力提高效益。王朝盛期,各項物資充裕,人們好逸惡勞,使得物資逐漸遞減,當達到不可調和的時候,就會出現朝代更迭。熵是逐漸由有序到無序,負熵逐漸由無序變為有序,所以題主的立論也是可...