在語言研究中,如何看待語料的使用?

時間 2021-06-03 01:53:01

1樓:王泓硯

句子接受度體現個體的認知水平,認知水平包括兩個方面,一是對事物聯絡的認知,比如事物之間的相似性、能動性,由於生活環境不同個體對事物的認識水平差異很大,有的人可能還有特異功能,對事物有全新的解釋;二是對表達手段的認知,比如某些人的詞彙量很大,懂得承轉啟合、條分縷析,這種手段反應在句子上就是語法結構,實際上句子結構也就是縮微的「篇章結構」,一樣存在背景和前景,一樣存在論點論據論證。而這種結構往往是人的本能的反應,不同個體大同小異,差異在個體是否具備良性的思維習慣,有良性的思維習慣,那麼表達的結構也就更有良性。

2樓:

這個問題歸根到底體現了生成語言學研究中的乙個矛盾:一方面,生成句法對研究物件是僅存於每個人的腦中的i-language,而不是存在於社會中的e-language語言現象;但同時,我們的研究手段不允許我們系統可靠地研究某乙個具體的人的語言能力,要想得到可靠的對語言現象的歸納總結就需要分析大量的語料、進行大規模的實驗研究。

對於一些很看重「理論純潔性」的生成語言學家,一旦語言學的研究物件上公升到乙個人以上,就已經不再是對i-language的研究了。持這類觀點的很多人都是做microvariation研究的,他們認為這種研究忽略了人與人之間i-language的差異,得到的結論也都是邏輯上不可靠的。下面這篇文章 (Den Dikken et al.

) 就是這種觀點的代表:

這種觀點看似極端,但其實也可以理解。如果不研究清楚人與人之間i-language的差異,而是直接進行大資料語料分析,很可能觀察到的現象是很多個人差異疊加在一起的假象。例如,對於某種句法結構,100個人裡有50個人完全接受,50個完全不接受,不進行個體研究而是把資料疊加在一起分析就會得到 「這種句法結構有中等的可接受度」的錯誤結論。

但是,如果只依賴於語言學家自己乙個人的語感判斷,或者在實驗研究中只研究乙個被試,得到的資料也通常是訊雜比很低,很不可靠的。所以很多時候我們還是需要大規模的實驗研究,或者用語料庫進行分析。只不過這類研究都一定要建立在個體差異可以忽略不計的前提上,不然很可能會得到錯誤的結論。

語料庫 Corpus 在語言學研究裡面扮演的角色是什麼?在學術圈會不會越來越重要?

若者 但是根據題主的描述,估計是要做corpus developer。如果是做語料庫開發的話基本上就類似於搬磚了。因為現在對語料的收集,標註等都是費時費力的工作。儘管有標註工具能夠減輕部分工作量。當然這其中可能還要涉及一些程式設計以及一些技術手段,但這些其實不佔主導地位。其實相對來說,文字語料還比較...

為什麼漢語日語等語言在日常對話中很少使用「你」這個字?且使用你這個字總感覺增加了人與人之間的距離?

因為用 你 表示你太直白了,中文和日語有太多方式繞過你這個字來表示你這個人了。日語最簡單的表示你的方式就是用敬語,要幫忙提行李嗎,這都知道是對你說。直接說你出來就真的太直白了,就像喊你不喊綽號,直接叫名字,都是很生分的。什麼叫親近,就是外人沒反應過來是叫你的時候,你已經回應ta了喲。 王泓硯 只有兩...

在C語言中,如何安全地使用void ?

Lvcs 靈活接收資料型別,可以試試使用巨集定義而不用函式 舉個例子 判斷兩個數哪個大 define MAX a,b a b a b 使用巨集定義可以靈活接收各種型別的 a b,而使用函式判斷的話就需要事先設定傳入引數的型別了。 劉燦 傳遞指標同時提供區域長度 不用0來標識字串或區域結束 以typd...