在語言研究中，如何看待語料的使用？

1樓：王泓硯

句子接受度體現個體的認知水平，認知水平包括兩個方面，一是對事物聯絡的認知，比如事物之間的相似性、能動性，由於生活環境不同個體對事物的認識水平差異很大，有的人可能還有特異功能，對事物有全新的解釋；二是對表達手段的認知，比如某些人的詞彙量很大，懂得承轉啟合、條分縷析，這種手段反應在句子上就是語法結構，實際上句子結構也就是縮微的「篇章結構」，一樣存在背景和前景，一樣存在論點論據論證。而這種結構往往是人的本能的反應，不同個體大同小異，差異在個體是否具備良性的思維習慣，有良性的思維習慣，那麼表達的結構也就更有良性。

2樓：

這個問題歸根到底體現了生成語言學研究中的乙個矛盾：一方面，生成句法對研究物件是僅存於每個人的腦中的i-language，而不是存在於社會中的e-language語言現象；但同時，我們的研究手段不允許我們系統可靠地研究某乙個具體的人的語言能力，要想得到可靠的對語言現象的歸納總結就需要分析大量的語料、進行大規模的實驗研究。

對於一些很看重「理論純潔性」的生成語言學家，一旦語言學的研究物件上公升到乙個人以上，就已經不再是對i-language的研究了。持這類觀點的很多人都是做microvariation研究的，他們認為這種研究忽略了人與人之間i-language的差異，得到的結論也都是邏輯上不可靠的。下面這篇文章（Den Dikken et al.

）就是這種觀點的代表：

這種觀點看似極端，但其實也可以理解。如果不研究清楚人與人之間i-language的差異，而是直接進行大資料語料分析，很可能觀察到的現象是很多個人差異疊加在一起的假象。例如，對於某種句法結構，100個人裡有50個人完全接受，50個完全不接受，不進行個體研究而是把資料疊加在一起分析就會得到「這種句法結構有中等的可接受度」的錯誤結論。

但是，如果只依賴於語言學家自己乙個人的語感判斷，或者在實驗研究中只研究乙個被試，得到的資料也通常是訊雜比很低，很不可靠的。所以很多時候我們還是需要大規模的實驗研究，或者用語料庫進行分析。只不過這類研究都一定要建立在個體差異可以忽略不計的前提上，不然很可能會得到錯誤的結論。

在語言研究中，如何看待語料的使用？

語料庫 Corpus 在語言學研究裡面扮演的角色是什麼？在學術圈會不會越來越重要？

為什麼漢語日語等語言在日常對話中很少使用「你」這個字？且使用你這個字總感覺增加了人與人之間的距離？

在C語言中，如何安全地使用void ？

其他用戶還看了：