在nlp語言模型中線性插值的目的是什麼？

1樓：

做線性插值是為了同時利用不同階的資訊。在ngram語言模型裡，n越大利用的上下文也越多，但估計概率起來也越稀疏。由於稀疏，經常會出現某個高階ngram從來沒在語料裡出現過的情況。

這時候就這樣認為其概率為零顯然不合適，相對更好的辦法就是回退到(n-1)gram，如此類推……

2樓：不高興

最近再看http://www.

cs.columbia.edu/~cs4705/正好第一章就講到了這個問題，

線性插值是為了解決三元組頻率為零的問題，而unigram也有相應的問題，於是綜合下，

就可以轉化成凸優化，求解最優解問題了

累死的解決方法也有discounting methods，方法是減去乙個值，因為trigram出現在training corpus的頻率過高，未出現的頻率過低。

又可以轉化成乙個凸優化求解最優解的問題了，當然可能是入門級別的，並沒有講清楚問證明出這樣是合理的，只是用說理有點牽強

3樓：

「Smooth the estimates using low order counts」

簡單來說，通過線性差值的方法來進行低頻詞的估計，

從而使模型對所有的詞具有普適性。

NLP中檢定語言模式（後設模式）提示語言模式（公尺爾頓模式），他們之間到底存在什麼關係，為什麼meta model被翻譯成後設模式？這方面的書籍哪個比較適合做入門學習？

檢定語言模式，也譯作後設語言模式催眠語言公尺爾頓模式，又譯作反向後設語言模式。從這對稱呼可以直接看出，他們之間是一對相反的關係，檢定屬於下切，催眠屬於上推，上推下切是一體的兩面。只所以被譯成後設語言模式，這是原始標準的翻譯了，META一般直譯為元或後設，檢定屬於意譯，這個意譯有時讓人搞不清啥意思...

自然語言處理NLP中，Attention機制和Memory機制的優缺點各是什麼？

哈啾路亞 attention本質還是選擇附近時序序列的資訊，window attention就是非常好的例子。長距離下attention也會失效，這個是由softmax函式的特性決定的。畢竟當需要注意的面積太廣的時候，也就沒有注意的必要了。memory，主要指外部記憶，一旦被controll...

現今深度 nlp 對於理解類模型是不是有長時間訓練 embedding 向半監督非監督的趨勢？

本馬 BERT的思想與其說是無監督，更確切說是自監督。自監督的概念是起源於CV領域，NLP領域剛剛興起，BERT算是乙個成功範例。不過這東西除了概念外，其實往下能挖的會比想象中的少。多做做實驗就知道了論智目前來看確實有偏向無監督學習的趨勢。就拿深度NLP最基礎的部分詞嵌入來說好了。2017年Pi...

在nlp語言模型中線性插值的目的是什麼？

NLP中 檢定語言模式（後設模式） 提示語言模式（公尺爾頓模式），他們之間到底存在什麼關係，為什麼meta model被翻譯成後設模式？這方面的書籍哪個比較適合做入門學習？

自然語言處理NLP中，Attention機制和Memory機制的優缺點各是什麼？

現今 深度 nlp 對於理解類模型 是不是有長時間訓練 embedding 向半監督 非監督的趨勢？

其他用戶還看了：

NLP中檢定語言模式（後設模式）提示語言模式（公尺爾頓模式），他們之間到底存在什麼關係，為什麼meta model被翻譯成後設模式？這方面的書籍哪個比較適合做入門學習？

現今深度 nlp 對於理解類模型是不是有長時間訓練 embedding 向半監督非監督的趨勢？