在nlp語言模型中線性插值的目的是什麼?

時間 2021-06-09 02:05:20

1樓:

做線性插值是為了同時利用不同階的資訊。在ngram語言模型裡,n越大利用的上下文也越多,但估計概率起來也越稀疏。由於稀疏,經常會出現某個高階ngram從來沒在語料裡出現過的情況。

這時候就這樣認為其概率為零顯然不合適,相對更好的辦法就是回退到(n-1)gram,如此類推……

2樓:不高興

最近再看http://www.

cs.columbia.edu/~cs4705/正好第一章就講到了這個問題,

線性插值是為了解決三元組頻率為零的問題,而unigram也有相應的問題,於是綜合下,

就可以轉化成凸優化,求解最優解問題了

累死的解決方法也有discounting methods,方法是減去乙個值,因為trigram出現在training corpus的頻率過高,未出現的頻率過低。

又可以轉化成乙個凸優化求解最優解的問題了,當然可能是入門級別的,並沒有講清楚問證明出這樣是合理的,只是用說理有點牽強

3樓:

「Smooth the estimates using low order counts」

簡單來說,通過線性差值的方法來進行低頻詞的估計,

從而使模型對所有的詞具有普適性。

NLP中 檢定語言模式(後設模式) 提示語言模式(公尺爾頓模式),他們之間到底存在什麼關係,為什麼meta model被翻譯成後設模式?這方面的書籍哪個比較適合做入門學習?

檢定語言模式,也譯作後設語言模式 催眠語言 公尺爾頓模式,又譯作反向後設語言模式。從這對稱呼可以直接看出,他們之間是一對相反的關係,檢定屬於下切,催眠屬於上推,上推下切是一體的兩面。只所以被譯成後設語言模式,這是原始標準的翻譯了,META一般直譯為元或後設,檢定屬於意譯,這個意譯有時讓人搞不清啥意思...

自然語言處理NLP中,Attention機制和Memory機制的優缺點各是什麼?

哈啾路亞 attention本質還是選擇附近時序序列的資訊,window attention就是非常好的例子。長距離下attention也會失效,這個是由softmax函式的特性決定的。畢竟當需要 注意 的面積太廣的時候,也就沒有 注意 的必要了。memory,主要指外部記憶,一旦被controll...

現今 深度 nlp 對於理解類模型 是不是有長時間訓練 embedding 向半監督 非監督的趨勢?

本馬 BERT的思想與其說是無監督,更確切說是自監督。自監督的概念是起源於CV領域,NLP領域剛剛興起,BERT算是乙個成功範例。不過這東西除了概念外,其實往下能挖的會比想象中的少。多做做實驗就知道了 論智 目前來看確實有偏向無監督學習的趨勢。就拿深度NLP最基礎的部分詞嵌入來說好了。2017年Pi...