貪心學院 通過學習語言模型這節課程後,簡單描述下你對於語言模型的理解是什麼樣的呢?

時間 2021-06-20 11:50:35

1樓:張慶宇

語言模型是一種概率統計方法,用來判斷一句話從語法上是否通順。在機器翻譯,文字生成,拼寫糾錯等領域均依賴於語言模型。

語言模型的實現主要依賴概率統計中的聯合概率,條件概率和邊緣概率。語言模型的本質就是根據條件概率和邊緣概率計算聯合概率,通過聯合概率判斷句子的合理性。

語言模型的訓練是概率估計的過程,包括unigram, bigram, trigram等方法,評估方法採用perplexity。

訓練過程中,概率會出現稀疏性的問題,一系列的平滑模型提出,用來解決該問題。如:Add-one, Add-k Smoothing, Interpolation, Good-Turning Smoothing.

2樓:肉球君

語言模型本質上就是計算乙個文字序列出現的概率,是對文字的概率分布的建模。也可以理解為判斷乙個文字序列是否是正常人話。

語言模型是大部分NLP任務的基礎,比如語音識別中,聲學模型處理音訊形成文字序列,需要語言模型來校正,使文字通順,符合人類語法習慣。

技術層面,語言模型本質是對於構成文字序列的每個詞的概率分布進行建模,整個文字序列的概率可分解為後乙個詞關於其前面所有詞的條件概率的乘積。隨之而來的問題是這個模型中有大量引數,所以提出了一種近似方法,也就是N-Gram模型。N-Gram模型有個很大的問題就是維度災難,很難在大規模語料庫上建模,為了解決這個問題,便引入了神經網路語言模型。

目前基於大規模語料進行的無監督預訓練語言模型,可以從海量的語料中可以學習到通用的語言表示,下游的任務在具體業務資料集上再進行fine-tune,可以顯著提公升模型效果,這也成了目前NLP領域主流的處理正規化。

3樓:何大加

1、語言模型簡單可以描述為一句話通順程度,是不是人話,讓大眾聽起來能否make sens,在統計學上可以描述乙個序列在整個語料庫出現的概率,在衡量乙個語言模型,我們一般用困惑度,這裡公式就不給了,困惑度越小,語言模型越好;

2、我想換個角度來談談語言模型自然語言處理分為NLU和NLG,一般來說,NLG顯然就要訓練乙個語言模型,幫助我們在特定的條件下生成句子,NLU同樣也離不開語言模型。這幾年bert、gpt等模型,就是多任務模型的思想集中體現,乙個模型在特定場景下表現得好壞,不僅取決於這個任務本身,還去覺得我們這個模型是否能學習到很多先驗知識;多工最常見的是我們模型能學習到乙個很好的語言模型,能有效幫助我們在特殊任務的表現。

3、語言模型是自然語言的基石。

4樓:kk清源

語言模型是乙個單純的、統一的、抽象的形式系統,語言客觀事實經過語言模型的描述,比較適合於電子計算機進行自動處理,因而語言模型對於自然語言的資訊處理具有重大的意義。從數學角度理解:語言模型就是對於乙個語素序列

,計算出這個語素序列的概率,即:

語言模型目前主要有統計語言模型和神經網路語言模型兩種方法:;

基於統計的模型通常採用 n-gram 方法,該方法的優點為:(1)採用極大似然估計,引數易訓練;(2) 完全包含了前 n-1 個詞的全部資訊;(3) 可解釋性強,直觀易理解。缺點為:

(1) 缺乏長期依賴,只能建模到前 n-1 個詞;(2) 隨著 n 的增大,引數空間呈指數增長;(3) 資料稀疏,難免會出現OOV的問題;

2. 神經網路語言模型是目前主流的語言模型,其優點為:1) 長距離依賴,具有更強的約束性;(2) 避免了資料稀疏所帶來的OOV問題;(3) 好的詞表徵能夠提高模型泛化能力;但也存在訓練時間長、可讀性差的缺點。

通常使用 Perplexity 來評價語言模型的效果:

困惑度在語言模型中的物理意義可以描述為對於任意給定序列,下乙個候選詞的可選範圍大小。同樣的,困惑度越小,說明所建模的語言模型越精確。

參考:Light:深入理解語言模型 Language Model

5樓:JinGu

我的以前對語言模型的理解是對一種語言進行構模來表示其語法,例如主謂賓在一句話中的位置。

通過第十章的學習,現在的理解是通過對現有語料庫進行相鄰字詞的相關性分析,從而提取出來的一種經驗性的框架。如果把語料庫中的具體詞抽象化(例如把具體的字詞替換成詞性類別,像名詞動詞主語賓語),學習出來的框架下的條條框框,就是通常說的一種語言的語法。也就是說我以前的想法實際上是乙個特例。

在更廣義上的語言模型中,除了詞性外,字詞的意思,字詞之間的相關性(如同義,異義,相鄰,順序)都包括在其內。

狹義上的語言模型可以幫助理解句子,文章的意思,而廣義上的語言模型對於生成符合語法和通常用法要求的句子和文章至關重要。

6樓:facilitator

語言模型是NLP中一項關鍵技術,統計語言模型是乙個單詞序列上的概率分布,對於乙個給定長度為m的序列,它可以為整個序列產生乙個概率 P(w_1,w_2,…,w_m) 。其實就是找到乙個概率分布,它可以表示任意乙個句子或序列出現的概率。

一些常用的語言模型有N-Gram、Unigram models,之前有用過語言模型,感覺語言模型在語音識別任務中應用更加廣泛。

簡單介紹一下之前再語音識別中應用的語言模型。

語音識別中,需要通過語言模型將其解碼轉化為漢語指令,採用基於HMM(Hidden Markov Model)的viterbi解碼拼音至文字

1.HMM

隱馬爾科夫模型,是乙個雙重隨機過程。描述由隱式馬爾科夫鏈隨機生成的狀態序列,當前狀態與之前狀態相關,但狀態值序列與觀察值序列不是一一對應的。

解碼器首先根據匯入的發音詞典,將每個詞的音素HMM組合形成詞語HMM,形成解碼網路。

2.基於動態網路的Viterbi解碼

輸入指令的漢語拼音後,解碼器遵循音素到詞再到句子的順序,將拼音轉換為文字。

Viterbi演算法把語音的特徵幀序列與HMM狀態對齊,進行遍歷,每乙個拼音可以對應多個漢字,而每個漢字一次唯讀乙個音,把每乙個拼音對應的字從左到有連起來,就成為了一張網格圖。 根據HMM得到的概率值,尋求最佳的對應關係,然後根據匹配後的HMM狀態序列順序得到音素序列。

是輸入的拼音串, 是第m個音的第n個候選字整個問題就變成在有向圖中尋找從起點開始,到終點概率最大的路徑。

7樓:seifer08ms

語言模型是NLP裡面的乙個核心技術。從輸入輸出的角度看,語言模型輸入一段文字的序列,輸出這段序列符合語法的概率。從貝葉斯的角度,語言模型可以是一種先驗知識,用來指導對結果的選擇。

常見的語言模型主要有基於統計的語言模型,基於神經網路的語言模型。其中後者就包括後來比較流行的基於深度學習的語言模型。

對於語言模型的評價,主要是研究模型的結果哪個與真實分布更接近,這一點可以用相對熵來衡量,但這個指標不夠直觀,一般改用困惑度,對於任意給定序列,困惑度指的就是下乙個候選詞的可選範圍大小。顧名思義,對於語言模型,困惑度越小越好。

貪心學院 深度學習是很多模型的疊加,這種深度模型跟淺層模型相比有什麼優勢呢?

Hanamaki 有一種說法 在自然語言領域,淺層模型解析的是語法結構,深層模型解析的是語義結構,例如 我愛北京和北京愛我 從語法上來說兩個都是對的,都是主謂賓,但是從意義上來說,第二句不對因為北京是個地點無法有愛這種動作。語義建模 或語義語法 通常與語言建模 或語言語法 相比較,我們現在從二者的定...

貪心學院AI學習挑戰賽(獎學金活動)第11週第1個問題,問題在描述裡,你的答案是什麼呢?

卡瑪花生公尺 1.暴露偏差,訓練時最小化的是交叉熵損失,而測試時用的是離散度量,並且在訓練時使用teach forcing的方式,decoder的訓練依賴於真實值,而在測試階段,真實值是沒有的,將模型的輸出近似等於正確的輸出反饋給模型。通過使用計畫抽樣法來解決這個問題,我們先使用交叉熵預訓練模型,然...

貪心學院AI學習挑戰賽(獎學金活動)第15週第2個問題,問題在描述裡,你的答案是什麼呢

SamHsiWu 含義 歧義與消歧是自然語言理解中最核心的問題 即字面內容完全一致但語義並不一致 在詞義 句義 篇章含義層次都會出現語言根據上下文語義不同的現象,消歧即指根據上下文確定物件語義的過程。詞義消歧即在詞語層次上的語義消歧。例子 今天去水果店買了一袋蘋果 和 今天去專賣店買了一台蘋果 中的...