如何評價語音識別中RNN演算法,它與其他幾種演算法如DTW HMM ANN VQ等演算法比,優缺點是什麼?

時間 2021-06-03 11:08:35

1樓:

按時間發展順序來:

DTW(Dynamic Time Warping):上古時代的方法,可以理解為模板匹配。只不過因為語音有語速等方面的擾動,所以用乙個動態規劃演算法來列舉兩段音訊匹配的對齊方式。

也可以用 HMM 的方式來理解 DTW:兩個語音幀之間的歐式距離是 HMM 的發射概率,兩段語音的對齊方式類似於 HMM 的轉移概率。缺點也很顯然:

歐式距離作為語音特徵的距離度量並不合適,語音特徵之間的轉移不是概率論方法建模的,做孤立詞識別還行,但是難以用於連續語音識別。

VQ(預設是指 HMM-VQ,Hidden Markov Model-Vector Quantization):VQ 是指把連續、高維的聲學特徵量化成若干個符號,於是可以用乙個矩陣來建模聲學特徵的發射概率,和 NLP 中常用的 HMM 一樣,是乙個離散的 HMM。好處就是已經走到概率圖的框架下了,可以適用於連續語音識別;壞處是對聲學特徵的建模過於粗糙,發射概率計算不準確。

HMM(預設是指 HMM-GMM,Hidden Markov Model-Gaussian Mixture Model):這是乙個半連續的 HMM(狀態轉移是離散的,發射概率是連續的)。在 HMM-VQ 的基礎上把 VQ 換成了 GMM,用多個高斯分布來擬合聲學特徵的概率密度,建模更加精細。

ANN(預設是指 HMM-DNN,Hidden Markov Model-Deep Neural Network,其中 DNN 主要為 Time-Delayed Neural Network):直接建模給定聲學特徵 x 時處於 HMM 狀態s 的概率 p(s|x)。HMM 是生成模型,可以無監督訓練(不需要幀級別的標註);而 TDNN 是判別模型,需要 HMM-GMM 得到的對齊結果作為標註進行有監督的訓練。

判別模型自然比生成模型容易訓練,因為不需要建模資料本身的分布。而且神經網路容量更大,可以建模更複雜的關係。NN 在聲學模型中其實有兩種用法:

一種是建模 p(s|x) 後用貝葉斯公式反轉得到 p(x|s) = p(x)p(s|x)/p(s),其中 p(s) 根據 HMM-GMM 的訓練結果計數得到,p(x) 雖然未知但是是常數,因而不影響訓練和解碼。由此可以用 NN 替代 GMM 建模發射概率(在相差乙個常數 p(x) 的意義下),直接把 NN 做為聲學模型的一部分。

另一種是在 NN 中加入乙個瓶頸層 BottleNeck,訓完 NN 後在資料上做一遍推斷得到瓶頸層的輸出。由於 NN 強大的特徵提取能力以及 NN 是通過區分式訓練得到的,和 MFCC 特徵相比,在瓶頸層輸出值形成的空間裡各個音素更容易被區分。在該空間上重新訓練一次 GMM,再次組成 HMM-GMM 架構。

這種方法相當於換了乙個特徵空間,把 NN 當濾波器用。

RNN(Recurrent Neural Network):TDNN 只能建模相鄰幾幀之間的依賴關係,RNN 可以建模更長的時間範圍內的依賴關係,因此建模能力更強。RNN 經常和 CTC-Loss 等一起用,無需幀級別的標註,可以直接端對端地進行訓練。

前面講的 HMM-VQ, HMM-GMM, HMM-DNN 都僅僅是聲學模型,而端對端的模型則既要學習聲學模型又要學習語言模型,學習負擔更重。所以即便 TDNN 理論上也可以接 CTC-Loss 等直接進行端對端訓練,但是由於它能建模的依賴關係有限,同時學習語言模型和聲學模型對它來說太難了,常用的端對端模型還是 RNN + CTC。此外,現在常用的端對端 ASR 技術還有 Transducer/Attention 等。

如何用Kaldi做語音識別?

俞棟 Kaldi以前一直沒有很完善的文件,最近陳果果等出了一本書 Kaldi 語音識別實戰 fill 了這個gap。如果你是kaldi的初學者,建議可以看看這本書。Kaldi提供的是語音模型的研發工具。Kaldi對一些常用資料集和任務有比較優化的recipe,所以只要follow這些recipe你就...

在連續語音識別中,單個音素的HMM模型中的狀態到底對應什麼?

杜旭浩 感覺HMM三狀態可能是因為前面答主說的 入音 持續音 出音 來解釋,也可以同 2.發音一般包含3個共振峰 來解釋,感覺不同的解釋會引導到針對不同語音對HMM狀態做不同的調整的結果。 我引用一下上面 jinming 的回答 乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎?音素一般是三狀...

如何看待語音識別大牛 Kaldi 之父 Daniel Povey 加入小公尺?會產生哪些影響?

Bang 小公尺手機系統可能會新增語音助手 或者只能語音之內的功能吧 小公尺可能會為自己的手機系統,翻譯機,以及各類只能家居定製語音管理功能 這有啥的?小公尺你別跳,你的技術都靠挖人弄來的。我們技術都是野生的,你能比?再說了你挖人來說不定這個人帶來了原來公司的技術,小公尺你這是剽竊啊,對啊就是剽竊b...