如何評價語音識別中RNN演算法，它與其他幾種演算法如DTW HMM ANN VQ等演算法比，優缺點是什麼？

1樓：

按時間發展順序來：

DTW（Dynamic Time Warping）：上古時代的方法，可以理解為模板匹配。只不過因為語音有語速等方面的擾動，所以用乙個動態規劃演算法來列舉兩段音訊匹配的對齊方式。

也可以用 HMM 的方式來理解 DTW：兩個語音幀之間的歐式距離是 HMM 的發射概率，兩段語音的對齊方式類似於 HMM 的轉移概率。缺點也很顯然：

歐式距離作為語音特徵的距離度量並不合適，語音特徵之間的轉移不是概率論方法建模的，做孤立詞識別還行，但是難以用於連續語音識別。

VQ（預設是指 HMM-VQ，Hidden Markov Model-Vector Quantization）：VQ 是指把連續、高維的聲學特徵量化成若干個符號，於是可以用乙個矩陣來建模聲學特徵的發射概率，和 NLP 中常用的 HMM 一樣，是乙個離散的 HMM。好處就是已經走到概率圖的框架下了，可以適用於連續語音識別；壞處是對聲學特徵的建模過於粗糙，發射概率計算不準確。

HMM（預設是指 HMM-GMM，Hidden Markov Model-Gaussian Mixture Model）：這是乙個半連續的 HMM（狀態轉移是離散的，發射概率是連續的）。在 HMM-VQ 的基礎上把 VQ 換成了 GMM，用多個高斯分布來擬合聲學特徵的概率密度，建模更加精細。

ANN（預設是指 HMM-DNN，Hidden Markov Model-Deep Neural Network，其中 DNN 主要為 Time-Delayed Neural Network）：直接建模給定聲學特徵 x 時處於 HMM 狀態s 的概率 p(s|x)。HMM 是生成模型，可以無監督訓練（不需要幀級別的標註）；而 TDNN 是判別模型，需要 HMM-GMM 得到的對齊結果作為標註進行有監督的訓練。

判別模型自然比生成模型容易訓練，因為不需要建模資料本身的分布。而且神經網路容量更大，可以建模更複雜的關係。NN 在聲學模型中其實有兩種用法：

一種是建模 p(s|x) 後用貝葉斯公式反轉得到 p(x|s) = p(x)p(s|x)/p(s)，其中 p(s) 根據 HMM-GMM 的訓練結果計數得到，p(x) 雖然未知但是是常數，因而不影響訓練和解碼。由此可以用 NN 替代 GMM 建模發射概率（在相差乙個常數 p(x) 的意義下），直接把 NN 做為聲學模型的一部分。

另一種是在 NN 中加入乙個瓶頸層 BottleNeck，訓完 NN 後在資料上做一遍推斷得到瓶頸層的輸出。由於 NN 強大的特徵提取能力以及 NN 是通過區分式訓練得到的，和 MFCC 特徵相比，在瓶頸層輸出值形成的空間裡各個音素更容易被區分。在該空間上重新訓練一次 GMM，再次組成 HMM-GMM 架構。

這種方法相當於換了乙個特徵空間，把 NN 當濾波器用。

RNN（Recurrent Neural Network）：TDNN 只能建模相鄰幾幀之間的依賴關係，RNN 可以建模更長的時間範圍內的依賴關係，因此建模能力更強。RNN 經常和 CTC-Loss 等一起用，無需幀級別的標註，可以直接端對端地進行訓練。

前面講的 HMM-VQ, HMM-GMM, HMM-DNN 都僅僅是聲學模型，而端對端的模型則既要學習聲學模型又要學習語言模型，學習負擔更重。所以即便 TDNN 理論上也可以接 CTC-Loss 等直接進行端對端訓練，但是由於它能建模的依賴關係有限，同時學習語言模型和聲學模型對它來說太難了，常用的端對端模型還是 RNN + CTC。此外，現在常用的端對端 ASR 技術還有 Transducer/Attention 等。

如何評價語音識別中RNN演算法，它與其他幾種演算法如DTW HMM ANN VQ等演算法比，優缺點是什麼？

如何用Kaldi做語音識別？

在連續語音識別中，單個音素的HMM模型中的狀態到底對應什麼？

如何看待語音識別大牛 Kaldi 之父 Daniel Povey 加入小公尺？會產生哪些影響？

其他用戶還看了：