語音識別中，音素之間的轉移概率怎麼得到的？

1樓：王贇 Maigo

s0 和 s4 應該叫起始和終止狀態吧。

s3 到 s4 的轉移概率，就是當前時刻處於 s3 狀態，下一時刻處於終止狀態的概率。它的最大似然估計值是訓練資料中 s3 轉移到 s4 的次數，除以 s3 出現的次數。

2樓：jinming

當時學的時候也沒好好學。我印象中s0表示開始狀態，s3表示結束狀態，比如乙個真實的轉移矩陣是這樣的：

S0 S1 S2 S3 S4

S0 0 1 0 0 0

S1 0 0.75 0.25 0 0

S2 0 0 0.75 0.25 0

S3 0 0 0 0.75 0.25

S4 0 0 0 0 0

可以 kaldi/src/gmmbin/gmm-copy –binary=false 0.mdl -

可以自己找個生成的模型看看。

在連續語音識別中，單個音素的HMM模型中的狀態到底對應什麼？

杜旭浩感覺HMM三狀態可能是因為前面答主說的入音持續音出音來解釋，也可以同 2.發音一般包含3個共振峰來解釋，感覺不同的解釋會引導到針對不同語音對HMM狀態做不同的調整的結果。我引用一下上面 jinming 的回答乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎？音素一般是三狀...

目前語音識別技術能否很好地識別音色的不同？能簡單說說如何實現嗎？

王贇 Maigo 題主說的識別音色的技術，術語叫做說話人識別 speaker recognition 因為音色差別的最典型體現就是不同人說話的音色不同。說話人識別與語音識別不是同一項技術，前者是識別說話人的身份，而後者是識別語音的內容。2010年以前流行的說話人識別技術，是把每乙個說話人建模...

谷歌語音和訊飛語音，哪個對普通話的識別能力更強？

經過一段時間的測試，谷歌語音搜尋的識別能力最強，谷歌輸入法按理說用的是同一種語音識別，但是好像效果不如語音搜尋準確，當然他們總體的準確率都比訊飛高。以上文字是我用谷歌輸入法語音識別出來的，用訊飛的話時不時就會識別出錯，但是谷歌輸入法功能又不如訊飛強大，比如他的語音是識別不出標點符號的，所以還是很糾結...

語音識別中，音素之間的轉移概率怎麼得到的？

在連續語音識別中，單個音素的HMM模型中的狀態到底對應什麼？

目前語音識別技術能否很好地識別音色的不同？能簡單說說如何實現嗎？

谷歌語音和訊飛語音，哪個對普通話的識別能力更強？

其他用戶還看了：