語音識別中,音素之間的轉移概率怎麼得到的?

時間 2021-06-02 20:04:20

1樓:王贇 Maigo

s0 和 s4 應該叫起始和終止狀態吧。

s3 到 s4 的轉移概率,就是當前時刻處於 s3 狀態,下一時刻處於終止狀態的概率。它的最大似然估計值是訓練資料中 s3 轉移到 s4 的次數,除以 s3 出現的次數。

2樓:jinming

當時學的時候也沒好好學。我印象中s0表示開始狀態,s3表示結束狀態,比如乙個真實的轉移矩陣是這樣的:

S0 S1 S2 S3 S4

S0 0 1 0 0 0

S1 0 0.75 0.25 0 0

S2 0 0 0.75 0.25 0

S3 0 0 0 0.75 0.25

S4 0 0 0 0 0

可以 kaldi/src/gmmbin/gmm-copy –binary=false 0.mdl -

可以自己找個生成的模型看看。

在連續語音識別中,單個音素的HMM模型中的狀態到底對應什麼?

杜旭浩 感覺HMM三狀態可能是因為前面答主說的 入音 持續音 出音 來解釋,也可以同 2.發音一般包含3個共振峰 來解釋,感覺不同的解釋會引導到針對不同語音對HMM狀態做不同的調整的結果。 我引用一下上面 jinming 的回答 乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎?音素一般是三狀...

目前語音識別技術能否很好地識別音色的不同?能簡單說說如何實現嗎?

王贇 Maigo 題主說的識別音色的技術,術語叫做 說話人識別 speaker recognition 因為音色差別的最典型體現就是不同人說話的音色不同。說話人識別 與 語音識別 不是同一項技術,前者是識別說話人的身份,而後者是識別語音的內容。2010年以前流行的說話人識別技術,是把每乙個說話人建模...

谷歌語音和訊飛語音,哪個對普通話的識別能力更強?

經過一段時間的測試,谷歌語音搜尋的識別能力最強,谷歌輸入法按理說用的是同一種語音識別,但是好像效果不如語音搜尋準確,當然他們總體的準確率都比訊飛高。以上文字是我用谷歌輸入法語音識別出來的,用訊飛的話時不時就會識別出錯,但是谷歌輸入法功能又不如訊飛強大,比如他的語音是識別不出標點符號的,所以還是很糾結...