在連續語音識別中,單個音素的HMM模型中的狀態到底對應什麼?

時間 2021-05-31 17:50:59

1樓:杜旭浩

感覺HMM三狀態可能是因為前面答主說的

入音-持續音-出音

來解釋,也可以同

2. 發音一般包含3個共振峰

來解釋,感覺不同的解釋會引導到針對不同語音對HMM狀態做不同的調整的結果。

2樓:

我引用一下上面「jinming」的回答:

「乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎?音素一般是三狀態,也有很多五狀態的,不只是sil是五狀態,具體可以看kaldi生成的topo檔案,具體的乙個一般的音素(除sil)五個狀態我也不太清楚」。這個回答是對的。

按照語音學觀點,音素是基本發音單元,而語音是短時平穩隨機訊號。乙個基本發音單元按照語音學可以分為起始音,或者叫做入音,持續音,結束音或者叫做出音,這三個階段的語音頻號可以被認為是短時平穩的,也就是可以認為是變化較小的。所以建模為3個狀態。

早期的時候,sil也是建模3個狀態的。後來通過實踐,發現sil的變異性很多,所以,擴充套件了sil的建模靈活性。

牆裂建議,其他回答者修改答案!

3樓:jinming

乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎?音素一般是三狀態,也有很多五狀態的,不只是sil是五狀態,具體可以看kaldi生成的topo檔案,具體的乙個一般的音素(除sil)五個狀態我也不太清楚

4樓:一路向東

1. 狀態沒有明確的語言學/物理意義。

2. 要分清HMM定義中的狀態數和乙個音素解碼時對應的狀態數。

HMM定義給出了最多有幾個不同的狀態以及狀態間的跳轉關係。例如,一種常用的定義方法中有5個狀態,假設記為1-5,其中1為開始,5為結束。

在實際解碼時,一幀對應乙個狀態,如果乙個音素有多幀,則對應乙個狀態序列,序列的狀態數可能大於定義中的狀態數,例如某音素的一次發音對應狀態序列12233445,另一次對應1222345,這是有可能的。

5樓:

通常來說,一幀就像一般機器學習理論裡的乙個sample,在你的問題中,一幀只能對應乙個hmm狀態,(不考慮狀態共享)。

而音素,漢語中你可以理解為乙個音節是乙個或者多個音素。比如a\gua。

舉個例來說,我實驗室的漢語聲學模型採用聲韻母建模,通常聲母是2個hmm狀態,韻母4個hmm狀態(不考慮三音子模型)

這樣乙個漢字可以被拆為聲韻母兩部分,6個狀態。

當然這樣固定狀態長度存在一定缺陷

6樓:RandomWalk

這個狀態沒有實際語音學上的意義。

我最開始學習語音識別的時候最困惑的地方就是這個了,因為我一直錯誤地將其理解為乙個狀態對應乙個音素。我覺得這個地方對初學語音識別來說是最容易發生誤解的。

傳統的語音識別上採用三狀態隱馬爾科夫模型對音素建模,但是這樣的缺點是無法直接利用統一的架構來描述幀和語音學上各層級單位之間的關係進行描述。 目前有一種CTC模型,是改進的RNN,可以直接描述幀和音素序列之間的關係。它的輸出是有實際語音學意義的。

7樓:

乙個狀態數學上是指乙個馬爾科夫過程的狀態。比如識別漢語韻母uai,假設它有3個狀態,對應10幀,那麼根據uai對應的HMM模型的狀態轉移限制的不同,可以有各種不同的幀和狀態的對應關係,比如:

第1 -- 3幀處於狀態1,4 -- 8幀處於狀態2,9 -- 10幀處於狀態3;

也可能是1 -- 2 幀處於狀態1,3 -- 5幀處於狀態3,6 -- 10 幀處於狀態2等等。

也就是說,其實每個幀可以處於所有可能的HMM的狀態上,最後選擇那個,其實是比較路徑在所有幀上的總分和,選擇似然度最高的路徑,它上面每一幀對應的每個狀態就當做最後識別結果的幀和狀態的對應關係。

根據不同的建模選擇,有很多不同的對HMM狀態的解釋。比如前述韻母uai模型的3個狀態,可以理解成分別對應了u,a,和i三個音素。

語音識別中,音素之間的轉移概率怎麼得到的?

王贇 Maigo s0 和 s4 應該叫起始和終止狀態吧。s3 到 s4 的轉移概率,就是當前時刻處於 s3 狀態,下一時刻處於終止狀態的概率。它的最大似然估計值是訓練資料中 s3 轉移到 s4 的次數,除以 s3 出現的次數。 jinming 當時學的時候也沒好好學。我印象中s0表示開始狀態,s3...

李開復在大學裡的語音識別系統已經達到96 準確率,為什麼市面上的語音識別系統都遠沒有達到?

Zhang fusu 李開復那個年代研究目標是單詞短句識別而且是安靜環境 如今研究目標是大規模文字識別 噪音回聲 各種方言 這明顯不是乙個難度級別的,別說機器就是人也會在複雜環境下聽不清對方說什麼 在實驗室裡,讓輸入和執行環境可控是比較容易的,所以能得出乙個相對理想的結果。但如果要商業化量產化,則會...

快速識別指板某個音在各調中的唱名,有哪些方法?

劉穎 簡單地說,作為吉他演奏者。這是乙個基礎能力,你可以從各調的常用和弦的音名出發去記住他們在各調中的唱名。雖然這是本末倒置,不過很有效果。例如,在G調中Am7為二級和弦,那自然的A在G調中就唱名為2。在B調中,Adim是七級,那麼A在B調中就是降7。 杜沒名 如何快速識別某個音在各調中的音名。你要...