MFCC和語譜圖的關係是什麼?

時間 2022-01-15 05:49:57

1樓:哈哈哈

建議參考這個教程單步除錯一遍mfcc的計算過程,python版本,講解詳細,新手友好。

另外建議思考一下類似的常見問題(答案見上面的教程):

MFCC 和 fbank的關係是什麼?

為什麼一般的套路是MFCC + GMM / fbank + NN 而不是反過來?

2樓:funcwj

語譜圖一般口語上說的是語音的log譜特徵,就是你用audition或者Audacity看到的橫軸是時間,縱軸是頻域的影象。簡單看一下語音特徵的提取過程就可以知道這兩者之間的關係了:

對語音序列做STFT,其中包括分幀,加窗和對每一幀的DFT變換,一般在語音識別裡面會在加窗之後加一步預加重,輸出的結果是複數(DFT的原因)。

STFT的結果取模稱為線性譜,再加log稱為log譜,此處對應語譜圖的概念。

對線性譜做mel濾波,即乘上一組mel濾波係數(就是一組三角濾波器,放大了低頻的成分),結果稱為filter bank(fbank)特徵,一般這一步單獨拿來用的話也會加上log,稱為log fbank特徵。

MFCC特徵就是對log fbank特徵做DCT變換進行去相關之後的結果,實際操作也就是成乙個DCT變換矩陣。

所以中間就是存在乙個mel濾波的概念,從log譜是可以轉到MFCC特徵的(求乙個exp,再做兩個線性變換就行),此外,DCT變換是可逆的,所以MFCC和fbank特徵也可以進行相互轉換,但是從譜特徵到fbank的過程不行的(濾波組矩陣不可逆),這一點清楚就行。

拉丁語和現代義大利語有什麼關係

malaporpism 更新 之前用詞不當,怕是引發了一些誤解。我說 英語在內容上照搬 的意思呢,是有很多短語,比如 e.g.exempli gratia,i.e.id est,n.b.nota bene,stat.statim,snob sine nobilitate,在羅曼語言中已經有了自己的位...

屈折語和黏著語的區別是什麼?

一頭熊un ours 以屈折成分為主要語法標記手段的是屈折語,以黏著成分為主要語法標記手段的是黏著語。好吧,我知道題主真正想問的是屈折成分和黏著成分的區別是什麼 屈折有兩種 內部屈折與外部屈折。前者如tooth teeth,後者如eye eyes。內部屈折和黏著的區別比較明顯,而外部屈折與黏著的區別...

語前耳聾和語後耳聾的區別是什麼?

小聽 語前聾是未學習話語之前的聽力損失,一般是先天或在嬰兒時期就存在,如果未及時干預可能造成失去言語發育期而導致無法說話或發音不准,而語後聾則是已經學習了言語能力後由於各種原因造成的聽力損失,這種一般不需要做語訓,戴上助聽器或人工耳蝸幫助聆聽就可以正常交流了。 江陰壽山路 語前聾是在語言習得之前就有...