語音識別，語譜圖對比MFCC Fbank等特徵，在識別方面有哪些優勢？

1樓：天造人設

這樣說吧，越原始的資訊，資訊量越完整，資訊的直接轉換一般會帶來資訊的減少，理論上，如果輸入是波形資料，存在乙個網路，可以實現FFT計算，也當然能夠實現任何形式的特徵轉換。只是，通過經驗，頻譜、MFCC等等這些手工定義的轉換，在很多語音任務上認為是接近最優的，沒有太多必要讓另乙個神經網路來「發現」一種更好的特徵，那需要付出額外的計算代價。當然，如果有人預訓練了乙個公認的更好的特徵轉換網路模型，能夠匹配你的任務，計算複雜度不太高的話，可以拿來用。

如果想從頭訓練乙個端到端的網路，資料不是足夠大的話，還是考慮先使用經驗的特徵轉換而不是從原始輸入做起。

2樓：PencilCup

DNN做聲學模型時，一般用filterbank feature，不用mfcc，因為fbank資訊更多 (mfcc是由mel fbank有損變換得到的）。mfcc一般是GMM做聲學模型時用的，因為通常GMM假設是diagonal協方差矩陣，而cepstral coefficient更符合這種假設。

linear spectrogram裡面冗餘資訊太多了，維度也高，所以一般也不用。

語音識別，語譜圖對比MFCC Fbank等特徵，在識別方面有哪些優勢？

語音前端和語音識別哪個更有研究價值？

如何用Kaldi做語音識別？

語音識別，人臉識別這種技術有啥意義呢？

其他用戶還看了：

語音識別，語譜圖對比MFCC Fbank等特徵，在識別方面有哪些優勢？

語音前端和語音識別哪個更有研究價值？

如何用Kaldi做語音識別？

語音識別，人臉識別 這種技術有啥意義呢？

其他用戶還看了：

語音識別，人臉識別這種技術有啥意義呢？