語音識別,語譜圖對比MFCC Fbank等特徵,在識別方面有哪些優勢?

時間 2021-06-03 14:04:47

1樓:天造人設

這樣說吧,越原始的資訊,資訊量越完整,資訊的直接轉換一般會帶來資訊的減少,理論上,如果輸入是波形資料,存在乙個網路,可以實現FFT計算,也當然能夠實現任何形式的特徵轉換。只是,通過經驗,頻譜、MFCC等等這些手工定義的轉換,在很多語音任務上認為是接近最優的,沒有太多必要讓另乙個神經網路來「發現」一種更好的特徵,那需要付出額外的計算代價。當然,如果有人預訓練了乙個公認的更好的特徵轉換網路模型,能夠匹配你的任務,計算複雜度不太高的話,可以拿來用。

如果想從頭訓練乙個端到端的網路,資料不是足夠大的話,還是考慮先使用經驗的特徵轉換而不是從原始輸入做起。

2樓:PencilCup

DNN做聲學模型時,一般用filterbank feature,不用mfcc,因為fbank資訊更多 (mfcc是由mel fbank有損變換得到的)。mfcc一般是GMM做聲學模型時用的,因為通常GMM假設是diagonal協方差矩陣,而cepstral coefficient更符合這種假設。

linear spectrogram裡面冗餘資訊太多了,維度也高,所以一般也不用。

語音前端和語音識別哪個更有研究價值?

關海欣 傳統語音頻號處理在國內原本比較小眾,主要面向語音通訊,近些年出現的遠場語音識別和AR需求把這個技術方向啟用了。現在的訊號處理從學術上與深度學習技術結合更加緊密,可以說深度學習技術的應用使得這個傳統技術煥發了青春,同時在工業界,訊號處理結合模型可以使得遠場 混響 雜訊 回聲 多人干擾 WER大...

如何用Kaldi做語音識別?

俞棟 Kaldi以前一直沒有很完善的文件,最近陳果果等出了一本書 Kaldi 語音識別實戰 fill 了這個gap。如果你是kaldi的初學者,建議可以看看這本書。Kaldi提供的是語音模型的研發工具。Kaldi對一些常用資料集和任務有比較優化的recipe,所以只要follow這些recipe你就...

語音識別,人臉識別 這種技術有啥意義呢?

dengyajun 現在這個社會有很多場景都需要對我們單獨的個體身份進行識別,以便更準確有效的辦理事務,而且社會的發展也越來越不會讓人渾水摸魚。而語音識別 人臉識別是從指紋識別這種接觸式識別公升級到更高階的非接觸生物識別,讓你在進行身份識別的過程中有愉快的體驗。首先,世界上和你的臉長的像 聲音也很像...