為什麼tacotron生成語音時需要先生成Mel頻譜，再重建語音？Mel頻譜在其中起到什麼用？

1樓：養仙女的小紅花

我來我來，最近在做tts相關的東西。

mel頻譜是對STFT的頻率軸做非線性變換，也就是和線性譜（比如STFT）相關，可以用更低的維度來總結資訊，也就是80維。

使用mel頻譜可以強調低頻細節，這個是很重要的，儘管沒有強調（感覺用強調怪怪的，應該是用emphasize）高頻細節，而高頻細節主要由一些噪音組成，並不需要高精度建模。以上。

2樓：新野之始

tacotron使用mel頻譜作為訓練標籤。主要幾個原因：

1.使用mel頻譜作為訓練標籤，其實是用來描繪這段聲音的特徵。理論上，使用原始pcm資料同樣可以。之所以採用mel頻譜，其實是因為mel頻譜尺寸更小。

2. 儘管使用短時傅利葉變換，得到的頻譜矩陣通常大於原始pcm的尺寸。但使用了mel過濾後，mel頻譜會小很多。基本保持人能感知的聲音特徵

3. 基於stft，是可以使用幅度譜直接還原語音。即使不使用griffin_lim來迭代。隨機乙個相位，也能還原。所以mel頻譜基本上大致等同原始pcm.

3樓：我的上鋪叫路遙

Mel譜就是短時傅利葉變換（STFT）對每一幀的頻譜（能量/幅度譜），從線性的頻率刻度對映到對數的mel刻度，再用40個濾帶（filterbank），雙向就是80個，得到80維度的特徵向量，這些特徵值大致上可以表示為訊號能量在mel刻度頻率上的分布。

這裡有幾個關鍵步驟：分幀、預加重、加窗、STFT、mel刻度，都是擬合人耳對訊號分析的手段，最終得到的特徵向量是擬合人耳訊號分析機理的。

有人會問為啥不用MFCC，其實也是可以的，MFCC就是在頻譜上對能量進行對數縮放，再做一次離散余弦變換（DCT），得到倒譜（cepstrum），取前13個係數所謂特徵向量。MFCC主要為了提取頻譜的包絡（倒譜低頻）以及頻譜細節（倒譜高頻）作為語音特徵。

Tacotron之所以只用mel頻譜而不用MFCC，我猜測是因為MFCC的頻譜包絡主要用於識別特徵，是給機器辨識的，而TTS更加偏向於人耳感知，著重提取人耳敏感特徵。相比之下，整個頻譜的包絡不是十分有必要，我們只需要關注人耳敏感的幾個特定頻率範圍及其能量分布，故而語音合成只需要從mel頻譜提取80維度特徵向量即可。

另外就像 @天造人設所說的，從訊號處理上，頻域比時域更穩定，時序的聲音不比靜態的影象，一般都要生成頻譜再處理。

為什麼tacotron生成語音時需要先生成Mel頻譜，再重建語音？Mel頻譜在其中起到什麼用？

生成語法學研究的是什麼

為什麼這種成語還會存在？

為什麼很多人不喜歡聽語音和發語音？

其他用戶還看了：