為什麼tacotron生成語音時需要先生成Mel頻譜,再重建語音?Mel頻譜在其中起到什麼用?

時間 2021-05-30 04:33:46

1樓:養仙女的小紅花

我來我來,最近在做tts相關的東西。

mel頻譜是對STFT的頻率軸做非線性變換,也就是和線性譜(比如STFT)相關,可以用更低的維度來總結資訊,也就是80維。

使用mel頻譜可以強調低頻細節,這個是很重要的,儘管沒有強調(感覺用強調怪怪的,應該是用emphasize)高頻細節,而高頻細節主要由一些噪音組成,並不需要高精度建模。以上。

2樓:新野之始

tacotron使用mel頻譜作為訓練標籤。主要幾個原因:

1.使用mel頻譜作為訓練標籤,其實是用來描繪這段聲音的特徵。理論上,使用原始pcm資料同樣可以。之所以採用mel頻譜,其實是因為mel頻譜尺寸更小。

2. 儘管使用短時傅利葉變換,得到的頻譜矩陣通常大於原始pcm的尺寸。但使用了mel過濾後,mel頻譜會小很多。 基本保持人能感知的聲音特徵

3. 基於stft,是可以使用幅度譜直接還原語音。 即使不使用griffin_lim來迭代。隨機乙個相位,也能還原。所以mel頻譜基本上大致等同原始pcm.

3樓:我的上鋪叫路遙

Mel譜就是短時傅利葉變換(STFT)對每一幀的頻譜(能量/幅度譜),從線性的頻率刻度對映到對數的mel刻度,再用40個濾帶(filterbank),雙向就是80個,得到80維度的特徵向量,這些特徵值大致上可以表示為訊號能量在mel刻度頻率上的分布。

這裡有幾個關鍵步驟:分幀、預加重、加窗、STFT、mel刻度,都是擬合人耳對訊號分析的手段,最終得到的特徵向量是擬合人耳訊號分析機理的。

有人會問為啥不用MFCC,其實也是可以的,MFCC就是在頻譜上對能量進行對數縮放,再做一次離散余弦變換(DCT),得到倒譜(cepstrum),取前13個係數所謂特徵向量。MFCC主要為了提取頻譜的包絡(倒譜低頻)以及頻譜細節(倒譜高頻)作為語音特徵。

Tacotron之所以只用mel頻譜而不用MFCC,我猜測是因為MFCC的頻譜包絡主要用於識別特徵,是給機器辨識的,而TTS更加偏向於人耳感知,著重提取人耳敏感特徵。相比之下,整個頻譜的包絡不是十分有必要,我們只需要關注人耳敏感的幾個特定頻率範圍及其能量分布,故而語音合成只需要從mel頻譜提取80維度特徵向量即可。

另外就像 @天造人設 所說的,從訊號處理上,頻域比時域更穩定,時序的聲音不比靜態的影象,一般都要生成頻譜再處理。

生成語法學研究的是什麼

鹽選推薦 語言學流派可以分成生成語法學派和反對生成語法學派。作者史蒂文 平克 Steven Pinker 寫這本科普讀物的理論基礎是喬姆斯基的生成語法。生成學派認為,人腦中有乙個天然的語言習得裝置,外界的語言環境輸入是乙個不可或缺的刺激,也就是說,不同國別的人的語言習得裝置都是一樣的,不一樣的是我們...

為什麼這種成語還會存在?

abmawobaim 三年前的東西我本來真的不想回覆的,奈何你實在讓人惱火。從雞身上都能看出性別歧視且非要斷章取義。你三年前打拳就這麼厲害了嗎!可笑! 餘曉波 牝雞司晨這個詞語沒有錯。女權主義是亡國的象徵。但其實你當作進步的東西,與其說是真正進步的東西,不如說是英美文明在高度發展以後,產生出來的剩餘...

為什麼很多人不喜歡聽語音和發語音?

4444x Lee 我就巨討厭別人給我發語音我一般都直接轉文字揣摩個大概意思有時候轉文字後實在看不懂我一般才聽真的我也不知道為什麼一聽別人給我發的語音就感覺心裡怪怪的感覺很尷尬? 阿莫斯特 效率問題,對傳送者來說語音效率高,對接收者來說效率極其低下,10秒看完的文字,語音要一分鐘,中間某個地方沒聽清...