語音合成(TTS)疑惑,希望各位大神多多賜教啊?

時間 2021-06-02 18:13:11

1樓:going

1、引數合成多多益善,3000句起,但是音位要覆蓋全。deep voice3 tacotron,這些需要更多資料,一萬起步。

2、現在研究主流是端到端。實際上很多公司用的是引數法+倒譜world,但有些公司例如標貝應該是正譜端到端。

3、中文用音素比較好,我們是用的自己的前端,其他方案沒試過。

4、端到端用音素好,但是可以考慮和字元一起用。加入更多的資訊例如分詞等,有助於端到端韻律的訓練,當然如果你資料足夠多,應該什麼都不用。我這邊自研端到端tts4000句加分詞資訊可以達到非常好的效果。

5、如果是自己的資料集,建議先檢查音訊是否有噪音以及文字和音訊是否內容對不齊,如果資料沒問題,不應該存在問題。另外如果能把正譜改成倒譜的world合成器,效果會更好。

2樓:「已登出」

1、引數合成:中文單人需要多少語料?像deepvoice3 和 tacotron2等是不是語料量需要更大?

5-20h

2、目前市面上商用的產品使用的主流技術是什麼(傳統前台、後台pipeline模式還是基於端到端的)

拼接法3、使用拼音還是音素?

用聲韻母或拼音

4、端到端的是否只需要輸入音素或者拼音就行?如果需要加入情緒或者語速快慢或者語氣,像deepvocie3、tacotron2需要多種資訊輸入,需要修改模型,另外語料是否需要標註的更多的資訊?

只需要輸入拼音或聲韻母,其他資訊也可以加。

5、單人錄音使用端到端的方式合成(例如tacotron2),合成有噪音,這個一般怎麼處理,是通過調節模型引數、結構可以搞定還是需要對合成的語音單獨分析、處理,有沒有一些最佳實踐方法?

用錄音棚錄製的高質量語料,通過調整模型結構也可以減少雜訊。

請教各位大神做化學合成有什麼竅門

我研究生三年合成,某國內著名外包合成兩年,轉行做藥物合成4年,經驗算是有點,高手算不上。文獻閱讀很重要,但是很多文獻尤其是會隱藏其中的關鍵點,需要綜合分析。基本的實驗操作水平很重要,這是做合成的基礎。還有就是一定要記好實驗記錄,這個非常重要,尤其是做工藝時,注意所有關鍵點,溫度 濕度 顏色 轉速,該...

求助各位知乎大神,希望各位大佬幫忙看看這文有什麼問題需要改正?

側帽聖祖 呵呵 連跟風也沒跟對。首先這個名字非常非常勸退,我看到 充錢 這兩個字我都受不了了,一下就把我拉入了某遊戲的噩夢。之後你的簡介我就更服了,什麼鬼玩意兒,什麼變成負數 簡介都不會寫嗎?你要實在不會寫,你就把你金手指寫出來放在簡介裡,總比你亂寫強。 脫殼的蝦子 雖然這是個異能世界 但是開篇人人...

各位漢語言大神我不懂合成詞的偏正型求解 ?

凡舍 偏正簡單粗暴一點理解就是修飾關係,這個詞如果是乙個名詞,鐵路白菜國債,就可以看成,鐵的路,白的菜,國家的債務,這樣的理解。如果是形容詞,像雪白,金黃這樣的就理解為中心詞是白和黃,雪和金是修飾。還有幾個特殊的,捲菸,拖鞋,掛鉤,這些都是偏正型。 樊小野 合成詞有複合式 重疊式 附加式三種,偏正型...