短語音 文字相關的聲紋確認,目前效能最好的演算法是GMM UBM嗎?

時間 2021-06-01 06:45:34

1樓:Leon晉

我覺得這個問題,無論是ubm-ivector還是embedding,都要做一次才知道哪個好。不過,如果如果資料量比較少的話,即使短語音,恐怕還是ivector占上風;只有當資料量上來之後,embedding才有一定的保障。另外,較短的短語音確實會給T的協方差矩陣帶來較大的方差,ivector估計時就會有更大的不確定性,但如果訓練集和測試集都是同文字內容,兩者都是短語音,T矩陣還是靠得住的,至少在時長上的失配問題還可以接受~

我曾經為幾個短語音文字相關的聲紋任務做過embedding的系統,資料的具體細節已經不大記得了,只是印象中資料量不多,訓練集總時長只有幾百小時。無論是resnet、lstm+attention,還是tdnn,再就是基於metric learning的loss functions,最後結果也就到4%IC-EER左右。但是ubm-ivector可以有IC-EER2%的效能(前提是懂得優化JFA和PLDA等等)……如果訓練的資料集再漂亮一點,ivector可以做到0.

5%以內,但embedding才1%上下

2樓:

不對吧 GMM-UBM,ivector這類在長時的效果比較好。短時間用NN提取的speaker embedding要比傳統GMMUBM ivector的EER低很多……

有沒有語音轉文字的APP?

獨上高山看風景 男女對次深夜同床1個多小時,又是青春期,摸摸親親之後就越界了,尤其是女孩自願的這種可能性很大。大學為啥開房的多,並不是年齡大了成熟了,而是沒人管理,自由了,現在這種自由正在走向高中 初中。 小胖子 我推薦這款軟體的主要原因是這是一款免費的語音轉文字軟體,相比起其他收費產品,這個錄音神...

哪一家的中文 TTS engine 文字至語音引擎 最好?

抹茶醬 TTS是Text To Speech的縮寫,即 從文字到語音 是人機對話的一部分,讓機器能夠說話。說白了,TTS就是文字轉語音,或者說是文字合成語音。可以應用的行業就很廣泛了,從跟城市建設相關的能源製造等行業,到金融區塊鏈新零售大資料,到跟老百姓息息相關的教育購物交通醫療,無一離不開TTS的...

針對特定少數物件進行的語音 文字轉換訓練能否實現?

吳建民 利益相關,先安利一下廠裡的語音自訓練平台 模型在業務場景的識別率平均訓練提公升5 25 真正有效解決了 垂直場景中語音識別的文字不准 業務側對文字後處理難度很高 公司缺少模型訓練的演算法能力 等問題。一 如果是自研採用只有語音識別的解決方案,實踐上可能存在以下困難 錄音環境 裝置不可控。雖然...