聲紋識別演算法有哪幾種?

時間 2021-06-03 13:02:18

1樓:卡日曲的狗

一張圖告訴你聲紋識別的演算法有哪些?

補充回答 10-11

知名聲紋技術廠商快商通的AI研發中心總監、快商通聲紋研發團隊的核心成員李稀敏博士在一次專訪中闡述過聲紋識別技術的發展過程,其將聲紋聲紋識別技術的發展總結為3個分水嶺

第乙個分水嶺是2023年。在2023年以前,進行聲紋識別驗證,主要是基於模板匹配,這種演算法基於訊號比對,通常要求比對雙方的內容相同,比如要驗證說「床前明月光」的人是誰,那驗證人也必須要說「床前明月光」才能驗證,如果他說「疑似地上霜」的話,驗證就不能完成。2023年以後,開始出現基於高斯混合模型的聲紋識別演算法,高斯混合模型是典型基於統計學習理論的方法,該演算法採用大量資料為每個說話人訓練模型,使用高斯混合模型驗證已經與文字無關了,即要驗證「床前明月光」的說話人時,說「疑似地上霜」也能夠驗證成功。

之後產生的許多主流研究方法都是在高斯混合模型的基礎上改進的,但高斯混合模型註冊語音的時間過長,無法滿足實際應用場景的需求,因此需要新的技術來突破限制。

第二個分水嶺是2023年左右,這時候出現了iVector/PLDA演算法。iVector最大的亮點在於,把語音對映到了乙個固定的且低維的向量上,這意味這所有機器學習的演算法都可以用來解決聲紋識別的問題了,因此這是乙個巨大的進步。PLDA是一種通道補償演算法,因為在iVector中,既包含說話人的資訊,也包含通道資訊,而我們只關心說話人的資訊,所以才做通道補償,目前PLDA是最好的通道補償演算法,但雜訊對結果依然有很大的影響。

第三分水嶺是在2023年,在第十一屆全中國人機語音通訊學術會議上,鄧力分享了他在微軟DNN-based speech recognition的研究結果,將識別率提公升了30%,這將聲紋識別的準確率一下子提公升了乙個層次。DNN能從大量樣本中學習到高度抽象的說話人特徵,並對雜訊有很強的免疫力,至此深度學習被引入業界,國內對聲紋識別技術的關注點也放到了深度學習上。

2樓:Leon晉

樓上提到的都是主流技術,我就再補充幾個,MFCC、Fbank、BNF特徵,GMM-UBM、ivector+PLDA/CDS、GMM+SVM、d-vector最近也挺火的自從谷歌帶起來

綠茶有哪幾種?

喝茶客 1,洞庭湖碧螺春 2,西湖龍井 3,黃山毛峰 4,太平猴魁 5,六安瓜片 6,信陽毛尖 7,廬山雲霧 8,恩施玉露 9,峨眉竹葉青 10,都勻毛尖 乙個愛茶的小白 中國綠茶聞名世界,其種類有許多,主要是根據產地來區分的 知名綠茶品種 龍井綠茶 碧羅春綠茶 信陽毛尖綠茶 黃山毛峰綠茶 廬山雲霧...

創業補貼有哪幾種?

子煜i 看你是哪個城市的,每個城市的具體政策不一樣,具體詳情可以去創富港了解一下,全國十大城市都有。1 場租補貼。自主創業人員可在初創企業實際繳納場租滿3個月後,提出首次場租補貼申請,填寫補貼申請表,並提交相關材料。2 初創企業補貼。自主創業人員可在初創企業正常經營滿6個月以後提出初創企業補貼申請,...

劍道架勢有哪幾種?

中段刀下段刀上段刀 側刀單手劍 忍刀雙刀 居合刀空手架勢?重新回憶了一下侍道,貌似只出現過這幾種。不得不說居合刀當真是大佬最愛,侍道系列中使用居合刀的人物幾乎都是高手。不過3代後就氾濫了。 九郎義経 什麼是架勢?在日本武術中,架勢主要被稱呼為構 構 kamae 和中國傳統武術中 架子 的概念是類似的...