說話人識別的技術原理是什麼?

時間 2021-06-03 06:53:06

1樓:dormir

如果你的目的只是做切割的話, 也可以看一下pyannote audio 裡面的 speaker change detection 部分。有問題可以互相交流啊。

2樓:Ever

再說一下這個問題的背景以及目前的進展。

業務場景先假定2人對話,且其中乙個人是固定的(我們的使用者,簡稱使用者方),且不考慮同時說話的情況(重疊)。

對於使用者方,我們可以要求使用者上傳聲音樣本用於訓練乙個模型。

使用者今天可能跟a對話,明天會跟b對話,後天可能跟c對話。也就是該使用者的交談物件(簡稱路人)是不確定的。

模型採用簡單的基於MFCC特徵的GMM。目前根據路人的性別訓練了兩個通用模型(樣本來自一些免費的語料庫,例如廣播錄音,還有清華大學的某個語料庫。每個性別分別大概有200人,每人3到5分鐘左右樣本)。

如果是男女對話的話,識別效果很好。

但如果使用者跟路人是同性別的話,識別就很糟糕。

如果專門針對特定路人做乙個專屬模型的話,就算是同性別,識別效果也還可以。但是路人每天都在變化,為每乙個路人訓練專用模型似乎划不來,技術上也難做到(目前是人肉切割一段路人錄音來做訓練)

需要指出的是,實際對話音訊會有環境雜訊,然後訓練的樣本普遍噪音較小。

目前就是有種迷茫,不知道路子走的對不對,如何提高路人的識別率, 希望各路大神指點

語音識別的技術原理是什麼?

李紹榆 在開始語音識別之前,有時需要把首尾端的靜音切除,降低對後續步驟造成的干擾。技術原理,這個靜音切除的操作一般稱為VAD,需要用到訊號處理的一些技術。要對聲音進行分析,需要對聲音分幀。 利爾達 語音識別系統構建過程整體上包括兩大部分 訓練和識別。訓練是指對預先收集好的語音進行訊號處理和知識挖掘,...

miniled技術原理是什麼?

我預設你問的是miniled電視,回答之前,先來說一下led電視。當年,三星把led背光液晶電視命名成led電視,然後一眾電視機廠家跟風,所以led背光液晶電視,被稱作了led電視 現在的miniled電視也就是miniled背光液晶電視。和以前的區別在於led晶元的大小。以前led背光液晶電視分為...

無線充電技術的原理是什麼?

無線充電就是利用磁場之間的感應,然後實現給給手機使用無線連線充電的功能。幫助駕駛員 居家 商場 候車室等多種壞境使用,為你帶去更多便利,方便更好的使用和代步等。就像下面這種型別了,基本上實現了給所有的智慧型手機無線充電,針對多機型 多品牌 多型號等,更好在出行和使用等方面為你帶去方便。在功能方面 1...