如何用Kaldi做語音識別?

時間 2021-05-14 15:59:12

1樓:俞棟

Kaldi以前一直沒有很完善的文件,最近陳果果等出了一本書《Kaldi 語音識別實戰》fill 了這個gap。如果你是kaldi的初學者,建議可以看看這本書。

Kaldi提供的是語音模型的研發工具。Kaldi對一些常用資料集和任務有比較優化的recipe, 所以只要follow這些recipe你就能得到針對這些任務和資料的SOTA(或接近SOTA的)模型。有沒有這些優化的recipe其實非常重要,因為語音模型訓練過程一般都非常複雜,同一資料集和模型不同的人訓練出來的結果可能會有很大差距。

對於初學者來說,有時甚至根本不知道如何從頭到尾訓練乙個模型。

Kaldi本身其實不release資料集,但是kaldi使用了一些開源的資料集和資源,有一些資料集雖然不開源,但是很多學校和公司都買了,Kaldi也有相應的setup。Kaldi是乙個不斷演進的工具,語音技術也在一直迭代,所以Kaldi裡的 tool set一直在增加(kaldi使開源的),以使大家可以貢獻更好的模型和演算法,或在相同資料集上訓練更優的模型。

另外,Dan Povey最近加入了小公尺,在開發下一代的Kaldi。這個新Kaldi可能會在使用上更加友好。

如何看待語音識別大牛 Kaldi 之父 Daniel Povey 加入小公尺?會產生哪些影響?

Bang 小公尺手機系統可能會新增語音助手 或者只能語音之內的功能吧 小公尺可能會為自己的手機系統,翻譯機,以及各類只能家居定製語音管理功能 這有啥的?小公尺你別跳,你的技術都靠挖人弄來的。我們技術都是野生的,你能比?再說了你挖人來說不定這個人帶來了原來公司的技術,小公尺你這是剽竊啊,對啊就是剽竊b...

如何評價語音識別中RNN演算法,它與其他幾種演算法如DTW HMM ANN VQ等演算法比,優缺點是什麼?

按時間發展順序來 DTW Dynamic Time Warping 上古時代的方法,可以理解為模板匹配。只不過因為語音有語速等方面的擾動,所以用乙個動態規劃演算法來列舉兩段音訊匹配的對齊方式。也可以用 HMM 的方式來理解 DTW 兩個語音幀之間的歐式距離是 HMM 的發射概率,兩段語音的對齊方式類...

如何用通俗的語音解釋雙生子洋謬?

LiTi 因為時間並不是絕對的,在相對論中並沒有乙個唯一的絕對時間,相反地,每個人都有他自己的時間測度,這依賴於他在何處並如何運動。來自 時間簡史 第二章 空間和時間 就好比運動也是相對的一樣,你坐在一輛行駛的火車上,可以看做你和火車在向前走,也可以看做你和火車是靜止的,窗外的一切在向後走。這取決於...