語音識別領域的最新進展目前是什麼樣的水準？

1樓：思念是病

語音識別目前大體都到了乙個大體能用的水準，而且距離真正的好用很有可能只是臨門一腳了。

但是這個臨門一腳或許有天就突然突破了，但是有的說法也認為要需要很長時間。在深度學習還多各種演算法不斷更新的時代，技術的迭代超速發展，可能幾年前的主流技術，現如今已經脫節了。也正是因為如此，很有可能今天講的最新技術明天就過時了。

對於進展方面可能各大廠商的技術差距越來越小，前幾天CV公司依圖做了乙個語音發布會，從各種評測的圖來看，個別場景下的識別率還要高於訊飛。但是綜合各來看最好的還是訊飛吧，畢竟多年積累，加上方言輸入法的落地，還是在這個圈很有地位的。

不過依圖科技才玩了一年語音就到了這個地步，這也驗證了現在技術這的都很好，而且很快就會變的更好。

2樓：怎麼說

前面的大大們主要是從技術層面說的，我從應用層面說下目前最新的進展，對於中文語音識別來說，就是——依舊還是不太能用的水準！至於是97%，98%，都沒有本質區別。

所謂能用，按照視覺AI領域的應用標準來看的話，就是超過人的識別水平。目前人臉識別在一些特定領域，比如火車站閘機口，人證比對，是可以達到超越人的準確率的。而語音領域的綜合應用，還遠遠沒有達到超越人的識別水平。

但語音識別在超過人類水平這件事上，跟視覺識別不一樣。視覺識別只超過陌生人的識別水平就能實現很多應用（閘機口，人證比對），而語音識別是要超過熟人的識別水平才行（因為你平時更多在跟熟人說話）。

跟熟人對話時，你要明白對方的意思，並不會僅僅是單靠當前的這句話，而是會結合上下文語境，也就是NLP的範疇。而這個「上」，可能是一句話，可能是一段話。而問題是，當前的NLP，基本上只能在本句話之內起到作用，或者是加上之前的一兩句話，範圍不會太多。

更大的問題是，這個「上」，也有可能不是一句話，而是乙個情景。

舉個栗子：

我送朋友到地鐵站道別，然後我轉頭，用略微急促點的語氣（畢竟在外面人多的場景）說「到閘機那慢點啊」。如果是一段語音，我想朋友肯定是能聽出來的，因為我們就在地鐵站。但對語音輸入法來說，能評判的標準就只有這句話了。

這個時候的結果就千差萬別。

用這個小程式就能對比一下：

事實上這句話如果反覆去說，每一次的識別結果都飄忽不定，你也很難說為什麼會這樣，這也許就是深度學習不可解釋性的體現吧……

所以，語音識別要走的路還有很多，不要再宣傳什麼97%，98%了，好像再過兩年就能100%了，離能用、好用，還差很遠。

3樓：

問問上海警察說不定你會遇到乙個去年（2017）幹一天活還要加班做把機器識別的上海話連蒙帶猜手工轉換普通話的工作（公認國內最好的付費語音識別服務）。還在有多少人工就有多少智慧型的時代。

4樓：李啟東

IBM T. J Watson研究院開發的中文語音識別系統連續三年在美國DARPA主辦的競賽中名列第一，該系統用於識別央視《新聞聯播》節目的錯誤率遠小於 5%，用於其他內容時……

5樓：新鮮的故事

現在已經有很多公司發聲說自己的語音識別率已經達到了97%甚至說是98%，但個人來看，在實際應用當中並沒有那麼大的精準識別，例如嘈雜環境，不標準的普通話，特別是帶有方言特性的語音，等等，這些都很大程度影響著語音識別的準確度。更遑論國語中相同音標的兩個詞彙了。按照目前的發展技術來看，隨著麥克風陣列等硬體技術的公升級，語音資料的收集，語音識別的準確流程還能提公升，但也只能無限接近於100%，但絕不可能做到完全準確。

不過如果互動方面做得更好的話，也是可以完全商用甚至軍用了。例如咪咕靈犀，siri這些語音助手，使用語音後肯定能更好的幫助我們的生活，把人們從繁瑣中解脫出來。

6樓：科大訊飛

從2023年深度學習興起，到2023年深度學習首次在語音識別任務取得成功以來，基於深度學習的語音識別取得了很大的突破。而在相關的技術方面的發展，從最初的前饋全連線神經網路(Feedforward fully-connected neural networks, FNN)，到後來的遞迴神經網路(Recurrent neural networks, RNN)特別是長短時記憶模型（Long short term memory, LSTM），以及目前包含數十層的深層全卷積神經網路（Deep fully convolutional neural networks, DFCNN），網路結構越來越複雜，也越來越能對語音的特性進行建模，相應的效果也越來越好。。

例如在語音識別Switchboard任務上，最新IBM已經可以將錯誤率降低到5.5%，而有經驗的轉寫人員在這個任務最好可以達到4.0%。

所以在這種安靜環境下的語音識別系統已經接近了人類的水平。目前也有很多實際的應用，例如手機端的訊飛輸入法的語音輸入功能，以及訊飛聽見實時轉寫系統等，當然語音識別還是乙個沒有完全解決的問題，目前的語音識別系統在強雜訊干擾情況下還很難達到實用化要求。但是對於人類的聽覺系統則有一種「雞尾酒會效應」，我們在具有背景雜訊干擾的情況下，可以將注意力集中在某乙個人的談話之中。

關於人類聽覺系統的這種功能目前語音識別系統還很難實現。

同時遠場識別也依然是乙個具有挑戰性的問題，目前遠場識別的錯誤率是近場的兩倍左右。所以解決遠場以及強雜訊干擾情況下的語音識別是目前的乙個有待進一步研究的問題。這方面目前的主要做法是將語音識別和麥克風陣列相結合。

通過陣列訊號處理技術，將多通道語音進行增強，然後後端再利用深度學習的方法進行聲學建模。顯然這種方案有待進一步優化，如：如何將陣列訊號處理技術和深度學習方法相結合，利用陣列訊號處理的知識指導深度神經網路的結構設計，從而直接從多通道語音頻號中學習多通道語音增強方法然後和後端聲學模型聯合優化。

此外目前的語音識別大多是乙個通用的系統，但是每個人發音以及用詞習慣都存在差異性，所以如何使得語音識別更加智慧型化也是乙個問題。目前訊飛輸入法已經可以支援很多方言的識別了，而且也針對性的提出了使用者的個性化識別策略，使得語音識別系統更加接近人類聽覺機理。

7樓：YJango

語音識別非常成熟了。但當要識別的聲音本身就不對時（噪音，重複，打斷等），依然頭疼。口音屬於variations，是深層神經網路善於解決的。

資料夠的話問題不大。換句話說語音理解才是問題。

看到題主說自己有聽力障礙時，恰巧我的研究就是多訊號語音識別。比如光訊號（影象），電訊號（神經活動）等。這是另乙個解決方向。

聲音是口腔內部各個發聲器官協作運動產生的結果，而發聲器官又是神經訊號控制的。這三者越往後越可靠，但越無法觀察。再加上本身都可以運動但不發聲，所以都是結合聲音一起使用。

比如說用口型資料和聲音資料結合來識別，直接降幾乎一半的錯誤率，甚至去掉語言模型依然很準確。但由於不可觀察，所以目前這方面研究的方向都是在訓練時利用多訊號，而識別時只用聲音頻號。利用的方法就有：

[聲音—>口型]生成模型 + 雙訊號模型。

口型作為隱式變數來建模。

口型作為特權資訊來調整語音識別模型的引數。

雖說不如真實的口型資料，但基本上可以獲取真實口型資料帶來提公升的50%左右。這樣的方法可以用在所有語音建模技術上並提高識別率。

雖然可以靠[聲音—>口型]生成模型來獲得資料用於其他資料庫的訓練，但由於兩個訊號的採集必須同時進行，最初的資料庫會很貴。比如用超聲，X-ray，MRI來採集口型資訊。

8樓：王贇 Maigo

安靜環境、發音標準情況下的語音識別已經完全可以實用了。

嘈雜環境、帶口音、不連貫等情況下的語音依然是萬年的老大難問題，而且專門針對這些問題的解決方法並不多。

目前的突破主要是在模型方面，神經網路先是逐步代替了原來的GMM-HMM語音模型，在最近出現的「端到端」模型[1]中，更是把詞典和語言模型也都「吃」掉了。

「端到端」模型最近也開始用上了注意力機制[2][3]，一方面解決了輸入輸出長度懸殊的問題，另一方面又模擬了人腦在每個時刻只注意區域性語音的特點。

[1] Miao, Yajie, Mohammad Gowayyed, and Florian Metze. "EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding.

" 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015.

[2] Bahdanau, Dzmitry, et al. "End-to-end attention-based large vocabulary speech recognition." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

IEEE, 2016.

[3] Chan, William, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition.

" 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

9樓：RandomWalk

目前語音識別主要問題還是複雜環境下的語音識別問題，比如遠場語音識別，帶雜訊語音識別等。

深度學習主要應用在聲學模型建模方面。

開源的project 可以看HTK和Kaldi語音識別系統的基本結構可以看看我這篇博文語音識別系統結構——鳥瞰

語音識別領域的最新進展目前是什麼樣的水準？

視覺生理研究的最新進展如何？

深度學習在語音增強方面的最新進展是什麼？

請問有誰了解中華字型檔工程的最新進展？

其他用戶還看了：

語音識別領域的最新進展目前是什麼樣的水準？

視覺生理研究的最新進展如何？

深度學習在語音增強方面的最新進展是什麼？

請問有誰了解 中華字型檔 工程的最新進展？

其他用戶還看了：

請問有誰了解中華字型檔工程的最新進展？