李開復在大學裡的語音識別系統已經達到96 準確率，為什麼市面上的語音識別系統都遠沒有達到？

1樓：Zhang fusu

李開復那個年代研究目標是單詞短句識別而且是安靜環境

如今研究目標是大規模文字識別+噪音回聲+各種方言

這明顯不是乙個難度級別的，別說機器就是人也會在複雜環境下聽不清對方說什麼

2樓：

在實驗室裡，讓輸入和執行環境可控是比較容易的，所以能得出乙個相對理想的結果。但如果要商業化量產化，則會有相當多的限制。

語音技術的指標除了正確率之外，還有乙個更重要的指標就是識別速度，除了演算法本身，此指標直接依賴於計算機硬體（CPU運算速度、記憶體容量）。而商業環境中硬體條件往往有限制，手機、嵌入式系統的CPU和記憶體都無法和伺服器相比，為了達到能夠接受的識別速度，只能放棄一部分識別率。嵌入式版的演算法、音庫、語法庫等都是縮減過的，就是因為在這些應用中識別速度的重要性高過識別率。

而且大部分商業應用中，語音應用並不是乙個主要功能（通常是個花哨的噱頭，比如siri），能分給語音模組的系統資源並不多。

另外就是輸入，像其他答案說的，實驗室基本在安靜環境、單一測試者的情況下測試，得到好的結果並不奇怪。但到了實際使用情況下就不一樣了，話筒質量、網路丟包、發聲人的語速、口音、環境雜音等等都會影響正確率。所以各種商業版產品的識別率比實驗室的資料差的很遠。

3樓：王贇 Maigo

語音識別系統的準確率與語音資料本身的特點有很大關係。

如果是在安靜環境中錄製的、照著底稿朗讀的語音，準確率確實可以達到96%。

但如果是在嘈雜環境中錄製的、自由發揮的語音（可能帶有口音、猶豫、反覆等現象），準確率就慘不忍睹了，可能只有30%~40%。

李開復在大學裡的語音識別系統已經達到96 準確率，為什麼市面上的語音識別系統都遠沒有達到？

在連續語音識別中，單個音素的HMM模型中的狀態到底對應什麼？

上大學住宿舍，沒有在我們系的宿舍裡住，全系就我乙個人在別的系寢室住，有必要去換宿舍嗎？

大學裡其他系的學生對體育系的偏見與誤解？

其他用戶還看了：

李開復在大學裡的語音識別系統已經達到96 準確率，為什麼市面上的語音識別系統都遠沒有達到？

在連續語音識別中，單個音素的HMM模型中的狀態到底對應什麼？

上大學住宿舍，沒有在我們系的宿舍裡住，全系就我乙個人在別的系寢室住，有必要去換宿舍嗎？

大學裡 其他系的學生對體育系的偏見與誤解？

其他用戶還看了：

大學裡其他系的學生對體育系的偏見與誤解？