李開復在大學裡的語音識別系統已經達到96 準確率,為什麼市面上的語音識別系統都遠沒有達到?

時間 2021-06-02 23:44:53

1樓:Zhang fusu

李開復那個年代研究目標是單詞短句識別而且是安靜環境

如今研究目標是大規模文字識別+噪音回聲+各種方言

這明顯不是乙個難度級別的,別說機器就是人也會在複雜環境下聽不清對方說什麼

2樓:

在實驗室裡,讓輸入和執行環境可控是比較容易的,所以能得出乙個相對理想的結果。但如果要商業化量產化,則會有相當多的限制。

語音技術的指標除了正確率之外,還有乙個更重要的指標就是識別速度,除了演算法本身,此指標直接依賴於計算機硬體(CPU運算速度、記憶體容量)。而商業環境中硬體條件往往有限制,手機、嵌入式系統的CPU和記憶體都無法和伺服器相比,為了達到能夠接受的識別速度,只能放棄一部分識別率。嵌入式版的演算法、音庫、語法庫等都是縮減過的,就是因為在這些應用中識別速度的重要性高過識別率。

而且大部分商業應用中,語音應用並不是乙個主要功能(通常是個花哨的噱頭,比如siri),能分給語音模組的系統資源並不多。

另外就是輸入,像其他答案說的,實驗室基本在安靜環境、單一測試者的情況下測試,得到好的結果並不奇怪。但到了實際使用情況下就不一樣了,話筒質量、網路丟包、發聲人的語速、口音、環境雜音等等都會影響正確率。所以各種商業版產品的識別率比實驗室的資料差的很遠。

3樓:王贇 Maigo

語音識別系統的準確率與語音資料本身的特點有很大關係。

如果是在安靜環境中錄製的、照著底稿朗讀的語音,準確率確實可以達到96%。

但如果是在嘈雜環境中錄製的、自由發揮的語音(可能帶有口音、猶豫、反覆等現象),準確率就慘不忍睹了,可能只有30%~40%。

在連續語音識別中,單個音素的HMM模型中的狀態到底對應什麼?

杜旭浩 感覺HMM三狀態可能是因為前面答主說的 入音 持續音 出音 來解釋,也可以同 2.發音一般包含3個共振峰 來解釋,感覺不同的解釋會引導到針對不同語音對HMM狀態做不同的調整的結果。 我引用一下上面 jinming 的回答 乙個音素三個狀態不應該是乙個音素的起始音持續音結束音嗎?音素一般是三狀...

上大學住宿舍,沒有在我們系的宿舍裡住,全系就我乙個人在別的系寢室住,有必要去換宿舍嗎?

我說 真的沒必要,不同的系反而能交到更多好友,更何況是大學,乙個系的同學只是一塊去上課而已,能一塊約飯的反而是室友。而且不同的繫住在一塊得到新鮮訊息的速度也快,知道的八卦也多。 滿月 看你自己相處的怎麼樣了 其實你們不是乙個系的,平時如果課多接觸就比較少,沒有什麼特別過分的室友的話,相處還是很融洽的...

大學裡 其他系的學生對體育系的偏見與誤解?

齊家 誤解你太對了,因為你就是不如其它學科的人聰明.你看知乎上各個從業者都在勸退,勸別人別學自己這個專業,這專業有多坑。生化環材,土木這些也就算了,現在連學計算機的,學金融的都天天喊996 好像人家跑工地的不是996似的 說壓力多麼大多麼大.為什麼這樣?還不是擔心僧多肉少?巴不得天下就他乙個人學這個...