語音前端和語音識別哪個更有研究價值？

1樓：關海欣

傳統語音頻號處理在國內原本比較小眾，主要面向語音通訊，近些年出現的遠場語音識別和AR需求把這個技術方向啟用了。現在的訊號處理從學術上與深度學習技術結合更加緊密，可以說深度學習技術的應用使得這個傳統技術煥發了青春，同時在工業界，訊號處理結合模型可以使得遠場（混響、雜訊、回聲、多人干擾）WER大幅下降，使得工業界對訊號處理人才的需求快速增加，同時拓展了產品想象空間。語音識別這一技術隨著深度學習技術發展和大規模資料應用，以及遠場資料模擬技術的應用，錯誤率不斷下降，但仍然面臨諸多挑戰，未來一段時期依然面臨人才短缺局面。

最後，深度學習無論在前端處理還是語音識別以及影象識別等各個人工智慧領域都發揮巨大推動作用，從模型架構到訓練準則及工具都有趨同的發展趨勢，可以把這個當作基礎學習，再考慮選擇乙個具體方向作為實踐。

2樓：Yi Luo

我的個人興趣在前端，所以寫乙個比較biased的個人意見好了。

先功利一點來看：如果所在的課題組沒有比較好的關於識別的積累，自己做識別相關的研究是比較累人且難以出成果的。這個領域的大佬一直是，並且在可預見的短期未來內仍然是比較固定的那幾個學界業界的組。

前端相對更輕量也更容易有成果，對個人或者小課題組來說我覺得是投入產出比比較高的。但是現實上來看，在短期內識別應該仍然是更好找工作的一方，但一旦識別的問題被基本解決（我覺得會在這幾年內發生），各處的研究中心轉向其他方向應該是必然會發生的，這部分的人才飽和問題也是乙個需要考慮的因素。

再從研究的角度看，我比較同意 @陳偉的說法，前端的應用場景完全不限於作為識別的前置模組，從聽感本身入手仍然有非常多可以提高的地方。乙個粗淺但直接的比較是，CV的classification error已經是人類水平，識別的WER也超過了人類水平，但類似於降噪等state of art system聽感上仍然與人類大腦預期應該擁有的能力有差距。情感識別、說話人識別等問題也是一樣。

從機器/人腦效能差這個方向來講，前端研究不僅有工業應用價值，也有非常多的研究價值。

從前後端結合的角度也仍然有不少提高的空間，但是由於我對識別端的最前沿了解不完備，就先不敢妄議了。

另外對 @陳偉的回答做一點補充，這幾年的demixing、denoising和separation已經是deep learning主宰了，DSP傳統演算法現在更多的已經淪為基本baseline或輔助工具了。以聽感作為objective的研究也已經開始冒頭，可能會是下一步的乙個小重點。

3樓：陳偉

前面幾個回答更多把前端訊號處理看成了語音識別的級聯前端，實際上前端訊號處理除了用於識別，還用於通訊，因此前端處理後語音的評價指標可能是聽感指標比如pesq，也有可能是wer，這部分的研究課題深度學習還沒攻克，主流的解混響、盲源分離等演算法仍然基於dsp傳統演算法，但目前的深度學習在前端的研究進展來看，聽感上的優化效果還是很明顯的，wer的優化仍然有很多任務作要做。另外和識別特別是模型類的研究相比，前端的實驗週期相對要短一些，這個對於學校研究而言研究成本要低一些。

語音識別研究儘管已經提公升很明顯了，但是更多實用場景的老問題仍然沒有解決，針對乙個實用問題比如口音、音訊場景分析、多語種混輸等方向做深做細也會很有趣。而且現在語音、影象等應用的邊界逐漸模糊，模型結構趨同的趨勢比較明顯，研究要麼在現有識別框架下在資料、神經網路複雜度上繼續下文章，要麼直接追求端到端的語音識別系統？如果是研究，我想後者更有吸引力，但是難度會更大。

4樓：四方之水

看下語音識別開源工具kaldi的發展大概可以看出語音識別演算法的發展現狀。kaldi深度神經網路最早的訓練工具稱為nnet1, 後來出了nnet2, nnet2在演算法做了很多的改進，新演算法能夠支援多程序訓練，同時對於relu, maxout啟用函式訓練發散的問題做了處理。儘管做了很多改進，但是nnet2的效能相比於nnet1卻沒有多大的提公升；前端訊號就不一樣了，在遠場識別當中，好的前端演算法將錯誤率從百分之五六十提公升到百分之一二十是很常見的事情；

5樓：王贇 Maigo

我覺得，前端確實是當前語音識別系統走向實用的乙個瓶頸。雖然在標準的資料集上，各種層出不窮的神經網路結構把錯誤率壓得越來越低，但這些標準資料集往往比較乾淨，模擬不了實際中會遇到的各種雜訊、通道情況。所以前端有相當的研究價值，尤其是在實用系統中（而不是學術上）。

如果你目前對前端的了解比對深度學習更多，那麼就選擇前端吧。希望你的研究能與語音識別相輔相成，互相促進 ^^

6樓：凃浩

非技術方面，你提到你是研一專碩且導師也不太學術向，不知道你是希望繼續往學術上走還是準備碩士畢業工作。如果是準備工作的話，你選擇的應該更多考慮市場需求而不是研究價值。

語音前端和語音識別哪個更有研究價值？

谷歌語音和訊飛語音，哪個對普通話的識別能力更強？

計算機視覺和語音識別

前端和網路安全哪個更有前途？

其他用戶還看了：