語音頻號處理中怎麼理解分幀？

1樓：正霖

語音方向研究生在讀，說說我的理解。

語音分幀

貫穿於語音分析全過程的是「短時分析技術」。因為，語音頻號從整體來看其特性及表徵其本質特徵的引數均是隨時間而變化的，所以它是乙個非平穩態過程，不能用處理平穩訊號的數字訊號處理技術對其進行分析處理。但是，由於不同的語音是由人的口腔肌肉運動構成聲道某種形狀而產生的響應，而這種口腔肌肉運動相對於語音頻率來說是非常緩慢的，所以從另一方面看，雖然語音頻號具有時變特性，但是在乙個短時間範圍內（一般認為在10~30ms），其特性基本保持不變即相對穩定，因而可以將其看作是乙個準穩態過程，即語音頻號具有短時平穩性。

所以任何語音頻號的分析和處理必須建立在「短時」的基礎上，即進行「短時分析」，將語音頻號分為一段一段來分析其特徵引數，其中每一段稱為一「幀」，幀長一般即取為10~30Ms。這樣，對於整體的語音頻號來講，分析出的是由每一幀特徵引數組成的特徵引數時間序列。

分幀一般採用交疊分段的方法，這是為了使幀與幀之前平滑過渡，保持其連續性。前一針和後一幀的交疊部分稱為幀移。幀移與幀長的比值一般取為0~1/2。

2樓：大音希聲

分幀加窗，進行短時傅利葉變換，便於從頻域處理，同時提高處理效率。

分幀就是把連續的若干個點設為一幀。

上圖中幀長25ms，幀移10ms，對每幀加窗處理。

語音頻號處理中怎麼理解分幀？

語音頻號處理領域有哪些牛人？

自動駕駛領域，有聲音頻號處理相關的研究工作嗎

如何評價中芯國際量產驍龍425處理器？中芯國際量產28nm處理器有啥好激動？

其他用戶還看了：