業內關於語音合成有什麼評估標準嗎？

1樓：標貝科技

有的。一般來說，語音質量至少包括三個方面的內容：清晰度、可懂度和自然度。

清晰度是指語音中語言單位為意義不連貫的（如音素、聲母、韻母等）單元的清晰程度；

可懂度是指語音中有意義的語言單元（如單詞、單句等）內容的可識別程度；

自然度則是與語音的保真性密切相關。

目前，對語音可懂度、清晰度的主觀評測已有國際和國內的標準，而對於語音的自然度，還缺乏公認的評價標準。

對於語音合成來說，高自然度是語音企業的兵家必爭之地。

一、主觀的評測方法

語音質量受到個人、周圍環境、語音特徵、背景雜訊等多方面複雜的影響因素，用於評價輸出語音質量的方法分為主管和客觀兩種評價方式。

常見的主觀評價方法有：平均意見分方法（MOS，Mean Opinion Score）、判斷韻字測試（DRT，Diagnostic Rhyme Test）、失真平均意見分（DMOS，Degradation Mean Opinion Score）、判斷滿意度測試方法（DAM，Dignostic Acceptability Measure）和漢語清晰度測試。

其中，MOS得分方法是由CCITT推薦的主觀評價方法，現已廣泛作為不同系統之間的比較標準。它採用五級評分制

MOS評分評測對應表

MOS評測方法簡單易操作，評測者只需要進行簡單的訓練就能參與評測，因而容易完成。

二、客觀的評測方法

那如何進行語音質量的客觀評估呢？

其實，業界對人類的感官感知和神經資訊處理機制做了大量的研究並取得了一定的成果，但由於人們對人類感知的技利和大腦活動的運作方法仍處於一知半解的階段，因此，我們還無法建立乙個能完全模仿人類音質感知過程的客觀評價系統，只能根據所獲得的資訊做出盡可能正確的評價，所建立的客觀評價模型也與人類所感知的評價能力相去甚遠。

因此，客觀評價並不能完全取代主觀評價。

在實際運用中，通常將主觀評價和客觀評價結合使用，客觀評價常用於系統的設計、調整以及現場實時監控階段，主觀評價作為實際效果的最終檢驗，兩者相輔相成，用於不同場合。

其次，客觀評價系統的優劣取決於由它得到的客觀評價解國與主觀評價結果是否具有統計意義上高相關性以及小的偏差，因此客觀評價系統的設計必須以主觀評價為基礎，並借鑑主觀評價主體的感知工能和智慧型特性。

以上囉嗦，一句話總結：

人耳，是一切聲音的最高檢驗標準。

下班，收工。

業內關於語音合成有什麼評估標準嗎？

有什麼隊內關係不好的韓團？

有機合成實驗有什麼奇技淫巧？

玩過Soul語音匹配的，有什麼感受

其他用戶還看了：