CTI論壇(ctiforum.com)(編譯/老秦):Voci Technologies的Rahul Shankar討論了音頻質量,單詞錯誤率以及如何從語音識別系統(tǒng)中獲得最佳效果。
在數字音頻領域,音頻質量是對從電子設備輸出的音頻的準確性,保真度和清晰度的評估。
鑒于音頻是自動語音識別(ASR)系統(tǒng)的主要輸入,因此,音頻質量對于最大化此類系統(tǒng)的性能至關重要。
音頻質量越差,ASR系統(tǒng)的轉錄就越困難,這將導致轉錄的準確性降低。
Rahul Shankar在Voci的部分職責包括評估客戶的音頻質量,并向客戶提出個性化建議,以優(yōu)化其音頻質量以生成最準確的筆錄。
因此,在本博客中,Rahul Shankar將討論最佳音頻質量實踐,以確保您的ASR系統(tǒng)發(fā)揮最佳性能。
確保高質量的通話記錄
如果您要錄制和制作音樂,則無需進行任何后期處理就可以解決由于樂器錄制不佳而引起的問題。
不管是什么原因引起的問題(例如,麥克風放置不當,背景噪聲,混響問題),如果原始錄音的質量很差,在后期制作中就幾乎無計可施。
這幾乎完全適用于語音到文本技術。與所有其他因素相比,質量差的源音頻對字錯誤率(WER)的影響更為嚴重。
這就是為什么。人腦具有將聽覺注意力集中在特定刺激上的能力,同時濾除一系列其他刺激。
例如,參加聚會的人可以專注于嘈雜房間中的單個對話。(鑒于這種例子的普遍性,這種能力通常被稱為雞尾酒會效應。)
ASR系統(tǒng)無法做我們人類所能做到的--將注意力集中在特定的刺激上。它將所有刺激視為聲音輸入。引入失真的聲學背景(例如在上面的雞尾酒會示例中)將大大降低ASR的有效性。
對于某些背景噪聲源(例如電視,廣播/音樂,交通噪聲等),識別引擎可能會對其進行調整或解決。
但是,與語音共享相同頻率范圍的源更具挑戰(zhàn)性。例如,請考慮是否有麥克風接聽附近的呼叫中心座席。
一個人可以輕松地區(qū)分聲音。一個ASR系統(tǒng)卻會發(fā)現非常困難。ASR無法徹底可靠地濾除的任何背景噪聲都會對WER產生不利影響。因此,高質量的記錄很重要。
避免錯誤的轉碼
代碼轉換是一種編碼形式到另一種編碼形式的直接數模轉換,即將文件從一種格式更改為另一種格式。許多呼叫記錄系統(tǒng)都會這樣做,以最大程度地利用數字存儲空間。
在音頻轉碼中,有四種轉碼類型,每種類型對ASR轉錄的成功都有不同的影響:
無損到無損轉碼是唯一安全且建議的轉碼形式,因為在此過程中不會丟失音頻信息。
例如,從.wav文件轉換為.flac文件是無損壓縮的一個示例,通常用于節(jié)省磁盤空間而不影響質量。
磁盤上以8位/16kHz頻率運行的10分鐘單聲道。wav文件約為9.8MB,而flac壓縮后的同一文件約為5.6MB。
相反,兩種形式的有損轉碼都會降低質量。更糟糕的是,壓縮偽像是累積的。這意味著無損轉碼將在每次連續(xù)轉碼過程中導致質量的逐漸損失,這被稱為數字世代損失。
此過程是不可逆的,因此也稱為破壞性轉碼。因此,強烈建議不要在有損格式之間或之內進行有損格式的代碼轉換,并且可能會在自動轉錄過程中產生問題。
有損到無損的轉碼(又稱為上采樣)甚至更糟。它遭受雙重受損。此過程首先從有損文件的音頻質量差開始,然后增加未壓縮文件的文件大小。
由于首先創(chuàng)建(丟失)文件的(破壞性)轉碼過程中造成的信息丟失是永久且不可逆的,因此對文件進行無損轉碼只會增加文件大小,而不會提高質量。
明智地選擇編解碼器
這有點技術性,但是在研究通話記錄技術時,它是一項重要功能。
語音編碼的目標是在給定的比特率下使失真最小化,或在可接受的失真度下使比特率最小化。
但是,作為這種失真的客觀衡量指標的信噪比(SNR)與感知的語音質量并沒有很好的關聯。
因此,語音編碼器的性能通常使用主觀評分方法來衡量,該方法稱為平均意見評分(MOS)。
MOS的測量范圍為0-5.4.0-4.5的值稱為收費質量,代表用戶完全滿意。
這是公用電話交換網(PSTN,我們都知道的標準電話網)的正常值。它也是大多數VoIP電話服務提供商的基準。
即使仍可理解,MOS得分等于或低于3.6,也被許多用戶認為是不可接受的。
G711是實現最佳ASR性能的理想編解碼器。從理論上講,沒有任何編解碼器可以比G711更好地執(zhí)行,因為它提供了最佳的質量,沒有壓縮和最低的算法延遲。
在無法使用G711的情況下,應使用在MOS評估中始終穩(wěn)定在4.0以上的編解碼器,例如G726,G722.1和GSM-EFR。
聲明:版權所有 非合作媒體謝絕轉載
原文網址:https://www.callcentrehelper.com/get-best-speech-recognition-system-158324.htm