一、TTS簡介
TTS文語轉換用途很廣,包括電子郵件的閱讀、IVR系統(tǒng)的語音提示等等,目前IVR系統(tǒng)已廣泛應用于各個行業(yè)(如電信、交通運輸等)。
TTS所用的關鍵技術就是語音合成(SpeechSynthesis)。早期的TTS一般采用專用的芯片實現,如德州儀器公司的TMS50C10/TMS50C57、飛利浦的PH84H36等,但主要用在家用電器或兒童玩具中。
而基于微機應用的TTS一般用純軟件實現,主要包括以下幾部分:
文本分析-對輸入文本進行語言學分析,逐句進行詞匯的、語法的和語義的分析,以確定句子的低層結構和每個字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數字的處理、縮略語的處理等。
語音合成-把處理好的文本所對應的單字或短語從語音合成庫中提取,把語言學描述轉化成言語波形。
韻律處理-合成音質(Qualityof Synthetic Speech)是指語音合成系統(tǒng)所輸出的語音的質量,一般從清晰度(或可懂度)、自然度和連貫性等方面進行主觀評價。清晰度是正確聽辨有意義詞語的百分率;自然度用來評價合成語音音質是否接近人說話的聲音,合成詞語的語調是否自然; 連貫性用來評價合成語句是否流暢。
TTS純軟件處理的流程如下:
在語音輸出階段,語音輸出的方式取決于具體的應用。
要合成出高質量的語音,所采用的算法是極為復雜的,因此對機器的要求也非常高。算法的復雜度決定了目前微機并發(fā)進行多通道TTS的系統(tǒng)容量。
二、TTS在CTI的應用中的基本構架
在一般的CTI應用系統(tǒng)中,都會有IVR(交互式語音應答系統(tǒng))。IVR系統(tǒng)是呼叫中心的重要組成部分,通過IVR系統(tǒng),用戶可以利用音頻按健電話輸入信息,從系統(tǒng)中獲得預先錄制的數字或合成語音信息。具有TTS功能的IVR可以加快服務速度,節(jié)約服務成本,使IVR為呼叫者提供7*24小時的服務。
目前常見的IVR系統(tǒng)大都是通用的工控機平臺上插入語音板卡組成,并支持中文語音合成TTS等技術。
基本構成如下圖所示:
一個典型的包含TTS服務的電話服務流程可分為:
用戶電話撥入,系統(tǒng)IVR響應,獲得用戶按鍵等信息。
IVR根據用戶的按鍵信息,向數據庫服務器申請相關數據。
數據庫服務器返回文本數據給IVR。
IVR通過其TCP通訊接口,將需要合成的文本信息發(fā)送給TTS服務器。
TTS服務器將用戶文本合成的語音數據分段通過TCP通訊接口發(fā)送給IVR服務器。
IVR服務器把分段語音數據組裝成為獨立的語音文件。
IVR播放相應的語音文件給電話用戶。
一般的公網接入(IVR)大都采用工控機+語音板卡,而合成的語音數據則通過局域網傳給IVR。這種結構只適用于簡單的應用場合。
如果用這種方式去組建較大的系統(tǒng),則會存在諸多問題:
1、兩個瓶頸
(1)接入瓶頸:
單臺工控機的接入容量一般不超過8E1為宜。除了運行應用程序外,它還要控制兩個實時端口:實時地通過局域網接收語音數據,并要實時地將接收到的語音數據通過PCI(或ISA)總線傳遞給語音板卡,如下圖所示。
通過局域網傳遞語音數據本來就不能保證其時實時性,其結果就是用戶聽到的語音經常斷續(xù),保證不了語音質量。如果傳遞的語音數據是經過壓縮的,語音數據本來就是通過TTS進行合成的,再經過壓縮,則音質會有很大的損傷,因此同樣保證不了語音質量。從上圖中我們可以看到,經TTS合成的語音數據從局域網經過網卡,再通過主板PCI(或ISA)總線進入語音卡,最后進入電信網,同樣語音數據通過計算機主板經PCI(或ISA)總線進入語音卡也要求是實時的。這兩種實時性的要求會導致在接入量比較大的情況下,會給計算機的總線造成很大的負擔。因為總線的帶寬(數據吞吐量)是有限的。況且其它的板卡和接口(如聲卡、顯示卡等)也要直接或間接地占用總線。因此在接入量比較大的情況下,計算機的總線帶寬會成為一個比較關鍵的瓶頸。即便提高語音板卡的接入能力。在有大量電話接入的情況下,由于語音數據實時性的要求,也不能保證語音質量。
(2)I/O插槽和語音板卡容量的限制:
目前計算機的I/O插槽,特別是PCI插槽有限,不可能插入大量的語音板卡,再加上語音板卡的容量不會太高,因此單臺計算機的接入能力相對較小。要組建比較大的系統(tǒng),就必須采用多臺計算機接入,這就必然會引入機間交換的問題。用語音板卡和多臺機器構建大中型CTI系統(tǒng)時,機器間要通過電纜連接才能使系統(tǒng)同步運行,但交換用的時鐘同步信號和數據信號的頻率很高,極易受到外界干擾,造成系統(tǒng)的不穩(wěn)定。
2、系統(tǒng)復雜度的限制
基于語音板卡構建較大規(guī)模的應用系統(tǒng)時,除了系統(tǒng)穩(wěn)定性的因素外,還要考慮系統(tǒng)的復雜度。對一個應用系統(tǒng)來說,除上面提到的因素外,復雜度本身就是影響系統(tǒng)穩(wěn)定性的要素之一。除此之外,系統(tǒng)復雜度的增加,會使系統(tǒng)的靈活性和可維性降低,從而導致系統(tǒng)未來維護、升級的成本和難度大大增加。
3、開發(fā)成本的考慮
很大一部分系統(tǒng)集成商,對硬件設備的一次購入成本考慮地較多,而開發(fā)方面的成本往往容易忽略。隨著人力成本的日益凸顯,使得一個應用系統(tǒng)的開發(fā)成本越來越不容忽視。系統(tǒng)的開發(fā)如同搭積木,系統(tǒng)規(guī)模較小,用小積木搭建會更經濟一些。而用小積木構建大系統(tǒng)會使積木塊的數量增加,而這些積木塊又要協(xié)同工作,因而對開發(fā)人員能力和經驗的要求會增加,同時系統(tǒng)開發(fā)周期也會加長,而系統(tǒng)的維護難度也隨之增加。這些因素都會導致在一個系統(tǒng)的生命周期內,其綜合運行成本的增加。
三、鼎銘基于分布式構架的可編程交換機在大容量TTS中的應用
深圳鼎銘電子技術有限公司推出的基于分布式構架的具有高速數據傳輸性能的可編程交換機,給CTI應用帶來了革命性的變化,獨有的分布式傳輸構架使其交換機的整體性能和目前國內外同類可編程交換機比較,有了根本上的超越。
鼎銘高速數據傳輸板置于其可編程交換機內,外部可以和多臺PC或工控機相連,因為可編程交換機可以級聯(lián),所以可以和外部連接的PC或工控機理論上沒有特別限制。這樣可編程交換機的內部I/O總線(類比于PC機的PCI或ISA總線)就不再傳輸實時數據(如語音數據),而只負責非實時性的管理和信令數據,語音或其它實時數據從外部PC直接傳入可編程交換機的高速數據傳輸板,然后通過交換直接進入外部公共電信網(PSTN)。
而對于需要錄音的語音或其它實時數據則從外部公共電信網(PSTN)通過可編程交換機內部的交換直接進入高速數據傳輸板,再輸出到外部PC或工控機。這就解決了上面提到的實時語音數據的傳輸瓶頸問題。而可編程交換機本身的優(yōu)勢就在于它的高密度接入,對可編程交換機而言就不存在接入瓶頸問題。
除了解決上述兩個瓶頸問題,我們再來看看這種結構的交換機帶來的其它優(yōu)勢:
首先,在解決實時數據瓶頸問題的同時,因為實時數據不再通過內部的I/O總線,從而減輕了I/O總線負擔,同時CPU的負擔也大大減輕了,而和高速數據板連接的外部PC所運行的應用程序也單一化了(如錄音/放音、TTS、ASR等),而且具有了很強的可復制性。從而使基于可編程交換機構建的應用系統(tǒng)的復雜度大大降低,穩(wěn)定性和可靠性大大提高,從而在很大程度地降低了系統(tǒng)的開發(fā)成本和運行維護成本。另外,可編程交換機的專有電源系統(tǒng)也使系統(tǒng)穩(wěn)定性和可靠性大大加強。
另外,鼎銘可編程交換機的這種構架,使整個交換機平臺具備了很強的開放性,捆綁獨立的第三方產品(如TTS、ASR等)非常方便,第三方產品只須改向一下輸出管道就可以了,產品本身無需作任何改動,因此更好地實現了第三方產品的價值。同時,又降低了最終客戶的系統(tǒng)構建成本。
正是因為鼎銘可編程交換機從技術上突破了高速實時數據傳輸的瓶頸問題,真正意義上實現了分布式的客戶機/服務器體系結構,所以也特別適合構建大容量的彩話系統(tǒng)、彩鈴系統(tǒng)、電話QQ等電信增值系統(tǒng),以及大容量的錄放音系統(tǒng)、TTS、ASR等應用系統(tǒng)。
下圖示意了基于鼎銘可編程交換機構建的大容量TTSIVR系統(tǒng)。TTS服務的電話服務流程變?yōu)椋?/P>
用戶電話撥入,接入系統(tǒng)(IVR)響應,獲得用戶按鍵等信息。
IVR根據用戶的按鍵信息,向數據庫服務器申請相關數據。
數據庫服務器返回文本數據給IVR。
IVR通過局域網,將需要合成的文本信息發(fā)送給TTS服務器。
TTS服務器將用戶文本合成的語音數據直接輸出到可編程交換機的高速數據傳輸板。
高速數據傳輸板再將語音數據變成串行數據輸出到交換總線(無需CPU干預)。
交換總線的語音數據通過接入端口進入公用電話網或公用數據網,電話用戶聽取相關語音。
(來源:通信世界)