前言
語音電話機器人是具有自動撥打電話、接聽電話、多輪語音交互、智能意向判斷等多種功能的智能對話機器人。語音機器人可以快速挖掘潛在用戶,及時解決用戶問題,進(jìn)而提高服務(wù)質(zhì)量和服務(wù)效率,在房地產(chǎn)、金融、教育、銀行、保險、電商等行業(yè)廣泛應(yīng)用。機器人相對于人工坐席,具有成本低、效率高、工作態(tài)度穩(wěn)定,數(shù)據(jù)記錄全面等優(yōu)勢,具體對比如下:
搭建語音機器人方案
下面我們將從工作流、系統(tǒng)設(shè)計與匯港通機器人搭建三部分介紹如何利用匯港通平臺搭建智能語音機器人。
一、工作流
我們來考慮一個基本的、完整的語音對話的運作流程:
上述的流程涉及到了語音對話場景中三個主要的步驟:用戶接起/呼入、客服應(yīng)答并等待用戶下一步動作、用戶動作/無動作。每一步驟都有自己特定的需求,一個智能的語音呼叫系統(tǒng),應(yīng)當(dāng)能較好地處理這些需求。
用戶接起/呼入:呼叫流程的開始,語音呼叫系統(tǒng)應(yīng)該要支持接通、識別用戶的呼入信號與呼出接通信號等。
客服應(yīng)答并等待用戶下一步動作:在呼入場景下,語音呼叫系統(tǒng)要能夠識別用戶的呼入意圖,并給出用戶回復(fù)。在呼出場景下,基于呼叫話單,語音呼叫系統(tǒng)要能夠進(jìn)入任務(wù)流程,給出詢問的話術(shù)。
用戶動作/無動作:用戶的所有下一輪反應(yīng)可以歸納為用戶動作和無動作。語音呼叫系統(tǒng)應(yīng)該要能合理地處理用戶動作和無動作,并給出用戶回復(fù)。
二、系統(tǒng)設(shè)計
基于以上的語音呼叫工作流,我們先從整體上介紹語音呼叫系統(tǒng)的技術(shù)架構(gòu)與呼叫流程。
技術(shù)架構(gòu)
語音呼叫系統(tǒng)的技術(shù)架構(gòu)主要包含以下七大模塊:
-
通訊管理模塊:SIP Server包括FreeSWITCH[1]電話系統(tǒng)和通信線路,使用SIP Trunk技術(shù),負(fù)責(zé)語音/按鍵流的輸入輸出,以及轉(zhuǎn)人工參數(shù)傳遞等。
-
語音模塊:負(fù)責(zé)語音相關(guān)的操作,包括語音識別(ASR)、語音合成(TTS)、端點檢測(VAD)以及錄音播放等,通過HTTP接口形式和其他模塊通信。
-
中控模塊:中控模塊是語音呼叫系統(tǒng)的集成模塊,負(fù)責(zé)和其他系統(tǒng)及模塊對接,打通和控制整個呼叫流程。主要任務(wù)是將ASR識別結(jié)果傳入對話機器人,并將機器人返回的指令,轉(zhuǎn)換成電話系統(tǒng)控制指令,實現(xiàn)放音、轉(zhuǎn)人工、掛機等流程的控制。
-
存儲模塊:負(fù)責(zé)將和通話相關(guān)的必要信息存儲到數(shù)據(jù)庫,方便后續(xù)的質(zhì)檢工作。
-
防騷擾模塊:負(fù)責(zé)中控模塊話單的撥打控制,通過一定的防騷擾策略設(shè)置,避免對同一號碼的反復(fù)撥打。
-
CRM模塊:工單模塊負(fù)責(zé)工單任務(wù)的創(chuàng)建和業(yè)務(wù)的處理,也可以查看話單撥打結(jié)果、查詢通話錄音、人工回?fù)?/strong>等業(yè)務(wù)操作。
-
機器人管理模塊:機器人模塊是系統(tǒng)解決方案中的AI賦能系統(tǒng),包括基于業(yè)務(wù)流程的任務(wù)機器人,和基于知識庫的問答機器人。
智能語音流程
語音呼叫(呼出)流程主要包括:創(chuàng)建呼叫任務(wù)流程和撥打流程。
創(chuàng)建呼叫任務(wù)流程,涉及到CRM模塊、防騷擾模塊、中控模塊和語音外呼模塊(包括通訊管理模塊與語音模塊)等系統(tǒng)模塊。主要流程包括:
-
業(yè)務(wù)人員通過CRM模塊上傳呼叫話單,并對話單加密,保護(hù)用戶隱私信息;
-
中控模塊通過防騷擾模塊過濾話單號碼,并為通過驗證的號碼創(chuàng)建自動呼叫任務(wù);
-
外呼模塊拉取話單,為下一步進(jìn)入撥打流程做好準(zhǔn)備。
撥打流程,涉及到通訊管理模塊,語音模塊、中控模塊、機器人管理等主要的模塊。具體流程包括:
-
外呼模塊通過線路開始撥打用戶電話;
-
待電話接通后,開始一個語音/動作處理的循環(huán)流程。呼叫模塊(通訊管理模塊,語音模塊)將SIP流語音信息/用戶動作識別為文本信息/用戶動作事件,并將這些信息推送到中控模塊;
-
中控模塊將ASR識別結(jié)果傳入?yún)R港通平臺,并將任務(wù)機器人返回的指令,轉(zhuǎn)換成電話系統(tǒng)控制指令;
-
外呼模塊負(fù)責(zé)實現(xiàn)放音、轉(zhuǎn)人工等流程的控制。之后再開啟一個語音/動作處理流程;
-
待用戶主動掛機,或匯港通平臺控制掛機后,中控模塊收集用戶掛機報告、用戶錄音文件報告等信息進(jìn)行數(shù)據(jù)存儲,以備后續(xù)查詢。
語音內(nèi)呼(呼入)流程主要包括撥打流程,涉及:CRM模塊、中控模塊和呼入模塊等系統(tǒng)模塊。具體流程包括:
-
用戶通過線路開始撥打電話;
-
待電話接通后,開始一個語音/動作處理的循環(huán)流程。內(nèi)呼模塊將SIP流語音信息/用戶動作識別為文本信息/用戶動作事件,并將這些信息推送到中控模塊;
-
中控模塊收到通話文本信息后,中轉(zhuǎn)通話信息到匯港通平臺;
-
匯港通平臺進(jìn)行意圖識別(NLP),再根據(jù)機器人流程進(jìn)行對話控制,并返回回復(fù)給到中控模塊。此過程也會調(diào)用CRM模塊自動創(chuàng)建工單,用于后續(xù)業(yè)務(wù)的處理;
-
中控模塊根據(jù)協(xié)議內(nèi)容響應(yīng)呼入模塊;
-
呼入模塊根據(jù)回復(fù)內(nèi)容播放相應(yīng)的錄音文件,或者進(jìn)行語音合成并播放,或者進(jìn)行轉(zhuǎn)人工等操作;
待用戶主動掛機,或匯港通平臺控制掛機后,呼入模塊發(fā)送用戶掛機報告、用戶錄音文件報告等信息,中控模塊進(jìn)行數(shù)據(jù)存儲,以備后續(xù)查詢。
語音呼叫流程的實現(xiàn),得益于匯港通對話機器人平臺。在語音場景下,匯港通電話機器人平臺在處理用戶接起/呼入、消息應(yīng)答等方面有著很大的優(yōu)勢。下面圍繞電話機器人流程搭建、痛點問題、效果優(yōu)化三方面,來介紹如何基于匯港通平臺搭建智能語音機器人。
匯港通機器人流程搭建
+
1) 觸發(fā)任務(wù)
語音機器人和文本機器人在任務(wù)的觸發(fā)上稍有不同。文本機器人可以通過用戶輸入的文本信息直接進(jìn)入后續(xù)流程,語音機器人則需要在用戶撥打電話或者接聽電話時,由語音呼叫模塊發(fā)送指定的觸發(fā)詞到匯港通平臺,觸發(fā)詞觸發(fā)任務(wù)機器人后進(jìn)入對話流程。通過觸發(fā)任務(wù),語音呼叫系統(tǒng)完成了用戶接起/呼入的任務(wù)。
2) 會話流程
會話流程應(yīng)該要解決兩個問題:用戶動作識別與機器人應(yīng)答。
用戶動作一般可以歸納為以下幾種類型:
-
靜默:靜默指在等待用戶動作時,用戶沒有按鍵、說話等其他可以被歸納或識別的動作,也可以稱之為靜音/用戶不回答/無應(yīng)答。
-
拒絕:明確拒絕,明確拒絕所介紹的產(chǎn)品或服務(wù),一般常見于外呼場景,例如:不需要、不考慮、沒有打算、不感興趣等。
-
否定:對AI說的話的否定,如您之前預(yù)約過我們公司的課程是吧?用戶如果回答不知道,并不是拒絕AI介紹的產(chǎn)品或服務(wù),而是對AI某些問答的否定。
-
肯定:用戶希望向下一步或者判定可以繼續(xù)向下走,類似同意、可以、登記等。
-
自定義的業(yè)務(wù)選項:如您想辦理什么業(yè)務(wù)呢?代收快遞、門衛(wèi)放行等自定義意圖。
-
未識別:也可稱之為拒識,一般還要分為兩個層級,不在當(dāng)輪任務(wù)中所列選項,或者調(diào)用問答知識庫之后仍沒能召回知識點。
-
任意回復(fù):也稱作任何回復(fù)
-
其他特殊反應(yīng):如未聽清、再說一遍(重說)、信號不好、你是誰、哪里的、干嘛的、什么事等。
對于上述的一些用戶動作,匯港通平臺使用實體抽取的方法。實體和詞槽是任務(wù)機器人在對話過程中需要理解的特定信息,對話管理則負(fù)責(zé)對詞槽進(jìn)行填充、更新或清空,并控制對話的流程。當(dāng)用戶動作被發(fā)送到匯港通平臺后,可以根據(jù)用戶的動作,來決定后續(xù)會話的流程,并獲得機器人應(yīng)答。
機器人應(yīng)答涉及以下幾個方面:
-
根據(jù)用戶意圖進(jìn)入任務(wù)流程:基于歷史的咨詢語料以及內(nèi)外呼熱點問題, 總結(jié)出一些業(yè)務(wù)流程,機器人通過多輪對話的方式和用戶進(jìn)行交互,幫用戶完成任務(wù)。用戶語音回復(fù)話術(shù),機器人基于NLU識別出用戶的意圖,如肯定,否認(rèn),拒絕服務(wù),在忙,提問等,語音呼叫模塊識別語音/動作后,通過中控發(fā)送給機器人,并跳轉(zhuǎn)到下一步任務(wù)。
-
任務(wù)流程切換:意圖的切換與保持,允許在一個流程未完成的情況下,切換到另一個任務(wù)中。切換后,原任務(wù)的對話流程可以保持一段時間。新任務(wù)流程結(jié)束后,機器人可主動切回原任務(wù)流程,例如客服來進(jìn)入電確認(rèn)試聽課時間流程,在用戶回復(fù)過程中觸發(fā)了咨詢老師課程安排流程,當(dāng)前流程結(jié)束后仍可以繼續(xù)上一個未完成流程(確認(rèn)試聽課時間流程)。
在這里,用戶也可以通過按鍵進(jìn)入轉(zhuǎn)人工意圖,客服人員會加入會話處理用戶的需求。
如下邊的例子,客服撥打電話,進(jìn)入任務(wù)流程,咨詢試聽課問題時間,同時用戶咨詢是否有成人口語訓(xùn)練課程,進(jìn)入問答流程,機器人給出回復(fù)。最后用戶可以繼續(xù)任務(wù)流程。
-
將語音返回用戶:中控獲得機器人回復(fù)后,將系統(tǒng)動作轉(zhuǎn)變成自然語言文本,并將文本轉(zhuǎn)語音或者錄音文件名傳給語音呼叫模塊,語音呼叫模塊進(jìn)行相應(yīng)的放音操作。
-
掛斷:在以下三種情況下,會進(jìn)行掛斷操作,待用戶主動掛機,或匯港通平臺控制掛機后,內(nèi)呼/外呼模塊發(fā)送用戶掛機報告、用戶錄音等信息。1)當(dāng)機器人完成用戶的任務(wù)后,用戶可以通過按鍵來結(jié)束掛機。2)當(dāng)機器人多次詢問用戶,用戶有兩次靜默后,機器人會主動掛機。 3)當(dāng)用戶可能會在中途隨時選擇掛機。
-
數(shù)據(jù)存儲:在有些項目上,需要記錄用戶的標(biāo)簽,用戶對應(yīng)輪次的回復(fù),走過的輪數(shù),對用戶進(jìn)行打標(biāo)(這種記錄通常被稱作埋點),埋點通常在各個流程之后以詞槽記錄的形式留下來,比如:用戶經(jīng)過第一輪的時候,用戶輪次變?yōu)樽哌^第一輪;用戶提到價格時候,通過隱藏單元拿到用戶說了價格,然后記錄下來用戶說了價格這件事;另外還有基本的對每一輪用戶反應(yīng)的判斷最后如何影響最終的結(jié)果。最后,將信息存到表里即可。
痛點問題解決方案
語音場景下用戶回復(fù)啊、哈、咳等單字的情況比較明顯,或者由于信號問題、環(huán)境音等情況會被語音識別為呵呵 等,這些無意義的特殊語音可能會中斷正常的放音流程,容易造成話術(shù)的重復(fù)播放或者打亂正常的任務(wù)流程。
對于單字、特殊語音文本,現(xiàn)有方案是在匯港通平臺上維護(hù)了一個過濾列表。和正常的通話流程一樣,當(dāng)有過濾列表中的信息進(jìn)入流程后,語音呼叫模塊會收到匯港通平臺回復(fù)特殊的標(biāo)志信號,從而可以忽略這些干擾信息。同時,在匯港通平臺建立過濾信息列表,也方便維護(hù)和擴展。
打斷也是語音場景下容易出現(xiàn)的一種場景,例如營銷場景中對于項目的介紹,由于電話機器人回復(fù)內(nèi)容過長,就會出現(xiàn)用戶打斷的情況。對于打斷的場景,需要解決的是:當(dāng)打斷發(fā)生后,應(yīng)該能夠根據(jù)場景需要適時終止當(dāng)前放音,進(jìn)入下一對話流程中去。目前打斷處理的解決方案是配置錄音信息,設(shè)置是否可以打斷、靜默時間、播放時間等參數(shù),語音呼叫模塊可以根據(jù)這些參數(shù)控制當(dāng)前放音是否終止,以及是否需要播放新的錄音等。
收集通話信息,能夠為后續(xù)質(zhì)檢、流程優(yōu)化提供一個有力的參考。在營銷型場景中,收集通話信息更是在提煉用戶畫像,區(qū)分用戶類型,篩選潛在用戶等方面重要的意義。目前語音呼叫方案中通過匯港通平臺主要收集三種信息:用戶意圖分?jǐn)?shù)、用戶類型、用戶語義標(biāo)簽。
在多輪對話中,每一輪的問答都會對用戶的意圖進(jìn)行判斷,并計算用戶意向分?jǐn)?shù)。例如,用戶同意,意向分?jǐn)?shù)+2;用戶拒絕,意向分?jǐn)?shù)-0.5;挽回拒絕,意向分?jǐn)?shù)+1.5,對話結(jié)束后會形成一個用戶最終的意向分?jǐn)?shù)。
用戶類型信息是和語音對話深度、命中關(guān)鍵詞相關(guān)的。在匯港通平臺,每一輪對話都有澄清和跳轉(zhuǎn)的流程,當(dāng)一輪對話完成澄清進(jìn)入下一輪之后,增加對話的節(jié)點深度。完成整個對話流程后,可以根據(jù)對話節(jié)點深度和命中的關(guān)鍵詞確定用戶類型。
以上面的對話流程為例,可以得到一個基本的用戶畫像,例如:
初步意向:有興趣
意向分?jǐn)?shù):5
挽回:不同意
用戶類型:E(命中了在忙的關(guān)鍵詞)
用戶語義標(biāo)簽:位置相關(guān)
以上的通話信息可以反饋到CRM,方便進(jìn)一步地篩選用戶,或者回?fù)茈娫挼群罄m(xù)的操作。
語音和文字相比,會遇到多種特殊情況,我們的處理方法如下:
效果優(yōu)化方案
1) 用歷史語料訓(xùn)練ASR 并提升語音識別的準(zhǔn)確率
考慮到ASR會帶來識別錯誤,我們會有針對性的優(yōu)化語義理解模型,例如使用拼音相似度特征、對語音識別結(jié)果進(jìn)行糾錯等。ASR優(yōu)化的方案包括:根據(jù)領(lǐng)域關(guān)鍵詞增加熱詞;根據(jù)領(lǐng)域自然語言文本優(yōu)化語言模型;基于標(biāo)注的語音數(shù)據(jù)優(yōu)化聲學(xué)模型。
2) 豐富相似問,訓(xùn)練模型來提高準(zhǔn)確率
搭建好語料知識庫后,通過擴充專業(yè)詞匯,維護(hù)實體,相似問擴充,并利用歷史語料等,不斷訓(xùn)練模型優(yōu)化,來提高問題召回的準(zhǔn)確率。
3)針對語音場景,增加容錯機制
考慮到語音機器人有可能遇到識別問題,以及強任務(wù)的特點,我們在任務(wù)機器人中設(shè)計了容錯機制,比如內(nèi)呼部分,如果我們不能識別會請用戶再說一遍。這樣的話可以挽回一些第一次語音轉(zhuǎn)寫失敗的案例,進(jìn)而提高了準(zhǔn)確率與召回率。
4)優(yōu)化話術(shù),提高成功率
當(dāng)文字話術(shù)升級成了語音話術(shù),用戶對話術(shù)設(shè)計提出了更高的要求,通過用戶的實際反饋和撥測的感受,我們優(yōu)先確認(rèn)了下面幾個基礎(chǔ)原則:
-
內(nèi)呼,需增加親和力,具有服務(wù)意識。
-
外呼,在話術(shù)中幫用戶預(yù)置選擇——多給用戶選擇題,而不是填空題。
-
同時,適當(dāng)挽回話術(shù)可以繼續(xù)引導(dǎo)用戶向下進(jìn)行。
在用戶心中,好的話術(shù)要兼顧理性和感性原則。理性原則體現(xiàn)在機器的話是有用的,話術(shù)應(yīng)該是以目標(biāo)為中心、準(zhǔn)確、簡潔的;感性原則強調(diào)對話過程令人愉悅,話術(shù)應(yīng)該是自然、友好、有個性的。
語音呼叫電話機器人和傳統(tǒng)的文本機器人在很多方面存在差異性,這不僅體現(xiàn)在語音呼叫電話機器人的系統(tǒng)架構(gòu)和流程上面,還體現(xiàn)在一些特殊的場景和需求上。系統(tǒng)架構(gòu)方面,語音機器人需要在傳統(tǒng)機器人的基礎(chǔ)上增加對語音識別、語音轉(zhuǎn)換、線路等方面的支持;特殊場景和需求上,匯港通平臺為復(fù)雜對話流程和場景提供了好的對話能力。基于匯港通科技有限公司打造的語音電話機器人可以為傳統(tǒng)的銷售、客服等人力密集型業(yè)務(wù)提效,提供一種較好的解決方案。
?