(1)用戶(語音) -大于語音識別:電話機器人不能識別語音,第一步驟是將用戶發(fā)出的語音轉(zhuǎn)換為字符,該步驟需要依賴于語音識別技術(shù)。 僅僅是語音識別,是一種復(fù)雜且需要持續(xù)投入的技術(shù),因此電話機器人的制造商很多,使用這些大制造商的語音識別技術(shù)。
(2)語音識別–(文本)–>自然語言理解:此時,用戶說的話已經(jīng)通過語音識別轉(zhuǎn)換成了文字,而電話機器人拿到文字后,需要利用自然語言理解,來識別用戶的意圖,通俗的來說就是理解用戶在講什么。
(3)語言識別–(意圖)–>對話管理:這時候,機器人已經(jīng)識別了用戶的意圖,下面電話機器人就需要決定改如何回復(fù)用戶的問題了。比如說是繼續(xù)按照正常對話流程往下走,還是需要先回答用戶的疑問?抑或者需要重新把剛才說的話再說一遍?
(4)對話管理–(觸發(fā))–>預(yù)置話術(shù):此時的機器人已經(jīng)知道該回復(fù)用戶的具體內(nèi)容了,這時候就該組織回復(fù)的語言了。而一般來說,這些話術(shù)都是預(yù)先設(shè)置好的,等需要用到這塊內(nèi)容的時候,從這塊內(nèi)容對應(yīng)的話術(shù)中抽取一條出來回復(fù)就好。在回答同一個話題時,話術(shù)不重復(fù),給用戶更好的體驗。
(5)事先講話- (調(diào)用) -大于人工錄音:當(dāng)然,如果知道機器人需要回答哪個講話,就必須調(diào)用與這個講話對應(yīng)的錄音。 結(jié)果,我們在打電話。 此時,為了使?fàn)I銷效果更好,大多數(shù)客戶都選擇播放真人錄音。 結(jié)果,這個效果更真實。 正因為如此,人工錄音的效果,很大程度上左右著前端用戶接電話時的體驗。