上周電銷機(jī)器人路途,科大訊飛、搜狗、百度先后召開發(fā)布會,對外公布語音識別準(zhǔn)確率均達(dá)到「97%」。
而一如闌夕所言「一旦語音識別的準(zhǔn)確率達(dá)到99%,那將直接進(jìn)入產(chǎn)業(yè)爆發(fā)的黎明」,在從97%邁進(jìn)到99%的路程中,各大巨頭和資本早已開始造勢布局。
97%的準(zhǔn)確率意味著優(yōu)秀產(chǎn)品落地電銷機(jī)器人路途?
97%這一數(shù)字,看似散發(fā)著勝利的曙光,卻僅僅是語音識別準(zhǔn)確率而已。
大眾預(yù)期的產(chǎn)品里面,智能語音作為人機(jī)交互層,需要達(dá)到完全理解的程度。這不僅需要高準(zhǔn)確度的語音識別,更需要復(fù)雜動態(tài)的語義理解,機(jī)器才能準(zhǔn)確理解用戶意圖。但這是兩種不同的技術(shù):語音識別僅僅將用戶的語音指令與嘈雜背景音剝離開來,保證原始命令無誤;而語義理解更為復(fù)雜,也是提升用戶體驗(yàn)的關(guān)鍵步驟要支持在不同用戶場景下,理解用戶的指令,理解真正用戶需求,進(jìn)行上下文管理,并有效完成一次對話。
拿簡單的點(diǎn)外賣做個(gè)比方。智能手機(jī)上點(diǎn)外賣方式,無非是打開app,用戶自主選擇、點(diǎn)觸。而以語音交互為入口,用戶會向智能終端說道:「餓了,有什么好吃的?」
「您想吃點(diǎn)什么?」
而用戶會繼續(xù)語音發(fā)布指令:「電銷機(jī)器人路途我想吃火鍋,超級辣的那種。」
哪怕siri級別的助理,也足以搜索出足夠多的推薦,并且語音回復(fù):「附近的火鍋有xxx,xxx」
「恩,但好像一人份的海底撈好像太多了,還是換冒菜吧?!?/p>
對話如此循環(huán)往復(fù),機(jī)器接受語音命令,替用戶篩選出有效信息,降低了用戶交互成本。而現(xiàn)有的智能助理到這里往往會犯懵,在用戶切換話題的時(shí)候回答不知所云。而這也是智能助理廣為詬病的主要缺陷,即缺乏對話管理能力,導(dǎo)致用戶體驗(yàn)不佳。而這一部分的提升主要依靠自然語言理解和深度學(xué)習(xí)技術(shù)的進(jìn)步。
而獲取不同用戶場景下的海量數(shù)據(jù)進(jìn)行訓(xùn)練,才能讓機(jī)器滿足復(fù)雜的場景需求。而這也是開發(fā)布會的三大團(tuán)隊(duì)步調(diào)一致的方向。根據(jù)科大訊飛發(fā)布會來看,業(yè)務(wù)從To B轉(zhuǎn)向To C,智能硬件將是下一個(gè)突破點(diǎn),產(chǎn)品包括智能電視、音箱等。而這些產(chǎn)品的背后都是同一個(gè)技術(shù)平臺AIUI作為核心技術(shù)平臺驅(qū)動。如果說智能硬件是科大在C端嘗試開辟的入口,搜狗和百度依然是從輸入法中獲取用戶數(shù)據(jù)。搜狗自有搜索引擎作為數(shù)據(jù)來源,而百度還有百度地圖等其他產(chǎn)品輔助。
但是在對話交互時(shí)代,智能語音市場占據(jù)用戶入口的真的會是這三家之一嗎?
如果不是訊飛,下一個(gè)巨頭會是誰?
一直以來大幅占據(jù)媒體版面的都是科大訊飛、搜狗、百度,而人們習(xí)慣性地忽略了安靜的一方微信。而在這段跑道上最有優(yōu)勢的是,微信是最靠近C端的App,活躍用戶驚人并天然積累了海量的語料庫。
微信已具備語音識別、語義理解研發(fā)能力,并且占據(jù)了IM入口。早在2012年騰訊就建立了模式識別團(tuán)隊(duì),后并入微信,逐步加入了語音識別功能。而在微信智能開放平臺的語音識別和語義理解開放接口中,可以窺見微信的技術(shù)能力和產(chǎn)品野心。 而且講真,微信的語音識別體驗(yàn)并不落后于其他團(tuán)隊(duì),所謂1%或是2%的差距都是在滿足小概率的場景。
當(dāng)然,微信有其先發(fā)優(yōu)勢,但并不意味著不會有后來居上者。在交互方式迭代轉(zhuǎn)變的過程中,常見多種新舊并存的情況。在開辟藍(lán)海的混亂中,似乎看清歷史循環(huán),更有可能布局成功。
公認(rèn)的上一個(gè)科技風(fēng)口,是由智能手機(jī)開啟的移動互聯(lián)網(wǎng)熱潮。在移動互聯(lián)時(shí)代,人機(jī)交互方式的物理介質(zhì)是觸屏,多由用戶主動發(fā)起。慢慢的,App開始主動向用戶push消息,試圖喚醒用戶,爭奪用戶有限的注意力。
同理,在向新型人機(jī)交互方式轉(zhuǎn)變的過程中,要成為下一個(gè)科技巨頭,不是穩(wěn)坐后端(類似SaaS服務(wù))就是占據(jù)前端,把握用戶注意力的入口。那在語音技術(shù)和人工智能成熟后,機(jī)器會以何種形態(tài)陪伴用戶,交互會演化到怎樣的地步呢?
如同許多科幻電影著重刻畫的那樣,智能終端的形態(tài)非常多樣。從已問世的Google Home和 亞馬遜Alexa到國內(nèi)的Rokid,科大訊飛以及小米都在推的智能音箱, 都是交互形式進(jìn)化的智能硬件產(chǎn)物。小到個(gè)人可穿戴設(shè)備如藍(lán)牙耳機(jī)、手表,大到智能家居全部24小時(shí)待命,隨時(shí)接受用戶語音指令。
但現(xiàn)階段,僅僅以語音為支撐是不夠的。這些24小時(shí)隨時(shí)待命的智能終端,真的是隨著用戶語音喚起才進(jìn)入工作模式嗎?如果不是,那么用戶在可錄音范圍內(nèi)的活動,都會被智能硬件記錄下來,那么隱私數(shù)據(jù)將會掌握在誰的手里?再設(shè)想一個(gè)極端的用戶場景:戴著智能手表的用戶,擠上地鐵,卻只能用語音對智能助手說:「嘿寶貝兒幫電銷機(jī)器人路途我訂個(gè)飯,叫到公司。」萬一環(huán)境嘈雜,助手寶貝兒聽不懂指令,只能反復(fù),十足滑稽。這自然不如打字與智能助手聊天來的得體。
人類總是渴望全面智能,同時(shí)也在某些方面極力對抗科技,維護(hù)個(gè)人隱私的體面。
對話式交互將走向何處?
從Chirs Messina提出「Conversational Commerce」這一概念以來,不論媒體與資本如何夸大造勢。但不可否認(rèn),對話交互確實(shí)是大勢所趨。與此同時(shí),智能語音不足以全面滿足用戶根本需求。隨著自然語言處理和人工智能的成熟,多樣化的智能終端將會支撐文本和語音交互相輔相成的局面。
就比如最近大熱的微信小程序,支持了websocket協(xié)議。這意味著長連接的用戶場景,例如對話式交互,開發(fā)成本也會降低。屆時(shí),預(yù)計(jì)會有一大波借對話式交互為載體的場景式服務(wù)將借微信平臺快速崛起,許許多多個(gè)如同「助里來也」的服務(wù)將會向你招手。
無論成熟與否,這都是對話式交互成長的必經(jīng)之路。
本文來源人工智能中文資訊平臺
想要了解智能靈聲機(jī)器人,電銷助手,請關(guān)注“智能小世界”微信公眾號哦!
如需要了解產(chǎn)品詳情,可電話咨詢專業(yè)客服人員:15358521011(微信同號)