據(jù)趙明介紹,作為智能音箱領(lǐng)域的頭部廠商,亞馬遜通過接入Alexa語音助手以連接其他硬件軟件服務(wù),在先發(fā)優(yōu)勢和技術(shù)壁壘下,已經(jīng)形成一定業(yè)務(wù)體系。亞馬遜具有深厚的電商基礎(chǔ),并在內(nèi)容、硬件、平臺、云計(jì)算、物流倉儲等領(lǐng)域布局,通過智能音箱整合軟件、硬件、平臺及內(nèi)容資源,進(jìn)一步盤活電商資源。
亞馬遜Alexa平臺及云計(jì)算平臺為打通多個服務(wù)鏈條奠定了基礎(chǔ),在硬件操作、軟件應(yīng)用及內(nèi)容觀看收聽中的海量數(shù)據(jù)被有效收集并整理,實(shí)現(xiàn)內(nèi)容與服務(wù)的個性化。趙明表示,亞馬遜在中文語音識別方面缺少布局,目前沒有進(jìn)入中國市場,但其發(fā)展為中國市場提供了借鑒,多數(shù)廠商以Echo為對標(biāo),布局智能音箱。
但據(jù)趙明介紹,目前智能家居行業(yè)還處于整體發(fā)展的中前期,行業(yè)標(biāo)準(zhǔn)尚未形成,巨頭之間難以統(tǒng)一的平臺標(biāo)準(zhǔn)為智能家居的普及造成了巨大困難。目前的AI水平較為有限,很多智能家居實(shí)現(xiàn)了基本的AI功能,但都比較初級單一,用戶使用體驗(yàn)并不理想。
此外,中科院自動化所研究員王金橋表示,中文語音交互存在更多特殊障礙:中文的方言和口音種類過多,交流非常困難,語義鴻溝難以跨越。市面上的智能音箱都‘傻乎乎’的,只能用來搜索和問答一些條條框框的問題,無法理解邏輯、上下文關(guān)系等,大家買回家玩幾天,新鮮勁兒一過就閑置了。全國三百多家智能音箱廠商,沒有一家賺錢的。王金橋說。
靈隆科技CEO魏強(qiáng)也曾對媒體表示,目前消費(fèi)者普遍反饋智能音箱存在遠(yuǎn)場識別差、誤喚醒率高、連續(xù)對話功能不穩(wěn)定和語義理解能力差、音質(zhì)不好等問題,看似火爆的智能音箱行業(yè)正在面臨創(chuàng)新能力弱、產(chǎn)品體驗(yàn)差、內(nèi)容和技能不足、用戶認(rèn)知度低等諸多挑戰(zhàn)。
水平有限 仍是簡單場景的人機(jī)交互
谷歌演示Duplex AI的過程引發(fā)了真實(shí)與否的爭議:人們注意到,這些通話中的兩位女性員工都沒有在電話上提到自己公司的名稱,另外這兩個錄音中也都沒有環(huán)境噪音。不過谷歌并沒有對是否編輯過電話錄音的問題發(fā)表評論。
對于Duplex AI的表現(xiàn),王金橋表示:這只是展示了一個效果,不能說機(jī)器通過了圖靈測試,也不代表理論上的突破。況且真實(shí)性沒有驗(yàn)證。如果是真實(shí)的,那確實(shí)是先進(jìn)的自然語言理解,這說明大家都在往自然語言處理的方向努力。
思必馳副總裁、語音交互科學(xué)家初敏表達(dá)了類似的觀點(diǎn)。這個預(yù)約的過程難度不大,是一個簡單場景的人機(jī)交互。只是角色置換了一下,不是我們常見的‘人問機(jī)器’,而是‘機(jī)器問人’,引發(fā)了大家的熱議。初敏說。
初敏表示,谷歌展示的機(jī)器預(yù)約餐廳、發(fā)廊一定是可以實(shí)現(xiàn)的,沒有被對方聽出來說明語音合成的效果不錯,但整體來看,全程沒有展現(xiàn)有挑戰(zhàn)性的問題——如多任務(wù)切換、跨場景、噪音、上下文邏輯理解等。她同樣表達(dá)了對視頻真實(shí)性的懷疑:餐廳聽起來應(yīng)該是亂七八糟的,但視頻中沒有背景噪音,所以不排除表演的可能。
要想質(zhì)變 需要自然語言處理技術(shù)突破
自然語言處理是語音交互的核心技術(shù),也是三十年來幾乎沒有突破的痛點(diǎn)。通俗來說,這項(xiàng)技術(shù)就是讓機(jī)器理解人。據(jù)王金橋介紹,自然語言處理的核心是理解,希望機(jī)器能理解人的語言和目的。但每個人都是個性化的,說話的輕重緩急、重音位置,看到夕陽西下時或開心或傷感的個人感受,這些都是目前的機(jī)器無法理解的。尤其是在中文語境下,常見的一語雙關(guān)、倒裝、句式簡化等,人有時候都理解不了,對機(jī)器來說更是難上加難。
初敏表示,在語音交互背后,是語音識別、自然語言理解、對話管理、自然語言生成等諸多環(huán)節(jié),各環(huán)節(jié)充分配合才能實(shí)現(xiàn)良好的交互效果。相比于谷歌展示的預(yù)約,我們已經(jīng)可以處理更復(fù)雜的交互,只是效果沒那么好。初敏說。
機(jī)器的認(rèn)知推理和理解是一個系統(tǒng)的處理工程,是各種復(fù)雜算法的結(jié)合,不是單項(xiàng)技術(shù)能解決的。王金橋表示。目前比較可行的限定場景下的自然語言處理,比如兒童陪伴、學(xué)科細(xì)分的語料庫,可以實(shí)現(xiàn)智能化交互。中國科學(xué)院院士譚鐵牛也在兩院院士大會期間談到人工智能正處在從不能用到可以用的技術(shù)拐點(diǎn),距離很好用還有諸多瓶頸。像‘那輛白車是黑車’‘能穿多少是多少’一類的表述,機(jī)器無法準(zhǔn)確理解和翻譯。譚鐵牛說。
語言交互是智能音箱的核心功能。智能音箱的銷量劇增,大量的語音交互會帶來多樣化的數(shù)據(jù)樣本,目前研究界都在試圖突破自然語言處理的難關(guān),雖然從事這項(xiàng)研究的人比以前多很多,研究條件也很好,但理論的瓶頸、語言理解的語義鴻溝問題,不是一時半會能解決的。王金橋說。