圖靈測試的著名目標是測試人類與人交談和與機器交談時的任務,從而測試人工智能的能力。它測試了AI充分理解人類語言以進行自然的對話的能力。
任何試圖與AI聊天機器人或虛擬助手進行對話的人都可以證明,在技術掌握這種最人類能力之前,還有一段路要走。馬里蘭大學的一項新研究旨在通過識別約1200個問題來幫助AI進步,這些問題雖然對人類來說很容易回答,但傳統(tǒng)上卻阻礙了當今可用的最佳技術。
研究人員解釋說:大多數(shù)回答問題的計算機系統(tǒng)都無法解釋為什么它們以自己的方式回答,但是我們的工作可以幫助我們了解計算機真正理解了什么。此外,我們已經(jīng)產(chǎn)生了一個數(shù)據(jù)集以在計算機上進行測試,這將揭示計算機語言系統(tǒng)是否實際上正在閱讀并進行人類能夠進行的相同類型的處理。
更智能的機器
研究人員解釋說,當今運行的許多問答系統(tǒng)都依靠人或計算機來生成旨在訓練系統(tǒng)的問題。這種方法的問題在于,很難理解為什么計算機努力地正確回答問題。研究人員認為,通過更好地了解機器的殘端,我們可以更好地設計數(shù)據(jù)集進行訓練。
團隊開發(fā)了一個系統(tǒng),該系統(tǒng)能夠在嘗試回答每個問題時顯示其思維過程,他們認為,該系統(tǒng)不僅可以洞悉計算機正在經(jīng)歷的過程,而且如果部署在實際環(huán)境中,則可以讓人類提問者修改其查詢范圍。
人與機器之間的伙伴關系使1,213項已被計算機擊敗的問題得以成功回答。
作者解釋說:三到四年來,人們已經(jīng)意識到計算機問答系統(tǒng)非常脆弱,很容易被愚弄。但是這是我們知道的第一篇論文,實際上是使用機器來幫助人類打破模型本身。
該團隊認為,這些問題將成為有價值的數(shù)據(jù)集,以更好地指導自然語言處理工作,同時還可以充當訓練數(shù)據(jù)集,尤其是當這些問題揭示了使基于AI的系統(tǒng)感到困惑的六個不同現(xiàn)象時。
這些失敗出現(xiàn)在語言領域,例如釋義或意想不到的上下文,或者推理能力的失敗,例如問題中各個元素的三角剖分或在得出結論時要求使用多個步驟。
研究人員解釋說:人類能夠進行更多的概括,并看到更深的聯(lián)系。他們沒有無限的計算機存儲空間,但是他們?nèi)匀荒軌蛟谏种锌吹綐淠?。對計算機存在的問題進行分類有助于我們理解我們需要解決的問題,以便我們實際上可以使計算機開始通過樹木看森林,并以人類的方式回答問題。
可以說,在這種情況出現(xiàn)之前,還有很長的路要走,但是這項研究有趣地表明,在使機器更好地導航人類語言的細微差別方面取得了進展。