在微軟小冰與微信之間剪不斷理還亂的“各說各話”之后,人工智能這個詞匯瞬間風起云涌:Google的佩奇、百度的李彥宏等大佬在公開場合大談人工智能,暗中則在加快無人駕駛汽車和百度大腦的研究進程;微軟在用“Adam計劃”繼續(xù)強化自家產(chǎn)品的智能水平;與此同時,國內(nèi)人工智能技術領軍企業(yè)捷通華聲在為同時提升人機交互能力與計算機的思維能力上跨步前行,不斷推動人工智能技術在中國產(chǎn)業(yè)中的應用與普及。
深度學習:人工智能的分水嶺
人工智能是一個由淺入深的智能化模型、機制和過程,在較淺層次上,人工智能意味著智能化的人機交互方式,如智能語音交互,讓計算機“能說會聽”;智能圖像識別,讓計算機“能寫會看”;在深層次上,人工智能意味著基于機器學習技術的知識表達、歸納、推理等智能計算過程,如語義理解,讓計算機明白交流的內(nèi)容。如果說智能人機交互是人工智能的觸角,智能計算則是人工智能的核心,二者缺一不可,共同組成一個智能網(wǎng)絡。而深度學習技術的突破,則進一步完善了對人工智能的完整定義。
在學術界,深度學習是脫胎于深度神經(jīng)網(wǎng)絡(Deep Neural Network,簡稱DNN)的一個抽象概念,這種算法可以使計算機的認知過程逐層進行、逐步抽象,被稱為是“最接近人腦”的復雜模型。吳恩達教授在谷歌大腦項目中的開發(fā)使深度學習的強度提高了十倍,并顯著提高了語音識別和計算機圖形識別的準確率。“人工智能已經(jīng)失敗了無數(shù)次,如今它實現(xiàn)了一次超越。” 深度學習領域先驅(qū)揚·樂康(Yann LeCun)如此評價。
如今深度學習在人機交互領域取得更加明顯的效果,其巨大的影響更多集中在語音識別上:當谷歌在安卓手機上采用基于DNN的語音識別技術時,它的識別錯誤率下降了25%;當捷通華聲將DNN用來提高“靈云人工智能技術平臺”的中文識別水平時,結果是大幅提高了人聲和電話通道錄音雙方面的識別率。DNN對于語音識別的影響可見一斑,立竿見影的增益效果使脫離了Nuance技術支持的蘋果也為之心動。
然而,能從DNN中獲得巨大收益的可不止是語音識別。
Google、百度已經(jīng)把DNN用于街景地圖中的光學字符識別(OCR)以便于識別店鋪名稱等信息--這對能提供地圖搜索服務的企業(yè)來說是顯而易見的行為。幾乎與此同時,鉆研OCR多年的捷通華聲也在嘗試將DNN融入靈云的各項服務,使得文檔、票據(jù)、證照、名片中的文字信息能在不需要人工校正的情況下準確地“躍然紙上”,在銀行、海關、公安、稅務等領域得到廣泛實際應用。
“深度學習將全面占領計算機視覺和語音識別領域,并將對機器翻譯、網(wǎng)頁搜索和對話系統(tǒng)等性能提升有所幫助。”吳恩達教授在做客中國科學院自動化研究所時如是說。
清華大學:靈云力量的源泉
![](/d/20211019/4b96bde067684e03d29b358cceac3b6d.gif)
2006年,加拿大多倫多大學教授、機器學習領域的泰斗杰夫·辛頓(Geoff Hinton)和學生在頂尖學術刊物《科學》上發(fā)表了一篇文章,引發(fā)了深度學習在學術界和工業(yè)界的浪潮。2013年,Google收購了辛頓的研究小組,一下使產(chǎn)業(yè)界的目光集中到學術上來??萍脊厩逍训匾庾R到,單靠自身實力是不足以在人工智能領域有所建樹的,必須依靠學界的研究力量才能打開更廣闊的天地。于是,科技公司不但在人工智能上爭相投入資源,也開始在學術界招攬輔佐之士。同年晚些時候,F(xiàn)acebook宣布聘請前文提到的揚·樂康掌管人工智能實驗室。而后,吳恩達教授也被攬入百度麾下。