摘要:
「數(shù)據(jù)就是新一代石油」的論斷已成為行業(yè)共識,而在通往機器智能的路上,除了海量的(影像)數(shù)據(jù),還需要更優(yōu)的算法以及強大廉價的計算能力。![](/d/20211015/6ec97033c96a160af7aef5dc4ef19a07.gif)
2016 年的杭州云棲大會上,當被問及比來一年對行業(yè)的最大感受時,阿里云總裁胡曉明曾不假思索地回答:「人工智能」。彼時,集阿里云人工智能大成的 ET 剛剛問世兩個月,卻已經(jīng)成為杭州城市大腦項目中的「大腦」。隨后的半年時間里,阿里云的人工智能隨著 ET 的快速發(fā)展而廣泛布局,尤其是隨著阿里巴巴發(fā)布「NASA 計劃」之后,阿里云的人工智能步伐明顯加快在完成了城市大腦、工業(yè)大腦、醫(yī)療大腦、環(huán)境大腦等一系列落地項目之后,阿里云在上海云棲峰會上推出一款新產(chǎn)品:視覺智能辦事。
嚴格意義上說,比擬于之前任何一個領域的「大腦」產(chǎn)品,這款視覺智能產(chǎn)品看起來只不過是一種基礎能力,或者更準確地說,這只是 ET 的「視力」——它讓機器可以看清楚圖片、視頻,也能讀懂其中的含義。
但事實并非如此簡單,尤其是在 2017 年這個特殊的時間節(jié)點。十年前,喬布斯帶著 iPhone 重塑了智能手機行業(yè),也拉開了移動互聯(lián)網(wǎng)的大幕。十年后,阿誰曾經(jīng)被 iPhone 改變的世界又重新走到了另一個十字路口,這一次「拯救世界」的主角之一就是影像。
影像正在「吃掉」世界
影像曾是構(gòu)成消費主義的核心要素。在過去,無論是時裝雜志的封面人物還是電視屏幕上的明星紅人,這些或靜態(tài)或動態(tài)的圖像不停向世界各地傳遞著買買買的「福音」。而現(xiàn)在,無處不在的攝像頭正在時刻記錄著人類的方方面面。
好比衛(wèi)星和無人機,過去幾年,小衛(wèi)星公司的出現(xiàn)大大降低了通過衛(wèi)星進行拍攝的成本,Google 就收購了一家叫 Skybox Imaging 的小衛(wèi)星公司,隨后將其改名為 Terra Bella,其商業(yè)模式就是向商業(yè)機構(gòu)售賣衛(wèi)星圖像;而民用無人機的出現(xiàn)和逐步普及,也開啟無人機的一系列企業(yè)級、消費級的應用浪潮。
![](/d/20211015/7b9456c1da9563d0f3cadb3c1e5e75b4.gif)
而監(jiān)控攝像頭、攝像機的平民化則更近一步。過去動輒上千甚至幾萬塊的監(jiān)控攝像頭越來越多地進入家庭,與價格下降成反比的則是家庭監(jiān)控攝像頭的拍攝精度大幅提升,1080p 的視頻早已普及。
另一方面,Gopro 這樣的運動相機越來越流行,與之相對的一組數(shù)字:目前 Youtube 上每分鐘上傳的影片總長度為 400 小時。而不管是國內(nèi)的直播還是國外的 Snapchat 、Facebook,都在鼓勵大家拍攝更多的影像。
但這并非故事的全部。
當攝像頭成為新的輸入工具......
如果你仔細去看本年以來包孕 Facebook、Google、蘋果在內(nèi)的開發(fā)者大會,你會發(fā)現(xiàn)一個共同點:手機攝像頭正在成為新的輸入工具。
支撐手機攝像頭成為新輸入工具的關鍵要素有兩個:其一,手機拍照攝像已成為一種生活方式;其二,機器具備了處理與輸出影像(圖片或視頻)的能力。
在機器學習尤其是深度學習的幫手下,計算機視覺在過去幾年已經(jīng)有了天翻地覆的變革,下面這幅圖是英國知名投資人 David Kelnar 繪制的計算機視覺發(fā)展路徑,在圖像識別領域,機器已經(jīng)超過人類:
![](/d/20211015/585dbb9623b51faba47053b61654761e.gif)
而就在上月,阿里巴巴 iDST 視覺計算研究員華先勝的團隊打破了機器視覺算法測評平臺 KITTI上車輛檢測的世界紀錄,將其準確率提升到 90.46%,這項算法被認為是實現(xiàn)無人駕駛的關鍵技術,重點解決多視角,多姿態(tài)以及車輛遮擋等等。
此前,ET 在該平臺的成績也十分突出,在通用圖片的識別方面,準確度達到 96% 以上,,涵蓋從水果、蔬菜、交通工具、到植物、動物等上千種物品。
![](/d/20211015/ae92b645af5b5cfefe4ad00aa4d14cf0.gif)
上述的視覺智能領域的紅利正在被釋放。從 FB、Google、蘋果以及此次阿里云的新產(chǎn)品,所有這些都是巨頭們引領行業(yè)發(fā)展潮流的關鍵布局,也是賦能開發(fā)者、構(gòu)建生態(tài)體系的重要一環(huán)。
以此次阿里云的視覺智能的兩款產(chǎn)品為例,不管是圖像識別還是人臉識別,都是歷經(jīng)阿里巴巴內(nèi)部多個應用場景考驗后的技術輸出,這也意味著這些技術具備了應對絕大多數(shù)應用場景的能力。
好比,基于機器學習以及卷積神經(jīng)網(wǎng)絡,ET 的人臉識別技術已經(jīng)實現(xiàn)了人臉檢測、器官輪廓定位、1對1人臉認證和1對多人臉識別等多個功能,其在LFW上識別率超過99.5%。目前該人臉識別系統(tǒng)已經(jīng)應用于機場通關等場所,可以極大提高安檢人員工作效率。
而在阿里巴巴 iDST 視覺計算研究員華先勝看來,來自城市里的攝像頭所「輸入」的數(shù)據(jù)更具挑戰(zhàn)性。