現(xiàn)在回想,早在大數(shù)據(jù)概念呼之欲出之時,“大數(shù)據(jù)時代人類犯罪率是否會降低”的探討便不停涌現(xiàn)。
其實早在這一波智能技術滲透進人類生活之前,人類整體犯罪率就已經(jīng)在持續(xù)下降。數(shù)據(jù)顯示:19世紀全球最大城市倫敦的謀殺率是萬分之幾;20世紀全球最大城市紐約的謀殺率是十萬分之幾,謀殺率在一百年里下降十倍以上;過去二十多年美國人口增加20%,同期暴力犯罪率卻下降了30%;再好比,比來有人在國外問答社區(qū)Quora上發(fā)問“為什么這么多人喜歡中國”,其中一個引起共鳴的答案就是“安適”。
不過,就比如“飛機比汽車更安適”有悖于直覺一樣,很多人并不相信犯罪率下降的事實。舉個例子,從2002年開始,每年都有60-70%的受訪者認為犯罪率比前一年有所增加,于是不少政客也就順勢充當了“末日販子”角色,當特朗普大肆宣揚“美國治安糟透了”時,選民自然感同身受。
但本相是,技術確實正在降低犯罪率。
技術進步,致使犯罪率下降
就在此刻,大數(shù)據(jù)正在讓公安部門有效配置警力資源,減少各類犯罪案件發(fā)生。
數(shù)月前,在中央政法委組織的“政法干部學習講座”講座上,馬化騰就“現(xiàn)代科技發(fā)展帶來的機遇和挑戰(zhàn)”作了演講,其中一章就是“科技創(chuàng)新破解社會難題”,馬化騰用騰訊產(chǎn)品舉例:“騰訊LBS應用目前已覆蓋24個城市,辦事100余次大型安?;顒?,覆蓋活動人數(shù)5000萬人次。利用人臉識別技術,提高涉恐識別、預警能力,也應用于尋找逃犯、嫌疑人快速查詢等?!?/p>
而大數(shù)據(jù)在垂直領域的深耕更多不是來自巨頭。國內(nèi)這邊,曾被比爾蓋茨拜訪的數(shù)據(jù)運營商海云數(shù)據(jù)就開發(fā)了大數(shù)據(jù)可視指揮決策平臺智警,這一系統(tǒng)已經(jīng)可以做到將卡口視頻,警力分布,警車GPS等相關數(shù)據(jù)放到空間和地理維度分析。按照視覺結果分析,公共安適辦理者能有效安排警力,建立快速反應安適控制機制。
這很容易令人想到《速度與激情》中“天眼”系統(tǒng):“天眼”能整合這個世界上一切數(shù)據(jù)采集,調用任意角落的攝像頭與音頻系統(tǒng),再用人臉識別等技術,令所尋之人或物無處遁形——這種上帝視角頗為迷人,以至于有十余部電影都將“天眼”視作是未來的一部分。
這并不難理解,每個人都想活在一個更安適的世界。就像在熟人構成的村落中,人們可以靠本能迅速識別“危險的異己者”,現(xiàn)代人也期盼在陌生人集聚的城市,通過技術撲滅藏于暗處的犯罪火花——欣喜的是,如開篇所言,這種情況正在發(fā)生,只是多數(shù)人并未意識到。
犯罪率下降的事實,的確與直覺不符,終究新聞和社交媒體里的世界危機四伏,暴力事件頻發(fā)——然而,這在很大程度上是因為麥克盧漢“地球村”的比方已經(jīng)成真,此時此刻,豈論在倫敦,巴黎,東京還是首爾,任何一樁“大案”都會在瞬間傳遍整個世界,并被幾乎所有主流媒體大肆報道,而當“槍殺”“爆炸”“搶劫”等負面字眼進入讀者大腦,第一也是最重要的過濾器就是杏仁核,它總處于高度戒備狀態(tài),找尋任何可能威脅保留的東西,媒體最喜歡爭奪的就是杏仁核的注意,這也是為什么“壞消息”總比“好消息”更容易傳播的原因。
真正值得關心的是:究竟是哪些原因致使犯罪率下降。比來在我聽到了一種令人信服的解釋:在經(jīng)濟發(fā)展促進就業(yè),以及娛樂業(yè)高度發(fā)達的常規(guī)性解釋之外,人類犯罪率整體下降最根本的原因,是技術進步提升了犯罪成本。
舉個例子,上世紀八十年代,紐約犯罪問題非常嚴重,但到了九十年代,紐約犯罪率突然一路走低,甚至低于美國平均犯罪率——理由是,人類這個時候發(fā)明了網(wǎng)絡攝像頭,紐約率先開始大規(guī)模安置攝像頭,這大幅提高了破案率,也讓犯罪率得以下降。
而幾乎可以必定,從現(xiàn)在到未來,從政府到家庭,攝像頭將無所不在,全天候的無死角監(jiān)控將成為常態(tài),加之人臉識別技術的成熟,犯罪成本和破案率都會增高。
事實上,若你見過公安系統(tǒng)的監(jiān)控設備,就會驚嘆于公安系統(tǒng)視頻信息量的龐大,它們已在安適態(tài)勢和案情分析中發(fā)揮了巨大作用。但問題是,與“天眼”系統(tǒng)的多維偵測差別,如今這些視頻信息更多以“默片”方式存在,現(xiàn)有技術不成能采集到音頻信息(人物活動地點離攝像頭都有必然距離),這種情況下,通過判斷嘴型疊加“音頻”信息——即唇語識別就變得非常重要。
機器讀唇術
作為一項集機器視覺與自然語言處理于一體的復合型技術,唇語識別系統(tǒng)通過機器視覺從圖像中連續(xù)識別出人臉,提取口型的連續(xù)變革特征,隨即將連續(xù)變革的特征輸入到識別模型中,識別出講話人口型對應的發(fā)音,計算出可能性最大的表達語句。