在過去的兩年里,企業(yè)生產(chǎn)的數(shù)據(jù)量超過了之前整個人類歷史創(chuàng)造的數(shù)據(jù)總和。要為如此大規(guī)模的數(shù)據(jù)提供安適保障,專家們不得不重新思考,該以何種方式?jīng)Q定敏感文件的授權(quán)與撤銷;更加重要的是,該如何識別和追蹤不成制止的異常拜候,并排查出哪些是真正具有危險的行為。
對于數(shù)據(jù)安適而言,最為關(guān)鍵的問題就是:“這個行為正常嗎?如果不正常,那么它是被允許的嗎?”Imperva的機器學(xué)習(xí)創(chuàng)新技術(shù)可以為這一問題提供答案。機器學(xué)習(xí)把模式識別算法應(yīng)用在每一位用戶的每一次SQL查詢上,,把內(nèi)部威脅扼殺在搖籃之中。
數(shù)據(jù)安適中的機器學(xué)習(xí)
機器學(xué)習(xí)作為一種人工智能,可以讓計算機檢測出各種模式,并使用通過訓(xùn)練或不雅觀察而習(xí)得的算法來建立行為基線。機器學(xué)習(xí)可以大規(guī)模地處理和分析人力難以駕馭的大量數(shù)據(jù),而提供人類可以理解的分析結(jié)果。
傳統(tǒng)的安適控制通常基于最小拜候特權(quán)模型。這個模型在理論上是成立的,但是在實踐中卻很難得到大規(guī)模的實現(xiàn)。要想以人工的方式?jīng)Q定每個用戶對每種數(shù)據(jù)具體的拜候權(quán),自己就足夠令人望而卻步了。而在此基礎(chǔ)之上,還要從拜候日志中篩選并識別出潛在的不良行為,這就更難以實現(xiàn)了。即使是在一個只有 50 到 200 個數(shù)據(jù)庫的小企業(yè)環(huán)境中,這個過程也會讓 20 人規(guī)模的IT部門難以招架。而在更大的企業(yè)中,數(shù)據(jù)庫的數(shù)量很可能達到 1 萬以上。
好消息是,機器學(xué)習(xí)有望減輕這份負擔(dān)。對機器學(xué)習(xí)而言,更多的信息意味著更多的學(xué)習(xí)燃料。系統(tǒng)學(xué)習(xí)更多的輸入,就能通過學(xué)習(xí)給出更高質(zhì)量的結(jié)果。
話雖如此,機器學(xué)習(xí)的有效應(yīng)用依然要求人類大腦的參與,需要透徹理解他們想要解決的問題并可以把恰當(dāng)?shù)乃惴☉?yīng)用在恰當(dāng)?shù)膯栴}上。算法并不是萬能鑰匙,而企業(yè)結(jié)構(gòu)也不都是一樣的。真正創(chuàng)新式的機器學(xué)習(xí)必需更進一步。
上下文中的機器學(xué)習(xí)
簡單的機器學(xué)習(xí)可以處理日志文件并解讀拜候行為模式;可是,僅僅按照何人在何時登錄何種資源來生成行為模型,是遠遠不夠的。在數(shù)據(jù)安適的問題領(lǐng)域中,真正的需求是對潛在的惡意數(shù)據(jù)濫用提早一步的識別,這就需要機器學(xué)習(xí)更深地了解被拜候的具體數(shù)據(jù)。
機器學(xué)習(xí)可以把建立數(shù)據(jù)拜候模式基線的手動進程自動化。使用模式識別,機器學(xué)習(xí)可以識別對等群組中個體的正常行為,還可以動態(tài)地學(xué)習(xí)真正有效的對等群組,而開脫對于靜態(tài)的“組織結(jié)構(gòu)圖”的依賴——后者極少能夠反映人們的真實工作狀態(tài)。
過去幾年,人工智能與機器學(xué)習(xí)在模式識別上取得了顯著的進展。例如,F(xiàn)acebook的機器學(xué)習(xí)應(yīng)用,不但可以識別圖像中有什么,并且還能識別場景的上下文,以及其中是否包羅其它已知的實體或地標(biāo)。同理,Imperva設(shè)計師在數(shù)據(jù)集合上應(yīng)用了恰當(dāng)?shù)臋C器學(xué)習(xí)算法,創(chuàng)造了一個檢查對等群組分支使用模式的系統(tǒng)。這個技術(shù)已經(jīng)超出了識別登錄和拜候時長的范疇,可以針對性地識別和建立正常的用戶數(shù)據(jù)拜候行為,可以輕松過濾出潛在的有危險的行為,制止其損害企業(yè)數(shù)據(jù)。
對于安適團隊而言,關(guān)鍵的問題在于:在一次個人拜候中,發(fā)生了什么,行為是否良好?他們需要制作一份事件清單,以備適當(dāng)規(guī)模的SOC團隊調(diào)查。出于實用性的考慮,得出的數(shù)據(jù)必需滿足三點要求:有限性,保證團隊可以輕松地消化信息:精確性,排除噪音,提高信度;以及上下文的豐富性,讓調(diào)查無須從零開始。
讓機器學(xué)習(xí)更聰明
Imperva開發(fā)者通過把機器學(xué)習(xí)算法的豐富知識和關(guān)于構(gòu)成差別種類用戶不當(dāng)數(shù)據(jù)拜候行為的特定專業(yè)知識相結(jié)合,達到了三個目標(biāo)。
利用模式識別算法處理數(shù)據(jù)安適信息,與Facebook圖像識別相似,只不過識另外對象換成了上下文中的數(shù)據(jù)拜候模式,包孕上萬名員工的賬戶,以及每天上百億次的個人數(shù)據(jù)拜候?;谛袨榈娜航M自動識別,可以精確定義每個用戶的拜候權(quán)限,并按照用戶與企業(yè)文件的交互變革進行動態(tài)調(diào)整。在對比試驗中,Imperva應(yīng)用機器學(xué)習(xí)動態(tài)對等群組分析算法,發(fā)現(xiàn)了大量其他方式無法注意到的問題。
以往,大多數(shù)機器學(xué)習(xí)應(yīng)用都從很高的視角不雅觀測數(shù)據(jù)拜候,好比:王剛在星期二上午 8 點 12 分登入了一個特定的數(shù)據(jù)庫,并在 8 點 39 分登出??墒撬鼈儫o法確定王剛在那 27 分鐘內(nèi)真正做了些什么,所以很難判定行為模式是否正常,是否存在潛在的數(shù)據(jù)濫用。
而Imperva機器學(xué)習(xí)在理解模式識別算法的基礎(chǔ)上,可以更加聰明地識別威脅數(shù)據(jù)的用戶行為模式。檢查每個用戶的每次SQL查詢,意味著機器學(xué)習(xí)不但可以識別王剛在何時登錄了多長時間,并且更為重要的是,還可以學(xué)習(xí)到他拜候了什么。然后,我們可以參照他的對等群組,比較他的行為與其他人的行為,最終判定數(shù)據(jù)拜候到底是正常的,還是不正常的。
大規(guī)模、動態(tài)化、結(jié)合上下文與專業(yè)知識的機器學(xué)習(xí),能夠提早適應(yīng)新興的威脅形態(tài),永遠領(lǐng)先一步,提早預(yù)防數(shù)據(jù)違規(guī)。