如今,機器學(xué)習(xí)已經(jīng)成為數(shù)據(jù)庫及數(shù)據(jù)安適領(lǐng)域中繞不開的核心技術(shù)。機器學(xué)習(xí)可以提供人力無法達成的大規(guī)模分析和收集數(shù)據(jù)的能力,可如果缺乏有關(guān)待解決問題的專業(yè)領(lǐng)域知識,機器學(xué)習(xí)技術(shù)自己仍然無法提供有價值的信息。就數(shù)據(jù)庫內(nèi)部威脅識別而言,最大的挑戰(zhàn)不在于通過機器學(xué)習(xí)輸出違規(guī)告警,而在于如何確定典型用戶或系統(tǒng)的數(shù)據(jù)拜候何時出現(xiàn)異常,以及哪些情況是有危害的,哪些僅僅是異常情況。
日前,Imperva首席技術(shù)Terry Ray對于機器學(xué)習(xí)在數(shù)據(jù)安適領(lǐng)域的有效應(yīng)用問題給予了深入的解答,揭秘了ImpervaCounterBreach解決方案如何能夠超越傳統(tǒng)的策略設(shè)置方案,準確識別不成預(yù)知的數(shù)據(jù)拜候,并掩護數(shù)據(jù)拜候的安適。
Terry
Ray首先由機器學(xué)習(xí)的類型區(qū)分入手,把機器學(xué)習(xí)分為監(jiān)督式學(xué)習(xí)和無監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)可以完成圖像識別、標記分類等功能,需要預(yù)先設(shè)定針對性的人工策略,對于不成預(yù)知的事件無能為力。而Imperva解決方案中采用的無監(jiān)督式學(xué)習(xí),更接近大眾心目中的“人工智能”,增加了異常檢測、檢索、主題抽象等基本技術(shù),并綜合了專業(yè)領(lǐng)域知識、數(shù)據(jù)收集和解析、制定基準和辨別敏感數(shù)據(jù)的能力,具有更高的自動化屬性,極大地減少了對于人工的依賴性。
為了讓機器學(xué)習(xí)的結(jié)果更有意義,Imperva特別使用了聚類的技術(shù)?!熬垲愂沟梦覀兛梢园言S多差別的信息聚集在一起,我們再把其他的數(shù)據(jù)和我們擁有的領(lǐng)域?qū)I(yè)知識結(jié)合在一起,切實使得這些數(shù)據(jù)變得有價值并與語境關(guān)聯(lián)?!盩erry
Ray體現(xiàn),“真正重要的關(guān)鍵和差異在于,Imperva把我們的專業(yè)領(lǐng)域知識和機器學(xué)習(xí)進行了整合?!?/p>
專家領(lǐng)域知識是我們持續(xù)在數(shù)據(jù)庫、文件、應(yīng)用系統(tǒng)上年復(fù)一年累積的經(jīng)驗,這些經(jīng)驗可以幫手我們解決人力無法處理過大數(shù)據(jù)量的問題。按照Terry
Ray的估計,“在大多數(shù)情況下,大多數(shù)人在告警超出正常量5%的時候就已經(jīng)無法忍受了,,更不消說去查看那些生成這些告警的原始數(shù)據(jù)了。”
與此同時,“我們不但僅需要收集大量數(shù)據(jù)的技術(shù),同樣還需要能夠準確的解析這些數(shù)據(jù)。”差別的數(shù)據(jù)庫使用差別的語言,必需有能力解析每一種語言,才可以按照解析后的數(shù)據(jù)創(chuàng)建有效的模型。Terry
Ray介紹說,Imperva從事數(shù)據(jù)庫辦事器、文件辦事器、應(yīng)用端的拜候數(shù)據(jù)解析已有 14 到 15 年的時間,長年累積的經(jīng)驗,令他們可以識別 30 種差別的數(shù)據(jù)庫語言和文件語言,從而無礙地完成數(shù)據(jù)解析。
除了數(shù)據(jù)解析外,還需要有判斷的基準,幫手我們辨別敏感數(shù)據(jù)。Terry
Ray說:“我們建立了基準,就可以基于基準來發(fā)現(xiàn)各種異常。基線的異常是識別數(shù)據(jù)違規(guī)的基礎(chǔ)。它告訴我們有什么分歧錯誤了?!痹谥贫ɑ鶞实姆矫?,Imperva不但單獨不雅觀察用戶或數(shù)據(jù),而是把二者結(jié)合起來。Terry
Ray模仿機器學(xué)習(xí)的口吻舉例說:“看,我明白這是一個人類用戶,而這個人類用戶正在觸碰只有應(yīng)用程序會觸及的數(shù)據(jù)?!边@不是一個人工的策略,而是人類用戶與數(shù)據(jù)交互過程中由機器學(xué)習(xí)確定的模式。
能夠確定某人如何與數(shù)據(jù)交互,何時與數(shù)據(jù)交互,以及與數(shù)據(jù)交互的原因是這里的關(guān)鍵。Terry Ray再次強調(diào),這一切的基礎(chǔ)都是機器學(xué)習(xí)和Imperva專業(yè)領(lǐng)域知識的結(jié)合?!叭绻銢]有機器學(xué)習(xí)來幫手你,那么由人類來回答這些問題幾乎是不成能完成的?!?/p>
Imperva
CounterBreach解決方案的獨特優(yōu)勢,正在于其不再需要按照客戶的需求而人工設(shè)定策略?!暗钦l知道你所有的數(shù)據(jù)庫和你所有的文件辦事器的使用情況呢?答案是:沒有人。所以我們使用CounterBreach自動化地為你完成這樣的工作。”Terry
Ray總結(jié)說:“引入自動化的價值,正在于它能讓我們理解和預(yù)測那些不成預(yù)測的東西?!?/p>