騰訊云對抗黑產(chǎn),人工智能將派上什么用場?
11月25日,在GITC2016全球互聯(lián)網(wǎng)技術(shù)大會上,騰訊云安全首席架構(gòu)師周斌發(fā)表了題為《演進(jìn):讓安全更AI》的演講。分享中,周斌給大家系統(tǒng)介紹了大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等前沿技術(shù)在騰訊云安全中的應(yīng)用。
騰訊云的天御業(yè)務(wù)安全防護(hù)系統(tǒng),正是騰訊云安全在AI實(shí)踐上的重要體現(xiàn)。基于騰訊內(nèi)外部每天PB級數(shù)據(jù)量的安全大數(shù)據(jù),天御的AI引擎能夠整合所有對抗經(jīng)驗和數(shù)據(jù)能力,形成多個解決單一安全問題的服務(wù)。經(jīng)過業(yè)務(wù)中的正向和反向的反饋,天御系統(tǒng)更能夠不斷優(yōu)化。目前,天御已為開發(fā)者提供包括活動防刷、注冊保護(hù)、登錄保護(hù)、消息過濾、圖片鑒黃、驗證碼、反欺詐等服務(wù),幫助京東、滴滴出行、58同城、斗魚TV等企業(yè)保障業(yè)務(wù)安全。
以下是周斌本次分享的部分節(jié)選:
從與黑產(chǎn)的斗爭中,騰訊的安全系統(tǒng)從最初的半自動化策略規(guī)則集,到基于大數(shù)據(jù)畫像的策略引擎,再到基于深度學(xué)習(xí)的智能對抗引擎,正一步步實(shí)現(xiàn)脫胎換骨的變化。這并非簡單的模式變化,它所帶來的將是對系統(tǒng)整體架構(gòu)的全面變革。
數(shù)據(jù)+算法,騰訊云形成智能的安全引擎
安全系統(tǒng)的數(shù)據(jù)分析平臺,我們會分為4個層次進(jìn)行,首先是接入層,將所有緯度的數(shù)據(jù)進(jìn)行集中,包括從基礎(chǔ)網(wǎng)絡(luò)到業(yè)務(wù)特征,像網(wǎng)絡(luò)流量、行為、內(nèi)容等多個緯度,這樣做的原因是所有分類和學(xué)習(xí)算法,必須要有基礎(chǔ)底層數(shù)據(jù),越真實(shí)越好,這樣可以保證機(jī)器模型可以精確學(xué)習(xí)。
其次是引擎和數(shù)據(jù)層,通過底層的模型,對前期采到的數(shù)據(jù)進(jìn)行分類、建模、修正,最后作為結(jié)果數(shù)據(jù)輸出到業(yè)務(wù)場景中。
那么,我們從頭來看,海量數(shù)據(jù)是AI的基礎(chǔ)。通過業(yè)務(wù)數(shù)據(jù)、風(fēng)險數(shù)據(jù)、行業(yè)協(xié)同數(shù)據(jù)、以及公共數(shù)據(jù),我們構(gòu)建出用于風(fēng)險識別的智能引擎,引擎區(qū)分出正常群體和風(fēng)險群體。而單個個體通過智能引擎后,最終得出是否風(fēng)險個體的結(jié)論。
算法和模型是深度學(xué)習(xí)的靈魂。機(jī)器學(xué)習(xí)中,不論是否是深層,最常見的形式是監(jiān)督學(xué)習(xí)。監(jiān)督訓(xùn)練需要依賴于有標(biāo)簽的數(shù)據(jù)才能進(jìn)行訓(xùn)練。然而有標(biāo)簽的數(shù)據(jù)通常是稀缺的,因此對于許多問題,很難獲得足夠多的樣本來訓(xùn)練一個復(fù)雜的模型。對于具有強(qiáng)大表達(dá)能力的深度網(wǎng)絡(luò)模型,在不充足的數(shù)據(jù)上進(jìn)行訓(xùn)練將會導(dǎo)致過擬合。過擬合簡單點(diǎn)說,是指在訓(xùn)練集上可以獲得很好的效果,但是在其他數(shù)據(jù)集上效果就不好甚至非常差。
監(jiān)督學(xué)習(xí)的另一個問題是局部最優(yōu)問題。使用監(jiān)督學(xué)習(xí)方法來對淺層網(wǎng)絡(luò)(只有一個隱藏層)進(jìn)行訓(xùn)練通常能夠使參數(shù)收斂到合理的范圍內(nèi)。但是當(dāng)用這種方法來訓(xùn)練深度網(wǎng)絡(luò)的時候,并不能取得很好的效果。特別是使用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,通常會涉及到優(yōu)化問題。
鑒于監(jiān)督學(xué)習(xí)存在的這些問題,兩千年中期,使用無監(jiān)督學(xué)習(xí)的理念開始興起。無監(jiān)督學(xué)習(xí)不依賴有標(biāo)簽樣本,他可以幫助特定的深度網(wǎng)絡(luò)進(jìn)行“預(yù)訓(xùn)練”,但是這方面的研究還在進(jìn)行中。
回到安全上的深度學(xué)習(xí)模型訓(xùn)練上,有監(jiān)督學(xué)習(xí)能否解決問題?我們的回答是:能!
首先,騰訊經(jīng)過18年的黑產(chǎn)對抗積累,已積累了大規(guī)模的標(biāo)注數(shù)據(jù),平臺每天處理超過35萬億條實(shí)時計算、超過300億的IM消息、20億的UGC圖片、沉淀下超過400PB存儲數(shù)據(jù)!我們有豐富的惡意語料庫、惡意圖片庫可以用來進(jìn)行模型訓(xùn)練。但是黑產(chǎn)是在不斷演進(jìn)的,新的惡意形態(tài)出現(xiàn)該怎么辦?我們采取了兩個思路:
第一是在算法上,我們引入多目標(biāo)優(yōu)化算法,可以解決樣本不足時的過擬合問題;
第二是在半監(jiān)督深度學(xué)習(xí)上的嘗試,不同于人工全量標(biāo)注樣本,我們只標(biāo)記關(guān)鍵點(diǎn)樣本,再由這些關(guān)鍵點(diǎn)樣本進(jìn)行擴(kuò)展,最后再拿得到的樣本進(jìn)行訓(xùn)練。
數(shù)據(jù)+算法,我們形成了智能的安全引擎。左腦進(jìn)行計算和學(xué)習(xí),右腦用專家規(guī)則來調(diào)整方向。
實(shí)際應(yīng)用中的例子——基于實(shí)時挖掘的身份鑒定
眾所周知,互聯(lián)網(wǎng)安全產(chǎn)品中,識別是否真人是否本人是一個關(guān)鍵的基礎(chǔ)的問題。很多年前就有這樣的一個笑話,你不知道跟你聊天的是只貓還是一只狗。現(xiàn)在我們還得問,你知道跟你聊天的是人還是機(jī)器?是人的話是他本人嗎?是不是人?這是識別自然人的范疇。是他本人嗎?是否有帳號盜用或者共用的可能?在活動防刷、金融反欺詐等領(lǐng)域,身份鑒定都是一個繞不開的問題。來看下我們是怎么做的?首先,我們基于大數(shù)據(jù),使用多標(biāo)簽精準(zhǔn)刻畫建立用戶畫像。
用戶畫像涉及的維度有風(fēng)險畫像,包含用戶的惡意指數(shù)、活躍指數(shù)、負(fù)反饋指數(shù)等。行為序列,用于刻畫用戶在產(chǎn)品中的行為軌跡。帳號畫像,包含用戶的社交傾向,比如是否熱衷原創(chuàng)、是否樂于分享、是否樂于互動等,帳號畫像還有一個重要的維度是行為軌跡,包含用戶使用產(chǎn)品的區(qū)域傾向和時間段傾向。IP畫像,主要包含IP屬性和安全標(biāo)簽,我們會記錄該IP是否肉雞IP、作弊IP等,另外還有針對設(shè)備的畫像等等。
接下來看下我們使用的算法,我們使用的是基于多目標(biāo)優(yōu)化的深度學(xué)習(xí)算法。為什么使用多目標(biāo)優(yōu)化?前面我們提到有監(jiān)督深度學(xué)習(xí)的兩個問題:過擬合與局部最優(yōu)。我們希望模型精度足夠高,同時過擬合情況足夠小,傳統(tǒng)的方法是將交叉熵(也就是誤差),和規(guī)范化(這個是用來衡量是否過擬合的一個量化)進(jìn)行加權(quán),組成一個最終的目標(biāo)來訓(xùn)練模型。多目標(biāo)優(yōu)化是同時將誤差和規(guī)范化作為目標(biāo),也就是模型要求同時達(dá)到最優(yōu)。
這樣可以全面覆蓋搜索空間,最終實(shí)現(xiàn)跳出局部最優(yōu),避免過擬合。這三張圖顯示了迭代的過程。橫坐標(biāo)和豎坐標(biāo)分別表示誤差和規(guī)范化,構(gòu)成了搜索空間。通過個體間的信息交換機(jī)制,經(jīng)過若干輪迭代,算法在搜索空間中越過了很多局部最優(yōu),得到了較好的結(jié)果。就可以根據(jù)需要選擇其中一個模型應(yīng)用到生產(chǎn)環(huán)境中實(shí)施打擊。
整個實(shí)現(xiàn)過程,我們使用了2TB的畫像數(shù)據(jù),涉及到380個細(xì)分維度,我們使用的底層分析平臺保證了身份鑒定整個自學(xué)習(xí)過程以實(shí)時的方式實(shí)現(xiàn)。安全策略的精準(zhǔn)度至少能達(dá)到兩個9。
另外一個基于深度學(xué)習(xí)的應(yīng)用是色情圖片識別,騰訊的色情圖片識別依托于騰訊優(yōu)圖的DeepEye主動識別模型,應(yīng)用在空間、QQ、天御直播鑒黃上,效果在業(yè)內(nèi)處于領(lǐng)先優(yōu)勢。
因為騰訊有著十余年黑產(chǎn)對抗經(jīng)驗,有天然的海量大數(shù)據(jù),也有著成功應(yīng)用于的智能對抗方法,我們能很好地識別自然人和黑產(chǎn)用戶,很好地識別垃圾文本、惡意圖片,很好地發(fā)現(xiàn)更多的惡意模式,我們將這些成熟的業(yè)務(wù)安全能力開發(fā)出來,為互聯(lián)網(wǎng)金融、電商、游戲、直播提供業(yè)務(wù)安全解決方案,共享我們的黑產(chǎn)對抗成果。
這也是以SaaS化服務(wù)模式,將這些數(shù)據(jù)和能力整合,在騰訊云上向業(yè)界開放了反黑產(chǎn)利器——天御。一年來,天御已經(jīng)幫助我們大量電商企業(yè)應(yīng)對刷單、金融企業(yè)應(yīng)對詐騙、直播客戶鑒黃上發(fā)揮了重要作用。今年的一些電商活動中,天御直接攔下了超過80%惡意刷單。