RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

騰訊云對抗黑產(chǎn)，人工智能將派上什么用場？

作者：本站采編

來源：IT之家

日期：2016-11-30 09:55:37

摘要：11月25日，在GITC2016全球互聯(lián)網(wǎng)技術(shù)大會上，騰訊云安全首席架構(gòu)師周斌發(fā)表了題為《演進(jìn)：讓安全更AI》的演講。分享中，周斌給大家系統(tǒng)介紹了大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等前沿技術(shù)在騰訊云安全中的應(yīng)用。

關(guān)鍵詞：人工智能物聯(lián)網(wǎng)

　　11月25日，在GITC2016全球互聯(lián)網(wǎng)技術(shù)大會上，騰訊云安全首席架構(gòu)師周斌發(fā)表了題為《演進(jìn)：讓安全更AI》的演講。分享中，周斌給大家系統(tǒng)介紹了大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等前沿技術(shù)在騰訊云安全中的應(yīng)用。

　　騰訊云的天御業(yè)務(wù)安全防護(hù)系統(tǒng)，正是騰訊云安全在AI實(shí)踐上的重要體現(xiàn)。基于騰訊內(nèi)外部每天PB級數(shù)據(jù)量的安全大數(shù)據(jù)，天御的AI引擎能夠整合所有對抗經(jīng)驗和數(shù)據(jù)能力，形成多個解決單一安全問題的服務(wù)。經(jīng)過業(yè)務(wù)中的正向和反向的反饋，天御系統(tǒng)更能夠不斷優(yōu)化。目前，天御已為開發(fā)者提供包括活動防刷、注冊保護(hù)、登錄保護(hù)、消息過濾、圖片鑒黃、驗證碼、反欺詐等服務(wù)，幫助京東、滴滴出行、58同城、斗魚TV等企業(yè)保障業(yè)務(wù)安全。

　　以下是周斌本次分享的部分節(jié)選：

　　從與黑產(chǎn)的斗爭中，騰訊的安全系統(tǒng)從最初的半自動化策略規(guī)則集，到基于大數(shù)據(jù)畫像的策略引擎，再到基于深度學(xué)習(xí)的智能對抗引擎，正一步步實(shí)現(xiàn)脫胎換骨的變化。這并非簡單的模式變化，它所帶來的將是對系統(tǒng)整體架構(gòu)的全面變革。

　　數(shù)據(jù)+算法，騰訊云形成智能的安全引擎

　　安全系統(tǒng)的數(shù)據(jù)分析平臺，我們會分為4個層次進(jìn)行，首先是接入層，將所有緯度的數(shù)據(jù)進(jìn)行集中，包括從基礎(chǔ)網(wǎng)絡(luò)到業(yè)務(wù)特征，像網(wǎng)絡(luò)流量、行為、內(nèi)容等多個緯度，這樣做的原因是所有分類和學(xué)習(xí)算法，必須要有基礎(chǔ)底層數(shù)據(jù)，越真實(shí)越好，這樣可以保證機(jī)器模型可以精確學(xué)習(xí)。

　　其次是引擎和數(shù)據(jù)層，通過底層的模型，對前期采到的數(shù)據(jù)進(jìn)行分類、建模、修正，最后作為結(jié)果數(shù)據(jù)輸出到業(yè)務(wù)場景中。

　　那么，我們從頭來看，海量數(shù)據(jù)是AI的基礎(chǔ)。通過業(yè)務(wù)數(shù)據(jù)、風(fēng)險數(shù)據(jù)、行業(yè)協(xié)同數(shù)據(jù)、以及公共數(shù)據(jù)，我們構(gòu)建出用于風(fēng)險識別的智能引擎，引擎區(qū)分出正常群體和風(fēng)險群體。而單個個體通過智能引擎后，最終得出是否風(fēng)險個體的結(jié)論。

　　算法和模型是深度學(xué)習(xí)的靈魂。機(jī)器學(xué)習(xí)中，不論是否是深層，最常見的形式是監(jiān)督學(xué)習(xí)。監(jiān)督訓(xùn)練需要依賴于有標(biāo)簽的數(shù)據(jù)才能進(jìn)行訓(xùn)練。然而有標(biāo)簽的數(shù)據(jù)通常是稀缺的，因此對于許多問題，很難獲得足夠多的樣本來訓(xùn)練一個復(fù)雜的模型。對于具有強(qiáng)大表達(dá)能力的深度網(wǎng)絡(luò)模型，在不充足的數(shù)據(jù)上進(jìn)行訓(xùn)練將會導(dǎo)致過擬合。過擬合簡單點(diǎn)說，是指在訓(xùn)練集上可以獲得很好的效果，但是在其他數(shù)據(jù)集上效果就不好甚至非常差。

　　監(jiān)督學(xué)習(xí)的另一個問題是局部最優(yōu)問題。使用監(jiān)督學(xué)習(xí)方法來對淺層網(wǎng)絡(luò)(只有一個隱藏層)進(jìn)行訓(xùn)練通常能夠使參數(shù)收斂到合理的范圍內(nèi)。但是當(dāng)用這種方法來訓(xùn)練深度網(wǎng)絡(luò)的時候，并不能取得很好的效果。特別是使用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，通常會涉及到優(yōu)化問題。

　　鑒于監(jiān)督學(xué)習(xí)存在的這些問題，兩千年中期，使用無監(jiān)督學(xué)習(xí)的理念開始興起。無監(jiān)督學(xué)習(xí)不依賴有標(biāo)簽樣本，他可以幫助特定的深度網(wǎng)絡(luò)進(jìn)行“預(yù)訓(xùn)練”，但是這方面的研究還在進(jìn)行中。

　　回到安全上的深度學(xué)習(xí)模型訓(xùn)練上，有監(jiān)督學(xué)習(xí)能否解決問題?我們的回答是：能!

　　首先，騰訊經(jīng)過18年的黑產(chǎn)對抗積累，已積累了大規(guī)模的標(biāo)注數(shù)據(jù)，平臺每天處理超過35萬億條實(shí)時計算、超過300億的IM消息、20億的UGC圖片、沉淀下超過400PB存儲數(shù)據(jù)!我們有豐富的惡意語料庫、惡意圖片庫可以用來進(jìn)行模型訓(xùn)練。但是黑產(chǎn)是在不斷演進(jìn)的，新的惡意形態(tài)出現(xiàn)該怎么辦?我們采取了兩個思路：

　　第一是在算法上，我們引入多目標(biāo)優(yōu)化算法，可以解決樣本不足時的過擬合問題;

　　第二是在半監(jiān)督深度學(xué)習(xí)上的嘗試，不同于人工全量標(biāo)注樣本，我們只標(biāo)記關(guān)鍵點(diǎn)樣本，再由這些關(guān)鍵點(diǎn)樣本進(jìn)行擴(kuò)展，最后再拿得到的樣本進(jìn)行訓(xùn)練。

　　數(shù)據(jù)+算法，我們形成了智能的安全引擎。左腦進(jìn)行計算和學(xué)習(xí)，右腦用專家規(guī)則來調(diào)整方向。

　　實(shí)際應(yīng)用中的例子——基于實(shí)時挖掘的身份鑒定

　　眾所周知，互聯(lián)網(wǎng)安全產(chǎn)品中，識別是否真人是否本人是一個關(guān)鍵的基礎(chǔ)的問題。很多年前就有這樣的一個笑話，你不知道跟你聊天的是只貓還是一只狗。現(xiàn)在我們還得問，你知道跟你聊天的是人還是機(jī)器?是人的話是他本人嗎?是不是人?這是識別自然人的范疇。是他本人嗎?是否有帳號盜用或者共用的可能?在活動防刷、金融反欺詐等領(lǐng)域，身份鑒定都是一個繞不開的問題。來看下我們是怎么做的?首先，我們基于大數(shù)據(jù)，使用多標(biāo)簽精準(zhǔn)刻畫建立用戶畫像。

　　用戶畫像涉及的維度有風(fēng)險畫像，包含用戶的惡意指數(shù)、活躍指數(shù)、負(fù)反饋指數(shù)等。行為序列，用于刻畫用戶在產(chǎn)品中的行為軌跡。帳號畫像，包含用戶的社交傾向，比如是否熱衷原創(chuàng)、是否樂于分享、是否樂于互動等，帳號畫像還有一個重要的維度是行為軌跡，包含用戶使用產(chǎn)品的區(qū)域傾向和時間段傾向。IP畫像，主要包含IP屬性和安全標(biāo)簽，我們會記錄該IP是否肉雞IP、作弊IP等，另外還有針對設(shè)備的畫像等等。

　　接下來看下我們使用的算法，我們使用的是基于多目標(biāo)優(yōu)化的深度學(xué)習(xí)算法。為什么使用多目標(biāo)優(yōu)化?前面我們提到有監(jiān)督深度學(xué)習(xí)的兩個問題：過擬合與局部最優(yōu)。我們希望模型精度足夠高，同時過擬合情況足夠小，傳統(tǒng)的方法是將交叉熵(也就是誤差)，和規(guī)范化(這個是用來衡量是否過擬合的一個量化)進(jìn)行加權(quán)，組成一個最終的目標(biāo)來訓(xùn)練模型。多目標(biāo)優(yōu)化是同時將誤差和規(guī)范化作為目標(biāo)，也就是模型要求同時達(dá)到最優(yōu)。

　　這樣可以全面覆蓋搜索空間，最終實(shí)現(xiàn)跳出局部最優(yōu)，避免過擬合。這三張圖顯示了迭代的過程。橫坐標(biāo)和豎坐標(biāo)分別表示誤差和規(guī)范化，構(gòu)成了搜索空間。通過個體間的信息交換機(jī)制，經(jīng)過若干輪迭代，算法在搜索空間中越過了很多局部最優(yōu)，得到了較好的結(jié)果。就可以根據(jù)需要選擇其中一個模型應(yīng)用到生產(chǎn)環(huán)境中實(shí)施打擊。

　　整個實(shí)現(xiàn)過程，我們使用了2TB的畫像數(shù)據(jù)，涉及到380個細(xì)分維度，我們使用的底層分析平臺保證了身份鑒定整個自學(xué)習(xí)過程以實(shí)時的方式實(shí)現(xiàn)。安全策略的精準(zhǔn)度至少能達(dá)到兩個9。

　　另外一個基于深度學(xué)習(xí)的應(yīng)用是色情圖片識別，騰訊的色情圖片識別依托于騰訊優(yōu)圖的DeepEye主動識別模型，應(yīng)用在空間、QQ、天御直播鑒黃上，效果在業(yè)內(nèi)處于領(lǐng)先優(yōu)勢。

　　因為騰訊有著十余年黑產(chǎn)對抗經(jīng)驗，有天然的海量大數(shù)據(jù)，也有著成功應(yīng)用于的智能對抗方法，我們能很好地識別自然人和黑產(chǎn)用戶，很好地識別垃圾文本、惡意圖片，很好地發(fā)現(xiàn)更多的惡意模式，我們將這些成熟的業(yè)務(wù)安全能力開發(fā)出來，為互聯(lián)網(wǎng)金融、電商、游戲、直播提供業(yè)務(wù)安全解決方案，共享我們的黑產(chǎn)對抗成果。

　　這也是以SaaS化服務(wù)模式，將這些數(shù)據(jù)和能力整合，在騰訊云上向業(yè)界開放了反黑產(chǎn)利器——天御。一年來，天御已經(jīng)幫助我們大量電商企業(yè)應(yīng)對刷單、金融企業(yè)應(yīng)對詐騙、直播客戶鑒黃上發(fā)揮了重要作用。今年的一些電商活動中，天御直接攔下了超過80%惡意刷單。

騰訊云對抗黑產(chǎn)，人工智能將派上什么用場？

騰訊云對抗黑產(chǎn)，人工智能將派上什么用場？