Visual computing can reveal the hidden AI malware effectively (Chinese version only)

Media Coverage @ IT Square

2022-04-04

AI惡意軟件照妖鏡視覺運算揭病毒真身

中信國際電訊CPC信息科技服務與數據科學部副總裁李超羣：他山之石可以攻玉，團隊走出傳統網絡安全思維，以數據演算法，設計出突破性AI網絡安全檢測系統

新科技速遞

隨著數碼化轉型，企業數碼基建的攻擊面，愈來愈大，如何防禦惡意軟件，一直是網絡保安的挑戰，而潛伏的攻擊也極難發現。

近年來，勒索軟件、木馬、病毒、惡意挖礦程式等惡意軟件，不斷大量湧現，不少更化整為零，繞過了防禦系統，幾乎是防不勝防。

雖然說，偵察軟件已推陳出新，但不少卻被以各種手段，逃逸偵察和繞過防禦，傳統網絡保安已窮於應付。

去年，中信國際電訊CPC團隊就發明了嶄新檢測手法，將惡意軟件變為圖形，再以神經網絡，以深度學習提取特徵並建立檢測模型，只要惡意軟件具備共同圖形特徵，通過視覺運算的邊緣推理引擎，就可快速判斷惡意軟件和分門別類。

跳出框框打破傳統

這種檢測手法跳出傳統框框，完全不以網絡保安為出發，甚至不須知道攻擊的手法，只純粹透過機器學習和視覺運算，以辨識惡意軟件，有點類似以人臉辨識執行保安。

中信國際電訊CPC信息科技服務與數據科學部副總裁李超羣說，團隊開發出上述技術，獲得了中國CCF大數據與計算智能大賽（CCF BDCI）「一等獎」；去年12月總決賽答辯日獲「人工智慧惡意軟件家族分類」全場總冠軍，正在申請專利，以便有關技術可實際應用。

這種偵察技術的優勢，在於易於部署以外，亦更具效率。由於惡意軟件開發不易，不少只是舊酒新瓶，將原有軟件再加入逃逸掩飾，或者轉換包裝；除非全新設計，否則都會被上述技術抽測出來。

變種的惡意軟件之所以難以偵查，主要是加入逃逸機制，不斷變種加上掩飾。中信國際電訊CPC工具，卻只憑惡意軟件的圖像特徵，即可凖確識別，如何變種亦無所遁形。

以對付惡意軟件，市場有多種偵察技術；最簡單是靠「識別碼」（Signature）或特徵代碼，一旦符合預定特徵，就可斷判是惡意軟件。惡意軟件遭不停修改，再加入混淆，以致識別碼逐漸失去作用，原本隸屬於同一家族的惡意軟件，可化身為不同檔案，如妖怪變身，加上層層偽裝，外表已不能分辨是同一惡意軟件。

CCF

中信國際電訊CPC信息科技服務與數據科學部團隊獲得了中國CCF大數據與計算智能大賽（CCF BDCI）總決賽答辯日獲「人工智慧惡意軟件家族分類」全場總冠軍，正在申請專利，以便有關技術可實際應用。

惡意軟件魔高一丈

以高度非結構化的惡意軟件，一般包括了ASM（ASCII）和PE（二進位）兩種數據的檔案結構；ASM屬於可執行的代碼，內容憑肉眼就可以解讀，但PE檔則通常由編輯器產生；例如Windows系統的.exe和.dll可執行檔，內容則是二進位的機器碼。

這些檔案數量之多，難以一一掃描，揪出惡意軟件加以分類。另一種方法是根據軟件行為特徵，如在接收檔案之前，先把檔案列為分析目標，儲存至預設虛擬環境，通過一系列技術先「觀測」其行為；統稱為「沙盒」（Sandbox），最典型就是FireEye，以行為檢測APT惡意軟件。

不過在檢測之前，須清楚軟件的行為，有時惡意軟件在第一次檢測，先按兵不動，與「沙盒」鬥法，「沙盒」又要讀取文件內容，更影響了私隱，而沙盒部署亦相對複雜。

中信國際電訊CPC團隊則巧妙利用視覺運算和深度學習，減少了系統的負擔，而偵察惡意軟件之餘，亦可同時分類，分析數據的過程之中，以AI演算和圖像識別，透過視覺運算深度學習，將複雜數據轉化為易於辨認的圖像，AI模型易於部署，亦不讀取內容，檢測的只是化身圖像。

抽出特徵無所遁形

團隊首先將文件內容，變為色彩圖像，RGB應對成三維算法，內容變圖像之後，數量仍會過於龐大，團隊再以專門學習數據特徵的Autoencoder，以弱監督（Weakly supervised learning）的神經網絡模型，學習輸入數據的隱含特徵，先經「編碼」（Coding）學習內容特徵，再重構原始輸入數據，稱之為「解碼」（Decoding）；如此一來，抽出特徵並降低了複雜性，關鍵是編碼之後，較小圖像就可代表原始數據；團隊反編碼測試，發現重新編碼後，縮小的圖像跟原始圖片特徵，非常一致，有代表性。

「經編碼後小量文件，可代表大量PE執行檔產生圖片的主要特徵；然後利用上述小圖為門惡意軟件作特徵分類。」

「惡意軟件為了逃避檢測，引入不同掩飾，也難逃Autoencoder訓練AI模型『法眼』，分析數據過程以AI演算和圖像識別，視覺運算模型的自動識別下，惡意軟件即時現形。」

以視像運算去檢測和分類惡意軟件，部署也相對簡單，可在內聯網或雲端上以 GPU算力，輸入圖像作AI模型推理，揪出懷疑檔案，掃描大批檔案，毋須閱讀內容，模型隨數據增加，重複訓練改善凖確度。

李超羣說，比賽評委讚揚團隊表現，在於技術走出了傳統的網絡安全思維，單靠數據演算，設計出突破性AI網絡安全檢測；AI模型採用圖像識別，已包含多種的演算法（AE及LGB），以實現高維度和多方向精凖分類，該團隊由集團內5名數據科學家組成。

< ~~Previous~~

Back

~~Next~~ >

Visual computing can reveal the hidden AI malware effectively (Chinese version only)

AI惡意軟件照妖鏡 視覺運算揭病毒真身

新科技速遞

跳出框框打破傳統

惡意軟件魔高一丈

抽出特徵無所遁形

AI惡意軟件照妖鏡視覺運算揭病毒真身