今天還是有點拉肚子,所以,晚一會兒更新,大概凌晨一點左右吧,到時候重新刷新這一章就行了。
…………
摘要:為了保證網絡安全,提出基於大數據分析的網絡安全風險挖掘與估計方法,選取Hadoop平台的Map和Reduce函數挖掘網絡安全事件關聯規則,將所挖掘關聯規則作為網絡安全事件特徵,將網絡安全事件特徵作為徑向基核函數的支持向量機輸入,通過訓練建立網絡安全風險估計模型,並採用QPSO方法的尋優性能搜尋支持向量機最優參數,實驗結果表明,該方法提升了網絡安全風險估計精度,對於防禦網絡安全風險具有重要的參考價值。
關鍵詞:大數據分析;網絡安全風險;關聯規則;支持向量機
1引言
網際網路技術發展極為迅速,網際網路網絡環境具有較高的開放性,部分攻擊者利用網絡具有的不確定性以及多樣性攻擊網絡,嚴重威脅網絡運行安全[1-2]。以往的網絡防禦方法僅利用數據包中所包含信息獲取風險估計結果,所獲取風險估計結果準確率較低。為了保障網絡運行安全性,令網絡管理者實時明確網絡運行狀態,提前明確網絡安全風險,採用相應的防禦措施抵禦風險,是保障網絡安全運行的重要基礎[3-5]。目前眾多研究學者針對網絡安全風險進行大量研究。韓曉露與何春蓉等人分別利用直覺模湖集以及注意力機制評估網絡安全態勢[6-7],但網絡安全風險仍存在告警量過大以及由於數據量過大導致誤報率較高的缺陷。從海量網絡大數據中挖掘有用的網絡安全風險數據是網絡安全風險精準評估的關鍵。網絡存在攻擊行為時,將形成大量眾多類型的告警信息,提升數據挖掘難度[8],高效的大數據挖掘方法對於提升網絡安全風險評估精度極為重要。為此本文提出了基於大數據分析的網絡安全風險挖掘與估計方法,並對其性能進行了測試與分析。
2大數據分析的網絡安全風險挖掘與估計方法
1數據挖掘的關聯規則提取
採集海量網絡數據中的安全事件,由於所採集網絡安全事件格式存在較大差異,需歸一化處理安全事件,便於挖掘其中所包含的關聯規則。利用所挖掘關聯規則分析網絡安全風險的相似病毒[9],相似漏洞等攻擊行為,提升網絡安全風險評估精度。利用大數據分析技術的數據挖掘方法提取網絡安全事件關聯規則。n}表示安全事件元素集合,R={r1,r2,…,rn}表示數據集,數據集R中所包含元素ri均為由W建立的集合,即存在riW。定義1:利用集合R內元素建立集合C,數據集內元素可滿足Cri要求數量為l時,可得數據集R內集合C的支持度計算公式如下:(1)(1)定義2:存在集合IDW時,利用表示C→D的置信度。所挖掘數據集合內可滿足最小置信度以及最小支持度的C→D即大數據挖掘方法所需挖掘的關聯規則。關聯規則通過挖掘事務集內頻繁項集合,獲取不同事務與事務間所存在的關聯規則。網絡安全事件具有規模量極大的特點[10],選取雲計算平台Hadoop平台實現海量網絡安全事件關聯規則挖掘。大數據分析技術挖掘關聯規則分為兩部分:(1)挖掘頻繁項集,所挖掘頻繁項集應滿足最小支持度;(2)利用數據挖掘所獲取的頻繁項集挖掘滿足最小置信度條件的關聯規則。Hadoop平台利用Map函數以及Reduce函數獲取項目集子集以及綜合已獲取子集的支持度,通過分析全部子集支持度獲取所挖掘網絡安全事件中頻繁項支持度,挖掘網絡安全事件數據集中所包含頻繁項集。Hadoop平台挖掘關聯規則過程如下:將最小支持度β以及原始網絡安全事件數據集R作為Hadoop平台運算輸入;將可滿足最小支持度的頻繁項作為Hadoop平台運算輸出。Map任務:(1)依據所輸入文件路徑利用最小支持度的頻繁項集分割原始網絡安全數據集為大小為n的數據子集,格式化處理所分割的各子集,獲取鍵值對,其中value與key分別表示數據信息以及字符偏移量。(2)將所獲取不同子集中的鍵值對依據Map函數讀取,將數據信息value利用split函數解析,將解析結果傳送至集合內;(3)利用輸出key表示全部子集,設子集value值等於1;(4)調用全部可選的bin函數,全部Map端在網絡安全數據中生成相同key值的鍵值對,通過bin函數合併全部相同的鍵值對,改善通過網絡將所獲取的鍵值對發送至Reduce端造成運算效率低的缺陷;Reduce任務:(1)排序bin函數所發送的鍵值對,合併相同key值的鍵值對,獲取,所獲取鍵值對利用Re-duce函數讀取,累加鍵值對中L()內的值。網絡安全數據集R內key集合的支持數量,所獲取結果即Reduce端具有頻繁候選項集的全局支持度;(2)將高於最小支持度的候選項集基於最小支持度發送至存儲數據外部表內,利用所獲取外部表查詢挖掘所獲取的頻繁項集,設置該頻繁項為MapReduce程序的輸入以及輸入相關文件。將最小置信度δ以及滿足最小置信度δ的關聯規則分別作為挖掘網絡安全事件關聯規則的輸入與輸出,運算過程如下:(1)選取Map函數啟動setup法連接資料庫;(2)分割存儲數據所建立外部表內的頻繁項集,完成分割後獲取數量為n的數據子集,將全部數據格式化處理至鍵值對;(3)解析value內頻繁項集內元素,完成解析後獲取相應value值用(C,D,SValue)表示,將所獲取的(C,D)存儲至集合中;(4)求解頻繁項集內元素子集C,讀取元素子集C支持度sup(C),利用表示C→D的置信度。(5)當所獲取置信度高於已設定閾值時,所獲取的頻繁項集內部包含該子集外的全部元素與該子集存在關聯規則,利用所獲取差集與子集建立key值,該key值的置信度值即value。通過以上過程挖掘網絡安全事件關聯規則,利用支持向量機方法基於所挖掘關聯規則實現網絡安全風險估計。
2網絡安全風險估計方法
將所挖掘關聯規則作為網絡安全事件特徵,利用所挖掘關聯規則估計網絡安全風險。利用樣本輸入xi以及樣本輸出yi所組成的(xi,yi)表示網絡安全事件訓練樣本集,該樣本集滿足xiRn,yiRn。網絡安全事件樣本集(xi,yi)內網絡安全事件樣本利用非線性映射函數φ()映射至高維特徵空間內,可得網絡安全事件評估的最優線性回歸函數表達式如下:(2)式中,b與w分別表示偏置量以及權值。利用結構風險最小化原則獲取LSSVM回歸模型的解,可得公式如下:(3)(4)式中,ei與C分別表示回歸函數與實際結果的誤差以及懲罰函數。將公式(4)的約束優化問題引入拉格朗日乘子可得公式如下:(5)式中,ai表示拉格朗日乘子。依據Mercer條件定義核函數公式如下:(6)選取徑向基核函數設置為網絡安全風險估計的核函數,可得徑向基核函數表達式如下:(7)獲取最終支持向量機回歸模型如下:(8)式中,σ為徑向基核函數寬度。支持向量機參數決定其估計精度,選取合適的參數有助於提升網絡安全風險估計精度。選取QPSO算法對支持向量機的參數尋優。QPSO算法設置存在數量為m的粒子於維度為D的搜索空間內,粒子原始位置用xi(xi1,xi2,…,xid)表示,PB(pb1,pb2,…,pbd)表示當前最優位置,GB(bg1,bg2,…,bgd)表示全局最優位置。粒子進化表達式如下:(8)式中,mbest與β分別表示粒子群內最優粒子值以及算法收斂速度。疊代次數為t時,算法收斂速度計算公式如下:(9)網絡安全風險評估過程如下:(1)依據網絡安全風險評估規模設置粒子群內粒子數量,粒子群內粒子維度分別表示用於估計網絡安全風險支持向量機的參數C與σ。(2)設置優化支持向量機參數的粒子群算法的參數以及最大疊代次數;(3)獲取粒子的適應度函數;(4)計算粒子的最優個體位置以及全局最優位置,建立網絡安全信息庫;(5)更新粒子群內各粒子位置;(6)依據以上過程重複疊代計算,判斷是否滿足終止條件,滿足終止條件時,轉至步驟(7),否則轉回至步驟(3);(7)將通過以上過程所獲取的最優粒子作為支持向量機參數,完成網絡安全風險估計模型建立,利用所建立網絡安全風險估計模型獲取網絡安全風險估計結果。
3實例分析
選取某通信網絡運行時間為60min的通信數據作為測試對象,共採集樣本數據5846544條,採用本文方法評估網絡安全風險。選取直覺模湖集方法(參考文獻[6])以及注意力機制方法(參考文獻[7])作為對比方法。本文方法採用大數據分析技術挖掘海量網絡通信數據間所存在的關聯規則,統計不同最小置信度以及最小支持度時所挖掘的關聯規則數量,統計結果如圖1所示。圖1實驗結果可以看出,最小置信度以及最小支持度分別為7以及3時,可挖掘數量較多的關聯規則,設置採用本文方法挖掘海量網絡數據時,β值以及б值分別為7以及3。本文方法具有較高的關聯規則挖掘性能,應用於海量網絡通信數據時,仍具有較高的挖掘效率。完成關聯規則挖掘後,利用QPSO算法的尋優性能獲取支持向量機最優參數,QPSO算法在不同疊代次數時收斂情況如圖2所示。圖2實驗結果可以看出,本文方法採用QP-SO算法尋找支持向量機評估網絡安全風險的最優參數,僅需40次左右的疊代次數即可快速獲取最優支持向量機參數。本文方法所選取QPSO算法具有較高的尋優效率,可在較短時間內快速獲取支持向量機的最優參數,提升網絡安全風險估計性能。通過QPSO算法獲取支持向量機算法最優參數為C=130,σ=135。採用QPSO算法所獲取的支持向量機最優參數建立網絡安全風險評估模型,採用所建立安全風險評估模型評估網絡運行5h的安全風險事件數量,將本文方法與另兩種方法對比,對比結果如圖3所示。圖3實驗結果可以看出,採用本文方法評估網絡安全風險結果與實際網絡安全風險結果極為接近,波動趨勢具有較高的吻合性。對比結果說明本文方法可有效預測網絡安全風險,預測結果極為可靠,可作為網絡管理員管理網絡安全的有效依據。經過多次測試,對比三種方法的網絡安全風險評估性能,對比結果如圖4所示。圖4實驗結果可以看出,採用本文方法評估網絡安全風險,可有效改善所需歷史數據較多、對缺失數據較為敏感等缺陷,應用於網絡安全風險評估時具有較高可靠性。採用本文方法評估測試網絡於2020年1月3日7:00-24:00共17個小時的安全風險情況見表1。針對表1給出的實驗網絡安全事件情況表,採用本文方法對其風險事件攻擊類型進行評估,結果見表2。分析表2可得,本文方法可評估安全風險事件,可有效確定網絡安全風險事件的具體攻擊行為,驗證本文方法具有較高的安全風險事件評估有效性。
4結束語
網絡安全風險估計是目前網絡安全防禦體系中的重要部分。伴隨網絡中數據量的提升,對網絡安全風險估計提出更高要求。充分考慮網絡運行過程中的攻擊形勢,將大數據分析技術應用於網絡安全風險估計中,利用大數據分析技術所具有的可處理海量數據的優勢,充分挖掘網絡安全事件中所存在的關聯規則,估計網絡安全風險。通過實驗驗證所研究方法可實現網絡安全風險的有效估計,可保障海量數據運行環境下的網絡安全的有效防護。