




已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
(應(yīng)用數(shù)學(xué)專業(yè)論文)基于半監(jiān)督聚類的入侵檢測(cè)算法研究.pdf.pdf 免費(fèi)下載
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
河南大學(xué)研究生碩士學(xué)位論文第l 頁(yè) 摘要 網(wǎng)絡(luò)信息系統(tǒng)需要采取主動(dòng)的防御措施。入侵檢測(cè)技術(shù)是近2 0 年來(lái)出現(xiàn)的 一種主動(dòng)保護(hù)系統(tǒng)、免受黑客攻擊的新型網(wǎng)絡(luò)安全技術(shù)。傳統(tǒng)的入侵檢測(cè)算法是 基于監(jiān)督學(xué)習(xí)的,檢測(cè)率較高,誤報(bào)率較低,但無(wú)法檢測(cè)到未知攻擊,且要求將 數(shù)據(jù)正確地標(biāo)記為正?;虍惓>W(wǎng)絡(luò)環(huán)境中存在大量的未標(biāo)記數(shù)據(jù),要正確地標(biāo) 記這些數(shù)據(jù),幾乎是不可行的。如果將非監(jiān)督學(xué)習(xí)方法應(yīng)用到入侵檢測(cè)中,基于 聚類的入侵檢測(cè)算法能夠檢測(cè)未知攻擊,檢測(cè)率較高,但誤報(bào)率也較高。由此本 文提出基于半監(jiān)督學(xué)習(xí)的入侵檢測(cè)算法。 一半監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究熱點(diǎn),通過(guò)標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù) 據(jù)的聯(lián)合概率分布,來(lái)改進(jìn)分類器的性能。根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn),本文提出了基 于半監(jiān)督聚類的入侵檢測(cè)算法,利用少量的標(biāo)記數(shù)據(jù),生成用于初始化算法的種 子聚類,然后輔助聚類過(guò)程,檢測(cè)已知和未知攻擊。在網(wǎng)絡(luò)環(huán)境中,標(biāo)記數(shù)據(jù)是 有限的,為了充分利用監(jiān)督信息,用戶需要主動(dòng)查詢標(biāo)記數(shù)據(jù)的約束,而不是隨 機(jī)選擇約束,這樣即使少量的約束也能大大改進(jìn)算法的性能。 本文系統(tǒng)地研究入侵檢測(cè)系統(tǒng)的基本理論,介紹了入侵檢測(cè)的定義,分析了 入侵檢測(cè)的模型、研究現(xiàn)狀和當(dāng)前存在的問(wèn)題。針對(duì)基于聚類的入侵檢測(cè)算法誤 報(bào)率高的問(wèn)題,提出了基于半監(jiān)督聚類的入侵檢測(cè)算法a c k i d 。論文將主動(dòng)學(xué)習(xí) 策略應(yīng)用于半監(jiān)督聚類過(guò)程中,主動(dòng)學(xué)習(xí)策略查詢網(wǎng)絡(luò)中未標(biāo)記數(shù)據(jù)與標(biāo)記數(shù)據(jù) 的約束關(guān)系,采用f a r t h e s t f i r s t 對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記。 k d dc u p 9 9 數(shù)據(jù)集是用于評(píng)估入侵檢測(cè)算法的標(biāo)準(zhǔn)數(shù)據(jù)集,結(jié)合k d d c u p 9 9 數(shù)據(jù)集,分析了a c k i d 入侵檢測(cè)算法的評(píng)估過(guò)程,確定r o c 曲線為a c k i d 算法的評(píng)估指標(biāo),分析網(wǎng)絡(luò)數(shù)據(jù)的屬性特征并對(duì)數(shù)據(jù)預(yù)處理,最后評(píng)估a c k i d 算法的性能。 實(shí)驗(yàn)結(jié)果表明,a c k i d 算法能夠檢測(cè)出未知攻擊,證實(shí)利用標(biāo)記數(shù)據(jù)和約 束可以提高算法的檢測(cè)率,降低誤報(bào)率,并且表明采用主動(dòng)學(xué)習(xí)策略能夠獲取最 有用的監(jiān)督信息以檢測(cè)未知攻擊。 關(guān)鍵詞:入侵檢測(cè);半監(jiān)督聚類;主動(dòng)學(xué)習(xí);r o c 曲線 第1i 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 a b s t r a c t i n f o r m a t i o ns y s t e mn e e d sa c t i v ep r o t e c t i o nm e a s u r e s d u r i n gt h e s et w od e c a d e s i n t r u s i o nd e t e c t i o nw h i c hp r o t e c t ss y s t e ma c t i v e l yf r o mh a c k e r sa t t a c k si san e w t e c h n i q u e t h et r a d i t i o n a la l g o r i t h m sf o ri n t r u s i o nd e t e c t i o nb a s e do ns u p e r v i s e d l e a r n i n gc a l l td e t e c tu d k n o w na t t a c k sa n dr e q u e s tt h a td a t aa r ec o r r e c t l yi a b e l e da s n o r m a lo ra n o m a l y , w h i c hd e t e c t i o nr a t e sa r eh i g h e ra n df a l s ep o s i t i v er a t e sa r el o w e r t h e r ea r el o t so fd a t ai nn e t w o r ke n v i r o n m e n t e s p e c i a l l yf o rl a b e l i n gn e wu n k n o w n a t t a c k sc o r r e c t l yi sh a r d l yp o s s i b l e i f t h em e t h o d so f u n s u p e r v i s e dl e a r n i n ga l ea p p l i e d t oi n t r u s i o nd e t e e t i n n t h ei n t r u s i o nd e t e c t i o na l g o r i t h m sb a s e do nc l u s t e r i n gc a nd e t e c t n n k n o w na t t a c k s 。w h i c hd e t e c t i o nr a t e sa r eh i g h e rw h e r e a sf a l s en e g a t i v e sr a t e sa r e a l s oh i g h e r c o n s e q u e n t l y , t h ep a p e rp r o p o s e st h ea l g o r i t h mf o ri n t r u s i o nd e t e c t i o n b a s e do ns e m i - s u p e r v i s e dc l u s t e r i n g s e m i s u p e r v i s e dl e a r n i n gi so n eo f n e w r e s e a r c ho f m a n yh o tt o p i c s ,w h i c ha t t a i n s j o i n tp r o b a b i l i t yd i s t r i b u t i o no fl a b e l e dd a t aa n du n l a b e l e dd a t at oi m p r o v ec l a s s i f i e r s p e r f o r m a n c e n ep a p e rp r o p o s e st h ea l g o r i t h mf o ri n t r u s i o n d e t e c t i o nb a s e do n s e m i s u p e r v i s e dc l u s t e r i n gw h i c hu s e saf e wl i m i t e dl a b e l e dd a t at og e n e r a t es e e d c l u s t e r si n i t i a t i n gt h ea l g o r i t h ma n dt h e na i d sc l u s t e r i n gp r o c e s st od e t e c tk n o w na n d i n l l o l o w na t t a c k s t h e r ea r eaf e wl a b e l e dd a t ai nn e t w o r ke n v i r o n m e n t i no r d e rt o m a x i m i z et h eu t i l i t yo ft h el i m i t e ds u p e r v i s e dd a t aa v a i l a b l ei nas e m i - s u p e r v i s e d s e t t i n g , c o n s t r a i n so fl a b e l e dd a t as h o u l db es e l e c t e da sm a x i m a l l yi n f o r m a t i v eo n e s a c t i v e l yr a t h e rt h a nc h o s e na tr a n d o m i fp o s s i b l e i nt h a tc a s e 。f e w e rc o n s t r a i n t sw i l l b er e q u i r e dt oi m p r o v et h ec l u s t e r i n ga c c u r a c ys i g n i f i c a n t l y s y s t e m a t i c a l l y , t h ep a p e ri n v e s t i g a t e st h eb a s i ct h e o r yo fi n t r u s i o nd e t e c t i o n s y s t e m ,i u t r o d u c c st h ed e f i n i t i o no fi n t r u s i o nd e t e c t i o n , a n da n a l y s e st h em o d e l so f i n t r u s i o nd e t e c t i o na n dr e s e a r c hs t a t e - o f - a r ta n de x i s t i n gp r o b l e m sn o w a d a y s a i m i n g a tt h ep r o b l e m so fi n t r u s i o nd e t e c t i o na l g o r i t h i nb a s e do nc l u s t e r i n g , t h ep a p e r p r o p o s e st h ea l g o r i t h mf o ri n t r u s i o nd e t e c t i o nb a s e do ns e m i - s u p e r v i s e dc l u s t e r i n g , n a m e l ya c k da l g o r i t h m t h ep a p e ra p p l i e s a c t i v el e a r n i n gs t r a t e g yt o s e m i - c l n s t e r i n gp r o f e s s a c t i v el e a r n i n gq u e r i e s c o n s l a a i n so ul a b e l e dd a t aa n d u n l a b e l e dd a t a , w h i c hu s e sf a r t h e s t f i r s tt ol a b e lt h eu n l a b e l e dd a t a k d dc u p 9 9d a t a s e t sa r es t a n d a r dd a t a s e t su s e dt oe v a l u a t et h ea l g o r i t h m sf o r i n t m s i u nd e t e c t i o n 皿ep a p e rn s e sk d dc u p 9 9d a t a s e t st oa n a l y z et h ee v a l u a t i o n p r o c e s so f a c k i da l g o r i t h m ,c o n f i r m i n gr o cc u l w ea se v a l u a t i o ns t a n d a r do f a c k i d 河南大學(xué)研究生碩士學(xué)位論文第1 li 頁(yè) a l g o r i t h m , a n a l y z i n gt h e a t t r i b u t ef e a t u r e so fn e t w o r kd a t a , p r e p r o e e s s i n gd a t aa n d a m l y z m g r e s u l t s 。 t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a ta c k i da l g o r i t h mw h i c hh a st h e c a p a b i l i t yo fg e n e r a l i z i n gu n k n o w l li n t r u s i o nc a nd e t e c tu n k i l o w na t t a c k s ,a p p r o v et h a t a c k i da l g o r i t h mu s m gl a b e l e dd a t aa n dc o n s t r a i n sc a ni m p r o v et h ed e t e c t i o nr a t e s a n dl o wt h ef a l s ep o s i t i v er o t e so ft h ea l g o r i t h m ,a n dc o n f i r mt h a ta c k i da l g o r i t h m a d o p t i n ga c t i v el e a r n i n gc a na c q u i r et h em o s tu s e f u ls u p e r v i s e di n f o r m a t i o nt od e t e c t u n k n o w na t t a c k s k e yw o r d :i n t r u s i o nd e t e c t i o n ;s e m i - s u p e r v i s e dc l u s t e r i n g ;a c t i v el e a r n i n g ;r o e c u r v e 關(guān)于學(xué)位論文獨(dú)立完成和內(nèi)容創(chuàng)新的聲明 本人向河南大學(xué)提出碩士學(xué)位中請(qǐng)。本人鄭重聲明:所呈交的學(xué)位論文是 本人在導(dǎo)師的指導(dǎo)下獨(dú)立完成拍,對(duì)所研究的課題有新的見(jiàn)解。據(jù)我所知,除 文中特別加以說(shuō)明、標(biāo)注夕致謝酌地方外,論文中不包括其他人已經(jīng)友表或撰 寫(xiě)過(guò)的研究成果,也不包船其他人為獲得任何教育、科研機(jī)構(gòu)的學(xué)位或證書(shū)而 段 殺存、匯編學(xué)位論文( 紙質(zhì)文本和電子文本) 。 ( 涉及保密內(nèi)客的學(xué)位論文在解密后適用本授權(quán)書(shū)) 學(xué)位獲得者( 學(xué)位論文作者) 簽名 學(xué)位論文指導(dǎo)教師簽 生量饜 一 河南大學(xué)研究生碩士學(xué)位論文第1 頁(yè) 第l 章緒論 入侵檢測(cè)是一種主動(dòng)保護(hù)系統(tǒng)、免受黑客攻擊的新型網(wǎng)絡(luò)安全技術(shù),提供對(duì) 網(wǎng)絡(luò)內(nèi)部攻擊、外部攻擊和誤操作的實(shí)時(shí)保護(hù)。本章重點(diǎn)闡述選題背景、入侵檢 測(cè)研究現(xiàn)狀和本文所做的工作。 1 1選題背景 二十年來(lái),i n t e m e t 改變了人類的生活方式。然而,隨著越來(lái)越多的人使用 i n t e m e t ,計(jì)算機(jī)系統(tǒng)本身存在的漏洞逐漸暴露出來(lái),使得惡意入侵有機(jī)可乘,像 計(jì)算機(jī)病毒、竊取數(shù)據(jù)、黑客攻擊等。 根據(jù)數(shù)據(jù)統(tǒng)計(jì),9 9 的大公司都發(fā)生過(guò)大的入侵事件,如世界著名的商業(yè)網(wǎng) 站y a h o o 、b u y 、a m a z o n 等都曾被黑客入侵,造成巨大的經(jīng)濟(jì)損失,甚至連專門(mén) 從事網(wǎng)絡(luò)安全的r s a 網(wǎng)站也受到黑客的攻擊。 我國(guó)同樣存在計(jì)算機(jī)安全問(wèn)題,利用計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行的各類違法行為以每年 3 0 的速度遞增。我國(guó)9 5 的與i n t e r n e t 相連的網(wǎng)絡(luò)管理中心都遭受過(guò)境內(nèi)外黑 客的攻擊或侵入,其中銀行、金融和證券等機(jī)構(gòu)是黑客攻擊的重點(diǎn),這些金融機(jī) 構(gòu)因黑客犯罪案件而損失的金額己高達(dá)數(shù)億元,同時(shí)針對(duì)其他行業(yè)的黑客犯罪也 時(shí)有發(fā)生。 因此,計(jì)算機(jī)網(wǎng)絡(luò)的安全問(wèn)題已成為一個(gè)亟待解決的國(guó)際化問(wèn)題。確保計(jì)算 機(jī)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)及整個(gè)信息基礎(chǔ)設(shè)施的安全對(duì)于我國(guó)的經(jīng)濟(jì)建設(shè)和國(guó)防安全具 有重要的意義。 r u s s e l 與g a n g e m i ( 1 9 9 1 ) 提出計(jì)算機(jī)安全是建立在系統(tǒng)的機(jī)密性j 完整性及 可用性的要求之上的【”。機(jī)密性( c o n f i d e n t i a l i t y ) 指只有授權(quán)用戶才能獲取信息; 完整性( i n t e g r i t y ) 指系統(tǒng)中的數(shù)據(jù)要保持一致性和正確性,不會(huì)被偶然或惡意修 改;可用性( a v a i l a b i l i t y ) 指當(dāng)授權(quán)用戶需要系統(tǒng)資源時(shí),系統(tǒng)會(huì)一直提供資源, 而不會(huì)拒絕授權(quán)用戶的訪問(wèn) k u m 呱1 9 9 5 ) 對(duì)計(jì)算機(jī)安全系統(tǒng)的定義是:能夠保護(hù)數(shù)據(jù)、資源免于未經(jīng)授 權(quán)的訪問(wèn)、篡改數(shù)據(jù)和拒絕服務(wù)的系統(tǒng)【2 】。在他所提出的框架中,數(shù)據(jù)機(jī)密性對(duì) 商業(yè)和國(guó)家安全是很重要的;數(shù)據(jù)一致性允許醫(yī)院維護(hù)病人的看病記錄,為的是 在關(guān)鍵時(shí)刻做出決策;數(shù)據(jù)可用性允許實(shí)時(shí)地在線交易。 第2 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 隨著計(jì)算機(jī)和的普及和網(wǎng)絡(luò)的快速發(fā)展,未經(jīng)授權(quán)的訪問(wèn)、篡改數(shù)據(jù)和拒絕 服務(wù)攻擊的現(xiàn)象日趨嚴(yán)重。日益增長(zhǎng)的網(wǎng)絡(luò)連接不僅方便了獲取大量的數(shù)據(jù),而 且也提供了數(shù)據(jù)的訪問(wèn)路徑。網(wǎng)絡(luò)入侵者根據(jù)網(wǎng)絡(luò)所提供的信息,在理解系統(tǒng)是 如何工作后,利用系統(tǒng)的漏洞獲取權(quán)限來(lái)完成他的目的。入侵者利用入侵模式掩 飾他的活動(dòng)軌跡,使得系統(tǒng)無(wú)法識(shí)別他就是入侵者。 為了使得網(wǎng)絡(luò)安全人員盡量發(fā)現(xiàn)和察覺(jué)入侵行為和入侵企圖,需要采取有效 的措施來(lái)堵塞漏洞和修復(fù)系統(tǒng)。入侵檢測(cè)技術(shù)是近2 0 年來(lái)出現(xiàn)的一種主動(dòng)保護(hù)系 統(tǒng)、免受黑客攻擊的新型網(wǎng)絡(luò)安全技術(shù)。入侵檢測(cè)被認(rèn)為是防火墻之后的第二道 安全閘門(mén),它在不影響網(wǎng)絡(luò)性能的情況下對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)測(cè),從而提供對(duì)內(nèi)部攻擊、 外部攻擊和誤操作的實(shí)時(shí)保護(hù)。 入侵檢測(cè)通過(guò)分析計(jì)算機(jī)網(wǎng)絡(luò)或系統(tǒng)中的審計(jì)數(shù)據(jù),從中發(fā)現(xiàn)網(wǎng)絡(luò)或系統(tǒng)中 是否存在入侵行為或入侵企圖。入侵檢測(cè)的本質(zhì)是一個(gè)模式分類問(wèn)題,就是將網(wǎng) 絡(luò)數(shù)據(jù)正確地分為正常類和異常類,因此各種機(jī)器學(xué)習(xí)技術(shù)越來(lái)越多的應(yīng)用到入 侵檢測(cè)領(lǐng)域中 3 1 。 傳統(tǒng)的入侵檢測(cè)算法是基于監(jiān)督學(xué)習(xí)的【4 】,檢測(cè)率較高,誤報(bào)率較低,但是 無(wú)法有效地檢測(cè)到未知攻擊,且要求訓(xùn)練集中的數(shù)據(jù)被正確地標(biāo)記為正?;虍惓?。 然而,在網(wǎng)絡(luò)環(huán)境中存在大量的數(shù)據(jù),尤其是對(duì)未知攻擊正確地標(biāo)記幾乎是不可 能的。因此,非監(jiān)督學(xué)習(xí)方法被應(yīng)用到入侵檢測(cè)中【5 】,基于聚類的入侵檢測(cè)算法 不用對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行標(biāo)記,就可以檢測(cè)到未知的入侵行為,所以,基于非監(jiān)督學(xué) 習(xí)的入侵檢測(cè)算法的檢測(cè)率較高,然而,一旦有入侵行為被作為正常數(shù)據(jù)包含在 訓(xùn)練集中,就會(huì)導(dǎo)致該類的入侵行為及其交種都被視為正常數(shù)據(jù),所以誤報(bào)率也 較高。 在網(wǎng)絡(luò)環(huán)境中,為了解決監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)應(yīng)用于入侵檢測(cè)中的問(wèn)題, 本文引入了半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)技術(shù)問(wèn)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究熱點(diǎn), 它通過(guò)標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的聯(lián)合概率分布來(lái)改進(jìn)分類器的性能。在網(wǎng)絡(luò)環(huán)境 中,獲得少量的標(biāo)記是可行的。因此,本文提出基于半監(jiān)督聚類的入侵檢測(cè)算法 a c k i d ,利用少量的標(biāo)記數(shù)據(jù)輔助聚類過(guò)程,采用主動(dòng)學(xué)習(xí)策略查詢標(biāo)記數(shù)據(jù)與 未標(biāo)記數(shù)據(jù)的約束關(guān)系,也就是利用標(biāo)記和未標(biāo)記數(shù)據(jù)的聯(lián)合分布來(lái)檢測(cè)入侵行 為。 通過(guò)查閱大量的文獻(xiàn),僅有一篇文獻(xiàn)提出自標(biāo)記啟發(fā)式算法標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)1 7 j , 利用標(biāo)記數(shù)據(jù)檢測(cè)未知攻擊。與文獻(xiàn)【7 】不同的是,本文采用主動(dòng)學(xué)習(xí)策略查詢標(biāo) 記數(shù)據(jù)的約束,可以充分利用標(biāo)記數(shù)據(jù)的監(jiān)督信息以指導(dǎo)聚類結(jié)構(gòu)的形成。 河南大學(xué)研究生碩士學(xué)位論文第3 頁(yè) 1 2研究現(xiàn)狀 隨著入侵檢測(cè)技術(shù)的發(fā)展,目前已經(jīng)出現(xiàn)很多入侵檢測(cè)系統(tǒng),不同的入侵檢 測(cè)系統(tǒng)具有不同的特征。根據(jù)不同的分類標(biāo)準(zhǔn),入侵檢測(cè)系統(tǒng)可分為不同的類別。 對(duì)于入侵檢測(cè)系統(tǒng),要考慮的因素主要有:信息源、響應(yīng)機(jī)制、分析算法、同步 技術(shù)、控制策略等i s 。圖1 1 從不同角度對(duì)入侵檢測(cè)系統(tǒng)進(jìn)行分類。 圖卜1 入侵檢測(cè)系統(tǒng)的分類 根據(jù)入侵檢測(cè)系統(tǒng)的檢測(cè)原理的不同可分為:誤用檢測(cè)和入侵檢測(cè)。誤用檢 測(cè)首先抽取入侵特征,并構(gòu)建入侵特征庫(kù),通過(guò)模式匹配的方式來(lái)檢測(cè)已知類型 攻擊及其變種。入侵檢測(cè)是對(duì)正常的網(wǎng)絡(luò)和用戶的行為構(gòu)建模型,那么偏離模型 的行為都被認(rèn)為是異常。 “ 根據(jù)信息源的不同,入侵檢測(cè)系統(tǒng)可以分為:基于主機(jī)的入侵檢測(cè)系統(tǒng)和基 于網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng)。基于主機(jī)的i d s 一般用于監(jiān)視主機(jī)信息,其數(shù)據(jù)源通常 包括操作系統(tǒng)的審計(jì)記錄、系統(tǒng)日志、基于應(yīng)用的審計(jì)信息、基于目標(biāo)的對(duì)象信 息等?;诰W(wǎng)絡(luò)的i d s 主要用來(lái)實(shí)時(shí)監(jiān)控某一網(wǎng)段,數(shù)據(jù)源是網(wǎng)絡(luò)上所有分組采 集的數(shù)據(jù)包。 i d s 對(duì)檢測(cè)到的入侵行為可采取不同的反應(yīng)方式:采取某種行動(dòng)的i d s 為主 動(dòng)響應(yīng),如斷開(kāi)網(wǎng)絡(luò)連接、增加安全日志、殺死可疑進(jìn)程等;若只是產(chǎn)生一些警 告通知,則稱為被動(dòng)響應(yīng)。根據(jù)系統(tǒng)監(jiān)控到事件和對(duì)事件進(jìn)行分析處理之間的間 第4 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 隔,可將其分為實(shí)時(shí)的和事后處理兩類?!皩?shí)時(shí)”是指不間斷持續(xù)運(yùn)行的檢測(cè)過(guò)程, 表明i d s 對(duì)入侵反應(yīng)足夠快;而系統(tǒng)在收集到信息之后要隔一段時(shí)間才對(duì)其進(jìn)行 處理,稱為事后處理i d s 。 按照體系結(jié)構(gòu),m s 可分為集中式和分布式,這與計(jì)算機(jī)系統(tǒng)的發(fā)展趨勢(shì)是 一致的。傳統(tǒng)的i d s 是集中式的,可能有多個(gè)分布于不同主機(jī)的審計(jì)程序收集到 的數(shù)據(jù)交由一個(gè)中央入侵檢測(cè)服務(wù)器進(jìn)行分析處理;而分布式i d s 由多個(gè)基于主 機(jī)的i d s 組成,這些i d s 不分等級(jí)的執(zhí)行自己的監(jiān)控任務(wù),各i d s 之間通過(guò)消息 或其他機(jī)制進(jìn)行交互。 1 3 本文工作 當(dāng)入侵模式和網(wǎng)絡(luò)行為特征改變時(shí),傳統(tǒng)的入侵檢測(cè)系統(tǒng)就無(wú)能為力了,用 聚類算法可以檢測(cè)到新的未知的入侵行為。然而,聚類算法處理、描述網(wǎng)絡(luò)行為 的特征有局限性,一旦攻擊被當(dāng)作正常數(shù)據(jù)包含在訓(xùn)練集中,就無(wú)法檢測(cè)到這類 攻擊及其變種。因此,目前入侵檢測(cè)算法無(wú)法準(zhǔn)確檢測(cè)未知攻擊、誤報(bào)率等問(wèn)題。 為了改進(jìn)入侵檢測(cè)算法,提高檢測(cè)率,降低誤報(bào)率,本文提出基于半監(jiān)督聚類的 入侵檢測(cè)算法。 本文研究的主要內(nèi)容是,設(shè)計(jì)實(shí)現(xiàn)基于半監(jiān)督聚類的入侵檢測(cè)算法,能夠檢 測(cè)到已知攻擊的變體和未知攻擊,具有高的檢測(cè)率和低的誤報(bào)率。論文主要?jiǎng)?chuàng)新 點(diǎn)和貢獻(xiàn)如下: ( 1 ) 系統(tǒng)地研究入侵檢測(cè)系統(tǒng)的基本理論,分析了入侵檢測(cè)模型的研究現(xiàn)狀 和當(dāng)前存在的問(wèn)題。討論如何將聚類算法應(yīng)用于入侵檢測(cè)中,并分析基于聚類的 入侵檢測(cè)算法存在的問(wèn)題。 ( 2 ) 針對(duì)基于劃分聚類的入侵檢測(cè)算法誤報(bào)率高的闖題,提出基于半監(jiān)督聚 類的入侵檢測(cè)a c k i d ( a c t i v ec o n s t r a i n e dk - m e a n si n t r u s i o nd e t e c t i o n ) 算法,分析 網(wǎng)絡(luò)中標(biāo)記數(shù)據(jù)的監(jiān)督信息是如何并入到k - m e a n s 算法中的,并將主動(dòng)學(xué)習(xí)策略 應(yīng)用于半監(jiān)督聚類過(guò)程中通過(guò)查詢網(wǎng)絡(luò)中未標(biāo)記數(shù)據(jù)與標(biāo)記數(shù)據(jù)的約束關(guān)系, 采用f a r t h e s t f i r s t 對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,這樣可以檢測(cè)出未知攻擊,即使少量 的標(biāo)記和約束也能大大改進(jìn)算法的性能。 ( 3 ) k d dc u p 9 9 數(shù)據(jù)集是用于評(píng)估入侵檢測(cè)算法的標(biāo)準(zhǔn)數(shù)據(jù)集,結(jié)合k d d c u p 9 9 數(shù)據(jù)集,分析a c k i d 入侵檢測(cè)算法的評(píng)估過(guò)程,主要包括;確定r o c 曲 線為a c k i d 算法的評(píng)估指標(biāo),分析網(wǎng)絡(luò)數(shù)據(jù)的屬性特征,數(shù)據(jù)預(yù)處理中訓(xùn)練集 過(guò)濾和對(duì)離散型數(shù)據(jù)做歸一化處理,分析結(jié)果。 河南大學(xué)研究生碩士學(xué)位論文第5 頁(yè) ( 4 ) 在實(shí)驗(yàn)中,通過(guò)分析比較a c k i d 、k - m e a n s 和s v m 三種算法,表明 a c k i d 算法具備對(duì)未知入侵行為的推廣能力,并且能發(fā)現(xiàn)未知入侵行為。證實(shí)利 用標(biāo)記數(shù)據(jù)和約束可以提高算法的檢測(cè)率,降低誤報(bào)率,并且表明采用主動(dòng)學(xué)習(xí) 策略能夠獲取最有用的監(jiān)督信息。 第6 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 第2 章入侵檢測(cè)概述 隨著網(wǎng)絡(luò)環(huán)境越來(lái)越復(fù)雜,僅依賴防火墻技術(shù)不能阻止來(lái)自內(nèi)部的攻擊,而 防火墻本身有各種漏洞和后門(mén),且不能提供實(shí)時(shí)的入侵檢測(cè)能力。為了增強(qiáng)計(jì)算 機(jī)系統(tǒng)或網(wǎng)絡(luò)系統(tǒng)的安全,需要采用更強(qiáng)大的主動(dòng)策略和方案,其中一個(gè)有效的 解決途徑就是入侵檢測(cè)。自從d e n n i n g 提出入侵檢測(cè)模型唧,人們對(duì)入侵檢測(cè)產(chǎn) 生了極大的研究興趣,提出許多關(guān)于入侵檢測(cè)系統(tǒng)原型。本章通過(guò)對(duì)現(xiàn)有入侵檢 測(cè)模型及其實(shí)現(xiàn)技術(shù)的分類,說(shuō)明入侵檢測(cè)系統(tǒng)的主要特征和實(shí)現(xiàn)技術(shù)的優(yōu)缺點(diǎn), 從整體上把握入侵檢測(cè)的研究與發(fā)展。 2 1 入侵檢測(cè)的定義 入侵行為是采用未經(jīng)授權(quán)的行為,通過(guò)掃描系統(tǒng)漏洞,獲得用戶帳號(hào),篡改 用戶文件,這樣的行為就是入侵行為。根據(jù)c i d f ( c o m m o ni n t r u s i o nd e t e c t i o n f r a m e w o r k ) 標(biāo)準(zhǔn)【塒,i d s ( i n t r u s i o nd e t e c t i o ns y s t e m ) 就是對(duì)計(jì)算機(jī)網(wǎng)絡(luò)或系統(tǒng) 中的數(shù)據(jù)進(jìn)行自動(dòng)分析,從中發(fā)現(xiàn)網(wǎng)絡(luò)或系統(tǒng)最終是否存在違反安全策略的行為 或遭到攻擊跡象的網(wǎng)絡(luò)安全技術(shù)。 入侵檢測(cè)系統(tǒng)應(yīng)具有以下6 個(gè)方面的特性: ( 1 ) 監(jiān)視、分析用戶及系統(tǒng)活動(dòng),查找非法用戶和合法用戶的非授權(quán)操作。 ( 2 ) 檢測(cè)系統(tǒng)配置的正確性和安全漏洞,并提示管理者修補(bǔ)漏洞。 ( 3 ) 識(shí)別已知攻擊類型并向網(wǎng)絡(luò)管理者報(bào)警。 ( 4 ) 分析異常行為模式。 ( 5 ) 操作系統(tǒng)的審計(jì)跟蹤管理,并識(shí)別用戶違反安全策略的行為。 ( 6 ) 評(píng)估重要系統(tǒng)和數(shù)據(jù)文件的完整性。 2 2 入侵檢測(cè)的模型 如何從大量的網(wǎng)絡(luò)數(shù)據(jù)中區(qū)分網(wǎng)絡(luò)和用戶的正常行為或入侵行為,這是建立 入侵檢測(cè)模型的關(guān)鍵。從d e n n i n g 提出的用統(tǒng)計(jì)算法建立網(wǎng)絡(luò)和用戶正常行為的 入侵檢測(cè)模型至今,入侵檢測(cè)技術(shù)已經(jīng)經(jīng)歷了十多年的發(fā)展歷程。下面從誤用檢 測(cè)和入侵檢測(cè)兩方面概述目前入侵檢測(cè)模型的研究狀況。 河南大學(xué)研究生碩士學(xué)位論文第7 頁(yè) 2 2 1 誤用檢測(cè) 誤用檢測(cè)是利用特征庫(kù)中良好定義的入侵模式,通過(guò)與審計(jì)數(shù)據(jù)的匹配來(lái)檢 測(cè)入侵。誤用檢測(cè)系統(tǒng)首先對(duì)標(biāo)記的入侵行為模式進(jìn)行編碼,建立入侵模式庫(kù), 然后分析網(wǎng)絡(luò)數(shù)據(jù),檢測(cè)是否與入侵行為匹配。誤用檢測(cè)系統(tǒng)面臨的問(wèn)題是如何 描述一個(gè)攻擊及其變種的特征模型,而該模型又不能與非入侵行為匹配。 誤用檢測(cè)能夠準(zhǔn)確地檢測(cè)入侵模式庫(kù)中已有的入侵行為,有較低的誤報(bào)率。 但當(dāng)出現(xiàn)新的攻擊時(shí),需要將新的攻擊特征模式手工添加到入侵模式庫(kù)中,這就 意味著它需要不斷升級(jí)、更新,才能保證系統(tǒng)檢測(cè)能力的完備性。另外,因?yàn)檎` 用檢測(cè)系統(tǒng)對(duì)目標(biāo)系統(tǒng)的依賴性很強(qiáng),所以系統(tǒng)移植性不好;由于不能檢測(cè)到未 知的入侵行為,所以檢測(cè)率低。 1 專家系統(tǒng) , 最初的誤用檢測(cè)系統(tǒng)是基于規(guī)則的專家系統(tǒng) i i 】。它是將已知的入侵編碼為一 個(gè)規(guī)則集,其中規(guī)則具有i f - t h e n 結(jié)構(gòu),條件部分為入侵特征,t h e n 部分為系統(tǒng)防 范措施。當(dāng)規(guī)則的條件部分得到滿足時(shí),就執(zhí)行t h e n 部分的動(dòng)作。專家系統(tǒng)的建 立依賴于知識(shí)庫(kù)的完備性,知識(shí)庫(kù)的完備性又取決于數(shù)據(jù)的完備性與實(shí)時(shí)性。 運(yùn)用專家系統(tǒng)時(shí)可以把它看成一個(gè)自治的黑盒子,用戶不需要干涉專家系統(tǒng) 內(nèi)部的推理過(guò)程。它的缺點(diǎn)主要有:提取入侵特征難度較大,處理海量數(shù)據(jù)存在 效率問(wèn)題,速度難于滿足實(shí)時(shí)性要求;由于更改規(guī)則時(shí)必須考慮規(guī)則庫(kù)中不同規(guī) 則間的依賴性,所以維護(hù)規(guī)則庫(kù)很困難。 2 狀態(tài)轉(zhuǎn)換 狀態(tài)轉(zhuǎn)換是一種用于誤用檢測(cè)的分析算法,它使用系統(tǒng)狀態(tài)和狀態(tài)轉(zhuǎn)換表達(dá) 式來(lái)描述和檢測(cè)已知的入侵行為。實(shí)現(xiàn)入侵狀態(tài)轉(zhuǎn)換主要有兩種模型:狀態(tài)轉(zhuǎn)移 分析和有色p e t r i - n c t 。 狀態(tài)轉(zhuǎn)移分析使用狀態(tài)轉(zhuǎn)移圖來(lái)表示已知入侵行為,狀態(tài)圖由系統(tǒng)狀態(tài)變化 的初始狀態(tài)、中間狀態(tài)以及結(jié)束狀態(tài)的一個(gè)序列組成的【1 2 1 。系統(tǒng)狀態(tài)通過(guò)系統(tǒng)屬 性或用戶權(quán)限加以描述,狀態(tài)轉(zhuǎn)換是由系統(tǒng)事件驅(qū)動(dòng)的,狀態(tài)轉(zhuǎn)換引擎保存著一 份狀態(tài)轉(zhuǎn)移表,每一事件發(fā)生時(shí)則對(duì)此表進(jìn)行刷新。 狀態(tài)轉(zhuǎn)移算法的優(yōu)點(diǎn)是,狀態(tài)轉(zhuǎn)移規(guī)則比較容易創(chuàng)建和更新,并且轉(zhuǎn)移規(guī)則 容易理解;只需分析引發(fā)狀態(tài)轉(zhuǎn)移的事件,提供與數(shù)據(jù)獨(dú)立的入侵行為描述其 缺點(diǎn)是狀態(tài)聲明和動(dòng)作事件的列表需要手工編碼,不能充分表達(dá)較為復(fù)雜的入侵 模式,系統(tǒng)也難以檢測(cè)入侵行為的簡(jiǎn)單變體,運(yùn)行效率低下。 第8 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 另一種采用狀態(tài)轉(zhuǎn)移技術(shù)的模型是有色p e t r i 網(wǎng)( c o l o r e dp e t r in e t s ,c p n s ) 。 該模型是由p u r d u e 大學(xué)的k u m a r 和s p a f f o r d 提出用來(lái)優(yōu)化誤用檢測(cè)系統(tǒng),具體 的實(shí)現(xiàn)是i d i o t 系統(tǒng)【1 3 】。它使用c p n 來(lái)表示和檢測(cè)入侵模式,每一個(gè)入侵模式 表示為一個(gè)c p n 。c p n 中令牌的顏色表示事件的屬性,令牌的移動(dòng)表示入侵過(guò)程 的進(jìn)展,當(dāng)令牌從c p n 的初始狀態(tài)移動(dòng)到結(jié)束狀態(tài)時(shí),則表示入侵過(guò)程成功完成。 基于著色p e t r i 網(wǎng)狀態(tài)轉(zhuǎn)移的誤用檢測(cè)系統(tǒng)的優(yōu)點(diǎn)是,檢測(cè)效率高,能自動(dòng) 響應(yīng),另外模式匹配獨(dú)立于數(shù)據(jù)格式,因而具有較好的移植性;再者入侵模式中 事件的前后相關(guān)性和排列順序可以直接體現(xiàn)出來(lái)。缺點(diǎn)是由于其檢測(cè)基礎(chǔ)是誤用 檢測(cè),所以不能檢測(cè)出未知入侵。 2 2 2 異常檢測(cè) 異常檢測(cè)是根據(jù)系統(tǒng)行為和資源的使用狀況是否偏離正常情況來(lái)判斷入侵 是否發(fā)生。它通過(guò)對(duì)數(shù)據(jù)的訓(xùn)練學(xué)習(xí),從中發(fā)現(xiàn)正常行為模式,以定量方式描述 可接受的行為特征,并由測(cè)試數(shù)據(jù)和正常行為模式的偏差捕獲異常,以區(qū)分非正 常的,潛在的入侵行為。偏差超出給定的閾值時(shí),就會(huì)報(bào)警發(fā)現(xiàn)入侵行為。 異常檢測(cè)與系統(tǒng)相對(duì)無(wú)關(guān),不需要系統(tǒng)的先驗(yàn)知識(shí),通用性較強(qiáng),能夠檢測(cè) 到一些未知的入侵,但不可能對(duì)系統(tǒng)的所有用戶的正常行為建立統(tǒng)計(jì)模型。另外, 每個(gè)用戶行為是不斷變化的,所以只要偏離正常行為模型的行為都會(huì)被認(rèn)為異常。 然而其中有一些并不是攻擊,所以它的誤報(bào)率很高,這是異常檢測(cè)中需要解決的 問(wèn)題。 異常檢測(cè)的正常行為模型的建立完全依賴于對(duì)訓(xùn)練數(shù)據(jù)集中正常數(shù)據(jù)的訓(xùn) 練,所以要保證數(shù)據(jù)集的純凈性,對(duì)建立一個(gè)實(shí)用的異常檢測(cè)系統(tǒng)這是很重要的。 而實(shí)際上,由于行為模式的統(tǒng)計(jì)數(shù)據(jù)不斷更新,收集一個(gè)純凈的數(shù)據(jù)集不太容易。 入侵者可以通過(guò)惡意訓(xùn)練的方式,使得檢測(cè)系統(tǒng)緩慢地更改行為模型,最初被認(rèn) 為是異常行為經(jīng)過(guò)一段時(shí)間的訓(xùn)練就會(huì)被認(rèn)為是正常的,也就是說(shuō),一旦有入侵 行為被作為正常數(shù)據(jù)包含在訓(xùn)練集中,那么會(huì)導(dǎo)致該類的入侵行為及其變種都被 視為正常數(shù)據(jù),這是異常檢測(cè)面臨的困難之一。 d e n n i n g 入侵檢測(cè)模型是一個(gè)通用入侵檢測(cè)模型,它獨(dú)立于具體系統(tǒng)、應(yīng)用 環(huán)境和攻擊類型,為后來(lái)研究的檢測(cè)模型和系統(tǒng)提供了借鑒價(jià)值。如 i d e s n i d e s 1 4 】都是在d e n n y i n g 模型的基礎(chǔ)上擴(kuò)展的。 1 統(tǒng)計(jì)分析 統(tǒng)計(jì)分析用于異常檢測(cè)。它通過(guò)設(shè)置閩值的算法,將檢測(cè)數(shù)據(jù)與已有的正常 河南大學(xué)研究生碩士學(xué)位論文第9 頁(yè) 行為模式加以比較,如果偏差超出閾值,則認(rèn)為是入侵行為。常用的異常檢測(cè)統(tǒng) 計(jì)分析模型包括: ( 1 ) 操作模型:該模型假設(shè)異常行為可通過(guò)觀測(cè)結(jié)果超過(guò)一定的指標(biāo)來(lái)判斷, 主要針對(duì)系統(tǒng)中的事件計(jì)算觀測(cè)值。例如,在短時(shí)間內(nèi),多次失敗登陸很有可能 是口令嘗試攻擊。 ( 2 ) 均值與標(biāo)準(zhǔn)方差模型:針對(duì)數(shù)據(jù)均值和標(biāo)準(zhǔn)方差的特征提取算法。計(jì)算 參數(shù)的方差,設(shè)定其置信區(qū)問(wèn),當(dāng)測(cè)量值超過(guò)置信區(qū)間的范圍時(shí),可能是異常。 該算法適用于事件計(jì)數(shù)、內(nèi)部定時(shí)以及資源使用狀況等統(tǒng)計(jì)范疇。 ( 3 ) 多元模型:操作模型的擴(kuò)展,通過(guò)同時(shí)對(duì)兩個(gè)或多個(gè)系統(tǒng)變量之間的相 關(guān)性分析來(lái)檢測(cè)異常。例如,同時(shí)考慮處理器時(shí)間和資源利用情況,或登錄頻率 和會(huì)話消耗時(shí)間。 ( 4 ) 馬爾柯夫過(guò)程模型:將每種不同類型的事件定義為系統(tǒng)狀態(tài),使用狀態(tài) 轉(zhuǎn)移矩陣表示系統(tǒng)狀態(tài)的變化。檢測(cè)過(guò)程中使用正常情況下的狀態(tài)轉(zhuǎn)移矩陣,針 對(duì)每一次系統(tǒng)的實(shí)際狀態(tài)變化計(jì)算其發(fā)生的概率,如果該轉(zhuǎn)移的概率較小則可能 是異常事件。 ( 5 ) 時(shí)間序列分析:將事件計(jì)數(shù)與資源耗用根據(jù)時(shí)間排成序列,如果一個(gè)新 事件在該時(shí)間發(fā)生的概率較低,則該事件可能是入侵。 統(tǒng)計(jì)算法的最大優(yōu)點(diǎn)是它可以“學(xué)習(xí)”用戶的使用習(xí)慣,從而具有較高檢測(cè)率 與可用性但是它的“學(xué)習(xí)”能力也給入侵者機(jī)會(huì),通過(guò)逐步“訓(xùn)練”使入侵行為符 合正常行為的統(tǒng)計(jì)規(guī)律,從而越過(guò)入侵檢測(cè)系統(tǒng)。 2 模式預(yù)測(cè) 模式預(yù)測(cè)是一種基于異常檢測(cè)的入侵檢測(cè)算法,其前提假設(shè)是系統(tǒng)中事件的 發(fā)生序列不是隨機(jī)的而是遵循可辨識(shí)的模式,該算法的特點(diǎn)是考慮事件間的相互 關(guān)系。t e n g 和c h e n g 給出基于時(shí)間推理的模式預(yù)鍘算法,應(yīng)用時(shí)間規(guī)則識(shí)別用戶 正常行為的特征【1 5 】。規(guī)則通過(guò)歸納學(xué)習(xí)動(dòng)態(tài)產(chǎn)生,并能實(shí)時(shí)在線調(diào)整使之具有較 高的預(yù)測(cè)性、準(zhǔn)確性和可信性。如果規(guī)則的大部分是準(zhǔn)確的,而且可以成功預(yù)測(cè) 到所觀察到的數(shù)據(jù),則規(guī)則具有較高的可信性( 如果規(guī)則1 比規(guī)則2 成功地預(yù)測(cè) 更多的事件,則規(guī)則l 比規(guī)則2 更具有預(yù)測(cè)性) 系統(tǒng)在自學(xué)習(xí)過(guò)程中,只將良 好的用戶行為( 信息熵較低的規(guī)則) 保留。 模式預(yù)測(cè)首先在入侵檢測(cè)系統(tǒng)t i m ( t r i n e - b a s e d u d u c t i v em a c h i n e ) 中實(shí) 現(xiàn),t i m 系統(tǒng)有效地實(shí)現(xiàn)了d e n n i n g 所提出的m a r k o v 狀態(tài)轉(zhuǎn)移概率模型,它是 第1 0 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 p o l y c e n t e r 入侵檢測(cè)產(chǎn)品的基礎(chǔ)。t i m 系統(tǒng)和其他入侵檢測(cè)系統(tǒng)的區(qū)別在于:t i m 從事件序列的角度,而不是單個(gè)的事件來(lái)檢查系統(tǒng)或用戶的行為模式是否偏離正 常行為模式。模式預(yù)測(cè)的主要優(yōu)點(diǎn)如下: ( 1 ) 能較好地處理用戶變化多樣的行為事件,并且具有很強(qiáng)的時(shí)序性; ( 2 ) 入侵檢測(cè)時(shí)能夠集中考察僅與安全相關(guān)的事件序列而非整個(gè)會(huì)話過(guò)程; ( 3 ) 該算法沒(méi)有“弱化敏感”的問(wèn)題,“弱化敏感”是一個(gè)與入侵檢測(cè)相關(guān)的失敗 策略,攻擊者隨著時(shí)間推移逐漸改變自己的行為模式,直到系統(tǒng)將其當(dāng)作正常行 為來(lái)接受?!叭趸舾小钡南且?yàn)榘颜Z(yǔ)義直接融入于檢測(cè)規(guī)則當(dāng)中。該算法的 缺點(diǎn)是誤報(bào)率高。這是異常檢測(cè)有待解決的問(wèn)題。 2 2 3 其他檢測(cè)模型 下面的檢測(cè)模型不能簡(jiǎn)單地歸類為誤用檢測(cè)或是異常檢測(cè),它們提供更具有 普遍意義的分析技術(shù),在兩類檢測(cè)中都有應(yīng)用。 1 神經(jīng)網(wǎng)絡(luò) 基于神經(jīng)網(wǎng)絡(luò)的模型【1 6 】首先從訓(xùn)練數(shù)據(jù)集得出正常行為模式,然后使用自學(xué) 習(xí)技術(shù)來(lái)提取異常行為的特征。自學(xué)習(xí)可以在線或離線進(jìn)行。神經(jīng)網(wǎng)絡(luò)建模分為 兩個(gè)階段:訓(xùn)練階段和檢測(cè)階段。訓(xùn)練集中的數(shù)據(jù)來(lái)自正常的網(wǎng)絡(luò)數(shù)據(jù),經(jīng)數(shù)據(jù) 信息預(yù)處理模塊的處理后,作為神經(jīng)網(wǎng)絡(luò)的輸入向量;然后,使用神經(jīng)瞬絡(luò)對(duì)輸 入向量處理,從中提取用戶正常行為的模式特征,并創(chuàng)建用戶的正常行為特征輪 廓;最后,當(dāng)網(wǎng)絡(luò)接收輸入的事件時(shí),從中找出偏離特征輪廓的用戶行為。 對(duì)于入侵檢測(cè),神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是,不需要獲取描述用戶行為特征的特征集 以及用戶行為特征測(cè)度的統(tǒng)計(jì)分布,避開(kāi)選擇統(tǒng)計(jì)特征的困難問(wèn)題:具備相當(dāng)強(qiáng) 的攻擊模式分析能力,能夠較好地處理帶噪聲數(shù)據(jù),并且分析速度快,可用于實(shí) 時(shí)分析。它的主要缺點(diǎn)是,不能解釋或說(shuō)明任何異常行為,這妨礙了用戶獲取入 侵行為的詳細(xì)信息,因而難以滿足安全管理的需要;其次,神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu) 及權(quán)值的調(diào)整需要對(duì)大量的數(shù)據(jù)進(jìn)行訓(xùn)練,因此建模代價(jià)高。 2 遺傳算法 遺傳算法是基于自然選擇和基因遺傳學(xué)原理的搜索算法,在搜索過(guò)程中自動(dòng) 獲取和積累有關(guān)搜索空間的知識(shí),并控制搜索過(guò)程,從而得到最優(yōu)解或次優(yōu)解。 遺傳算法應(yīng)用到入侵檢測(cè)中【1 7 1 ,是利用若干基因串序列來(lái)定義用于分析檢測(cè)的指 令組,識(shí)別正?;蛘弋惓P袨榈倪@些指令在初始訓(xùn)練階段不斷進(jìn)化,提高分析能 河南大學(xué)研究生碩士學(xué)位論文第11 頁(yè) 力 遺傳算法的優(yōu)點(diǎn)是自學(xué)習(xí)、自適應(yīng)能力較強(qiáng),能夠通過(guò)基因串的不斷復(fù)制和 重組,產(chǎn)生性能良好的檢測(cè)器;在學(xué)習(xí)的過(guò)程中,淘汰不良檢測(cè)器。通過(guò)反復(fù)的 學(xué)習(xí)和淘汰,系統(tǒng)不僅能夠檢測(cè)出已知入侵行為,并且能準(zhǔn)確檢測(cè)出其相應(yīng)變體 及未知的入侵。遺傳算法的缺點(diǎn)是,由于網(wǎng)絡(luò)行為的復(fù)雜性,很難用基因串完整 表達(dá)檢測(cè)向量,而過(guò)于復(fù)雜的基因串會(huì)使系統(tǒng)性能逐漸惡化。另外,適應(yīng)函數(shù)的 選取需要傲多次試驗(yàn),加以驗(yàn)證才能選取。 3 數(shù)據(jù)挖掘 隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,系統(tǒng)產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)挖掘通過(guò)分析這些數(shù)據(jù), 試圖從中找出偏離正常行為模式的異常行為,這是一個(gè)自動(dòng)的過(guò)程,不需要人工 分析和編碼入侵模式。將數(shù)據(jù)挖掘應(yīng)用于入侵檢測(cè)中,具有代表性的成果是 c o l u m b i a 大學(xué)的w e n k el e e 研究小組設(shè)計(jì)開(kāi)發(fā)的入侵檢測(cè)系統(tǒng)m a d a ni d 1 町, 主要技術(shù)是分類、關(guān)聯(lián)分析和序列規(guī)則分析,其中序列規(guī)則分析的f r e q u e n t e p i s o d e s 算法測(cè)試結(jié)果比較理想。 , 基于數(shù)據(jù)挖掘算法的入侵檢測(cè)的優(yōu)點(diǎn)是,系統(tǒng)能夠自動(dòng)發(fā)現(xiàn)未知的入侵行 為,從而實(shí)現(xiàn)自學(xué)習(xí)、自適應(yīng)功能。它的缺點(diǎn)是實(shí)時(shí)性問(wèn)題,由于通過(guò)數(shù)據(jù)挖掘 產(chǎn)生未知入侵模式是一個(gè)較為緩慢的過(guò)程,所以對(duì)數(shù)據(jù)的檢測(cè)過(guò)程只能是進(jìn)行事 后分析。 4 免疫系統(tǒng) 計(jì)算機(jī)系統(tǒng)的保護(hù)機(jī)制與免疫系統(tǒng)非常相似,免疫系統(tǒng)中重要的能力是識(shí)別 “自我,非自我”。根據(jù)免疫系統(tǒng)算法,n e wm e x i c o 大學(xué)的s t e p h a n i ef o r r e s t 、h o f i n e y r 和s o m a y a g i 提出將生物免疫機(jī)制引入計(jì)算機(jī)系統(tǒng)的安全保護(hù)框架中。利用程序運(yùn) 行過(guò)程中產(chǎn)生的系統(tǒng)調(diào)用短序列來(lái)定義正常行為模式,用來(lái)識(shí)別攻擊行為【嘲。系 統(tǒng)調(diào)用短序列是系統(tǒng)調(diào)用序列中一定長(zhǎng)度、相當(dāng)穩(wěn)定的片段,能夠識(shí)別“自我 f o r r e s t 小組提出短序列匹配算法,用于計(jì)算機(jī)系統(tǒng)調(diào)用序列與正常序列模式的相 似度,該算法只考慮系統(tǒng)調(diào)用在時(shí)間上的次序,并沒(méi)有考慮調(diào)用的參數(shù)。對(duì)三種 異常的行為模式( 成功的入侵、不成功的入侵和錯(cuò)誤條件) 進(jìn)行實(shí)驗(yàn)研究后,取得 了令人滿意的結(jié)果。 免疫算法主要特征在于分層保護(hù)、分布式檢測(cè),能夠檢測(cè)新的未知類型攻擊 行為。免疫算法的不足之處是,不涉及系統(tǒng)特權(quán)進(jìn)程使用的攻擊行為,往往無(wú)法 檢測(cè)到,如條件競(jìng)爭(zhēng)、身份偽裝、違背安全策略等攻擊。 第12 頁(yè)河南大學(xué)研究生碩士學(xué)位論文 2 3 存在問(wèn)題 可以從三個(gè)方面來(lái)評(píng)價(jià)入侵檢測(cè)模系統(tǒng)的優(yōu)劣:有效性、適應(yīng)性和可擴(kuò)展性。 有效性是指i d s 具有高的檢測(cè)率和低誤報(bào)率。適應(yīng)性是指通過(guò)編碼快速更新入侵 模式,能夠檢測(cè)到已知攻擊的變體和未知攻擊??蓴U(kuò)展性指根據(jù)網(wǎng)絡(luò)配置,系統(tǒng) 能夠并入檢測(cè)模塊,或者定制其他服務(wù)。 總的來(lái)說(shuō),目前入侵檢測(cè)系統(tǒng)主要有以下幾個(gè)缺陷: ( 1 ) 缺乏有效性:專家設(shè)計(jì)安全系統(tǒng)需要手工編碼規(guī)則和模式,由于網(wǎng)絡(luò)系 統(tǒng)的復(fù)雜性,專家知識(shí)通常是不完備和不精確的,因此造成了檢測(cè)率低和誤報(bào)率 高的問(wèn)題。 ( 2 ) 缺乏適應(yīng)性:專家通常只是分析當(dāng)前的入侵檢測(cè)模型和系統(tǒng)漏洞。所以, 基于專家知識(shí)的誤用檢測(cè)模型不能檢測(cè)到新的未知攻擊,而添加新的規(guī)則需要不 斷地更新模型,因此很難適應(yīng)目前層出不窮的攻擊手段。入侵檢測(cè)雖然具備檢測(cè) 未知攻擊,但需要為系統(tǒng)收集一個(gè)純凈的數(shù)據(jù)集,而在現(xiàn)實(shí)的網(wǎng)絡(luò)環(huán)境中,這幾 乎是不可能的,因?yàn)橛?xùn)練集中一旦有入侵?jǐn)?shù)據(jù)被認(rèn)為是正常數(shù)據(jù),那么該類入侵 行為及其變種都被視為正常數(shù)據(jù),因此導(dǎo)致較高的誤報(bào)率。 ( 3 ) 缺乏可擴(kuò)展性:濫用檢測(cè)的入侵模式和入侵檢測(cè)的統(tǒng)計(jì)測(cè)度是基于特定 的環(huán)境和系統(tǒng)的,不具有通用性,因此,在新的網(wǎng)絡(luò)環(huán)境中重用和定制已經(jīng)建立 起來(lái)的入侵檢測(cè)系統(tǒng)難度很大。 由于當(dāng)前網(wǎng)絡(luò)環(huán)境復(fù)雜多變,審計(jì)記錄日益龐大,攻擊方式不斷變化,需要 個(gè)更加系統(tǒng)化、自動(dòng)化的算法來(lái)構(gòu)造入侵檢測(cè)模型。 2 4本章小結(jié) 本章首先描述入侵檢測(cè)的定義,然后從檢測(cè)原理的不同,對(duì)當(dāng)前入侵檢測(cè)模 型進(jìn)行詳細(xì)的闡述,并分析各自的優(yōu)劣,這有助于從整體上把握入侵檢測(cè)領(lǐng)域的 研究和發(fā)展方向,為今后的研究指明方向。最后分析當(dāng)前入侵檢測(cè)模型的主要問(wèn) 題,這是亟待解決的問(wèn)題。 本論文的主要研究目標(biāo)是設(shè)計(jì)一種入侵檢測(cè)算法,使其滿足當(dāng)前入侵檢測(cè)發(fā) 展的要求,即有效性、自適應(yīng)性和可擴(kuò)展性。其主要思想就是利用半監(jiān)督聚類技 術(shù)來(lái)設(shè)計(jì)入侵檢測(cè)算法,其中涉及到的相關(guān)理論基礎(chǔ)將在后面章節(jié)具體介紹。通 過(guò)半監(jiān)督聚類算法,從網(wǎng)絡(luò)數(shù)據(jù)中獲取相應(yīng)的入侵檢測(cè)模型。 河南大學(xué)研究生碩士學(xué)位論文第13 頁(yè) 第3 章基于聚類的入侵檢測(cè)算法 “物以類聚,人以群分”,聚類是人類對(duì)事物內(nèi)在規(guī)律的認(rèn)識(shí)。聚類是按照相 似度的大小,將事物劃分成類,使類間的相似性盡可能小,類內(nèi)的相似性盡可能 大。 在網(wǎng)絡(luò)環(huán)境中,根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的特征屬性,可將網(wǎng)絡(luò)數(shù)據(jù)分為正常行為和異 常行為,即每一個(gè)網(wǎng)絡(luò)數(shù)據(jù)可以被識(shí)別為正常或攻擊類型。傳統(tǒng)的入侵檢測(cè)算法 是基于監(jiān)督學(xué)習(xí)算法的,需要足夠的訓(xùn)練數(shù)據(jù),以生成具有良好的泛化性能的檢 測(cè)模型。當(dāng)入侵行為和網(wǎng)絡(luò)數(shù)據(jù)的屬性特征改變時(shí),為所有的數(shù)據(jù)作標(biāo)記是非常 繁瑣、耗時(shí)的過(guò)程,并且容易出錯(cuò),基于監(jiān)督學(xué)習(xí)的入侵檢測(cè)算法就無(wú)能為力了。 因此,可將非監(jiān)督學(xué)習(xí)算法應(yīng)用到入侵檢測(cè)中剛。聚類是一個(gè)聚類過(guò)程,將聚類 技術(shù)應(yīng)用于入侵檢測(cè)中,克服了監(jiān)督學(xué)習(xí)算法要求訓(xùn)練集中標(biāo)記數(shù)據(jù)純凈的問(wèn)題, 并且可以檢測(cè)到未知的入侵行為。 3 1聚類概述 聚類的基本思想是在數(shù)據(jù)之間定義距離,距離代表數(shù)據(jù)之間的相似性度量, 按相似程度的大小,將數(shù)據(jù)逐歸類,直到所有的數(shù)據(jù)都聚集完畢。 3 1 1 數(shù)據(jù)問(wèn)的相似性度量 。 距離可以用來(lái)度量數(shù)據(jù)間的相似性【2 “。設(shè)有n 個(gè)數(shù)據(jù)的多元觀測(cè)屬性: 一= ( ,勘,) ,i = 1 ,2 ,耽 ( 3 1 ) 這時(shí),每個(gè)數(shù)據(jù)可看成p 元空間的一個(gè)點(diǎn),一個(gè)數(shù)據(jù)組成p 元空間的以個(gè)點(diǎn)。 設(shè)d h ,) 是數(shù)據(jù)而與之間的距離,一般應(yīng)滿足以下要求: ( 1 ) 相似性度量應(yīng)為非負(fù)值,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 勾股定理導(dǎo)入教學(xué)課件
- 2026屆高考?xì)v史一輪基礎(chǔ)復(fù)習(xí)訓(xùn)練5 三國(guó)兩晉南北朝的政權(quán)更迭與民族交融 (含答案)
- 《藍(lán)色的樹(shù)葉》教學(xué)課件
- 用電安全知識(shí)培訓(xùn)課件會(huì)議
- 用氣安全知識(shí)培訓(xùn)課件
- 用手指轉(zhuǎn)動(dòng)地球課件
- 用字母表示數(shù)課件
- 生鮮產(chǎn)品基本知識(shí)培訓(xùn)課件
- 生豬行業(yè)基礎(chǔ)知識(shí)培訓(xùn)課件
- 生豬屠宰加工培訓(xùn)
- 2023年蘇州市星海實(shí)驗(yàn)中學(xué)小升初分班考試數(shù)學(xué)模擬試卷及答案解析
- GB/T 37915-2019社區(qū)商業(yè)設(shè)施設(shè)置與功能要求
- GB/T 31298-2014TC4鈦合金厚板
- GB/T 27746-2011低壓電器用金屬氧化物壓敏電阻器(MOV)技術(shù)規(guī)范
- GB/T 22237-2008表面活性劑表面張力的測(cè)定
- GB/T 13667.3-2003手動(dòng)密集書(shū)架技術(shù)條件
- 導(dǎo)軌及線槽項(xiàng)目投資方案報(bào)告模板
- 《電業(yè)安全工作規(guī)程》
- 復(fù)旦大學(xué)<比較財(cái)政學(xué)>課程教學(xué)大綱
- 書(shū)法的章法布局(完整版)
- GB∕T 10429-2021 單級(jí)向心渦輪液力變矩器 型式和基本參數(shù)
評(píng)論
0/150
提交評(píng)論