基于自然語言處理的垃圾短信檢測與識別_第1頁
基于自然語言處理的垃圾短信檢測與識別_第2頁
基于自然語言處理的垃圾短信檢測與識別_第3頁
基于自然語言處理的垃圾短信檢測與識別_第4頁
基于自然語言處理的垃圾短信檢測與識別_第5頁
已閱讀5頁,還剩25頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章緒論1.1研究背景與意義垃圾短信根據(jù)內(nèi)容,大致可以歸為五類。騷擾類短信,這類短信通常包含惡作劇或無聊的內(nèi)容,給用戶帶來不必要的困擾;詐騙性短信是指詐騙分子利用撥打電話、冒充官方發(fā)送鏈接或中獎(jiǎng)信息等手段,誘騙用戶上當(dāng)受騙的不法短信;而營銷性短信則是指在未經(jīng)用戶許可的情況下,發(fā)布的虛假廣告信息,用以推銷新產(chǎn)品或服務(wù);這些短信均對用戶構(gòu)成了嚴(yán)重的干擾和潛在的風(fēng)險(xiǎn),亟待通過技術(shù)手段進(jìn)行過濾和攔截;短信業(yè)務(wù)提供商違規(guī)群發(fā)短信,其目的在于誤導(dǎo)用戶定制其短信業(yè)務(wù);詛咒類短信,這類短信內(nèi)容包含詛咒、威脅等負(fù)面信息,給用戶帶來心理壓力。垃圾短信的頻繁發(fā)送,不僅對用戶個(gè)體造成了困擾,更是對整個(gè)社會秩序產(chǎn)生了深遠(yuǎn)的消極影響。從用戶的視角出發(fā),這些未經(jīng)允許的短信如同持續(xù)的干擾信號,不斷侵入用戶正常的工作與生活交流之中,迫使其分散注意力去處理這些不請自來的信息。這不僅消耗了用戶寶貴的時(shí)間資源,還可能因處理不當(dāng)而引發(fā)重要信息的遺漏或錯(cuò)過,給用戶日常生活帶來諸多不便。更為嚴(yán)重的是,一旦垃圾短信涉及敏感領(lǐng)域,其潛在危害更是會成倍放大,對用戶的安全和隱私構(gòu)成嚴(yán)重威脅。色情、謠言和恐怖信息等內(nèi)容的短信,如同一個(gè)個(gè)隱藏的炸彈,隨時(shí)可能引爆用戶的情緒,給其帶來極大的心理壓力。這種壓力不僅影響用戶的心理健康,更可能間接影響到其工作效率和家庭關(guān)系,給整個(gè)社會帶來不穩(wěn)定因素。根據(jù)360公司發(fā)布的最新報(bào)告,2020年第一季度,該公司手機(jī)衛(wèi)士成功攔截了大約34.4億條各類垃圾短信,日均攔截量驚人地達(dá)到了3784.7萬條。隨著大數(shù)據(jù)時(shí)代的蓬勃發(fā)展,個(gè)人信息數(shù)據(jù)呈現(xiàn)出爆炸式的增長態(tài)勢,然而,這些數(shù)據(jù)在缺乏統(tǒng)一管理和規(guī)范的情況下,也帶來了諸多挑戰(zhàn)與風(fēng)險(xiǎn)。面對海量的短信數(shù)據(jù),如何高效地提取有價(jià)值的信息,提升用戶的使用體驗(yàn),并有效防范垃圾短信的侵?jǐn)_,已成為當(dāng)前亟待解決的關(guān)鍵問題。當(dāng)前,為了規(guī)范短信市場并遏制垃圾短信的泛濫,各國均采取了相應(yīng)的法律措施和治理手段。我國主管部門在通信領(lǐng)域積極展開不良信息專項(xiàng)治理,并規(guī)范移動(dòng)信息服務(wù)業(yè)務(wù),發(fā)布了一系列政策文件。這些文件的出臺旨在督促通信運(yùn)營商加強(qiáng)增值業(yè)務(wù)的管理,并加大對侵犯用戶權(quán)益行為的打擊力度,從而營造更加安全、健康的通信環(huán)境。然而,由于國內(nèi)電信市場管理存在混亂現(xiàn)象,入網(wǎng)實(shí)名制執(zhí)行不到位等問題,單純依賴法律手段難以徹底根治垃圾短信問題。因此,除了加強(qiáng)法律監(jiān)管外,建立有效的短信過濾機(jī)制顯得尤為必要。通過技術(shù)手段實(shí)現(xiàn)垃圾短信的攔截,是當(dāng)前的迫切需求。深入研究垃圾短信過濾方法,不僅有助于保護(hù)人民的財(cái)產(chǎn)安全和日常生活安寧,更能凈化電信市場環(huán)境,推動(dòng)短信業(yè)務(wù)的健康發(fā)展。這一舉措具有重要的實(shí)用價(jià)值和經(jīng)濟(jì)效益,對于提升整個(gè)社會的信息化水平具有積極意義。1.2國內(nèi)外現(xiàn)狀我國政府主管部門先后在通信行業(yè)發(fā)起電信行業(yè)不良信息專項(xiàng)治理活動(dòng),治理和規(guī)范移動(dòng)信息服務(wù)業(yè)務(wù)的專項(xiàng)活動(dòng),并下發(fā)了一系列的規(guī)范性文件,要求通信運(yùn)營商對增值服務(wù)業(yè)務(wù)進(jìn)行嚴(yán)格管理,加大對侵犯用戶權(quán)益事件的查處和打擊力度。國家信息產(chǎn)業(yè)部發(fā)布《關(guān)于規(guī)范短信息服務(wù)有關(guān)問題的通知》,對短信業(yè)務(wù)進(jìn)行了規(guī)范。同時(shí),所有相關(guān)部門,以及公安部門聯(lián)合發(fā)起對違法短信的整治行動(dòng),建立了對違法違規(guī)短信的舉報(bào),核實(shí),查處等機(jī)制。2008年,中國移動(dòng),中國電信等通訊運(yùn)營商與騰訊,搜狐,網(wǎng)易等移動(dòng)增值業(yè)務(wù)服務(wù)提供商聯(lián)合簽署了《中國互聯(lián)網(wǎng)協(xié)會反垃圾短信息自律公約》。中國移動(dòng),中國聯(lián)通等電信運(yùn)營商為配合國家相關(guān)部門對垃圾短信的整治,出臺一系列地應(yīng)對措施。此外,還通過“315”活動(dòng)對違規(guī)進(jìn)行商業(yè)營銷的單位進(jìn)行曝光。在垃圾短信的監(jiān)管工作中,運(yùn)營商的作用至關(guān)重要。然而,當(dāng)前部分運(yùn)營商在履行社會責(zé)任方面存在不足,甚至有個(gè)別運(yùn)營商涉嫌制造垃圾短信,這無疑加劇了垃圾短信的泛濫問題。為了有效遏制這一現(xiàn)象,運(yùn)營商在短信傳輸過程中應(yīng)采用更為高效的攔截技術(shù)和手段,切實(shí)履行其應(yīng)有的責(zé)任。目前市場上已經(jīng)推出了如騰訊手機(jī)管家、安全管家和360衛(wèi)士等多款垃圾短信過濾軟件。目前常用的有以下三種垃圾短信過濾技術(shù)(1)黑白名單過濾技術(shù)REF_Ref31010\r\h[1]主要基于號碼信任度來判斷短信的類別。白名單中的號碼發(fā)送的短信被視為正常,而黑名單中的號碼發(fā)送的短信則被標(biāo)記為垃圾短信。黑白名單可分為公共和用戶兩類,前者由運(yùn)營商和權(quán)威部門維護(hù),后者則由用戶自定義。雖然這種技術(shù)簡單易行,但其功能較為單一,且易被不法分子通過動(dòng)態(tài)號碼或號碼欺騙等手段規(guī)避。(2)關(guān)鍵詞過濾技術(shù)REF_Ref31072\r\h[2]允許用戶設(shè)置特定的垃圾詞,當(dāng)接收到的短信內(nèi)容包含這些詞時(shí),系統(tǒng)會進(jìn)行攔截。這種過濾方式直觀且易于操作,例如用戶可以將“貸款”等不喜歡的詞加入過濾列表。然而,它也存在誤攔截的風(fēng)險(xiǎn),且對于使用諧音、繁體字或添加干擾符號的短信內(nèi)容,其檢測效果可能不佳。(3)智能短信過濾技術(shù)REF_Ref31104\r\h[3]首先通過對短信文本內(nèi)容進(jìn)行深度處理,并利用大量短信數(shù)據(jù)集進(jìn)行訓(xùn)練,從而生成垃圾短信過濾分類器。當(dāng)用戶收到短信時(shí),系統(tǒng)會提取短信內(nèi)容并通過分類器進(jìn)行預(yù)測,以實(shí)現(xiàn)精準(zhǔn)的短信過濾。目前,主流的智能短信過濾技術(shù)包括貝葉斯、決策樹和支持向量機(jī)等,其中支持向量機(jī)過濾算法簡單而且高效,廣泛運(yùn)用在垃圾短信過濾技術(shù)中。在全球范圍內(nèi),各國政府及通信行業(yè)均積極應(yīng)對垃圾短信問題,采取了多樣化的措施以遏制其泛濫。在美國REF_Ref21416\r\h[4],聯(lián)邦委員會強(qiáng)制推行手機(jī)用戶實(shí)名制,并借助社會安全號這一關(guān)鍵信息,深入追查垃圾短信的源頭,任何未經(jīng)用戶明確同意而發(fā)送的商業(yè)或宣傳短信,都將受到法律的嚴(yán)厲制裁,違規(guī)者將面臨從幾百美元到一萬美元的罰款。英國REF_Ref21373\r\h[5]自2003年起,就通過立法明確將發(fā)送推銷產(chǎn)品的垃圾短信定性為犯罪行為,并設(shè)立了高額罰款制度,最高罰款可達(dá)5000英鎊。同時(shí),該國還設(shè)立了電話信息服務(wù)標(biāo)準(zhǔn)檢查委員會和最高通話費(fèi)管委會兩大監(jiān)管機(jī)構(gòu),專門負(fù)責(zé)監(jiān)管和處理垃圾短信問題,確保市場的規(guī)范與秩序。德國REF_Ref21285\r\h[6]在立法層面上同樣展現(xiàn)出了積極的態(tài)勢,“聯(lián)邦反垃圾郵件法案”明確規(guī)定了發(fā)送廣告類短信前必須事先獲取用戶的明確同意。對于違反這一規(guī)定的行為,德國政府設(shè)定了高達(dá)5萬歐元的罰款,旨在嚴(yán)厲打擊違規(guī)行為,確保法律的嚴(yán)格執(zhí)行。此外,德國還設(shè)立了“聯(lián)邦手機(jī)短信處理中心”,專門負(fù)責(zé)處理與垃圾短信相關(guān)的違規(guī)行為,以確保法律的有效執(zhí)行。印度針對垃圾短信泛濫的問題,最高法院在2006年便發(fā)出強(qiáng)烈信號,建議政府重視并制定相關(guān)法律。對于違規(guī)發(fā)送垃圾短信的行為,印度法律設(shè)定了嚴(yán)厲的處罰措施,最高罰款可達(dá)10萬盧比,對于涉及經(jīng)濟(jì)詐騙的,還將面臨長期監(jiān)禁的嚴(yán)厲懲罰。韓國則通過實(shí)施手機(jī)實(shí)名制,并在用戶手機(jī)客戶端提供垃圾短信過濾技術(shù),有效減少了垃圾短信的發(fā)送。用戶可以根據(jù)自己的喜好和需要,自行設(shè)置屏蔽的號碼和內(nèi)容,確保通信環(huán)境的清凈與安全。1.3研究內(nèi)容近年來,隨著移動(dòng)通訊技術(shù)的迅猛進(jìn)步和移動(dòng)終端用戶數(shù)量的急劇攀升,手機(jī)短信因其即時(shí)性、低成本和便捷性,在人們?nèi)粘I钪邪缪葜絹碓疥P(guān)鍵的角色。然而,一些不法分子卻濫用短信的群發(fā)功能,大量散播垃圾短信,對人們的正常生活造成了嚴(yán)重的干擾和困擾。尤其是一些欺詐類短信,對個(gè)人財(cái)產(chǎn)安全構(gòu)成了巨大的威脅。因此,當(dāng)前亟待加強(qiáng)和完善短信過濾技術(shù),以有效應(yīng)對垃圾短信的泛濫?,F(xiàn)有的垃圾短信識別技術(shù)主要包括:關(guān)鍵字匹配、黑名單和白名單策略、自動(dòng)學(xué)習(xí)算法和數(shù)據(jù)庫查詢匹配。本文主要研究內(nèi)容如下:1、相對于現(xiàn)有的自動(dòng)學(xué)習(xí)算法算法關(guān)鍵字匹配等方法,效率低,長文本分類效果不佳的問題。本文運(yùn)用支持向量機(jī)算法和樸素貝葉斯算法對短信進(jìn)行檢測,旨在對比這兩種算法在短信識別方面的準(zhǔn)確性和效率,這是本文的首要研究內(nèi)容。2、鑒于短信具有篇幅短小、特征不明顯等特點(diǎn),傳統(tǒng)的垃圾短信識別方法在實(shí)際運(yùn)用中常面臨分類準(zhǔn)確度低、易受噪聲干擾及信息丟失等問題。而支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論構(gòu)建的,它通過把輸入空間映射到新的高維特征空間來尋找最優(yōu)分類超平面,從而實(shí)現(xiàn)了較高的分類準(zhǔn)確度。因此,結(jié)合短信的具體內(nèi)容,深入探索基于支持向量機(jī)的短信分類方法,構(gòu)成本文的核心研究內(nèi)容。3、通過對照實(shí)驗(yàn)的方式,深入評估了多種特征降維方法在支持向量機(jī)進(jìn)行垃圾短信識別時(shí)的性能,以期找到最有效的特征降維策略。同時(shí),為了確定支持向量機(jī)算法的最佳參數(shù)組合,對算法的懲罰系數(shù)和核函數(shù)進(jìn)行了系統(tǒng)性的對比分析,力求選出最優(yōu)參數(shù)組合,從而進(jìn)一步提高分類的準(zhǔn)確性。1.4論文結(jié)構(gòu)本文分為五章,每個(gè)章節(jié)的具體內(nèi)容如下:第一章主要介紹了研究背景與意義、國內(nèi)外現(xiàn)狀、研究內(nèi)容和本文整體組織架構(gòu)。第二章詳細(xì)介紹了支持向量機(jī)和樸素貝葉斯垃圾短信識別方法。由于手機(jī)內(nèi)存空間有限且短信具有極強(qiáng)的實(shí)時(shí)性,利用支持向量機(jī)在處理高維數(shù)據(jù)和復(fù)雜分類問題上的優(yōu)勢,選取支持向量機(jī)算法作為本文的研究方法。第三章重點(diǎn)闡述了數(shù)據(jù)預(yù)處理過程。利用支持向量機(jī)進(jìn)行短信分類主要包含數(shù)據(jù)預(yù)處理、短信特征降維、短信的文本表示以及構(gòu)建分類器這四個(gè)核心環(huán)節(jié)。第四章實(shí)驗(yàn)與分析。本文所采用的數(shù)據(jù)集源于飛漿平臺的短信記錄,為實(shí)驗(yàn)提供了必要的短信數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,開展了一系列實(shí)驗(yàn),包括懲罰參數(shù)實(shí)驗(yàn)、核函數(shù)實(shí)驗(yàn)以及特征降維實(shí)驗(yàn),旨在確定適用于支持向量機(jī)短信分類的最佳懲罰參數(shù)、核函數(shù)以及特征降維方法。在實(shí)驗(yàn)過程中,針對出現(xiàn)的問題對支持向量機(jī)分類方法進(jìn)行了優(yōu)化和改進(jìn)。最后,進(jìn)行支持向量機(jī)算法與樸素貝葉斯算法的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于支持向量機(jī)的垃圾短信識別方法在識別效果上表現(xiàn)卓越,相較于其他技術(shù)具有更高的準(zhǔn)確性和更強(qiáng)的適應(yīng)性。第五章總結(jié)與展望。本文圍繞垃圾短信識別與過濾技術(shù)進(jìn)行了深入研究,特別是對基于支持向量機(jī)的識別方法進(jìn)行了詳細(xì)探討,在深入探索垃圾短信識別的過程中,雖然取得了一定的研究成果,但也暴露出了不少不足之處,為此制定了相應(yīng)的規(guī)劃。第二章垃圾短信識別方法目前,常用的分類算法包括樸素貝葉斯、支持向量機(jī)、K近鄰算法和深度學(xué)習(xí)模型等。鑒于手機(jī)內(nèi)存空間有限且短信具有極強(qiáng)的實(shí)時(shí)性,充分利用支持向量機(jī)在處理高維數(shù)據(jù)和復(fù)雜分類問題上的優(yōu)勢,選取支持向量機(jī)分類算法作為本文的研究方法,確保在有限的手機(jī)內(nèi)存空間中實(shí)現(xiàn)高效且準(zhǔn)確的垃圾短信識別與過濾。2.1支持向量機(jī)支持向量機(jī)(SVM)是Vapnik提出的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法REF_Ref19417\r\h[7],其核心在于遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則來訓(xùn)練模型。支持向量機(jī)的核心原理在于將輸入空間映射到高維特征空間,進(jìn)而尋找一個(gè)最優(yōu)分隔超平面。在數(shù)據(jù)線性可分離的情況下,這個(gè)超平面的目標(biāo)是確保所有訓(xùn)練樣本都能被精確分類,同時(shí)最大化距離分隔面最近的樣本點(diǎn)的間隔,以此提高分類的穩(wěn)健性和精確度。面對線性不可分的難題,支持向量機(jī)巧妙地引入松弛變量,允許部分樣本點(diǎn)在一定程度上不滿足約束條件,從而增加了分類的靈活性和適應(yīng)性。這一策略使得支持向量機(jī)在處理復(fù)雜、非線性問題時(shí)具有出色的性能。對于非線性可分的數(shù)據(jù),SVM則運(yùn)用映射函數(shù)將輸入向量轉(zhuǎn)換至新的高維空間,以便在此空間中找到最佳分類超平面REF_Ref19884\r\h[8]。其工作原理如圖2.1所示:圖2.1支持向量機(jī)工作原理圖支持向量機(jī)數(shù)學(xué)模型如圖2.2所示:圖2.2特征空間最優(yōu)超平面 在圖2.2中,方框與圓點(diǎn)各自代表兩類不同的樣本,而居中那條線則是分類的界限。該界限兩側(cè)各有一條平行線,分別標(biāo)示了各自類別中離分類線最近的樣本點(diǎn)到該線的距離。我們稱這兩條平行線之間的空間寬度為超平面。為實(shí)現(xiàn)上述目標(biāo),我們需要對分類線w?x+b=0進(jìn)行處理,以確保樣本集S, yiw?xi+b≥1,?i=1,2,?l當(dāng)訓(xùn)練樣本能夠準(zhǔn)確無誤地被分類,且分類面達(dá)到最小距離時(shí),該分類面便被視為最優(yōu)超平面。位于分類面兩側(cè)邊界線上的特定點(diǎn)被稱為支持向量,它們在確定分類面時(shí)起到關(guān)鍵作用。SVM方法的核心思想是最大化分類間隔,以提升學(xué)習(xí)模型的泛化能力?;谥С窒蛄繖C(jī)的基礎(chǔ)統(tǒng)計(jì)學(xué)習(xí)理論,我們可以構(gòu)建由最優(yōu)超平面構(gòu)成的指示函數(shù)集。這一函數(shù)集不僅能準(zhǔn)確反映分類情況,還能確保分類的泛化性能,使得模型在面對新數(shù)據(jù)時(shí)仍能保持良好的分類效果。最優(yōu)超平面所構(gòu)成的指示函數(shù)集為: ?x=sgnw?x+b?實(shí)際上可以表示為經(jīng)驗(yàn)風(fēng)險(xiǎn)的二次規(guī)劃: minΦw=12w?w接下來我們再引入一個(gè)松弛變量ξi≥ yiw?xi+b目標(biāo)函數(shù)為: Φw,ξ=12w?w+C在構(gòu)建模型時(shí),懲罰參數(shù)REF_Ref25742\r\h[9],通常用C表示,是SVM訓(xùn)練過程中的一個(gè)重要參數(shù)。在保持核函數(shù)參數(shù)不變的情況下,懲罰參數(shù)C的取值對SVM模型的性能具有顯著影響。當(dāng)C取值較大時(shí),模型對分類錯(cuò)誤的樣本會施加更高的懲罰,這有助于提升分類的精確度。然而,過高的C值也可能導(dǎo)致模型過于復(fù)雜,增加計(jì)算負(fù)擔(dān),并可能引發(fā)過學(xué)習(xí)問題,即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但泛化能力較差。相反,如果C取值較小,模型對樣本分類的偏差會表現(xiàn)出更大的容忍度。雖然這有助于簡化模型,但也可能導(dǎo)致模型擬合效果不佳,無法充分捕捉數(shù)據(jù)的內(nèi)在規(guī)律。核函數(shù)是SVM中的另一項(xiàng)關(guān)鍵技術(shù),它的主要作用是將輸入數(shù)據(jù)從原始空間映射到一個(gè)更高維的特征空間,使得原始數(shù)據(jù)在新的特征空間中呈現(xiàn)線性可分的特性。目前,常用的核函數(shù)有以下三種REF_Ref20524\r\h[10]:(1)多項(xiàng)式核: Kx,y=sx?y(2)Sigmoid核: Kx,y=Sνx?y+C(3)徑向基核: Kx,y=exp{?γx?y2} 2.2樸素貝葉斯多項(xiàng)式樸素貝葉斯作為一種廣泛應(yīng)用的分類方法,在文本分類任務(wù)中表現(xiàn)出色,其分類效果尤為突出。貝葉斯定理公式REF_Ref21030\r\h[11]如下: PA|B=樸素貝葉斯在處理離散值模型時(shí)表現(xiàn)出色,在分類識別任務(wù)中。多項(xiàng)式樸素貝葉斯能夠有效地利用詞語在文本中出現(xiàn)的頻次信息,從而提高文本分類的準(zhǔn)確性和效率。先驗(yàn)概率REF_Ref21272\r\h[12]如公式2.12: PC=c=屬于類c的文檔數(shù)訓(xùn)練集文檔總數(shù) (條件概率如公式(2.13),Pwi|c Pwi|c=詞wi計(jì)算先驗(yàn)概率和條件概率時(shí),我們采用了最大似然估計(jì)方法,這種方法得到的是相對頻率值。這種估計(jì)方式旨在最大化訓(xùn)練數(shù)據(jù)出現(xiàn)的概率,從而確保分類器在訓(xùn)練集上的性能達(dá)到最優(yōu)。拉普拉斯平滑REF_Ref21513\r\h[13]如公式(2.14): Pwi|c=詞wi預(yù)測: argmaxc∈ClogPc+i=1(1)設(shè)訓(xùn)練數(shù)據(jù)集D包含的屬性集為:(t1,t2(2)假定存在m個(gè)類C1,C PCi|T>PCj|T根據(jù)貝葉斯定理公式(2.11): PCi|T=PT|(3)考慮到P(T)這一概率值對于所有類別都是相同的常數(shù),所以最大化PCi|T的過程可以轉(zhuǎn)化為最大化PT|CiP(4)樸素貝葉斯定理是假設(shè)各個(gè)屬性是相互獨(dú)立的,則: PT|Ci=Pt1(5)對樣本T進(jìn)行分類,我們首先需要要計(jì)算在每個(gè)類Ci條件下T的概率PT|Ci,這樣樣本T就被分配到類Ci中,當(dāng)且僅當(dāng)PT|C

第三章數(shù)據(jù)預(yù)處理在前面章節(jié)中,對支持向量機(jī)技術(shù)進(jìn)行了詳盡的闡述與分析?;诙绦盼谋镜奶匦?,提出基于支持向量機(jī)的短信分類方法,并明確實(shí)施步驟。該方法的核心思想是將短信識別轉(zhuǎn)化為一個(gè)二分類的文本處理問題,通過提取短信文本內(nèi)容,利用支持向量機(jī)算法對訓(xùn)練短信集進(jìn)行學(xué)習(xí)訓(xùn)練,進(jìn)而構(gòu)建出分類模型及決策函數(shù)。隨后,利用這些已構(gòu)建的模型與函數(shù),對需要分類的短信進(jìn)行屬性判定,即判斷其是否為垃圾短信。在具體操作上,這一過程主要涵蓋兩個(gè)階段:訓(xùn)練階段和分類階段。在訓(xùn)練階段,借助已標(biāo)記的短信數(shù)據(jù)集對支持向量機(jī)進(jìn)行訓(xùn)練,通過參數(shù)的調(diào)優(yōu)和核函數(shù)的選擇,確保模型能夠有效區(qū)分垃圾短信與正常短信。在分類階段,將待分類的短信輸入至已訓(xùn)練完成的模型中,根據(jù)模型輸出的決策函數(shù)值,判斷該短信是否應(yīng)歸為垃圾短信類別。如下圖3.1所示:3.1基于支持向量機(jī)短信分類過程圖基于支持向量機(jī)的短信分類過程需要經(jīng)過短信預(yù)處理,短信特征降維,短信的文本表示以及構(gòu)建分類器四個(gè)步驟。首先要對短信訓(xùn)練集和測試集(即已知樣本短信和未知分類短信進(jìn)行預(yù)處理,對短信的屬性類別,詞條(即特征)進(jìn)行統(tǒng)計(jì),然后完成特征的向量表示,進(jìn)而對特征集進(jìn)行降維。在對樣本特征集進(jìn)行訓(xùn)練學(xué)習(xí)的過程中,根據(jù)訓(xùn)練集中的樣本點(diǎn)計(jì)算出參數(shù),從而得到分類模型(二元分類器)。接下來進(jìn)行的分類階段,通過分類模型的決策函數(shù)對未知的待分類樣本進(jìn)行分類,以判別待分類短信是否屬于垃圾短信。3.1數(shù)據(jù)預(yù)處理短信文本的語言表達(dá)常帶有較大的隨意性,這種特性可能不利于后續(xù)的分類工作,影響分類的精度和效率。因此,預(yù)處理步驟在文本分類中顯得尤為重要。預(yù)處理后,原始短信文本能夠被轉(zhuǎn)化為更適合分類器處理的格式,為后續(xù)的特征提取和分類工作提供堅(jiān)實(shí)的基礎(chǔ)。通過預(yù)處理,可以有效地減少噪聲數(shù)據(jù)的干擾,提高分類器的性能。 還原處理REF_Ref22611\r\h[14]。短信文本中常充斥著多種非法字符,例如標(biāo)點(diǎn)、特殊符號和繁體字等,這些字符對短信分類并不具備實(shí)際效用,甚至可能干擾分類的精準(zhǔn)度。因此,在短信分類之前,需要進(jìn)行必要的預(yù)處理,即清除這些非法字符,使短信內(nèi)容轉(zhuǎn)變?yōu)闃?biāo)準(zhǔn)的文本格式。在短信內(nèi)容識別過程中,經(jīng)常遇到各種形式的變換手段,如繁體字替換、諧音替換、拆分字替換以及添加干擾符號等。這些變換的目的在于使短信內(nèi)容繞過運(yùn)營商的攔截和過濾機(jī)制,從而成功發(fā)送垃圾信息。為了準(zhǔn)確識別這些經(jīng)過“易容”的垃圾短信,對短信內(nèi)容進(jìn)行預(yù)處理,以提取并識別其新特征。舉例說明如下:(1)您好,渤海銀行雙節(jié)理財(cái)xxx天收益x%五萬起。該短信內(nèi)容中加入特殊符號,通過插入特殊符號對關(guān)鍵詞進(jìn)行分離,給中文分詞帶來了不便。(2)您好,代開發(fā)(飄),咨詢請聯(lián)系99999998李先生。這里將“票”替換為了諧音字“飄”。(3)實(shí)驗(yàn)老師明日起正式授課,一對一輔導(dǎo)。該短信關(guān)鍵字“輔”被改為“輔”,這是用到了繁體字替換。(4)天虹商場6月5日至6月8日大酬賓活動(dòng),滿300送100,貝勾買化妝品可參加抽獎(jiǎng)活動(dòng)。該短信將“購”拆分成“貝”“勾”,使用了拆分字替換。要解決上述幾種情況,對短信內(nèi)容進(jìn)行預(yù)處理是至關(guān)重要的,以便能夠準(zhǔn)確識別這些垃圾短信的“新”特征。(1)針對繁體字替換,需要預(yù)先構(gòu)建一個(gè)繁體字與簡體字的映射字典,按照字典的排列順序存儲。當(dāng)讀取短信文本信息時(shí),如果檢測到繁體字,就按照字典的排列順序進(jìn)行查找,并用對應(yīng)的簡體字進(jìn)行替換。這樣可以確保短信內(nèi)容的一致性和可讀性。(2)對于諧音替換問題,需建立一個(gè)包含幾百個(gè)常見中文詞組及其諧音詞的表格。當(dāng)讀取文本信息時(shí),如果檢測到諧音詞,就通過諧音詞表查找對應(yīng)的正常詞匯,并進(jìn)行替換。這有助于還原短信的原始意圖,提高識別的準(zhǔn)確性。(3)針對拆分字替換,需要將中文按字體偏旁進(jìn)行分組存儲。在讀取文本信息時(shí),如果發(fā)現(xiàn)中文偏旁,則根據(jù)該偏旁的前后文字進(jìn)行合并,并從拆分字分組存儲中查找對應(yīng)的完整字。一旦找到該拆分字,就進(jìn)行替換。這樣可以確保短信內(nèi)容的完整性和準(zhǔn)確性。(4)對于添加干擾符號的情況,可以利用正則表達(dá)式進(jìn)行字符匹配和過濾。正則表達(dá)式是一種強(qiáng)大的文本處理工具,能夠描述和匹配符合特定模式的字符串。在本文中,使用匹配中英文字符的正則表達(dá)式來過濾短信文本中的干擾符號,從而清理文本并提高識別準(zhǔn)確性。3.2短信的文本表示短信過濾的實(shí)質(zhì)在于對短信內(nèi)容的合法性進(jìn)行判定。鑒于計(jì)算機(jī)無法直接識別文本信息,需將提取的特征向量轉(zhuǎn)化為計(jì)算機(jī)可識別的格式。為此,對短信的特征進(jìn)行短信的文本表示處理顯得尤為關(guān)鍵。本文采用的是向量空間模型(vectorspacemodel,VSM)REF_Ref22215\r\h[15]。在這種模型下,每條短信被轉(zhuǎn)化為一個(gè)向量,向量的每個(gè)維度與短信中的某個(gè)詞匯或特征相對應(yīng),其值則反映了該詞匯或特征在短信中的相對重要性或權(quán)重。具體實(shí)現(xiàn)步驟如圖3.2所示。(1)每條短信內(nèi)容都可以被轉(zhuǎn)化成一個(gè)n維的向量表示。在這個(gè)向量中,每個(gè)維度都對應(yīng)著一個(gè)特定的特征項(xiàng)。通過這種方式,可以將文檔表示為特征項(xiàng)。來分析下面一條短信,內(nèi)容如下:為何/小偷/入室/盜竊/如入/自家門用中文分詞把上述短信表示為6個(gè)特征詞,分別為“為何”,“小偷”,“入室”,“盜竊”,“如入”,“自家門”。(2)根據(jù)得到的一個(gè)n維向量,這個(gè)向量的每個(gè)坐標(biāo)代表了對應(yīng)特征項(xiàng)的權(quán)值。這個(gè)向量就代表了短信文檔在n維歐式空間中的位置。(3)為了衡量不同短信文檔之間的相似程度,采用了計(jì)算向量之間距離的方法。在VSM中,將短信文本轉(zhuǎn)化為向量形式時(shí),通常使用特征項(xiàng)的權(quán)重作為衡量標(biāo)準(zhǔn)。自向量空間模型問世以來,已經(jīng)發(fā)展出多種詞語權(quán)重函數(shù)REF_Ref22891\r\h[16],包括TF權(quán)重函數(shù)、布爾權(quán)重函數(shù)、TF-IDF權(quán)重函數(shù)以及熵權(quán)重函數(shù)等。在針對短信分類的特定場景下,單純依賴詞頻來表示權(quán)重可能會忽視詞條在整個(gè)語料庫中的信息價(jià)值。因此,更傾向于采用TF-IDF權(quán)重函數(shù)REF_Ref23309\r\h[17],從以下三個(gè)方面綜合考慮短信特征項(xiàng)的權(quán)重:詞頻、逆文檔頻率以及它們之間的乘積效應(yīng)。這樣可以更準(zhǔn)確地捕捉短信的語義信息,提高分類的準(zhǔn)確性。1.計(jì)算詞頻:對于每條短信,統(tǒng)計(jì)其中每個(gè)詞匯出現(xiàn)的次數(shù),并計(jì)算該詞在短信中的詞頻tn2.計(jì)算逆文檔頻率 idftn=logN其中nk為含特征詞tn的短信文本數(shù),3.計(jì)算TF-IDF值:對于短信中的每個(gè)詞匯,將其詞頻與逆文檔頻率相乘,得到該詞匯在該短信中的TF-IDF值。最后,將短信表示為一個(gè)向量,其中向量的每個(gè)維度對應(yīng)詞匯表中的一個(gè)詞匯。圖3.2向量化過程3.3短信特征降維經(jīng)過預(yù)處理后的短信文本,其特征分布往往呈現(xiàn)高維和稀疏性。這是因?yàn)轭A(yù)處理過程雖然能夠凈化文本數(shù)據(jù),但同時(shí)也可能導(dǎo)致原始特征空間變得龐大而復(fù)雜。為了解決這一問題,需要利用特征降維技術(shù),通過計(jì)算詞條對分類的貢獻(xiàn)度來對詞條進(jìn)行排序,從而篩選出關(guān)鍵的特征項(xiàng)集,實(shí)現(xiàn)降維的目的。圖3.3特征降維模塊的設(shè)計(jì)特征降維在支持向量機(jī)短信過濾中扮演著至關(guān)重要的角色。不同的降維方法將導(dǎo)致特征空間產(chǎn)生顯著差異,這些差異會直接影響到最終的分類結(jié)果。此外,即使是相同的特征降維方法,也會受到語料庫、分詞標(biāo)準(zhǔn)以及分類算法等多種因素的影響,從而導(dǎo)致分類效果出現(xiàn)變化。因此,在短信文本分類識別的過程中,特征降維方法的選擇必須基于實(shí)驗(yàn)。在分詞標(biāo)準(zhǔn)和分類算法已經(jīng)確定的前提下,需要通過實(shí)驗(yàn)比較不同特征降維方法所得到的分類效果。這樣,可以更準(zhǔn)確地評估各種降維方法的性能,從而確定最佳的特征降維方法。目前常用的特征降維方法REF_Ref23838\r\h[18]主要有特征頻度,文本頻度,期望交叉熵,互信息,信息增益,x2統(tǒng)計(jì)法等。特征頻度REF_Ref24227\r\h[19]是指在某個(gè)數(shù)據(jù)集中某個(gè)特征值出現(xiàn)的次數(shù),通過統(tǒng)計(jì)特征頻度,我們可以衡量某個(gè)特征在整個(gè)數(shù)據(jù)集中的重要性和分布情況。特征頻度較高的特征可能更具有代表性,而頻度較低的特征可能包含較少的信息或者對模型的影響較小。文本頻度REF_Ref24407\r\h[20]類似于特征頻度,用于統(tǒng)計(jì)某個(gè)詞或短語在文本中出現(xiàn)的次數(shù)。這對于文本分類、情感分析等任務(wù)非常有用,可以幫助我們確定哪些詞或短語對于區(qū)分不同類別或情感更為重要。期望交叉熵REF_Ref24544\r\h[21](也稱為KL距離)是一種衡量文本類別概率分布和在特定特征條件下文本類別概率分布之間距離的方法。它可以幫助我們在文本分類任務(wù)中選擇最具代表性的特征?;バ畔EF_Ref24691\r\h[22]是一種有用的信息度量,它表示一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。在特征選擇中,互信息可以用于衡量特征與類別之間的相關(guān)性,從而選擇出與目標(biāo)類別最相關(guān)的特征。信息增益REF_Ref24874\r\h[23]是一種用于度量兩種概率分布差異的方法,在特征選擇中,信息增益可以用來衡量使用某個(gè)特征進(jìn)行劃分前后,數(shù)據(jù)集信息量的變化,變化越大的特征,其信息增益越大,對分類的貢獻(xiàn)也越大。x2統(tǒng)計(jì)法REF_Ref25119\r\h[24]是一種基于統(tǒng)計(jì)學(xué)的特征選擇方法,它利用x2統(tǒng)計(jì)量來衡量特征與類別之間的相關(guān)性,如果一個(gè)特征與類別之間的x2值較大,說明該特征與類別的相關(guān)性較強(qiáng),因此可以將其選擇為重要特征。幾率比REF_Ref25298\r\h[25]通常用于評估兩個(gè)分類變量之間的關(guān)聯(lián)強(qiáng)度,特別是在醫(yī)學(xué)、社會科學(xué)和生物統(tǒng)計(jì)等領(lǐng)域。在特征選擇的過程中,幾率比可以被用來衡量某個(gè)特征對分類目標(biāo)的影響程度。如果一個(gè)特征的幾率比顯著地偏離1,那么它可能是一個(gè)有用的預(yù)測因子。3.4構(gòu)建分類器垃圾短信過濾流程中,構(gòu)建短信過濾器,事實(shí)上就是通過利用支持向量機(jī)對訓(xùn)練短信樣本進(jìn)行訓(xùn)練學(xué)習(xí)而得到的一個(gè)分類模型,進(jìn)而根據(jù)分類模型對未知短信進(jìn)行測試分類。如圖3.7所示,其具體步驟如下:(1)通過短信特征降維后得到短信訓(xùn)練集: xi,yj,x∈(2)選取最優(yōu)的核函數(shù)Kxi minα12i=1l求得最優(yōu)解為:α?=α?1(3)取α?的正分量0<α?<C,并計(jì)算閾值(4)構(gòu)造決策函數(shù)fx(5)利用得到的函數(shù)模型fx圖3.7分類設(shè)計(jì)流程圖第四章實(shí)驗(yàn)結(jié)果與分析4.1實(shí)驗(yàn)數(shù)據(jù)本文的實(shí)驗(yàn)數(shù)據(jù)是來自飛漿的公開數(shù)據(jù)集,其中包含70萬條短信的由用戶發(fā)送的正常短信。這些短信歸為兩類:正常短信和垃圾短信,其中標(biāo)簽0用于標(biāo)識正常短信,標(biāo)簽1則用于標(biāo)識垃圾短信,如圖4.1所示。實(shí)驗(yàn)過程中,短信數(shù)據(jù)集進(jìn)一步劃分為訓(xùn)練集和驗(yàn)證集兩部分。訓(xùn)練集主要由已明確分類屬性的短信組成,用于模型的訓(xùn)練與學(xué)習(xí)。而驗(yàn)證集則由未明確分類屬性的短信構(gòu)成,用于測試訓(xùn)練好的分類器的性能,以確保模型的準(zhǔn)確度和有效性。在短信集的分配上,我們遵循6:1原則,即60萬條短信作為訓(xùn)練集,用以訓(xùn)練和優(yōu)化模型;而剩余的10萬條短信則作為測試集,用于評估分類器的識別效果和準(zhǔn)確率。圖4.1數(shù)據(jù)集示例圖4.2評價(jià)指標(biāo)評估垃圾短信分類效果的主要指標(biāo)包括準(zhǔn)確率(Accuracy,A)、精準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1分?jǐn)?shù)。定義如下: A=預(yù)測正確的文本數(shù) P=預(yù)測正確的文本數(shù) R=預(yù)測正確的文本數(shù) F1=2PRP在評估分類結(jié)果時(shí),通常需要綜合考慮多個(gè)指標(biāo)以獲取全面而準(zhǔn)確的評價(jià)。其中,準(zhǔn)確率是一個(gè)核心指標(biāo),用于衡量模型對所有樣本的整體分類效果,它反映了模型正確分類的能力。而精準(zhǔn)率則側(cè)重于模型預(yù)測的準(zhǔn)確性,即當(dāng)模型預(yù)測某個(gè)樣本為正例時(shí),該樣本實(shí)際為正例的比例。這一指標(biāo)有助于我們評估模型在預(yù)測時(shí)的可靠性。召回率也是一個(gè)關(guān)鍵指標(biāo),它強(qiáng)調(diào)模型預(yù)測的完整性,即真正為正例的樣本中被模型正確預(yù)測出來的比例。這有助于了解模型在識別正例文本時(shí)的能力。F1分?jǐn)?shù)也是一個(gè)重要的評估指標(biāo),它綜合考慮了精準(zhǔn)率和召回率,可以全面評估模型在識別正例文本時(shí)的準(zhǔn)確性和完整性。具體來說,當(dāng)預(yù)測正確的文本數(shù)越多,且這些文本占總文本數(shù)的比例越高時(shí),F(xiàn)1分?jǐn)?shù)也會越高,表明模型的性能越好。因此,在評估分類結(jié)果時(shí),我們需要對上述指標(biāo)進(jìn)行綜合考量,以便更全面地評估模型的性能。4.3實(shí)驗(yàn)分析為了深入探究支持向量機(jī)在短信分類中的實(shí)際性能,本文依據(jù)文本分類的基本原理,緊密結(jié)合短信的具體內(nèi)容,采用支持向量機(jī)技術(shù)開展了一系列詳盡的短信分類實(shí)驗(yàn)。實(shí)驗(yàn)的核心內(nèi)容涵蓋了以下幾個(gè)關(guān)鍵方面:(1)通過對比實(shí)驗(yàn)的方式,對不同的特征降維方法在支持向量機(jī)進(jìn)行垃圾短信識別時(shí)的表現(xiàn)進(jìn)行了深入評估,力求找到最適合的特征降維方案。(2)為了找到支持向量機(jī)算法的最優(yōu)參數(shù)組合,特別針對算法的懲罰因子和核函數(shù)進(jìn)行了系統(tǒng)性的對比實(shí)驗(yàn),旨在選擇最佳參數(shù)組合,以進(jìn)一步提升分類性能。(3)此外,進(jìn)行了徑向基核支持向量機(jī)與多項(xiàng)式樸素貝葉斯分類方法在垃圾短信識別精度上的對比實(shí)驗(yàn),通過對比分析,進(jìn)一步驗(yàn)證了支持向量機(jī)在短信分類中的優(yōu)越性能。在短信分類的流程中,降維方法的選擇對于最終的分類效果至關(guān)重要。為了深入探究不同降維方法的應(yīng)用效果,我們對互信息(MI)、特征頻度(TF)、幾率比(OR)、信息增益(IG)以及x2統(tǒng)計(jì)法(CHI)這五種特征選擇方法進(jìn)行了詳細(xì)的對比實(shí)驗(yàn)。這些降維方法都具備一個(gè)共同特性,即它們能夠在保持原始特征空間完整性的前提下,有效地提取出關(guān)鍵特征,并構(gòu)建出新的低維空間,從而大大簡化了分類過程。通過以下圖展示了這些方法的實(shí)驗(yàn)結(jié)果對比,從中可以清晰地觀察到不同方法在短信分類性能上的優(yōu)劣表現(xiàn)。圖4.6特征降維實(shí)驗(yàn)結(jié)果比較如圖4.6所示,經(jīng)過對比測試,發(fā)現(xiàn)信息增益和特征頻率法相較于其他三種技術(shù),其性能表現(xiàn)更佳。x2統(tǒng)計(jì)法的表現(xiàn)則相對平穩(wěn),而互信息法的分類效果稍顯遜色。特別值得注意的是,隨著特征維度的逐步增加,信息增益法的準(zhǔn)確率呈現(xiàn)出下降的趨勢。經(jīng)過深入分析,確定在特征數(shù)達(dá)到50維時(shí),信息增益法的分類效果達(dá)到最優(yōu);然而一旦特征數(shù)超過50維,其分類準(zhǔn)確率便會迅速降低。這一現(xiàn)象可能是由于信息增益法在計(jì)算過程中考慮了詞條未出現(xiàn)的情況,從而導(dǎo)致其分類效率在不同特征維度下出現(xiàn)波動(dòng)。由此得出結(jié)論:在垃圾短信識別中信息增益方法展現(xiàn)出相對較好的效率。鑒于此,本文決定采用信息增益方法作為短信分類的特征降維手段,并經(jīng)過綜合考量,最終確定前50維作為信息增益的特征數(shù)。這一選擇旨在在保持分類性能的同時(shí),有效降低計(jì)算復(fù)雜度,從而提高整個(gè)分類過程的效率和實(shí)用性。在分類過程中,引入懲罰參數(shù)是處理訓(xùn)練數(shù)據(jù)不平衡問題的有效手段。在實(shí)際短信分類實(shí)驗(yàn)中,我們常面臨正常短信(正例)與垃圾短信(負(fù)例)數(shù)量上的顯著差異。理論上,為了平衡這種差異,對負(fù)例的懲罰參數(shù)應(yīng)設(shè)置得高于正例。然而,在標(biāo)準(zhǔn)支持向量機(jī)中,正例和負(fù)例的懲罰參數(shù)往往被設(shè)定為相同的值。為了深入探究不同懲罰參數(shù)對分類效果的影響,進(jìn)行了相關(guān)實(shí)驗(yàn)。這些實(shí)驗(yàn)旨在分析不同懲罰參數(shù)組合下,分類器對正負(fù)例的處理能力,以及由此產(chǎn)生的分類性能變化。通過這一系列實(shí)驗(yàn),期望能夠找到更適合于短信分類任務(wù)的懲罰參數(shù)設(shè)置,從而優(yōu)化分類效果,提升對垃圾短信的識別準(zhǔn)確率。表4.7懲罰參數(shù)實(shí)驗(yàn)結(jié)果比較懲罰參數(shù)C準(zhǔn)確率精確率召回率F110.951990.791450.705420.7459650.953460.804350.706060.75200100.955770.824920.707610.76177150.954470.808000.714110.75816200.954070.799980.720550.75819從表4.7所展示的實(shí)驗(yàn)結(jié)果來看,不同的懲罰系數(shù)對分類結(jié)果產(chǎn)生了明顯的影響。圖中當(dāng)懲罰參數(shù)為10時(shí),準(zhǔn)確率和精確率分別達(dá)到了95.577%、82.492%,相較其他參數(shù)具有輕微優(yōu)勢,垃圾短信識別重點(diǎn)在于檢測出垃圾短信,所以更加注重垃圾短信識別的準(zhǔn)確率和精確率,因此,在后續(xù)的對比實(shí)驗(yàn)中,將統(tǒng)一采用懲罰參數(shù)C=10來進(jìn)行分類,以期獲得更穩(wěn)定和高效的分類性能。在支持向量機(jī)的分類過程中,通常需要將樣本通過非線性映射轉(zhuǎn)換到高維特征空間REF_Ref27986\r\h[26],以便使問題變得線性或近似線性可分。目前,常用的核函數(shù)包括線性核函數(shù)、徑向基核函數(shù)、多項(xiàng)式核函數(shù)以及Sigmoid核函數(shù)等。核函數(shù)的選擇在分類效果中扮演著至關(guān)重要的角色,因此,在實(shí)際應(yīng)用中,需要根據(jù)具體的任務(wù)和數(shù)據(jù)特性來精心挑選和調(diào)整核函數(shù)。表4.8核函數(shù)實(shí)驗(yàn)結(jié)果比較模型準(zhǔn)確率精確率召回率F1線性支持向量機(jī)0.951990.791450.705420.74596徑向基核支持向量機(jī)0.971350.918350.782950.84526多項(xiàng)式核支持向量機(jī)0.971200.919310.780270.84410Sigmoid核支持向量機(jī)0.909000.545960.530990.53837從表4.8所展示的實(shí)驗(yàn)數(shù)據(jù)中,可以得出如下結(jié)論:在短信分類任務(wù)中,徑向基核支持向量機(jī)方法表現(xiàn)最為出色,多項(xiàng)式核支持向量機(jī)次之,而Sigmoid核支持向量機(jī)的分類效果相對較差。垃圾短信識別的重點(diǎn)在于保證正常短信不受干擾的同時(shí),有效篩選出垃圾短信,而徑向基核支持向量機(jī)正因其高分類準(zhǔn)確率,成功滿足了這一關(guān)鍵需求。4.4支持向量機(jī)短信分類方法遇到的問題及改進(jìn)方法為了應(yīng)對支持向量機(jī)在短信分類過程中遇到的關(guān)鍵性信息丟失問題,發(fā)現(xiàn)當(dāng)引入電話號碼特征詞后,特征空間被不恰當(dāng)?shù)胤指顬閮刹糠?,即垃圾短信相關(guān)和電話相關(guān),而支持向量機(jī)無法有效區(qū)分這兩者,從而產(chǎn)生了噪聲。此外,電話相關(guān)特征項(xiàng)的引入也導(dǎo)致了特征詞的重復(fù)出現(xiàn),增加了特征空間的維數(shù),進(jìn)而影響了分類的準(zhǔn)確率。4.9支持向量機(jī)方法短信過濾結(jié)構(gòu)圖針對這個(gè)問題,提出一種創(chuàng)新的分層識別方法,該方法基于支持向量機(jī),旨在通過分步驟、分層次的識別過程來提高垃圾短信的識別準(zhǔn)確率。這一方法的核心思想是將復(fù)雜的分類問題分解為多個(gè)子問題,每個(gè)子問題均使用支持向量機(jī)進(jìn)行求解,然后將子問題的求解結(jié)果作為輸入項(xiàng),最終整合得出整體的分類結(jié)果。分層識別的支持向量機(jī)短信分類方法首先關(guān)注垃圾短信的一個(gè)顯著特征“電話號碼”。在利用支持向量機(jī)對短信進(jìn)行分類識別之前,先利用支持向量機(jī)識別短信中是否含有電話號碼。隨后,將這一識別結(jié)果作為一維單獨(dú)的向量加入到基于支持向量機(jī)的短信識別過程中。通過這種方式,不僅可以減少噪聲,還能更準(zhǔn)確地識別出垃圾短信。具體步驟如下:(1)利用支持向量機(jī)對短信中是否含有電話號碼進(jìn)行識別。(2)提取短信的原始特征詞。(3)將第一步得到的電話號碼識別結(jié)果加入到原始特征詞中,構(gòu)成新的特征向量表。(4)基于新的特征向量表,建立分類器進(jìn)行短信分類。4.10改進(jìn)的支持向量機(jī)短信分類工作流程圖如圖4.10所示,對短信分類方法進(jìn)行了改進(jìn),將其分解為兩個(gè)獨(dú)立的識別過程:電話模塊識別和垃圾短信模塊識別。實(shí)驗(yàn)中,選取50維特征作為基礎(chǔ),并引入了數(shù)字識別這一步驟。首先,識別短信樣本中是否含有數(shù)字,若含有數(shù)字,則判斷該短信包含電話號碼,并將數(shù)字這一特征加入到之前構(gòu)建的特征集合中,使特征項(xiàng)的維數(shù)增加到51維。隨后,我們使用支持向量機(jī)對短信進(jìn)行識別。實(shí)驗(yàn)結(jié)果如下表4.11:表4.11加入數(shù)字維前后短信識別率對比短信集正類正確數(shù)負(fù)類正確數(shù)總體正確數(shù)總體正確率(%)加入數(shù)字維前訓(xùn)練集95487104194.59%(50維)測試集94583102993.05%總體1899170207093.82%加入數(shù)字維后訓(xùn)練集95990104995.37%(51維)測試集96283104595.02%總體1921170209495.19%實(shí)驗(yàn)結(jié)果清晰地表明,在原始特征維數(shù)的基礎(chǔ)上引入數(shù)字維后,短信識別的正確率得到了顯著提升。在50維特征的情況下,短信分類的總體正確率為93.82%,這一結(jié)果已經(jīng)相當(dāng)可觀。然而,當(dāng)在特征集合中加入數(shù)字這一關(guān)鍵信息維度后,分類的準(zhǔn)確率進(jìn)一步攀升至95.19%。這一明顯的提升證明了短信中的關(guān)鍵信息,如電話號碼,對于提高短信分類的正確率具有至關(guān)重要的作用。通過捕捉并合理利用這些關(guān)鍵信息,可以更準(zhǔn)確地識別短信的類型,從而有效提高分類的性能。4.5支持向量機(jī)與樸素貝葉斯方法實(shí)驗(yàn)比較經(jīng)過上述系列實(shí)驗(yàn),選用信息增益作為特征降維方法,并將懲罰參數(shù)設(shè)為10,選用徑向基函數(shù)作為核函數(shù)。隨后,分別應(yīng)用樸素貝葉斯分類算法的多項(xiàng)式模型和基于徑向基核的改進(jìn)支持向量機(jī)模型對文本數(shù)據(jù)集進(jìn)行了訓(xùn)練。最終,根據(jù)各項(xiàng)評價(jià)指標(biāo)得出的分類效果如表4.12所示。這一結(jié)果提供了對兩種分類算法性能的直觀比較,有助于全面地評估和支持向量機(jī)在短信分類任務(wù)中的有效性。表4.12支持向量機(jī)與樸素貝葉斯的實(shí)驗(yàn)結(jié)果模型準(zhǔn)確率精確率召回率F1徑向基核支持向量機(jī)0.994890.986450.962050.97409多項(xiàng)式樸素貝葉斯0.991880.954920.964240.95956實(shí)驗(yàn)顯示,兩種分類器在準(zhǔn)確率方面都展現(xiàn)出了卓越性能,均超過99%的高水平。具體來看,支持向量機(jī)模型相較于樸素貝葉斯模型在準(zhǔn)確率上略勝一籌。在精確率指標(biāo)上,支持向量機(jī)模型達(dá)到了98.645%,而樸素貝葉斯模型則為95.492%,顯示出支持向量機(jī)在精確率上的明顯優(yōu)勢。召回率方面,雖然兩者的分值都表現(xiàn)尚可,但相較于其他準(zhǔn)確率指標(biāo)略有下降,其中支持向量機(jī)模型取得了96.205%的召回率,多項(xiàng)式樸素貝葉斯模型為96.424%。在F1分?jǐn)?shù)上,支持向量機(jī)同樣表現(xiàn)出了約0.02%的優(yōu)勢。綜合上述分析,可以得出結(jié)論:支持向量機(jī)其效果要優(yōu)于樸素貝葉斯。支持向量機(jī)支持向量機(jī)方法是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,而樸素貝葉斯方法是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則。所以訓(xùn)練過程的不同是支持向量機(jī)方法好于樸素貝葉斯方法的根本原因。第五章總結(jié)與展望5.1總結(jié)本文深入研究了基于自然語言處理的垃圾短信檢測與識別方法,并采用支持向量機(jī)算法進(jìn)行了有效實(shí)現(xiàn)。該方法充分利用了支持向量機(jī)算法的簡單性和高效性,對短信文本進(jìn)行了精準(zhǔn)的分類和識別。同時(shí),還對算法進(jìn)行了針對性的優(yōu)化和改進(jìn),以進(jìn)一步提升其性能和準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)算法在垃圾短信檢測和識別任務(wù)中表現(xiàn)出色,具有較高的準(zhǔn)確率和召回率。本文主要完成了以下工作:研究了基于支持向量機(jī)的短信分類方法,并詳細(xì)闡述了其執(zhí)行步驟和過程。深入探討了短信分類中涉及的關(guān)鍵技術(shù),包括特征降維技術(shù)、短信文本表達(dá)以及分類算法等。通過對比分析不同技術(shù)的優(yōu)缺點(diǎn),選擇了適合本研究的特征降維方法和文本表達(dá)方式,提高了分類器的性能。接著,通過一系列實(shí)驗(yàn),確定了適用于支持向量機(jī)短信分類的最佳懲罰參數(shù)和核函數(shù)。最后進(jìn)行了多項(xiàng)式貝葉斯分類模型與徑向基核支持向量機(jī)模型的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,經(jīng)過改進(jìn)的支持向量機(jī)方法在垃圾短信識別的準(zhǔn)確率上明顯高于多項(xiàng)式貝葉斯分類模型,進(jìn)一步驗(yàn)證了該方法的可行性和實(shí)用性。5.2展望隨著自然語言處理技術(shù)的持續(xù)進(jìn)步,可以不斷優(yōu)化和完善基于該技術(shù)的垃圾短信檢測與識別方法。這包括探索更多的特征提取方法、精細(xì)調(diào)整分類算法的參數(shù)設(shè)置,以及提升模型的泛化能力。此外,該方法的應(yīng)用領(lǐng)域也可以進(jìn)一步拓展,例如將其應(yīng)用于惡意軟件檢測、網(wǎng)絡(luò)輿情分析等,為這些領(lǐng)域的研究和應(yīng)用提供有益的參考。然而,在研究過程中我們也發(fā)現(xiàn)了一些不足之處,主要體現(xiàn)在以下五個(gè)方面:(1)在本文中,通過實(shí)驗(yàn)選擇了支持向量機(jī)方法的參數(shù)和特征降維策略,但如何結(jié)合理論來優(yōu)化參數(shù)和特征降維方式,仍是一個(gè)待解決的難題,也是我們未來探索的重要方向。(2)盡管本文提出了基于支持向量機(jī)的垃圾短信識別方法,但主要關(guān)注了識別效果的探討,并未考慮處理速度對檢測性能的影響。因此,將處理速度納入垃圾短信檢測的研究中,是下一步需要深入探討的內(nèi)容。(3)實(shí)驗(yàn)數(shù)據(jù)主要來源于飛漿平臺的短信記錄,但仍有許多因素未能全面考慮。例如,垃圾短信的分類是否足夠廣泛,是否涵蓋了廣告、詐騙、騷擾、煽動(dòng)等多種類別;若數(shù)據(jù)僅涵蓋單一或少數(shù)類別,是否會對實(shí)驗(yàn)結(jié)果產(chǎn)生偏差;實(shí)驗(yàn)樣本的大小如何確定,才能確保結(jié)果更具普遍性。(4)本文的實(shí)驗(yàn)與測試主要在個(gè)人電腦上進(jìn)行模擬,與真實(shí)環(huán)境可能存在一定差距。因此,如何在真實(shí)環(huán)境中驗(yàn)證和優(yōu)化該方法,也是需要關(guān)注的一個(gè)問題。(5)此外,還可以考慮將本方法與其他數(shù)據(jù)挖掘技術(shù),如遺傳算法等相結(jié)合,以期進(jìn)一步提升分類的準(zhǔn)確率和查全率,從而優(yōu)化垃圾短信的檢測與識別效果。參考文獻(xiàn)張培芮,張曉笛,宋尚芝,等.元宇宙視域用戶創(chuàng)造內(nèi)容合理使用研究[J].合作經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論