




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于敏感詞的網(wǎng)絡(luò)輿情分析研究網(wǎng)絡(luò)化和信息化程度日益加深,網(wǎng)絡(luò)信息的傳播速度也越來越快,用戶獲取信息的方式更加多樣化、復(fù)雜化。有些惡意用戶為了自己的利益會(huì)發(fā)布一些不良網(wǎng)絡(luò)信息,例如包含暴力色情、涉及政治敏感等內(nèi)容的敏感信息。對(duì)這些不良信息監(jiān)管不力,會(huì)給社會(huì)帶來負(fù)面影響并且會(huì)增大社會(huì)壓力。有效的識(shí)別網(wǎng)絡(luò)信息中含有敏感詞的不良文本信息對(duì)社會(huì)穩(wěn)定發(fā)展非常有必要,并且亟待解決。我國互聯(lián)網(wǎng)已經(jīng)普及到各個(gè)領(lǐng)域,各類人群都有使用。通過對(duì)互聯(lián)信息中的一些會(huì)產(chǎn)生負(fù)面影響信息進(jìn)行分析、過濾,利用網(wǎng)絡(luò)輿情分析技術(shù)對(duì)網(wǎng)絡(luò)信息進(jìn)行預(yù)處理、分析、挖掘,及時(shí)發(fā)現(xiàn)包含敏感詞的網(wǎng)絡(luò)輿情信息并,對(duì)其進(jìn)行分類處理,可以實(shí)現(xiàn)互聯(lián)網(wǎng)的全面安全,從而給人們一個(gè)安全的網(wǎng)絡(luò)空間。關(guān)鍵詞:輿情分析;網(wǎng)絡(luò)信息;敏感詞;詞性目錄一、緒論 一、緒論(一)研究的背景和意義1.選題背景隨著科技的發(fā)展,信息網(wǎng)絡(luò)也日新月異;在信息現(xiàn)代化社會(huì),網(wǎng)絡(luò)信息發(fā)展一日千里,傳播速度之快前所未有,傳播方式也豐富多樣,并且在這網(wǎng)絡(luò)時(shí)代人們的生活離不開網(wǎng)絡(luò),給人們生活帶來了便捷,深受人們的喜愛。然而,網(wǎng)絡(luò)這把雙刃劍也給人們帶來了一些困擾,一些用戶被利益驅(qū)使,在網(wǎng)絡(luò)上發(fā)布的不良信息具有嚴(yán)重危害性,嚴(yán)重影響了網(wǎng)民的網(wǎng)絡(luò)生活。這些言論游走在違法的邊緣,不良信息中常常充斥著色情暴力、電信網(wǎng)絡(luò)詐騙、有的涉及政治或民族,嚴(yán)重影響國家和社會(huì)的穩(wěn)定。此外,有的不良敏感信息還包括槍支、毒品、暴恐等許多方面[1]。倘若對(duì)這些敏感詞匯監(jiān)督不到位,對(duì)不良信息不良短文本管理不力,那么這勢(shì)必會(huì)造成極大的輿論壓力,甚至對(duì)國家安全、社會(huì)穩(wěn)定產(chǎn)生負(fù)面影響[2]。因此,對(duì)網(wǎng)絡(luò)敏感詞匯的有效識(shí)別檢測(cè)就顯得尤為重要。近些年,我國互聯(lián)網(wǎng)用戶激增,網(wǎng)民規(guī)模超過9億,并且呈上升趨勢(shì)(如圖1所示)。然而,據(jù)統(tǒng)計(jì)網(wǎng)民年齡偏小(如圖2所示),受教育程度不高,大多數(shù)人不能有效識(shí)別敏感詞匯,抵御非法信息的能力也有待提高。所以研究對(duì)敏感信息的有效分析、過濾、和控制是非常有必要的。圖1網(wǎng)名規(guī)模和互聯(lián)網(wǎng)普及率圖2網(wǎng)民年齡結(jié)構(gòu)2.選題意義從我國實(shí)際情況的角度來看,整治網(wǎng)絡(luò)輿情的重要舉措就是及時(shí)的辨別和發(fā)現(xiàn)網(wǎng)絡(luò)中的敏感詞匯,在搜索敏感信息的同時(shí)也要防止被不良敏感信息攻擊[3],通過加強(qiáng)對(duì)網(wǎng)絡(luò)不良信息的監(jiān)督和管理是營造良好網(wǎng)絡(luò)環(huán)境的基礎(chǔ)。因此,對(duì)涉及敏感詞的網(wǎng)絡(luò)信息進(jìn)行檢測(cè),對(duì)含有敏感詞信息的言論進(jìn)行查封過濾,造成嚴(yán)重后果的將追究其相應(yīng)責(zé)任。本文通過創(chuàng)建一個(gè)網(wǎng)絡(luò)敏感詞詞庫,然后對(duì)微博評(píng)論區(qū)信息進(jìn)行爬取拆分,將拆分出來的詞與敏感信息詞庫進(jìn)行比對(duì),及時(shí)發(fā)現(xiàn)敏感詞,該方法結(jié)合了漢字的詞組特征,在識(shí)別的過程中通過拆分的形式,便可以準(zhǔn)確的檢索出文中的敏感詞?,F(xiàn)在信息網(wǎng)絡(luò)增長迅速,各類文章不計(jì)其數(shù),不能做到對(duì)所有網(wǎng)絡(luò)信息進(jìn)行檢測(cè)處理,如果用人工對(duì)這些敏感信息進(jìn)行處理也是不能不實(shí)現(xiàn)的。本文提出了基于敏感詞的網(wǎng)絡(luò)輿情分析研究,通過敏感詞在文本中的出現(xiàn)次數(shù)以及敏感詞在文本中所在的位置對(duì)文本敏感程度進(jìn)行計(jì)算[4]。通過檢測(cè)對(duì)比敏感詞及整個(gè)文本的敏感度,對(duì)文本做出相應(yīng)的處理,其中包括刪除內(nèi)容、封禁內(nèi)容等各種方法。對(duì)網(wǎng)絡(luò)中的敏感詞進(jìn)行識(shí)別檢測(cè)和處理,對(duì)構(gòu)建一個(gè)安全的網(wǎng)絡(luò)空間具有極其重要的意義,實(shí)現(xiàn)互聯(lián)網(wǎng)的全面安全[5]。(二)國內(nèi)外研究現(xiàn)狀目前,國內(nèi)對(duì)敏感詞識(shí)別方法的研究還處于起步階段。利用ST-DFA算法,通過利用敏感詞的漢語拼音首字母來建立決策樹[6],他的優(yōu)點(diǎn)是不需要依賴敏感信息詞詞庫,并且還能提高檢測(cè)效果,但缺點(diǎn)檢測(cè)不到變形的敏感信息[7]。利用SWDT-IFA算法,構(gòu)建敏感詞決策樹的方法不僅可以提高檢速度,還能提高檢測(cè)效率,通過記錄敏感詞出現(xiàn)的次數(shù)、區(qū)域信息,最后通過記錄的信息進(jìn)行敏感詞檢測(cè)以達(dá)到敏感文本檢測(cè)的目的[8]。如果需要檢測(cè)的文本及文本內(nèi)容都是應(yīng)用規(guī)范,能得到較好的檢測(cè)效果,但是惡意用戶也會(huì)盡可能的想辦法來逃避檢測(cè),他們就會(huì)對(duì)敏感詞進(jìn)行各種不規(guī)范的變形,但是改變敏感信息不會(huì)改變其原意,這樣便會(huì)導(dǎo)致所變形的變形詞檢測(cè)不到[9]。導(dǎo)致這些方法對(duì)英文得敏感信息檢測(cè)發(fā)現(xiàn)有較好的識(shí)別處理效果,但是對(duì)中文敏感詞的識(shí)別效果并不理想。通過對(duì)前部分內(nèi)容的分析,可以看到目前對(duì)于對(duì)中文敏感詞的識(shí)別還沒有比較好的方法。為此,本文通過對(duì)漢字的結(jié)構(gòu)和詞性等特征對(duì)微博評(píng)論信息進(jìn)行分析,創(chuàng)建一個(gè)敏感詞信息庫,然后與爬取分析的數(shù)據(jù)進(jìn)行比對(duì)得出敏感詞。此方法能有效的對(duì)網(wǎng)絡(luò)信息的敏感詞進(jìn)行自動(dòng)識(shí)別,通過檢測(cè)比對(duì),及其在文中句子語義分析,能準(zhǔn)確發(fā)現(xiàn)輿情信息。實(shí)驗(yàn)結(jié)果表明,本文提出的應(yīng)用方法能有效地提高對(duì)敏感信息識(shí)別準(zhǔn)確率和效率,并且能夠通過發(fā)現(xiàn)的敏感信息及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情。(三)研究內(nèi)容微博是現(xiàn)在人們了解信息并且發(fā)表個(gè)人意見的平臺(tái),并且微博網(wǎng)民數(shù)量巨大,文化水平,年齡差距較大,人員組成復(fù)雜。然而每個(gè)人都可以在微博評(píng)論區(qū)發(fā)表自己的意見,有的網(wǎng)民發(fā)表意見的目的本身就不是那么單純,所以很容易引起網(wǎng)絡(luò)輿情。為此,本文提出基于敏感詞的網(wǎng)絡(luò)輿情分析研究方法。該方法主要包括:網(wǎng)絡(luò)輿情信息爬取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)比對(duì)的預(yù)警等幾個(gè)模塊,比較全面的實(shí)現(xiàn)一個(gè)輿情處理過程。利用網(wǎng)絡(luò)爬蟲技術(shù)爬取微博評(píng)論信息,對(duì)爬取的信息利用結(jié)巴分詞技術(shù)進(jìn)行分詞,建立一個(gè)敏感詞詞庫,將得到的分詞與敏感詞庫進(jìn)行對(duì)比分析,比對(duì)分析得到的敏感詞數(shù)量和次數(shù)較高會(huì)有預(yù)警顯示。二、關(guān)鍵輿情分析技術(shù)(一)網(wǎng)絡(luò)爬蟲技術(shù)1.網(wǎng)絡(luò)爬蟲的概念網(wǎng)絡(luò)爬蟲(Webcrawler),是根據(jù)某種特定的規(guī)則,自動(dòng)對(duì)萬維網(wǎng)信息進(jìn)行抓取的程序或者是腳本,網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,網(wǎng)絡(luò)爬蟲可以自動(dòng)采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。從爬蟲的功能上來說,爬蟲可以分為數(shù)據(jù)采集、處理、儲(chǔ)存這三個(gè)部分。爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件,爬蟲才會(huì)停止對(duì)數(shù)據(jù)的爬取。2.網(wǎng)絡(luò)爬蟲原理Web網(wǎng)絡(luò)爬蟲系統(tǒng)的功能就是對(duì)網(wǎng)頁上的數(shù)據(jù)進(jìn)行下載,然而為搜索引擎系統(tǒng)提供數(shù)據(jù)來源。大部分大型的網(wǎng)絡(luò)搜索引擎系統(tǒng)都被稱為基于Web數(shù)據(jù)采集的搜索引擎系統(tǒng),例如Baidu、Google。通過這些可以看出Web網(wǎng)絡(luò)爬蟲系統(tǒng)在搜索引擎中的重要性。網(wǎng)頁中除了包含供用戶閱讀的文字信息外,還會(huì)包含一些超鏈接信息。Web網(wǎng)絡(luò)爬蟲系統(tǒng)正是通過網(wǎng)頁中的超連接信息不斷獲得網(wǎng)絡(luò)上的其它網(wǎng)頁。正是因?yàn)檫@種采集過程像一個(gè)爬蟲或者蜘蛛在網(wǎng)絡(luò)上漫游,所以它才被稱為網(wǎng)絡(luò)爬蟲系統(tǒng)或者網(wǎng)絡(luò)蜘蛛系統(tǒng),現(xiàn)在數(shù)據(jù)采集工作中最常使用的一種就是通用網(wǎng)絡(luò)爬蟲(如圖3所示),它的檢索策略是基于設(shè)定好的關(guān)鍵字。在開始數(shù)據(jù)采集工作之前,先在URL隊(duì)列中初始化一個(gè)或者幾個(gè)URL,然后爬蟲程序去訪問設(shè)定好的URL對(duì)應(yīng)的頁面,采集相關(guān)內(nèi)容,儲(chǔ)存在數(shù)據(jù)庫中,獲取頁面上新的URL,加入U(xiǎn)RL列表中。當(dāng)然,爬蟲的解析器會(huì)判斷是否重復(fù)訪問等工作。圖3通用網(wǎng)絡(luò)爬蟲工作流程3.網(wǎng)絡(luò)爬蟲系統(tǒng)的工作原理網(wǎng)絡(luò)爬蟲系統(tǒng)的框架主要由三個(gè)部分構(gòu)成,其分別是控制器、解析器、資源庫三部分。控制器的重點(diǎn)工作任務(wù)是對(duì)多線程的每個(gè)爬蟲線程進(jìn)行工作任務(wù)分配。解析器的重點(diǎn)工作任務(wù)就是對(duì)網(wǎng)頁進(jìn)行下載,人飯后對(duì)下載的網(wǎng)頁進(jìn)行初步處理,主要是把一些沒有實(shí)質(zhì)信息的內(nèi)容給處理掉,如:空格字符、腳本標(biāo)簽、標(biāo)簽等,在進(jìn)行網(wǎng)絡(luò)爬取的過程中最基本得工作就是有解析器來完成的。資源庫是對(duì)下載下來的網(wǎng)頁信息進(jìn)行存放的,大多數(shù)都是采用一些大型的數(shù)據(jù)庫來存放下載下來的網(wǎng)頁資源,如使用較多的Oracle數(shù)據(jù)庫。4.爬取策略網(wǎng)絡(luò)爬蟲在對(duì)網(wǎng)頁信息進(jìn)行爬取的過程中,在爬取一個(gè)網(wǎng)頁是,會(huì)有待爬取的URL列表,并且其中有可能會(huì)有很多的URL地址,針對(duì)這些待爬取的URL地址就存在一個(gè)問題,爬蟲應(yīng)該先對(duì)哪個(gè)爬取后是對(duì)哪個(gè)爬取。所以在等待爬取的URL的對(duì)列是非常重要的,在待爬取URL隊(duì)列中對(duì)URL的順序進(jìn)行怎么樣的排列這是一個(gè)非常重要的問題,因?yàn)樯婕暗巾撁孀ト〉南群?。在通用網(wǎng)絡(luò)爬蟲中,通用網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)爬取的時(shí)候順序的影響并不是很大,但是在其他的大部分網(wǎng)絡(luò)爬蟲中,如在聚焦網(wǎng)絡(luò)爬蟲中(如圖4所示),就非常注重爬取的先后,所以對(duì)待爬取的URL隊(duì)列要求就很高,隊(duì)列決定爬取順序的先后。而對(duì)這些URL的排列順序具有決定的方法叫做爬取策略。幾種常見的抓取策略:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、反向鏈接數(shù)策略等。圖4聚焦網(wǎng)絡(luò)爬蟲的基本原理及其實(shí)現(xiàn)過程(二)文本分詞技術(shù)在進(jìn)行敏感詞的網(wǎng)絡(luò)輿情線索檢測(cè)過程中,需要對(duì)文本內(nèi)容和一些非結(jié)構(gòu)化的內(nèi)容進(jìn)行預(yù)處理[10],通過對(duì)文本信息進(jìn)行分解。分詞處理環(huán)節(jié)是對(duì)文本預(yù)處理的過程中最重要的一步,并且也是必不可少的,同時(shí)還是文本特征選擇的基礎(chǔ)。能夠準(zhǔn)確的進(jìn)行分詞對(duì)最終的敏感詞分析比對(duì)有很大影響。有幾種常用的分詞方法:1.常規(guī)方法基于規(guī)則的方法是指系統(tǒng)字符串適應(yīng)特定監(jiān)管策略的方法,此方法靈活性比較差,稍有變形或有新意的詞就不能進(jìn)行準(zhǔn)確的拆分,然而就很容易出現(xiàn)分詞錯(cuò)誤。基于規(guī)則的方法通常是需要一本完整的詞典,然后對(duì)照詞典當(dāng)中有的進(jìn)行分詞。系統(tǒng)將單詞處理過程中的單詞元素與詞典中的單詞相匹配。如果匹配成功,單詞元素將被視為文本的特征元素[11]。2.統(tǒng)計(jì)程序基于統(tǒng)計(jì)的方法是指系統(tǒng)計(jì)算文本中相鄰單詞同時(shí)出現(xiàn)的概率,如果兩個(gè)或兩個(gè)以上的單詞同時(shí)出現(xiàn)的頻率越高,那么形成單詞的概率就越大。如果計(jì)算出來的概率值大于閾值,就可以將這兩個(gè)詞組成一個(gè)附加詞。3.以理解為導(dǎo)向的方法這個(gè)系統(tǒng)使用語義信息來評(píng)估文本中的單詞。此方法是基于多種自然語言技能來實(shí)現(xiàn)的,因此也被稱之為基于知識(shí)的方法。這種方法是使用字典和知識(shí)庫作為分詞的基礎(chǔ),并且把推理引擎作為分詞的評(píng)估工具。使在分詞過程中期望分詞的結(jié)果與原始意圖盡可能一致。4.Jieba分詞法Jieba分詞能夠支持三種不同的分詞模式,也能對(duì)繁體字進(jìn)行分詞,還支持自定義詞典。三種不同的分詞模式分別為:全模式、精簡模式、搜索引擎模式。全模式就是把句子當(dāng)中的所有能成詞的詞語都能夠掃描出來,并且速度還很快,缺點(diǎn)是不能解決其中有歧義的分詞;精簡模式能夠把句子準(zhǔn)確的分開,不會(huì)在分解過程中添加多余的單詞,也就是把句子進(jìn)行分割;搜索引擎模式是在對(duì)已經(jīng)分解了之后,對(duì)長詞再一次進(jìn)行切分。(三)敏感詞挖掘技術(shù)敏感詞是一些含有淫穢、賭博、暴恐、毒、賭博、槍支和低俗辱罵等的詞語。在網(wǎng)絡(luò)輿情領(lǐng)域中敏感詞也不是一成不變的,隨著網(wǎng)絡(luò)流行詞的不斷發(fā)展,敏感詞也會(huì)有所變化,但是變化的程度不是很大,不過需要不斷的對(duì)新生的敏感詞進(jìn)行收集,并放入敏感詞庫中,這樣不但擴(kuò)充了敏感詞的詞庫量,還能及時(shí)對(duì)新生網(wǎng)絡(luò)敏感詞進(jìn)行挖掘。敏感詞的挖掘就是從海量數(shù)據(jù)中,找出其中的一些人們事先不知道的、但又具有潛在危害的詞的過程。根據(jù)敏感詞類型的不同,對(duì)敏感詞進(jìn)行分類,分別為:淫穢色情詞庫、不健康網(wǎng)址、涉槍涉爆違法信息關(guān)鍵詞、民生詞庫、暴恐詞庫、政治類詞庫、反動(dòng)類詞庫、廣告、欺騙詐騙類詞庫、賭博違禁詞庫、低俗辱罵類等。然后將我們爬取的數(shù)據(jù)進(jìn)行預(yù)處理,處理得到的詞組與敏感詞庫進(jìn)行比對(duì)即可找出其中的敏感詞,并且會(huì)顯示敏感詞出現(xiàn)的次數(shù)。敏感詞數(shù)量出現(xiàn)越多,頻率越高說明敏感程度越大。三、敏感詞的網(wǎng)絡(luò)輿情分析方法研究隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們的生活已經(jīng)離不開互聯(lián)網(wǎng),網(wǎng)民數(shù)量不斷增大,網(wǎng)絡(luò)環(huán)境也更加復(fù)雜多變,因此對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析研究及時(shí)發(fā)現(xiàn)敏感網(wǎng)絡(luò)輿情對(duì)于應(yīng)對(duì)網(wǎng)絡(luò)突發(fā)事件、維護(hù)社會(huì)穩(wěn)定有著重要的意義。微博是現(xiàn)在社會(huì)流行的在線網(wǎng)絡(luò)平臺(tái),它是每個(gè)人快速了解社會(huì)焦點(diǎn)的關(guān)鍵信息的主要來源,因此該平臺(tái)上發(fā)布的文本內(nèi)容具有很大的科研價(jià)值。本章主要是對(duì)“袁隆平去世”微博帖子及評(píng)論留言進(jìn)行分析研究,主動(dòng)分析檢索出其中含有的敏感輿情信息,并對(duì)不良留言信息進(jìn)行預(yù)警和處理,減少不良網(wǎng)絡(luò)輿情的發(fā)生。(一)數(shù)據(jù)爬取微博是每個(gè)人對(duì)新發(fā)生的事件認(rèn)知的關(guān)鍵來源。微博的文本內(nèi)容敏感詞形式多變,同樣的內(nèi)容不同的人發(fā)布,敏感詞的表現(xiàn)形式會(huì)有所不同,所以需要大范圍進(jìn)行爬取。本文對(duì)袁隆平院士去世的相關(guān)微博評(píng)論區(qū)信息進(jìn)行爬取分析,采用八爪魚進(jìn)行數(shù)據(jù)爬取,八爪魚對(duì)數(shù)據(jù)進(jìn)行采集分為三個(gè):首先輸入需要采集的網(wǎng)頁,其次是設(shè)計(jì)流程,最后啟動(dòng)采集。進(jìn)行采集的基本步驟是網(wǎng)頁打開、點(diǎn)擊元素、循環(huán)翻頁和提取數(shù)據(jù)。打開網(wǎng)頁:在采集過程中,第一步都是把網(wǎng)頁打開,然后新建任務(wù),建好后輸入相應(yīng)的網(wǎng)址,八爪魚就會(huì)自動(dòng)建立一個(gè)打開網(wǎng)頁的流程點(diǎn)擊元素:元素是一個(gè)廣泛的定義,它可以是一張圖片、一段文字、一個(gè)連接或者一個(gè)按鈕,這個(gè)步是在進(jìn)行搜索或者提交某個(gè)請(qǐng)求時(shí)使用的,在這個(gè)過程中八爪魚會(huì)有相應(yīng)的提示,提示你想要到達(dá)的目的:點(diǎn)擊該按鈕、采集該元素文本、還是鼠標(biāo)移到該鏈接上。然后再選擇“點(diǎn)擊該按鈕”進(jìn)行確認(rèn)即可。如果點(diǎn)擊某個(gè)元素的目的是為了讓其循環(huán)翻頁,或者是提取其中的數(shù)據(jù),那么當(dāng)對(duì)其點(diǎn)擊之后,八爪魚便會(huì)確認(rèn)你的目的,你只需要需求點(diǎn)擊相應(yīng)的按鈕即可。循環(huán)翻頁:很多數(shù)據(jù)都存在翻頁的情況,通常你需要找到翻頁的位置,比如網(wǎng)頁底部的“下一頁”按鈕,點(diǎn)擊它,會(huì)提示你“循環(huán)點(diǎn)擊下一頁”、“采集該鏈接文本”還是“點(diǎn)擊該鏈接”。你需要確認(rèn)這里是進(jìn)行的“循環(huán)點(diǎn)擊下一頁”。提取數(shù)據(jù):在網(wǎng)頁上需要提取的網(wǎng)頁范圍,然后將鼠標(biāo)移動(dòng)到頁面上,此時(shí)頁面上會(huì)顯現(xiàn)出藍(lán)色的陰影面積,有陰影的便是你選中需要提取的頁面范圍,確定范圍之后點(diǎn)擊鼠標(biāo),在右側(cè)選擇“采集數(shù)據(jù)”即可的到你需要采集的內(nèi)容。本文以“袁隆平去世”熱點(diǎn)話題作為關(guān)鍵詞,使用八爪魚采集器作為實(shí)驗(yàn)數(shù)據(jù)采集工具,獲取實(shí)驗(yàn)數(shù)據(jù)。利用八爪魚采集器采集熱點(diǎn)話題主貼300余篇,相關(guān)評(píng)論5000余條。采集具體過程如下:首先,在微博中將“袁隆平去世”作為關(guān)鍵詞搜索相關(guān)的微博帖子,選取需要爬取數(shù)據(jù)的帖子的URL,并且將其批量存儲(chǔ),以便進(jìn)行數(shù)據(jù)的爬取。其次,打開八爪魚采集器,在微博自動(dòng)采集中選取對(duì)微博主貼內(nèi)容、評(píng)論內(nèi)容以及對(duì)發(fā)帖者、評(píng)論者數(shù)據(jù)爬取的模板。再次,打開爬取模板后,將微博的個(gè)人信息(微博賬號(hào)、密碼)輸入到模板中,在將獲取的URL填充到模板中即可開始數(shù)據(jù)的采集。最后,將采集的數(shù)據(jù)導(dǎo)入本地,作為實(shí)驗(yàn)數(shù)據(jù)。采集的有關(guān)過程和導(dǎo)入本地的結(jié)果(如圖5、圖6所示):圖5八爪魚數(shù)據(jù)采集過程圖6八爪魚數(shù)據(jù)采集結(jié)果(二)數(shù)據(jù)預(yù)處理在對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析研究之前,有一個(gè)重要的不走需要完成,那便是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,漢語和其他語言不一樣,在語言的構(gòu)成上有很大的不同。比如英語,英語的每一句話它每個(gè)單詞都是自然分開的,每個(gè)詞都不會(huì)出現(xiàn)相連,擁有天然的分隔符,這樣如果是對(duì)英語的一句話進(jìn)行分詞就很容易實(shí)現(xiàn),就把每一個(gè)單詞獨(dú)立分開就可以實(shí)現(xiàn)。然而對(duì)于中文,一句話中的所有字詞都是連在一起的,中間沒有間隔,沒有任何標(biāo)注對(duì)一句話中的詞進(jìn)行區(qū)分。所以就需要做好對(duì)中文分詞這一關(guān)鍵的一步,也是必不少的一步,比較常見的分詞方法其實(shí)有很多,但是有一個(gè)前提是不變的也是基礎(chǔ),那就是擁有一個(gè)全面完整的中文詞庫。因?yàn)橹挥蟹椒]用,不知道要怎么分,擁有一個(gè)全面的詞庫后就能有所依照,能大大提高分詞的準(zhǔn)確性。目前較常用的詞庫有Jieba分詞、百度分詞等詞庫,這些都是一些比較完整全面的詞庫,在這些詞庫的基礎(chǔ)上就有了分詞工具,如:NLPIR分詞器,Jieba分詞器等,本文進(jìn)行分詞使用的工具是Jieba分詞工具,Jieba分詞有一個(gè)較好優(yōu)點(diǎn)就是很容易得到Python庫的支持,調(diào)取使用非常方便,也非常簡單易操作,并且Jieba分詞系統(tǒng)還支持向系統(tǒng)中加入自定義的字典,方便高效。在對(duì)新詞的處理過程中,Jieba分詞系統(tǒng)還為用戶提供了非常方便的API接口,用戶只需要將當(dāng)時(shí)的一些流行詞、新詞和它們相對(duì)應(yīng)的權(quán)值寫入到相關(guān)的文件當(dāng)中,Jieba分詞系統(tǒng)在進(jìn)行分詞的時(shí)候就可以識(shí)別出這些詞語。Jieba分詞系統(tǒng)為分詞提供了三種不同的分詞模式:精確模式、全模式、搜索引擎模式。本文采用的分詞模式是精確模式,該模式是盡可能的對(duì)句子進(jìn)行拆分,并且速度快精確度高。根據(jù)上一步爬取的數(shù)據(jù)在利用PythonIDLE編譯器上編寫文本分詞代碼及注釋如下:#encoding=utf-8#導(dǎo)入“jieba”模塊并命名為“PG”。ImportjiebaasPG#構(gòu)建空列表用于評(píng)論信息的存儲(chǔ)。Text=[]#構(gòu)建空列表用于分詞結(jié)果的存儲(chǔ)。eg=[]#打開爬取的數(shù)據(jù)文件。F=open('./袁隆平去世微博評(píng)論.txt','r',encoding='utf-8')#通過for循環(huán)將文件信息作為元素填入列表“text”中。Foriinf:text.append(i.strip().split(',)[0])#通過for循環(huán)對(duì)列表中的元素分詞,并且通過“l(fā)cut”將分詞結(jié)果以列表的形式輸出。foraintext:seg=PG.lcut(a)#將每一個(gè)輸出的結(jié)果列表進(jìn)行合并。eg=eg+seg#打印最終的分詞結(jié)果。Print(eg)利用編寫好的代碼對(duì)以袁隆平去世為話題的微博評(píng)論數(shù)據(jù)的文本進(jìn)行分詞,得到的分詞結(jié)果(如圖7所示):圖7分詞結(jié)果(三)數(shù)據(jù)比對(duì)數(shù)據(jù)比對(duì)分析是挖掘敏感詞的重要環(huán)節(jié),進(jìn)行比對(duì)的前提是要求具有一個(gè)完整的敏感詞庫,只有擁有一個(gè)全面完整的詞庫量,這樣在比對(duì)的過程中才不會(huì)產(chǎn)生需要分析的敏感詞遺漏現(xiàn)象,才能全面的對(duì)文本中的敏感詞進(jìn)行篩選,其次對(duì)爬取的信息進(jìn)行準(zhǔn)確分詞也會(huì)對(duì)結(jié)果產(chǎn)生嚴(yán)重影響,分詞的準(zhǔn)確與否直接影響到敏感詞挖掘的準(zhǔn)確性,Jieba分詞是較為流行的分詞工具,也是使用人數(shù)比較多的分詞工具,Jieba分詞能夠準(zhǔn)確的進(jìn)行詞的分解,分解之后還可以根據(jù)分解得到的詞性進(jìn)行標(biāo)注。根據(jù)上面處理的到的結(jié)果將預(yù)處理的分詞與敏感詞庫比對(duì),比對(duì)后可以得出需要比對(duì)信息的結(jié)果,顯示敏感詞出現(xiàn)的個(gè)數(shù)和出現(xiàn)的頻次(如圖9所示),然后根據(jù)需要,在比對(duì)結(jié)束后顯示是否需要繼續(xù)比對(duì),有重新進(jìn)行比對(duì)、重新開始程序和結(jié)束程序。這樣如果需要重新比對(duì),或者引入新的比對(duì)內(nèi)容,可以快速完成,大大壓縮大量工作時(shí)間,提高效率。圖9比對(duì)結(jié)果(四)預(yù)警早在2009年中國人民大學(xué)輿論研究所就開始做敏感詞的收集、歸納和整理工作,并且從開始到現(xiàn)在從未間斷過,對(duì)歷年來的網(wǎng)絡(luò)輿情熱點(diǎn)事件的最初內(nèi)容和詞頻進(jìn)行分析研究,然后甄選出當(dāng)中比較富含實(shí)際研究價(jià)值的熱點(diǎn)實(shí)詞作為敏感詞,到現(xiàn)在為止搜集整理的網(wǎng)絡(luò)敏感詞庫中,大約有1300個(gè)敏感詞,由于網(wǎng)絡(luò)流行詞等各種新詞的不斷出現(xiàn),敏感詞庫總量也隨時(shí)在變動(dòng)。將敏感詞庫中的詞匯在評(píng)論數(shù)據(jù)文本中出現(xiàn)的次數(shù)作為敏感度打分,得到一個(gè)詞的敏感分?jǐn)?shù)。將上析得到的敏感詞進(jìn)行分值計(jì)算,每個(gè)詞的分值都設(shè)置為一,一個(gè)詞出現(xiàn)多次,需要進(jìn)行多次相加,然后進(jìn)行總的加值,每個(gè)詞單獨(dú)進(jìn)行相加計(jì)算,就得到分析內(nèi)容的總敏感度,一般來講,最后相加得到的值越高,那么該內(nèi)容成為負(fù)面輿情的概率也就會(huì)越高,當(dāng)敏感值打分高于分5分,即會(huì)將該詞匯進(jìn)行敏感詞預(yù)警(如圖9所示):圖9敏感詞預(yù)警顯示四、總結(jié)網(wǎng)絡(luò)輿情具有形成速度快、變化快、信息量大、社會(huì)影響大等特點(diǎn),并且目前還沒有對(duì)于網(wǎng)絡(luò)輿情監(jiān)測(cè)的要求本文結(jié)合數(shù)據(jù)挖掘和自然語言處理的研究成果。公安工作人員需要對(duì)網(wǎng)絡(luò)上的敏感信息進(jìn)行檢測(cè)分析并從海量的網(wǎng)絡(luò)信息中找出有價(jià)值的輿情信息。但是,傳統(tǒng)的檢測(cè)技術(shù)已經(jīng)不能滿足實(shí)際需求。因此,如何從海量信息中梳理出含有敏感詞的輿情信息是工作重點(diǎn),本文通過對(duì)微博評(píng)論區(qū)數(shù)據(jù)進(jìn)行爬取、處理和分析等流程,從而實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)敏感詞的輿情分析,實(shí)現(xiàn)一個(gè)較為完整輿情發(fā)現(xiàn)、挖掘、分析、預(yù)警的過程,能夠在第一時(shí)間發(fā)現(xiàn)、掌握和主動(dòng)處網(wǎng)絡(luò)輿情,然后對(duì)敏感輿情進(jìn)行分析研究。在處理信息的過程,對(duì)每一部分的操作處理不當(dāng)都對(duì)分析的結(jié)果產(chǎn)生巨大的影響。對(duì)整個(gè)敏感詞識(shí)別發(fā)現(xiàn)過程進(jìn)行改進(jìn)和集成,可以達(dá)到最佳的整體處理效果,從而進(jìn)一步提高系統(tǒng)的可用性和易用性。在對(duì)每一個(gè)操作過程進(jìn)行優(yōu)化過程的同時(shí),都需要進(jìn)行實(shí)驗(yàn)比對(duì),查看其優(yōu)化的效果和性能是否更實(shí)用。在現(xiàn)實(shí)生活中,當(dāng)運(yùn)用時(shí)需要考慮很多外界和本身存在的許多因素,所以只有通過不斷的探索和實(shí)驗(yàn)才能達(dá)到一種比較好的效果。在互聯(lián)網(wǎng)的時(shí)代中,敏感詞可以在一段時(shí)間內(nèi)反映人們關(guān)注的熱點(diǎn)甚至成為社會(huì)各個(gè)領(lǐng)域都重點(diǎn)關(guān)注焦點(diǎn)?;ヂ?lián)網(wǎng)對(duì)現(xiàn)在生活的方方面面都產(chǎn)生了很大的影響,并且人們的生活已經(jīng)離不開互聯(lián)網(wǎng)。所以互聯(lián)網(wǎng)的安全性問題對(duì)整個(gè)社會(huì)乃至國家都是一個(gè)重大的問題,同時(shí)其重要性也是無法衡量的。為了全面管理網(wǎng)絡(luò)中的敏感詞,及時(shí)準(zhǔn)確地識(shí)別網(wǎng)絡(luò)中的敏感信息,并進(jìn)行控制或預(yù)警。根據(jù)實(shí)驗(yàn)的情況,本文提出的這種方法能夠更好的對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)管。對(duì)網(wǎng)絡(luò)信息進(jìn)行分析與敏感詞比對(duì),也可以對(duì)已經(jīng)知道的網(wǎng)絡(luò)輿情進(jìn)行檢測(cè),能夠更好的對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)管和控制。雖然本文進(jìn)行的網(wǎng)絡(luò)輿情分析研究基本實(shí)現(xiàn),并且效果也較為理想,但是隨著網(wǎng)絡(luò)的不斷發(fā)展,網(wǎng)絡(luò)信息的出現(xiàn)方式多樣化、復(fù)雜化,同時(shí)根據(jù)網(wǎng)絡(luò)信息挖掘技術(shù)、中文語義分析技術(shù)的研究趨勢(shì),網(wǎng)絡(luò)輿情分析研究還有很多工作需要進(jìn)一步進(jìn)行。現(xiàn)在的輿情監(jiān)測(cè)分析大部分的目標(biāo)都是對(duì)文字形式進(jìn)行分析研究,但是現(xiàn)在微博當(dāng)中的網(wǎng)民已經(jīng)逐步喜歡釆用動(dòng)圖或圖片與文字相結(jié)合的形式進(jìn)行評(píng)論回復(fù)表達(dá)自己的觀點(diǎn)。所以對(duì)圖片、音頻、視頻等不同形式的網(wǎng)絡(luò)輿情進(jìn)行分析和監(jiān)測(cè),需要在之后的研究工作中進(jìn)行分析研究,敏感詞的輿情分析研究還有很長的路要走。參考文獻(xiàn)[1]汪少敏,王錚,任華.利用深度學(xué)習(xí)融合模型提升文本內(nèi)容安全的研究[J].電信科學(xué),2020,36(05):25-30.[2]肖觀騰.不良短文本變體的識(shí)別[D].西南交通大學(xué),2019.[3]WnagXumeng,BryanChristopherJames,LiYiran,PanRusheng,LiuYanling,ChenWei,MaKwanLiu.Umbra:AVisualAnalysisApproachforDefenseConstructionAgainstInferenceAttacksonSensitiveInformation[J].IEEEtransactionsonvisualizationandcomputergraphics,2020,PP.[4]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 東航物流試卷真題及答案
- 2025年初中佛山考試試題及答案
- 2025年高二物理下學(xué)期小組合作探究試卷
- 高數(shù)聯(lián)考試題及答案
- 高考機(jī)械原理考試題及答案
- 高級(jí)母嬰護(hù)理考試題及答案
- 山西農(nóng)信社面試題及答案
- 2025年教師普法考試題目及答案
- 項(xiàng)目管理多任務(wù)協(xié)調(diào)高效工具
- 2025年禹州保安考試真題及答案
- JTG∕T F30-2014 公路水泥混凝土路面施工技術(shù)細(xì)則
- 篆刻學(xué)全套課件
- 旅行社掛靠合同協(xié)議書模板
- 環(huán)境污染物對(duì)人體健康影響的研究
- 蔣婷婷-《書包里的故事》
- 肌少癥性肥胖
- GB/T 17410-2023有機(jī)熱載體爐
- 國家開放大學(xué)理工英語1邊學(xué)邊練
- 人工智能導(dǎo)論P(yáng)PT完整全套教學(xué)課件
- 如何提高住院患者癌痛規(guī)范化治療率PDCA
- 卡氏肺孢子蟲肺炎
評(píng)論
0/150
提交評(píng)論