【《基于LDA算法的新聞自動分類系統(tǒng)設(shè)計》9800字(論文)】_第1頁
【《基于LDA算法的新聞自動分類系統(tǒng)設(shè)計》9800字(論文)】_第2頁
【《基于LDA算法的新聞自動分類系統(tǒng)設(shè)計》9800字(論文)】_第3頁
【《基于LDA算法的新聞自動分類系統(tǒng)設(shè)計》9800字(論文)】_第4頁
【《基于LDA算法的新聞自動分類系統(tǒng)設(shè)計》9800字(論文)】_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于LDA算法的新聞自動分類系統(tǒng)設(shè)計摘要自信息時代以來,互聯(lián)網(wǎng)及其相關(guān)科技飛速進(jìn)步,媒體行業(yè)也在高速發(fā)展,中國\t"/item/%E4%BD%93%E8%82%B2%E6%96%B0%E9%97%BB/_blank"新聞界實現(xiàn)跨越式進(jìn)步。如今,新聞在我們生活中占有很重要的地位,體育新聞作為新聞行業(yè)的一種類型,因其競技性與娛樂性,漸漸成為人們?nèi)粘I钪袝r常關(guān)注的熱點之一。網(wǎng)絡(luò)是人們獲取新聞信息的一大途徑。隨著信息獲取日漸實時化,信息的碎片化也日漸嚴(yán)重,目前網(wǎng)上已有大量的文本堆積和新聞信息碎片,這對新聞工作和民眾獲取新聞信息存在不利因素。本文主要介紹基于LDA算法的體育新聞自動分類系統(tǒng)的設(shè)計與實現(xiàn),通過結(jié)巴分詞等數(shù)據(jù)預(yù)處理方法以及LDA主題模型挖掘新聞文本主題,從而將碎片化且多樣化的體育新聞數(shù)據(jù)整合到一起,實現(xiàn)體育新聞的自動分類,以此提高體育新聞工作效率,減少成本,幫助群眾與用戶更為便捷地通過網(wǎng)絡(luò)獲取可靠的體育新聞信息。關(guān)鍵詞:主題挖掘;LDA主題模型;新聞分類目錄TOC\o"1-3"\h\u21202第1章引言 132171.1研究背景 1279321.2國內(nèi)外研究現(xiàn)狀 12121.3本文研究內(nèi)容 2188351.4本文章節(jié)結(jié)構(gòu) 214290第2章主要技術(shù)分析 3222932.1.結(jié)巴中文分詞 3125342.1.1分詞模式 4233642.1.2結(jié)巴分詞整體流程 5224602.1.3HMM模型與Viterbi算法 6180762.1.4詞性分析 7315952.2去除停用詞 8310182.3LDA主題模型 8211382.4計算困惑度 1029534第3章系統(tǒng)設(shè)計與實現(xiàn) 11233303.1系統(tǒng)目標(biāo) 1145583.2開發(fā)環(huán)境 11324033.3系統(tǒng)架構(gòu)設(shè)計 11137803.3.1數(shù)據(jù)獲取 12183273.3.2數(shù)據(jù)預(yù)處理 13185243.3.3模型訓(xùn)練 1391053.4系統(tǒng)實現(xiàn)與實驗結(jié)果 1427335第4章總結(jié) 23172344.1全文總結(jié) 23176904.2后續(xù)工作與改進(jìn)方案 237093參考文獻(xiàn) 25第1章引言1.1研究背景自二十一世紀(jì)初以來,隨著互聯(lián)網(wǎng)與信息數(shù)據(jù)等相關(guān)產(chǎn)業(yè)飛速發(fā)展,新聞與媒體信息逐漸成為我們的日常生活中不可缺少的一部分,并占有越來越重要的的社會地位。通過互聯(lián)網(wǎng)的搜索引擎來獲取新聞資訊是我們?nèi)粘+@得新聞媒體與輿論等信息的主要途徑之一,新聞是文字傳播的主要特殊形態(tài),對新聞內(nèi)容進(jìn)行處理時的任務(wù),總體上即對選擇的事實進(jìn)行解釋或意義化的過程,其特點十分明顯,語言要求簡潔正確、表達(dá)與描述要求做到客觀公正,因此,新聞數(shù)據(jù)作為一類重要的文本數(shù)據(jù),其重要性不言而喻。由于互聯(lián)網(wǎng)的出現(xiàn),相關(guān)技術(shù)的發(fā)展十分迅速,新聞數(shù)據(jù)的發(fā)布、采集、存儲變得相對容易,網(wǎng)絡(luò)上已經(jīng)有大量的新聞文本與數(shù)據(jù)的積累。用傳統(tǒng)的人力處理方式對互聯(lián)網(wǎng)媒體文本進(jìn)行分類以及分配標(biāo)簽等操作存在時間與人力成本高昂,同時處理效率也很低。目前已有運(yùn)用組織文本數(shù)據(jù)的算法對新聞文本進(jìn)行處理的技術(shù),能有效提高效率,并極大地降低成本。文本分類算法是處理新聞文本數(shù)據(jù)過程中的核心,用來對已有的文本樣本進(jìn)行主題提取,從而區(qū)分與篩選文本,該算法同樣也用于搜索引擎、文本標(biāo)簽、數(shù)據(jù)分析等研究與工作?;ヂ?lián)網(wǎng)上,新聞信息多種多樣,魚龍混雜,文本分類能夠通過提取關(guān)鍵詞,分析主題,在相關(guān)類別的條件下,幫助用戶對海量的新聞信息進(jìn)行識別,從中挖掘與篩選真實有效的內(nèi)容,還能夠?qū)τ脩籼峁┬侣勍扑]等一系列服務(wù)。本文即介紹基于文本分類算法,設(shè)計與實現(xiàn)對體育新聞的自動分類。1.2國內(nèi)外研究現(xiàn)狀現(xiàn)今文本挖掘有許多方法可以實現(xiàn),其中較為典型的為文本分類與文本聚類,此外還有概念挖掘、實體挖掘、文檔摘要挖掘以及通過實體關(guān)系模型進(jìn)行觀點分析等多種方法。國內(nèi)外目前已經(jīng)有多個通用的文本挖掘模型被提出,但不論是哪種模型,從文本數(shù)據(jù)中抽取特征信息形成文本中間表示是文本挖掘的基礎(chǔ),文本的中間表示應(yīng)包含足夠的信息來支持后續(xù)的文本挖掘操作。文本分類是文本挖掘課題中討論最多的技術(shù)之一,在當(dāng)前已知的分類體系下,文本分類根據(jù)已有的一個或若干個樣本數(shù)據(jù)信息,分析與總結(jié)樣本中詞匯與語句的規(guī)律性,并建立判別規(guī)則和判別公式,以此來實現(xiàn)對文檔樣本按主題進(jìn)行分類。與傳統(tǒng)方法相比較,由于文本分類技術(shù)的快速發(fā)展以及廣泛應(yīng)用,在文本主題挖掘方面,文檔語義挖掘的方法也取得了巨大的進(jìn)步,現(xiàn)有的詞袋模型在基礎(chǔ)上為文本主題和語義提取提供技術(shù)支持,后來的空間向量模型則在詞袋的表示方法上提供進(jìn)一步的發(fā)展。在主題建模方面,比較重要的是潛在語義技術(shù)的產(chǎn)生,隨著后概率潛在語義分析模型的出現(xiàn)為完整的語義模型奠定了基礎(chǔ),同時分類方法的發(fā)展也為分類系統(tǒng)的成熟奠定了基礎(chǔ)。KNN方法、決策樹方法、樸素貝葉斯模型、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的出現(xiàn)極大地推動了分類器的發(fā)展。隨后出現(xiàn)了LDA潛在狄利克雷模型(LatentDirichletAllocation)和其擴(kuò)張模型,為主題建模的豐富性做出了貢獻(xiàn)。LDA模型是一種文檔主題生成模型,包含詞、主題和文檔三部分結(jié)構(gòu)。文檔到主題與主題到詞匯均服從多項式分布。通俗地講,LDA模型相當(dāng)于一個詞袋,每個詞袋都附有一堆詞匯,將文本信息變?yōu)閿?shù)學(xué)信息,進(jìn)行模型訓(xùn)練時,記錄詞匯出現(xiàn)的頻率或者是否出現(xiàn)即可。它是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),常用來從眾多文本或文檔語句樣本中挖掘與提取潛在主題或語義。1.3本文研究內(nèi)容本文首先簡述了該設(shè)計的研究背景與意義,然后對LDA主題模型以及文本分類的的相關(guān)技術(shù)進(jìn)行詳細(xì)介紹,主要聚焦于分類方法和特征值的提取,本文以從網(wǎng)絡(luò)上獲取的公開體育新聞文本數(shù)據(jù)作為研究對象,利用結(jié)巴分詞工具,提取各自數(shù)據(jù)集的特征詞向量,根據(jù)主題詞使用基于詞向量擴(kuò)展的詞袋模型來挖掘體育新聞文本的主題摘要,利用余弦相似度算法,計算主題向量相似度。通過以上技術(shù),設(shè)計并實現(xiàn)基于LDA的體育新聞自動分類系統(tǒng),并對實驗結(jié)果驗證和分析,測試系統(tǒng)的可行性。1.4本文章節(jié)結(jié)構(gòu)第一章,引言。描述該設(shè)計的研究背景,國內(nèi)外研究現(xiàn)狀,本文研究內(nèi)容并介紹本文的章節(jié)安排結(jié)構(gòu)。第二章,介紹本文系統(tǒng)設(shè)計使用的主要技術(shù)。包括結(jié)巴分詞模組,數(shù)據(jù)預(yù)處理,文本停用詞的過濾和對LDA主題模型的詳細(xì)介紹。第三章,系統(tǒng)詳細(xì)設(shè)計。主要介紹基于LDA算法的體育新聞自動分類系統(tǒng)的設(shè)計與實現(xiàn)。其中分節(jié)介紹了系統(tǒng)目標(biāo),系統(tǒng)環(huán)境,數(shù)據(jù)獲取過程,系統(tǒng)的架構(gòu)、實現(xiàn)以及實驗結(jié)果。第四章,總結(jié)??偸鲈撜撐氖褂玫姆椒?,最終達(dá)到的效果與解決的問題,具有的意義。同時介紹了系統(tǒng)存在的問題,以及未來可以改進(jìn)的地方。第2章主要技術(shù)分析這一章介紹了本系統(tǒng)中將要用到相關(guān)技術(shù),該系統(tǒng)通過LDA模型實現(xiàn)體育新聞文本自動分類,包括結(jié)巴分詞,停用詞的過濾,詞性分析,對建模文本進(jìn)行主題挖掘的LDA主題模型,計算困惑度等技術(shù)的詳細(xì)介紹,以上為體育新聞自動分類系統(tǒng)的設(shè)計與實現(xiàn)提供技術(shù)基礎(chǔ)。2.1.結(jié)巴中文分詞分詞過程是將連續(xù)的字按照一定的規(guī)則,重新匹配組合為新詞匯序列。在對文本樣本進(jìn)行建模前,需要對樣本進(jìn)行預(yù)處理,首先是進(jìn)行分詞操作,使用Python語言需要使用結(jié)巴分詞模組(jieba)來進(jìn)行分詞和關(guān)鍵詞提取處理,結(jié)巴中文分詞是專門用于對中文文本進(jìn)行分詞的模組,可以對依照文本樣本的漢語序列來將語句切分為多個獨(dú)立的漢語詞匯。一個完整的分詞系統(tǒng)還包括分詞詞典最常見的分詞算法可以分為三大類:基于字符串匹配法、基于理解法和基于統(tǒng)計法。圖2.1分詞系統(tǒng)結(jié)構(gòu)圖2.1.1分詞模式結(jié)巴分詞模組支持三種分詞模式:一、精確模式:即使用最精確的方法對句子進(jìn)行切分,因此該方法適用于文本分析;importjieba

strings='他的情況很糟'

seg=jieba.cut(strings,cut_all=False)

print(','.join(seg))

output:

他的情況,很,糟(cut_all參數(shù)默認(rèn)為False,所有使用cut方法時默認(rèn)為精確模式分詞)二、全模式:對中文句進(jìn)行掃描,提取所有可以成詞的詞語,這種分詞模式速度較快,但也存在缺點,如不能解決歧義等問題;importjieba

strings='他的輸出很高'

seg=jieba.cut(strings,cut_all=True)

print(','.join(seg))

output:

他的,他的輸出,他,輸出,很高搜索引擎模式:適用于搜索引擎分詞,該模式在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率。importjieba

strings='華山景色很美'

seg=jieba.cut_for_search(strings)

print(','.join(seg))

output:

華山,山,景色,華山景色,很,美2.1.2結(jié)巴分詞整體流程結(jié)巴中文分詞支持人工自定義分詞詞典,依照分詞詞典中的詞匯庫來進(jìn)行分詞及詞性標(biāo)注,分詞的結(jié)果優(yōu)劣將很大程度上取決于詞典。結(jié)巴分詞工作的整體流程如圖:圖2.2結(jié)巴分詞工作的整體流程圖在結(jié)巴分詞中,系統(tǒng)通過對照典生成句子的有向無環(huán)圖(DAG)來表示句子漢字所有可能成詞情況,再根據(jù)選擇的模式不同,根據(jù)詞典采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合對句子進(jìn)行截取。以人工分詞詞典作為詞匯庫,對數(shù)據(jù)預(yù)處理分出的單獨(dú)詞匯進(jìn)行分析,對于未出現(xiàn)過的新詞,即未登錄詞,詞性分析部分設(shè)置有一個發(fā)現(xiàn)模塊用于識別新詞及其詞性,根據(jù)最終的詞性分析結(jié)果,我們可以進(jìn)一步補(bǔ)充分詞詞典。詞性分析與詞性標(biāo)注的任務(wù)仍有分詞模塊中的分詞器運(yùn)行。2.1.3HMM模型與Viterbi算法對于詞庫中不存在的詞,也就是未登錄詞,使用基于漢字成詞能力的HMM模型進(jìn)行新詞發(fā)現(xiàn)。將字在詞中的位置作為隱藏狀態(tài),字是觀測狀態(tài),使用詞典文件分別存儲字之間的表現(xiàn)概率矩陣和初始概率向量,以及轉(zhuǎn)移概率矩陣。形成標(biāo)準(zhǔn)解碼問題,根據(jù)概率再利用Viterbi算法對最大可能的隱藏狀態(tài)進(jìn)行求解。HMM模型工作流程如圖:圖2.3HMM模型工作流圖Viterbi算法的基本思想是:從起始點到結(jié)束點的路徑,必然要經(jīng)過第n個時刻,假如第n個時刻有k個狀態(tài),那么最終路徑一定經(jīng)過起始點到時刻n中k個狀態(tài)里最短路徑的點。假設(shè)起始點與最終點的路徑中經(jīng)過一點,且該路徑為最佳路徑,則起始點到這個點的路徑為最短路徑,因為若存在其他最佳路徑,則一定會用起始點到這點更短的一條路徑代替該路徑。2.1.4詞性分析分詞模塊中的分詞器同樣承擔(dān)詞性分析與詞性標(biāo)注的任務(wù),以人工分詞詞典作為詞匯庫,對數(shù)據(jù)預(yù)處理分出的單獨(dú)詞匯進(jìn)行分析,例如判斷詞匯是否有歧義,命名實體等。對于未出現(xiàn)過的新詞,即未登錄詞,詞性分析部分設(shè)置有一個發(fā)現(xiàn)模塊用于識別新詞及其詞性,根據(jù)最終的詞性分析結(jié)果,我們可以進(jìn)一步補(bǔ)充分詞詞典。圖2.4分詞與詞性標(biāo)注

在詞性標(biāo)注HMM模型模型中,文字序列仍然為可見狀態(tài),但與分詞模型不同的是,隱藏狀態(tài)不再是單獨(dú)詞的位置,而變成了詞的位置與詞性的組合,因此其初始概率向量、轉(zhuǎn)移概率矩陣和表現(xiàn)概率矩陣都要龐大的多,但是其本質(zhì)以及運(yùn)算步驟都沒有變化。2.2去除停用詞在處理文本之前我們需要過濾掉停用詞(stopwords)。在LDA模型中,要求的輸入數(shù)據(jù)是已經(jīng)分好詞并且已過濾的停用詞的數(shù)據(jù)文本。通常情況下,停用詞可分為兩種類型:語言文本中的功能詞和詞匯詞其中包括英文\t"/item/%E5%81%9C%E7%94%A8%E8%AF%8D/_blank"字符、無意義或單獨(dú)數(shù)字、特殊字符、標(biāo)點符號及使用頻率特高的單漢字等。在進(jìn)行分詞與信息檢索時,為了節(jié)省儲存空間,提高結(jié)果的可信度與正確性并提高效率,在文本處理過程中如果遇到這些詞時,會根據(jù)停用詞表或人工的分詞詞典,將其過濾,這樣可以減少信息處理量,從而增加檢索效率,并且通常都會提高檢索的效果。因此我們需要對每個新聞數(shù)據(jù)進(jìn)行分詞并且提高處理效率,盡量將同一年的新聞數(shù)據(jù)處理后合并到同一個文本中。在處理和過濾停用詞時,除了常規(guī)的停用詞庫中的詞,還應(yīng)該統(tǒng)計LDA輸入文本的詞頻,因為在新聞文體的格式中,實現(xiàn)新聞文本格式所使用的一些特定媒體詞匯出現(xiàn)的頻率很高,并且不利于文本主題的挖掘。2.3LDA主題模型LDA潛在狄利克雷分布模型,是一種主題提取模型,其本質(zhì)上是一種三層貝葉斯產(chǎn)生式概率模型,主要用于解決多文檔下的主題提取,常從眾多文本或文檔語句樣本中挖掘與提取潛在主題或語義。該系統(tǒng)所基于的LDA算法是一種無監(jiān)督學(xué)習(xí)算法,在模型訓(xùn)練時不需要手工標(biāo)注的訓(xùn)練集,只需要文檔集和指定主題的個數(shù)。如圖2.5相較于其他主題模型和分類方法,LDA更適合當(dāng)前的主題提取。圖2.5特征值提取性能測試LDA主題模型是一種典型的詞袋模型。它可以理解為一個詞袋,文檔樣本中的詞匯可以不考慮詞序匯集在詞袋中,記錄詞匯出現(xiàn)的次數(shù)和概率即可。不同文檔其詞袋中詞匯匯集比例不同。LDA模型經(jīng)過對文章的分析和處理,計算文本的主題分布,識別文章中的潛藏主題,記錄挖掘出的主題詞出現(xiàn)的次數(shù)和概率,從而得到其主題分布。在同一文檔樣本的同一主題下,特定詞匯出現(xiàn)的概率乘以特定某個主題出現(xiàn)的概率,便能得到某篇文檔出現(xiàn)某個詞的概率。由以山內(nèi)容經(jīng)過一系列的推導(dǎo),我們可以得出LDA主題模型的一個鏈?zhǔn)焦剑篜(詞|文檔)=P(詞|主題)P(主題|文檔)LDA模型用一個狄利克雷分布的多維潛在隨機(jī)變量來表示文本,包含β參數(shù)的狄利克雷先驗分布,以圖模型表示其生成模型,見圖2.6所示,由β表示詞項概率,由θ表示第m篇文檔的主題概率分布。通過多項式的參數(shù),可以生成主題和單詞,θ和β又分別是作為參數(shù)得以運(yùn)用。主題的數(shù)量是K,文檔的數(shù)量是M,N是第M篇文檔的單詞數(shù)量,即文檔長度。w表示第m個文檔中的第n個單詞,z則表示第m個文檔中的第n個主題。a和β是狄利克雷分布的參數(shù)。圖2.6LDA圖模型2.4計算困惑度在LDA主題模型之后,我們需要評估語言概率模型預(yù)測樣本的能力,以此依據(jù),總結(jié)模型當(dāng)中需要改進(jìn)的地方或參數(shù),或是衡量該算法的建模能力。本設(shè)計中使用計算困惑度(Perplexity)作為評判標(biāo)準(zhǔn)。在信息論中,困惑度(Perplexity)用衡量一個概率分布或概率模型預(yù)測樣本的好壞程度,或者用來比較兩個概率分布或概率模型,一個語言概率模型計算的困惑度越低,則表示其預(yù)測樣本的能力越好。通過查閱Blei先生的實驗論文《LatentDirichletAllocation》,我們可以得到計算困惑度的公式:perplexity=eN?∑log(p(w))?式(2.1)計算困惑度公式其中,p(w)是指的測試集中出現(xiàn)的每一個詞的概率,具體到LDA的模型中就是p(w)=∑zp(z∣d)?p(w∣z)p(w)=∑zp(z|d)*p(w|z)p(w)=∑zp(z∣d)?p(w∣z)其中z,d分別指訓(xùn)練過的主題和測試集的各篇文檔。分母的N是測試集中出現(xiàn)的所有詞,或者說是測試集的總長度,不排重。在對自然語言和文本數(shù)據(jù)進(jìn)行處理時,為了評估一個語言概率模型的好壞,通常情況下,一個較好的方法便是計算困惑度。語句或語言測概率模型可以理解為:在完成結(jié)巴分詞后,每一個分詞或句子的位置對應(yīng)了一個概率分布,即語句或語言的概率模型,表示其他每個詞匯或句子在這個位置上可能出現(xiàn)的概率。第3章系統(tǒng)設(shè)計與實現(xiàn)3.1系統(tǒng)目標(biāo)自信息時代來臨,中國\t"/item/%E4%BD%93%E8%82%B2%E6%96%B0%E9%97%BB/_blank"新聞界實現(xiàn)跨越式發(fā)展,新聞媒體的數(shù)量迅速增加,電子媒介因互聯(lián)網(wǎng)而發(fā)展迅速,人們可以從手機(jī),電腦,電視,網(wǎng)絡(luò),報紙等多種途徑關(guān)注新聞與媒體熱點,各式各樣的新聞媒體、網(wǎng)站以及APP層出不窮。體育新聞作為最重要的新聞類型之一,一直都是民眾在休閑時關(guān)注的熱點。但是,隨著信息獲取日漸實時化,信息的碎片化也日漸嚴(yán)重。體育新聞中競技體育賽事項目極為豐富多樣,涉及領(lǐng)域極廣,此外競技體育競賽的結(jié)果往往是最受體育關(guān)注者們討論和關(guān)注的焦點,因而體育新聞時常登上熱搜。但因其具有國際性、群眾性、競爭性以及更新頻繁等特點,體育新聞工作的難度往往很大,同時群眾獲取新聞方式的可靠性也會經(jīng)常收到影響。因此,本系統(tǒng)的目標(biāo)是通過互聯(lián)網(wǎng)體育新聞網(wǎng)站實時采集國內(nèi)外體育新聞數(shù)據(jù),實時獲取新聞?wù)诤笈_對所采集的新聞數(shù)據(jù)做分析、分類和建模等一系列處理,提取新聞文本主題,根據(jù)挖掘的內(nèi)容,實現(xiàn)新聞分類,達(dá)到整合碎片化的體育新聞信息的目的。提供用戶查詢接口,根據(jù)用戶查詢的新聞關(guān)鍵詞提供相關(guān)新聞集合,將分類的新聞信息呈現(xiàn)給用戶。此外,還可以添加根據(jù)檢索內(nèi)容,適當(dāng)進(jìn)行新聞推薦等功能。3.2開發(fā)環(huán)境本系統(tǒng)在Windows10下開發(fā);硬件環(huán)境:CPUIntelCorei7內(nèi)存8G64位操作系統(tǒng);使用語言:Python3.4;開發(fā)工具:AnacondaNavigator;JupyterNotebook6.1.4。3.3系統(tǒng)架構(gòu)設(shè)計該系統(tǒng)一共分為三個部分:一、數(shù)據(jù)獲取:摘取自新聞網(wǎng)站的文本數(shù)據(jù),使用excel表格保存,作為本文中實驗內(nèi)容的文檔樣本。二、數(shù)據(jù)預(yù)處理:在進(jìn)行LDA模型訓(xùn)練前,對文本數(shù)據(jù)進(jìn)行分詞,加載停用詞表以去除停用詞,并進(jìn)行格式轉(zhuǎn)換。三、模型訓(xùn)練:對體育新聞的特征向量進(jìn)行LDA建模,模型求解。3.3.1數(shù)據(jù)獲取對該系統(tǒng)目的為實現(xiàn)對體育新聞文本的自動分類,實驗中文本數(shù)據(jù)直接來自于新聞網(wǎng)站,選取互聯(lián)網(wǎng)新聞網(wǎng)站不同類別的體育新聞,例如足球、籃球或田徑等體育競技賽事的新聞文本作為數(shù)據(jù),選取數(shù)個近期的新聞內(nèi)容文本至excel表格,隨后在JupyterNotebook上設(shè)置輸入和輸出文件,讀取數(shù)據(jù),選擇指定sheet獲取行號,分別讀取新聞時間、文本與標(biāo)題等信息。后續(xù)可以設(shè)計網(wǎng)絡(luò)新聞數(shù)據(jù)抓取模塊,例如使用Webmagic框架開發(fā)定時抓取新聞數(shù)據(jù)的模塊,實現(xiàn)網(wǎng)頁的抓取與網(wǎng)頁解析等功能,這樣可以提高效率,減少獲取數(shù)據(jù)時的人力操作成本。圖3.1網(wǎng)頁數(shù)據(jù)獲取3.3.2數(shù)據(jù)預(yù)處理收集的新聞文本數(shù)據(jù)是不能直接使用的,在將數(shù)據(jù)輸入LDA模型之前,需要對文本數(shù)據(jù)進(jìn)行分詞操作并過濾停用詞,并且將新聞文檔按照單個新聞切分,文檔編碼也需要轉(zhuǎn)換為UTF-8格式。所以新聞文本數(shù)據(jù)在使用之前必須進(jìn)行數(shù)據(jù)預(yù)處理。在得到基本的文本數(shù)據(jù)之后,必須這些數(shù)據(jù)進(jìn)行基本的分詞并過濾停用詞。完成分詞與過濾停用詞操作后,數(shù)據(jù)預(yù)處理步驟還包括數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換和內(nèi)容切分將整理合并的新聞文本轉(zhuǎn)換為[[數(shù)值,內(nèi)容],[數(shù)值,內(nèi)容],[數(shù)值,內(nèi)容],[數(shù)值,內(nèi)容]]的格式,并統(tǒng)計分詞結(jié)果中每一個詞語的tf-idf權(quán)值。在進(jìn)行數(shù)據(jù)預(yù)處理時,可以直接使用JSoup框架,讀入HTML網(wǎng)頁數(shù)據(jù),使用XPath直接根據(jù)網(wǎng)頁有用數(shù)據(jù)的路徑提取有效新聞數(shù)據(jù)并且在保存時以UTF-8的編碼存儲,方便之后的分詞以及全文檢索處理。3.3.3模型訓(xùn)練提取出體育新聞文本中的特征詞后,我們可以采用Gibbs采樣,獲取其對應(yīng)的主題概率分布,對體育新聞的特征向量進(jìn)行LDA建模,對LDA模型中的潛在變量進(jìn)行求解,確定模型中新聞信息的主題概率分布。在本文的體育新聞的主題與熱點識別中,通過數(shù)據(jù)預(yù)處理得到的一組主題詞匯可作為建立LDA模型的已知變量。關(guān)鍵詞數(shù)目固定,主題詞按出現(xiàn)的次數(shù)或概率進(jìn)行排序,排序靠前的即高概率詞匯可初步確定為該新聞內(nèi)容的主題之一。通過分析其在全文的潛在主題上的概率分布,我們可以得到該新聞報道的主題。例如在一篇體育新聞報道的樣本中,經(jīng)過數(shù)據(jù)預(yù)處理,發(fā)現(xiàn)“足球”在該新聞內(nèi)容與足球有關(guān)的潛在主題上具有高分布概率,則這篇新聞報道的主題有很高概率是足球新聞。此外,如果其他的新聞文本樣本的主題詞匯同時出現(xiàn)了“足球”,并且具有高分布概率,排序優(yōu)先于其他主題詞匯,則在這段時間區(qū)間內(nèi),“足球”或許是媒體輿論熱點或是熱門搜索詞匯,同時可關(guān)聯(lián)到其他新聞文本的高概率詞匯,如足球球隊名稱,足球球星姓名,足球比賽和地點,勝負(fù)結(jié)果等等。判斷LDA模型的好壞或算法建模的能力的一個有效評價標(biāo)準(zhǔn)是計算困惑度。根據(jù)困惑度可以作為依據(jù)來比較該路模型的好壞,很好地衡量挖掘的主題詞匯在新聞內(nèi)容的潛在主題上的概率分布。通常情況下若計算結(jié)果困惑度值越低,則概率分布在預(yù)測樣本方面越好,但我們可以通過多次實驗,設(shè)置不同的主題詞數(shù)量,得出困惑度曲線圖,從而分析得出困惑度最小時的主題數(shù)目,即最佳主題數(shù)目,這也是模型的最佳運(yùn)行環(huán)境。3.4系統(tǒng)實現(xiàn)與實驗結(jié)果在本次設(shè)計實驗中,使用的新聞文本數(shù)據(jù)來自新聞網(wǎng)站,選取數(shù)個近期的新聞內(nèi)容文本至excel表格,隨后在JupyterNotebook上設(shè)置輸入和輸出文件,讀取數(shù)據(jù),選擇指定sheet獲取行號,分別讀取新聞時間、文本與標(biāo)題等信息。圖3.2數(shù)據(jù)樣本讀取數(shù)據(jù)過程主要代碼如下圖:圖3.3讀取數(shù)據(jù)代碼#1.讀取時間信息timeStr=table.cell_value(i,getColumnIndex(table,'time'))#time#4.讀取title信息titleStr=str(table.cell_value(i,getColumnIndex(table,'mess')))#title#字符串替換titleStr=titleStr.replace('"',"");titleStr=titleStr.replace("《","");titleStr=titleStr.replace("》","");titleStr=titleStr.replace("#","");titleStr=titleStr.replace("【","");titleStr=titleStr.replace("】","");titleStr=titleStr.replace("(","");titleStr=titleStr.replace(")","");titleStr=titleStr.replace(")","");titleStr=titleStr.replace("(","");#合并信息mess=titleStrtext=mess.replace("\n","")text=text.replace("(","")text=text.replace(")","")text=text.replace("!","")text=text.replace("?","")text=text.replace("/","")text=text.replace("\r\n",'').replace("\u3000","").replace("\xa0","").replace('\n','')圖3.4讀取時間和主圖信息代碼讀取數(shù)據(jù)后,加載停用詞表,進(jìn)行數(shù)據(jù)預(yù)處理,在結(jié)巴分詞過程中,加載自定義詞典,并將數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換。加載停用詞表主要代碼如下圖:圖3.5加載停用詞表代碼停用詞詞表中主要為數(shù)字與數(shù)字字符:0到9,加減乘除,<和>符號等字符,無用英文字符和特殊字符:@、#、¥、%、&等等;限定詞:the、a、these、those、that等。還有一些日常文本中使用頻率很高的單漢字或漢語連接詞。在新聞文體的格式中,有一些經(jīng)常使用特定媒體詞匯用語,也應(yīng)添加入停用詞表中。例如,據(jù)某報社或某媒體報道等。數(shù)據(jù)預(yù)處理中數(shù)據(jù)格式轉(zhuǎn)換的主要代碼如下:圖3.6轉(zhuǎn)換數(shù)據(jù)格式代碼新聞文本轉(zhuǎn)換數(shù)據(jù)格式和內(nèi)容切分后整理合并的文本結(jié)果如下圖:圖3.7文本轉(zhuǎn)換數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)格式后,系統(tǒng)會統(tǒng)計每個詞語的tf-idf權(quán)值,其中tf為稀疏矩陣。圖3.8統(tǒng)計權(quán)值數(shù)據(jù)預(yù)處理結(jié)果,提取每個新聞文本的主題特征詞以及與其對應(yīng)概率值如下圖:圖3.9主題特征詞與概率完成數(shù)據(jù)預(yù)處理后,將數(shù)據(jù)輸入LDA模型,開始訓(xùn)練。圖3.10訓(xùn)練LDA模型在本文的體育新聞的主題與熱點識別中,數(shù)據(jù)預(yù)處理過程設(shè)置了20個的主題數(shù)目,作為新聞樣本中每個話題的的關(guān)鍵信息與特征詞。通過識別并統(tǒng)計這些特征詞與在該新聞話題文本,如Topic#7中“陣容與經(jīng)濟(jì)的變化導(dǎo)致射手位置變動”則是潛在主題,我們可以分析預(yù)處理結(jié)果中高概率的主題詞在該新聞話題潛在主題上的該路分布,從而得出該新聞文本的主題內(nèi)容。圖3.11Topic#5新聞樣本特征提取在本次設(shè)計實驗中體育新聞樣本“右腳踝酸痛提前退賽!詹姆斯27分鐘19+7+6,湖人又遭打擊!”和“37歲女排重炮退役,郎平點撥讓其受益匪淺,曾和王一梅并肩作戰(zhàn)?!敝校瑪?shù)據(jù)預(yù)處理中提取高概率詞匯通過LDA模型對整個新聞文本詞庫進(jìn)行比對和識別,得出在該文本潛在主題上的概率分布,發(fā)現(xiàn)第一個新聞樣本中,“籃球”和“湖人”、“NBA”這幾個關(guān)鍵詞在潛在主題上的有高概率,因而我們可以初步判段它們是該的新聞報道“右腳踝酸痛提前退賽!詹姆斯27分鐘19+7+6,湖人又遭打擊!”的主題之一。同理“女排”和“郎平”為第二個新聞文本報道主題之一。數(shù)據(jù)預(yù)處理過程中每個類型的新聞報道我們得到了多組主題詞匯,按其概率分布和出現(xiàn)次數(shù)由多到少排序,如Topic#5中“女排”、“退役”、“球隊”、“防守”等,我們可以得到在這個新聞話題中的主題分布,主題詞匯的排序越靠前,則成為該新聞主題的幾率就越高,這些關(guān)鍵詞越有可能是該新聞報道的核心主題或聚焦點。此外,如果該新聞主題同時又是其他多篇新聞內(nèi)容或媒體輿論評價的主題,那么該主題便有很大概率是該體育新聞類別中的輿論焦點或新聞熱點。以此作為依據(jù),我們可以初步實現(xiàn)對體育新聞文本的分類。最后評估模型,計算困惑度,得到每個新聞文本的詞匯熵:圖3.12困惑度和詞匯熵結(jié)果獲取最大概率主題,準(zhǔn)備寫入文檔主題矩陣作為文檔的主題標(biāo)識:dtendMatrix=getMaxTopicFlag(doc_topic)設(shè)置路徑,保存主題-詞匯矩陣:savetopic_wordMat(topic_word,'out/'+tableName+str(topic_Num)+'temptw.txt')圖3.13主題-詞匯矩陣圖3.14保存主題-詞匯矩陣主要代碼設(shè)置路徑,保存文檔-主題矩陣:圖3.15文檔-主題矩陣圖3.15保存文檔-主題矩陣主要代碼第4章總結(jié)4.1全文總結(jié)本文首先介紹了該設(shè)計的研究背景和國內(nèi)外發(fā)展現(xiàn)狀,然后詳細(xì)介紹了該系統(tǒng)用到的主要技術(shù),其中主要介紹了隱性狄利克雷主題模型(LatentDirichletAllocation)即LDA主題模型,同時介紹了分詞過程以及對模型訓(xùn)練評價方法:困惑度的概念。利用LDA主題模型,簡單實現(xiàn)了對新聞文本的主題挖掘和分類。本文主要工作為使用LDA主題模型等自然語言處理模型對新聞數(shù)據(jù)進(jìn)行了主題挖掘,其中,將LDA主題模型推斷出的主題分布的主題詞當(dāng)作文章的主題特征,通過挖掘潛在主題的方式提取新聞文本的特征值,實現(xiàn)對體育新聞文本的分類,達(dá)到提升體育新聞處理效率,降低成本,挖掘與篩選真實有效新聞信息,應(yīng)對用戶需求的目的和意義。4.2后續(xù)工作與改進(jìn)方案該系統(tǒng)目前只是簡單實現(xiàn)了對體育

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論