【進(jìn)階案例】新聞文本聚類V1.0_第1頁
【進(jìn)階案例】新聞文本聚類V1.0_第2頁
【進(jìn)階案例】新聞文本聚類V1.0_第3頁
【進(jìn)階案例】新聞文本聚類V1.0_第4頁
【進(jìn)階案例】新聞文本聚類V1.0_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《自然語言處理技術(shù)》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12讀取新聞文本數(shù)據(jù)#使用pandas的read_csv方法讀取名為"news_data.csv"的新聞數(shù)據(jù)文件,并將數(shù)據(jù)賦值給變量datadata=pd.read_csv("news.csv")#從data中提取"content"列的內(nèi)容(即新聞?wù)模⑵滟x值給變量news_textsnews_texts=data["text"]print('新聞內(nèi)容:\n',news_texts.head())運(yùn)行REF_Ref97535682\h代碼42,得到清洗后的新聞文本分詞結(jié)果如下。清洗后的新聞文本分詞結(jié)果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財(cái)富是不可靠的只有...3昨天下午廣州市政府常務(wù)會議審議通過廣州市綜合交通發(fā)展第十三個(gè)五年規(guī)劃...4昨天開始進(jìn)入黃金周很想出去玩又怕人人人人人又不想天天在家葛優(yōu)躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機(jī)則是在...1896天津女排的國家隊(duì)主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛(wèi)瑞典國腳林德羅夫是曼聯(lián)心儀已久的獵物綜合英國媒體葡萄...1899北京時(shí)間12月23日乒超官網(wǎng)終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object對新聞文本進(jìn)行預(yù)處理和分詞定義了一個(gè)clean_text函數(shù),用于清洗文本數(shù)據(jù),并對清洗后的新聞文本(clean_texts)進(jìn)行分詞處理,將分詞后的字符串組成的序列賦值給變量seg_texts,如REF_Ref98942649\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13對新聞文本進(jìn)行預(yù)處理和分詞defclean_text(text):#使用正則表達(dá)式去除特殊符號、數(shù)字和英文字符returnre.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”’‘[\]]","",text)clean_texts=news_texts.apply(clean_text)#對清洗后的新聞文本進(jìn)行分詞seg_texts=clean_texts.apply(lambdax:"".join(jieba.cut(x)))print('分詞后的新聞文本分詞結(jié)果:\n',seg_texts)運(yùn)行REF_Ref98942649\h代碼43,得到分詞后的新聞文本分詞結(jié)果如下。分詞后的新聞文本分詞結(jié)果:0作者姜鵬飛夜班越來越不好值急診越來越讓人捉急哪怕去洗手間五分...1作為馬來西亞霹靂州首府怡保的名字常泯然于吉隆坡馬六甲檳城等但這...2作為父母如果我們留給孩子的只是一些消耗性的財(cái)富是不可靠的只有...3昨天下午廣州市政府常務(wù)會議審議通過廣州市綜合交通發(fā)展第十三個(gè)五年規(guī)劃...4昨天開始進(jìn)入黃金周很想出去玩又怕人人人人人又不想天天在家葛優(yōu)躺......1895昔日巴薩中場鐵三角中哈維最終沒能在諾坎普終老如今呼吸機(jī)則是在...1896天津女排的國家隊(duì)主力二傳魏秋月最近被男友求婚成功而她的男友正是...1897法國媒體法國足球日前評選出了2016年度最佳年輕球員多特蒙德小將...1898本菲卡中后衛(wèi)瑞典國腳林德羅夫是曼聯(lián)心儀已久的獵物綜合英國媒體葡萄...1899北京時(shí)間12月23日乒超官網(wǎng)終于公布兩人2016賽季乒超總決賽的...Name:text,Length:1900,dtype:object使用TF-IDF對文本數(shù)據(jù)進(jìn)行特征提取使用TF-IDF算法進(jìn)行特征提取,如REF_Ref98521257\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14使用TF-IDF對文本數(shù)據(jù)進(jìn)行特征提取#創(chuàng)建了一個(gè)TF-IDF向量化器對象(TfidfVectorizer類的實(shí)例),用于將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF特征矩陣vectorizer=TfidfVectorizer()#使用fit_transform方法將分詞后的新聞文本序列(seg_texts)轉(zhuǎn)換為TF-IDF特征矩陣X=vectorizer.fit_transform(seg_texts)print('TF-IDF向量詞矩陣:\n',X.shape)運(yùn)行REF_Ref98521257\h代碼44,得到TF-IDF向量詞矩陣如下。TF-IDF向量詞矩陣:(1900,78710)應(yīng)用K-Means算法進(jìn)行聚類分析使用K-Means算法對新聞文本進(jìn)行聚類,設(shè)置聚類簇的數(shù)量為3,經(jīng)過聚類后,新聞文本將被分配到3個(gè)簇中,每個(gè)簇代表一個(gè)主題或類別,如REF_Ref133789439\h代碼45所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s15應(yīng)用K-Means算法進(jìn)行聚類分析#設(shè)定聚類簇的數(shù)量k=3#創(chuàng)建了一個(gè)K-Means聚類器對象(KMeans類的實(shí)例)kmeans=KMeans(n_clusters=k)#使用fit方法對TF-IDF特征矩陣X進(jìn)行K-Means聚類kmeans.fit(X)計(jì)算聚類結(jié)果的輪廓系數(shù),評估聚類效果計(jì)算K-Means聚類的輪廓系數(shù),以評估聚類效果的好壞,如REF_Ref133792104\h代碼46所示。silhouette_score函數(shù)計(jì)算所有樣本的平均輪廓系數(shù)。輪廓系數(shù)是一個(gè)介于-1和1之間的值,用于評估聚類效果。值越接近1,表示聚類效果越好;值越接近-1,表示聚類效果越差。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s16計(jì)算聚類結(jié)果的輪廓系數(shù),評估聚類效果#計(jì)算輪廓系數(shù)silhouette_avg=silhouette_score(X,kmeans.labels_)#輸出計(jì)算得到的輪廓系數(shù)print("輪廓系數(shù):",silhouette_avg)運(yùn)行REF_Ref133792104\h代碼46,得到輪廓系數(shù)如下。輪廓系數(shù):0.010016169029636837分析聚類結(jié)果將聚類結(jié)果添加到原始數(shù)據(jù)中,并輸出每個(gè)簇中的前5篇新聞標(biāo)題,以便觀察聚類效果,如REF_Ref134044905\h代碼47所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s17分析聚類結(jié)果#將聚類結(jié)果添加到原始數(shù)據(jù)中data['cluster']=kmeans.labels_#輸出每個(gè)簇中的前5篇新聞標(biāo)題foriinrange(k):print(f"簇{i}:")print(data[data['cluster']==i]['label'].head(5))#輸出一個(gè)空行,用于在不同簇的輸出結(jié)果之間添加間隔,使得輸出更加清晰易讀。print()運(yùn)行REF_Ref134044905\h代碼47,得到各新聞的每個(gè)簇結(jié)果如下。簇0:9旅游30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論