自然語言及語音處理項(xiàng)目式教程 實(shí)訓(xùn)指導(dǎo) 實(shí)訓(xùn)4 應(yīng)用中文分詞技術(shù)_第1頁
自然語言及語音處理項(xiàng)目式教程 實(shí)訓(xùn)指導(dǎo) 實(shí)訓(xùn)4 應(yīng)用中文分詞技術(shù)_第2頁
自然語言及語音處理項(xiàng)目式教程 實(shí)訓(xùn)指導(dǎo) 實(shí)訓(xùn)4 應(yīng)用中文分詞技術(shù)_第3頁
自然語言及語音處理項(xiàng)目式教程 實(shí)訓(xùn)指導(dǎo) 實(shí)訓(xùn)4 應(yīng)用中文分詞技術(shù)_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《自然語言處理技術(shù)》初識(shí)文本基礎(chǔ)處理——應(yīng)用中文分詞技術(shù)實(shí)訓(xùn)目標(biāo)掌握安裝jieba庫的方法。掌握使用jieba庫中的cut函數(shù)獲取語料庫中的文本標(biāo)識(shí)列表的方法。掌握全模式、精確模式、搜索引擎模式進(jìn)行中文分詞的流程。實(shí)訓(xùn)環(huán)境環(huán)境版本說明Windows1064電腦操作系統(tǒng)Python3.8.5Python語言版本pandas1.3.0主要用于數(shù)據(jù)讀取、清洗等操作NumPy1.21.6主要用于Python中的數(shù)值計(jì)算jieba0.42.1主要用于文本分詞Gensim4.2.0主要用于檢索文本、計(jì)算文本相似度、訓(xùn)練詞向量、建模主題等Matplotlib3.3.0主要用于數(shù)據(jù)可視化PaddlePaddle2.4.2是一個(gè)深度學(xué)習(xí)框架,提供了高效的計(jì)算框架和優(yōu)化算法PaddleSpeech1.2.0主要用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā)scikit-learn1.0.2廣泛地用于統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)建模等數(shù)據(jù)科學(xué)領(lǐng)域Librosa0.8.1主要用于分析一般的音頻信號(hào),是一個(gè)非常強(qiáng)大的Python語音信號(hào)處理的第三方庫NLTK3.5是一個(gè)常用的自然語言處理工具包,可用于文本處理、語義分析、詞性標(biāo)注等SciPy1.7.3是一個(gè)科學(xué)計(jì)算工具包,可用于數(shù)學(xué)、科學(xué)、工程學(xué)等領(lǐng)域pyttsx32.9.0主要用于將文本轉(zhuǎn)換成語音實(shí)訓(xùn)說明中文分詞技術(shù)是自然語言處理中的重要基礎(chǔ)技術(shù)之一,也是中文文本處理的關(guān)鍵步驟。在處理中文文本時(shí),需要將連續(xù)的文本序列切分成詞匯單元,這個(gè)處理過程即為中文分詞。中文分詞的結(jié)果對(duì)于后續(xù)的自然語言處理任務(wù)至關(guān)重要,如文本分類、信息檢索、機(jī)器翻譯等。因此,掌握中文分詞技術(shù)(如基本簡(jiǎn)介、分詞工具等)是進(jìn)行中文文本處理的基礎(chǔ),也是實(shí)現(xiàn)中文文本相關(guān)應(yīng)用的前提條件。本實(shí)訓(xùn)將通過jieba庫,分別以全模式、精確模式、搜索引擎模式對(duì)中文文本進(jìn)行分詞。實(shí)訓(xùn)步驟以全模式進(jìn)行中文分詞首先進(jìn)入NLP虛擬環(huán)境,執(zhí)行“condainstalljieba”或“pipinstalljieba”命令安裝jieba,安裝成功后檢查安裝列表中是否出現(xiàn)jieba,若出現(xiàn),則表示安裝成功。以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用全模式進(jìn)行中文分詞,如REF_Ref133761029\h代碼41所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s21使用全模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(sentence=text,cut_all=True)print('全模式:','/'.join(seg_list))在REF_Ref133761029\h代碼41中,使用到j(luò)ieba庫中的cut函數(shù)獲取語料庫中的文本標(biāo)識(shí)列表,其中,cut函數(shù)的常用參數(shù)說明如REF_Ref133761049\h表41cut函數(shù)的常用參數(shù)說明所示。表STYLEREF2\s4SEQ表\*ARABIC\s21cut函數(shù)的常用參數(shù)說明參數(shù)名稱參數(shù)說明sentence接收str,表示需要進(jìn)行分詞的文本內(nèi)容。無默認(rèn)值cut_all接收bool,表示是否采用全模式分詞。默認(rèn)為False運(yùn)行REF_Ref133761064\h代碼41使用全模式進(jìn)行中文分詞REF_Ref133761029\h代碼41,得到分詞結(jié)果如下。全模式:熱愛/學(xué)習(xí)/是/一種/積極/積極向上/向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。全模式會(huì)輸出所有可能的分詞結(jié)果。以精確模式進(jìn)行中文分詞以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用精確模式進(jìn)行中文分詞,如REF_Ref133761089\h代碼42所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s22使用精確模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(text,cut_all=False)print('精確模式:','/'.join(seg_list))運(yùn)行REF_Ref133761089\h代碼42,得到分詞結(jié)果如下。精確模式:熱愛/學(xué)習(xí)/是/一種/積極向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。精確模式僅輸出一種分詞結(jié)果。以搜索引擎模式進(jìn)行中文分詞以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用搜索引擎模式進(jìn)行中文分詞,如REF_Ref133761103\h代碼43所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s23使用搜索引擎模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut_for_search(text)print('搜索引擎模式:\n','/'.join(seg_list))運(yùn)行REF_Ref133761103\h代碼43,得到分詞結(jié)果如下。搜索引擎模式:熱愛/學(xué)習(xí)/是/一種/積極/向上/積極向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。搜索引擎模式會(huì)輸出所有可能的分詞結(jié)果。除了一些適

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論