



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《自然語言處理技術(shù)》初識(shí)文本基礎(chǔ)處理——應(yīng)用中文分詞技術(shù)實(shí)訓(xùn)目標(biāo)掌握安裝jieba庫的方法。掌握使用jieba庫中的cut函數(shù)獲取語料庫中的文本標(biāo)識(shí)列表的方法。掌握全模式、精確模式、搜索引擎模式進(jìn)行中文分詞的流程。實(shí)訓(xùn)環(huán)境環(huán)境版本說明Windows1064電腦操作系統(tǒng)Python3.8.5Python語言版本pandas1.3.0主要用于數(shù)據(jù)讀取、清洗等操作NumPy1.21.6主要用于Python中的數(shù)值計(jì)算jieba0.42.1主要用于文本分詞Gensim4.2.0主要用于檢索文本、計(jì)算文本相似度、訓(xùn)練詞向量、建模主題等Matplotlib3.3.0主要用于數(shù)據(jù)可視化PaddlePaddle2.4.2是一個(gè)深度學(xué)習(xí)框架,提供了高效的計(jì)算框架和優(yōu)化算法PaddleSpeech1.2.0主要用于語音和音頻中的各種關(guān)鍵任務(wù)的開發(fā)scikit-learn1.0.2廣泛地用于統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)建模等數(shù)據(jù)科學(xué)領(lǐng)域Librosa0.8.1主要用于分析一般的音頻信號(hào),是一個(gè)非常強(qiáng)大的Python語音信號(hào)處理的第三方庫NLTK3.5是一個(gè)常用的自然語言處理工具包,可用于文本處理、語義分析、詞性標(biāo)注等SciPy1.7.3是一個(gè)科學(xué)計(jì)算工具包,可用于數(shù)學(xué)、科學(xué)、工程學(xué)等領(lǐng)域pyttsx32.9.0主要用于將文本轉(zhuǎn)換成語音實(shí)訓(xùn)說明中文分詞技術(shù)是自然語言處理中的重要基礎(chǔ)技術(shù)之一,也是中文文本處理的關(guān)鍵步驟。在處理中文文本時(shí),需要將連續(xù)的文本序列切分成詞匯單元,這個(gè)處理過程即為中文分詞。中文分詞的結(jié)果對(duì)于后續(xù)的自然語言處理任務(wù)至關(guān)重要,如文本分類、信息檢索、機(jī)器翻譯等。因此,掌握中文分詞技術(shù)(如基本簡(jiǎn)介、分詞工具等)是進(jìn)行中文文本處理的基礎(chǔ),也是實(shí)現(xiàn)中文文本相關(guān)應(yīng)用的前提條件。本實(shí)訓(xùn)將通過jieba庫,分別以全模式、精確模式、搜索引擎模式對(duì)中文文本進(jìn)行分詞。實(shí)訓(xùn)步驟以全模式進(jìn)行中文分詞首先進(jìn)入NLP虛擬環(huán)境,執(zhí)行“condainstalljieba”或“pipinstalljieba”命令安裝jieba,安裝成功后檢查安裝列表中是否出現(xiàn)jieba,若出現(xiàn),則表示安裝成功。以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用全模式進(jìn)行中文分詞,如REF_Ref133761029\h代碼41所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s21使用全模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(sentence=text,cut_all=True)print('全模式:','/'.join(seg_list))在REF_Ref133761029\h代碼41中,使用到j(luò)ieba庫中的cut函數(shù)獲取語料庫中的文本標(biāo)識(shí)列表,其中,cut函數(shù)的常用參數(shù)說明如REF_Ref133761049\h表41cut函數(shù)的常用參數(shù)說明所示。表STYLEREF2\s4SEQ表\*ARABIC\s21cut函數(shù)的常用參數(shù)說明參數(shù)名稱參數(shù)說明sentence接收str,表示需要進(jìn)行分詞的文本內(nèi)容。無默認(rèn)值cut_all接收bool,表示是否采用全模式分詞。默認(rèn)為False運(yùn)行REF_Ref133761064\h代碼41使用全模式進(jìn)行中文分詞REF_Ref133761029\h代碼41,得到分詞結(jié)果如下。全模式:熱愛/學(xué)習(xí)/是/一種/積極/積極向上/向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。全模式會(huì)輸出所有可能的分詞結(jié)果。以精確模式進(jìn)行中文分詞以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用精確模式進(jìn)行中文分詞,如REF_Ref133761089\h代碼42所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s22使用精確模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut(text,cut_all=False)print('精確模式:','/'.join(seg_list))運(yùn)行REF_Ref133761089\h代碼42,得到分詞結(jié)果如下。精確模式:熱愛/學(xué)習(xí)/是/一種/積極向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。精確模式僅輸出一種分詞結(jié)果。以搜索引擎模式進(jìn)行中文分詞以“熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維?!睘槔?,使用搜索引擎模式進(jìn)行中文分詞,如REF_Ref133761103\h代碼43所示。代碼STYLEREF2\s4SEQ代碼\*ARABIC\s23使用搜索引擎模式進(jìn)行中文分詞importjiebatext='熱愛學(xué)習(xí)是一種積極向上的品質(zhì),它可以讓我們不斷地探索新的知識(shí)領(lǐng)域,不斷地拓展我們的視野和思維。'seg_list=jieba.cut_for_search(text)print('搜索引擎模式:\n','/'.join(seg_list))運(yùn)行REF_Ref133761103\h代碼43,得到分詞結(jié)果如下。搜索引擎模式:熱愛/學(xué)習(xí)/是/一種/積極/向上/積極向上/的/品質(zhì)/,/它/可以/讓/我們/不斷/地/探索/新/的/知識(shí)/領(lǐng)域/,/不斷/地/拓展/我們/的/視野/和/思維/。搜索引擎模式會(huì)輸出所有可能的分詞結(jié)果。除了一些適
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)試題(醫(yī)學(xué))-作業(yè)治療學(xué)歷年參考題庫含答案解析(5套典型考題)
- 2025年大學(xué)試題(體育科學(xué))-體育心理學(xué)歷年參考題庫含答案解析(5套典型考題)
- 2025年國(guó)家開放大學(xué)(電大)-會(huì)計(jì)學(xué)(本科)歷年參考題庫含答案解析(5套典型考題)
- 2025年衛(wèi)生資格(中初級(jí))-中醫(yī)骨傷科學(xué)主治醫(yī)師歷年參考題庫含答案解析(5套典型題)
- 2025年保險(xiǎn)考試-保監(jiān)局高管考試歷年參考題庫含答案解析(5套典型考題)
- 2025年專業(yè)技術(shù)人員繼續(xù)教育公需科目-馬克思主義哲學(xué)及其社會(huì)實(shí)踐意義歷年參考題庫含答案解析(5套典型考題)
- 2025年專業(yè)技術(shù)人員繼續(xù)教育公需科目-公共服務(wù)能力歷年參考題庫含答案解析(5套典型考題)
- 《醉翁亭記》-暑假新九年級(jí)語文古詩文預(yù)習(xí)
- 倉庫買賣協(xié)議書
- 人才代理協(xié)議書
- 十五五畜牧獸醫(yī)行業(yè)發(fā)展規(guī)劃
- 滬港通測(cè)試題及答案
- 實(shí)驗(yàn)室生物安全會(huì)議記錄內(nèi)容
- 2025-2030光學(xué)瞄準(zhǔn)具行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- T/CGAS 026.1-2023瓶裝液化石油氣管理規(guī)范第1部分:安全管理
- 美軍空域控制AirForceDo ctrinePublication3-52,AirspaceControl
- 工運(yùn)史試題及答案
- 儀表考試試題及答案
- 2025年中考英語復(fù)習(xí)難題速遞之閱讀理解-記敘文(2025年3月)
- 國(guó)家能源局:中國(guó)氫能發(fā)展報(bào)告2025
- app定制開發(fā)合同協(xié)議
評(píng)論
0/150
提交評(píng)論