自然語言及語音處理項目式教程 課件2.2.2 中文分詞_第1頁
自然語言及語音處理項目式教程 課件2.2.2 中文分詞_第2頁
自然語言及語音處理項目式教程 課件2.2.2 中文分詞_第3頁
自然語言及語音處理項目式教程 課件2.2.2 中文分詞_第4頁
自然語言及語音處理項目式教程 課件2.2.2 中文分詞_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

掌握中文分詞技術

初識文本基礎處理中文分詞技術是自然語言處理中的重要基礎技術之一,也是中文文本處理的關鍵步驟。中文分詞:將連續(xù)的文本序列切分成詞匯單元。知識引入中文分詞簡介中文分詞工具jieba庫中文分詞簡介中文分詞:將漢字序列按照一定規(guī)范逐個切分為詞序列。英文:單詞之間以空格為自然分隔符,分詞自然地以空格為分隔符進行切分。中文:依靠一定技術和方法尋找類似英文中空格作用的分隔符?;谝?guī)則的分詞基于統(tǒng)計的分詞......基于規(guī)則的分詞基于規(guī)則的分詞(基于詞典的分詞)基本思想。將待分詞語句中的字符串和詞典逐個匹配。匹配的字符串則切分,不匹配則減去邊緣的某些字符。從頭再次匹配。至匹配完畢或沒有找到詞典的字符串結(jié)束?;谝?guī)則的分詞正向最大匹配法正向最大匹配法(MM法)思路:正向最大匹配法正向最大匹配法——示例:正向最大匹配法01問題:容易出現(xiàn)切分歧義的情況。正向最大匹配法可能會將“農(nóng)村基礎設施建設”切分為“農(nóng)村”“基礎設施”和“建設”3個部分,而不是作為一個整體。02在實際應用中,需要結(jié)合其他分詞算法以及上下文語境等方法進行優(yōu)化和修正。逆向最大匹配法逆向最大匹配法(RMM法)思路:從待分詞文本的右側(cè)開始掃描。先找到長度最長的詞匯。再從右側(cè)未分詞的部分開始重復以上步驟。直到待分詞文本被分詞完畢。逆向最大匹配法逆向最大匹配法——示例:逆向最大匹配法01問題:存在切分歧義。對于本例中的“鄉(xiāng)村振興”詞匯,逆向最大匹配法會將其切分為“鄉(xiāng)村”和“振興”,而不是作為一個整體。02在實際應用中,需要結(jié)合其他分詞算法以及上下文語境等方法進行優(yōu)化和修正。雙向最大匹配法雙向最大匹配法(BMM法)思路:將MM法和RMM法的結(jié)果進行對比。選取兩種方法中切分次數(shù)較少的作為切分結(jié)果。優(yōu)勢:避免歧義和誤切分的問題。問題:計算量較大,實現(xiàn)相對復雜。雙向最大匹配法雙向最大匹配法具體實現(xiàn)注意。雙向最大匹配法需要確定一個分詞長度的范圍,一般根據(jù)語料庫的統(tǒng)計特征進行確定。雙向最大匹配法需要根據(jù)規(guī)則來選擇合適的分詞結(jié)果。左右分詞結(jié)果相同,選擇任意一種結(jié)果。左右分詞結(jié)果不同,選擇單字數(shù)較少的一種結(jié)果。雙向最大匹配法可以進一步優(yōu)化。在一些常見詞匯的情況下,可以提前將其從待分詞文本中刪除,以減少計算量?;诮y(tǒng)計的分詞基于統(tǒng)計的分詞基本思想:中文語句中相連的字出現(xiàn)的次數(shù)越多。作為詞單獨使用的次數(shù)也越多。語句拆分的可靠性越高。分詞的準確率越高?;诮y(tǒng)計的分詞基于統(tǒng)計的分詞步驟:建立統(tǒng)計語言模型1運用模型劃分語句,計算被劃分語句的概率,選取最大概率的劃分方式進行分詞2基于統(tǒng)計的分詞n元語法模型n元語法模型:基于n-1階馬爾可夫鏈的一種概率語言模型,通過n個詞語出現(xiàn)的概率來推斷語句的結(jié)構(gòu)。文本內(nèi)容進行大小為n的滑動窗口操作每個詞語序列稱為n-gram形成長度為n的詞語序列n-gram基本思想n元語法模型n元語法模型應用:概率論、通信理論、計算語言學、計算生物學、數(shù)據(jù)壓縮......自然語言處理:用戶使用n元語法模型來計算一個給定文本中下一個詞語出現(xiàn)的概率,從而實現(xiàn)文本自動補全等功能。信息檢索:用戶使用n元語法模型來評估查詢與文檔之間的匹配程度,從而提高檢索效果。語音識別:用戶也可以使用n元語法模型來提高識別準確率。n元語法模型n元語法模型——計算條件概率例:句序列為S={今天,早上,我,吃了,包子},估計語句“今天早上我吃了包子”在當前語料庫中出現(xiàn)的概率。詞語B在詞語A后出現(xiàn)的條件概率詞語A和B作為相鄰詞語對出現(xiàn)的次數(shù)詞語A出現(xiàn)的次數(shù)每個詞出現(xiàn)的次數(shù)隱馬爾可夫模型隱馬爾可夫模型(HMM):用于建模時序數(shù)據(jù)的概率模型。基本假設:某個系統(tǒng)的內(nèi)部狀態(tài)無法被觀察,但可以通過觀察到的外部數(shù)據(jù)進行推斷。組成部分:狀態(tài)轉(zhuǎn)移模型:描述系統(tǒng)內(nèi)部狀態(tài)的轉(zhuǎn)移規(guī)律(不可見);觀測模型:描述每個狀態(tài)下觀測數(shù)據(jù)的概率分布(可見)。隱馬爾可夫模型隱馬爾可夫模型:將分詞問題轉(zhuǎn)化為一個序列標注問題。定一個輸入句子。尋找最有可能的標注序列。標注序列即為分詞結(jié)果。隱馬爾可夫模型序列標注過程:

通過對訓練語料進行學習和統(tǒng)計,得到HMM的模型參數(shù)。狀態(tài)轉(zhuǎn)移概率矩陣發(fā)射概率矩陣初始狀態(tài)概率向量計算給定輸入句子的所有可能的狀態(tài)序列。選擇其中概率最大的狀態(tài)序列作為分詞結(jié)果。隱藏狀態(tài):當前狀態(tài)下的詞性可見狀態(tài):當前狀態(tài)下的字符隱馬爾可夫模型隱馬爾可夫模型——示例:鄉(xiāng)村振興是當代中國的重要戰(zhàn)略,必須堅持農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展,發(fā)揮好農(nóng)村地區(qū)人力、資源、市場等方面的優(yōu)勢,推動農(nóng)村一二三產(chǎn)業(yè)融合發(fā)展。隱馬爾可夫模型隱馬爾可夫模型——示例結(jié)果:鄉(xiāng)村振興/是/當代/中國/的/重要/戰(zhàn)略/,/必須/堅持/農(nóng)業(yè)/農(nóng)村/優(yōu)先/發(fā)展/,/發(fā)揮/好/農(nóng)村/地區(qū)/人力/、/資源/、/市場/等/方面/的/優(yōu)勢/,/推動/農(nóng)村/一二三/產(chǎn)業(yè)/融合/發(fā)展/中文分詞簡介中文分詞工具jieba庫中文分詞工具jieba庫jieba庫是一款開源的中文分詞工具。高效準確簡單易用中文分詞工具jieba庫庫實現(xiàn)的算法與功能:基于規(guī)則的分詞算法;基于HMM的分詞算法;關鍵詞提取;詞性標注;實體識別;自定義詞典;庫的應用:文本挖掘;信息檢索;自然語言處理;機器學習;中文分詞工具jieba庫jieba庫中部分函數(shù)描述:函數(shù)功能描述jieba.cut分詞用于分詞,輸入?yún)?shù)為待分詞的文本字符串,輸出為一個可迭代的生成器,每次迭代返回一個分詞后的詞語jieba.cut_for_search搜索引擎分詞適用于搜索引擎分詞,使用了更加細致的分詞算法,輸出結(jié)果與cut()略有不同jieba.add_word向分詞詞典中添加新詞用于向分詞詞典中添加新詞,參數(shù)為新詞和詞頻,可以手動調(diào)整分詞效jieba.load_userdict加載用戶自定義分詞詞典加載用戶自定義分詞詞典,增加分詞的準確性jieba.get_FREQ返回詞語的詞頻返回詞語的詞頻,可以用于分析詞語的重要性中文分詞工具jieba庫01jieba庫分詞模式02精確模式03全模式搜索引擎精確模式適用于對文本分詞要求較高的場景?;谇熬Y詞典實現(xiàn)的精確匹配。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論