Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)教案全套 肖剛 -第1-13章 緒論、語(yǔ)料庫(kù) -基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類_第1頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)教案全套 肖剛 -第1-13章 緒論、語(yǔ)料庫(kù) -基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類_第2頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)教案全套 肖剛 -第1-13章 緒論、語(yǔ)料庫(kù) -基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類_第3頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)教案全套 肖剛 -第1-13章 緒論、語(yǔ)料庫(kù) -基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類_第4頁(yè)
Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)(第2版)(微課版)教案全套 肖剛 -第1-13章 緒論、語(yǔ)料庫(kù) -基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類_第5頁(yè)
已閱讀5頁(yè),還剩235頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論40學(xué)時(shí),實(shí)驗(yàn)24學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)4學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))章節(jié)名稱第1章緒論授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解NLP的基本概念、發(fā)展歷程、研究?jī)?nèi)容和應(yīng)用領(lǐng)域理解中文NLP的特點(diǎn)和基本處理流程掌握NLP開(kāi)發(fā)環(huán)境的組成要素熟悉Anaconda的安裝、配置和使用方法能力目標(biāo)能夠分析中文NLP與英文NLP的差異和挑戰(zhàn)能夠搭建和配置NLP開(kāi)發(fā)環(huán)境能夠創(chuàng)建和管理Python虛擬環(huán)境能夠使用Python實(shí)現(xiàn)簡(jiǎn)單的文本分析任務(wù)素質(zhì)目標(biāo)培養(yǎng)對(duì)人工智能和NLP技術(shù)發(fā)展的認(rèn)知建立工程化思維和項(xiàng)目管理意識(shí)養(yǎng)成規(guī)范化開(kāi)發(fā)的良好習(xí)慣提升解決實(shí)際問(wèn)題的能力3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)NLP的基本概念和發(fā)展歷程中文NLP的特點(diǎn)和處理流程Anaconda環(huán)境的安裝和配置虛擬環(huán)境的創(chuàng)建和管理教學(xué)難點(diǎn)中文NLP相比英文NLP的特殊性理解NLP基本流程各環(huán)節(jié)的作用機(jī)制虛擬環(huán)境管理的必要性和操作方法詞云圖生成的代碼實(shí)現(xiàn)邏輯解決策略通過(guò)具體實(shí)例對(duì)比中英文處理差異采用流程圖和案例分析方法講解提供詳細(xì)的操作步驟和實(shí)時(shí)演示逐步分解代碼,邊講邊練4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)NLP概述模塊NLP定義與發(fā)展歷程N(yùn)LP研究?jī)?nèi)容與應(yīng)用領(lǐng)域NLP與AI技術(shù)的關(guān)系中文NLP特點(diǎn)模塊字詞組合復(fù)雜性語(yǔ)序靈活性多音字和同音字問(wèn)題語(yǔ)義表達(dá)隱含性NLP處理流程模塊語(yǔ)料獲取與預(yù)處理文本向量化模型構(gòu)建與訓(xùn)練開(kāi)發(fā)環(huán)境模塊Anaconda工具套件虛擬環(huán)境管理開(kāi)發(fā)工具使用知識(shí)結(jié)構(gòu)關(guān)系NLP概述為基礎(chǔ)認(rèn)知層中文NLP特點(diǎn)為核心理論層處理流程為方法論層開(kāi)發(fā)環(huán)境為實(shí)踐工具層5.教學(xué)方法與手段理論教學(xué)方法概念講授法:系統(tǒng)講解NLP基本概念對(duì)比分析法:中英文NLP差異對(duì)比案例分析法:結(jié)合實(shí)際應(yīng)用案例問(wèn)題導(dǎo)向法:以問(wèn)題引導(dǎo)學(xué)習(xí)實(shí)踐教學(xué)方法演示教學(xué)法:現(xiàn)場(chǎng)演示環(huán)境配置任務(wù)驅(qū)動(dòng)法:通過(guò)具體任務(wù)學(xué)習(xí)分步指導(dǎo)法:逐步完成復(fù)雜操作交互式教學(xué):師生互動(dòng)答疑教學(xué)工具和平臺(tái)多媒體教室Anaconda開(kāi)發(fā)環(huán)境JupyterNotebook在線文檔和資源6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課NLP概述與基本概念第2課時(shí)理論課中文NLP流程與開(kāi)發(fā)環(huán)境第3課時(shí)實(shí)驗(yàn)課Anaconda安裝配置實(shí)踐第4課時(shí)實(shí)驗(yàn)課高頻詞云圖項(xiàng)目實(shí)戰(zhàn)各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):NLP概述與基本概念導(dǎo)入環(huán)節(jié)(10分鐘)播放AI智能客服或機(jī)器翻譯的視頻案例提問(wèn):這些應(yīng)用背后的技術(shù)原理是什么?引出NLP的概念和重要性新課講授(30分鐘)NLP的定義和與其他學(xué)科的關(guān)系(8分鐘)NLP發(fā)展歷程的五個(gè)階段(10分鐘)NLP的八大研究?jī)?nèi)容(12分鐘)案例分析(8分鐘)分析社交媒體、智能客服、機(jī)器翻譯等應(yīng)用討論NLP在不同領(lǐng)域的價(jià)值課時(shí)小結(jié)(2分鐘)總結(jié)NLP的定義、發(fā)展和應(yīng)用預(yù)告下節(jié)課內(nèi)容第2課時(shí)(理論):中文NLP流程與開(kāi)發(fā)環(huán)境復(fù)習(xí)導(dǎo)入(5分鐘)回顧NLP基本概念提問(wèn):中文處理與英文處理有何不同?新課講授(35分鐘)中文NLP的五大特點(diǎn)(15分鐘)-通過(guò)具體例子講解每個(gè)特點(diǎn)中文NLP六步處理流程(10分鐘)NLP開(kāi)發(fā)環(huán)境組成(10分鐘)討論環(huán)節(jié)(8分鐘)分組討論:中文NLP面臨的主要挑戰(zhàn)各組代表分享討論結(jié)果課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)中文NLP的特殊性介紹下次實(shí)驗(yàn)課安排第3課時(shí)(實(shí)驗(yàn)):Anaconda安裝配置實(shí)踐實(shí)驗(yàn)準(zhǔn)備(5分鐘)檢查計(jì)算機(jī)配置準(zhǔn)備安裝包和材料實(shí)驗(yàn)講解(10分鐘)演示Anaconda安裝全過(guò)程講解安裝要點(diǎn)和注意事項(xiàng)學(xué)生實(shí)踐(60分鐘)學(xué)生自主完成Anaconda安裝(20分鐘)創(chuàng)建NLP虛擬環(huán)境(15分鐘)安裝常用庫(kù)(jieba、matplotlib等)(15分鐘)熟悉JupyterNotebook和Spyder(10分鐘)教師巡回指導(dǎo),解決安裝問(wèn)題實(shí)驗(yàn)總結(jié)(15分鐘)檢查安裝結(jié)果總結(jié)常見(jiàn)問(wèn)題和解決方案布置預(yù)習(xí)任務(wù)第4課時(shí)(實(shí)驗(yàn)):高頻詞云圖項(xiàng)目實(shí)戰(zhàn)實(shí)驗(yàn)準(zhǔn)備(5分鐘)準(zhǔn)備文本數(shù)據(jù)文件檢查開(kāi)發(fā)環(huán)境實(shí)驗(yàn)講解(15分鐘)講解詞云圖原理和應(yīng)用場(chǎng)景分析代碼結(jié)構(gòu)和實(shí)現(xiàn)邏輯演示關(guān)鍵代碼段學(xué)生實(shí)踐(65分鐘)跟隨教師逐步實(shí)現(xiàn)詞云圖代碼(30分鐘)獨(dú)立調(diào)試和運(yùn)行程序(20分鐘)嘗試修改參數(shù),觀察效果變化(15分鐘)成果展示(5分鐘)學(xué)生展示生成的詞云圖分享實(shí)踐心得和遇到的問(wèn)題7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:Anaconda環(huán)境搭建實(shí)驗(yàn)?zāi)康恼莆誂naconda的安裝和配置方法學(xué)會(huì)創(chuàng)建和管理Python虛擬環(huán)境熟悉常用開(kāi)發(fā)工具的使用實(shí)驗(yàn)內(nèi)容Anaconda軟件安裝創(chuàng)建NLP專用虛擬環(huán)境安裝jieba、wordcloud、matplotlib等庫(kù)測(cè)試JupyterNotebook和Spyder實(shí)驗(yàn)步驟下載并安裝Anaconda打開(kāi)AnacondaPrompt執(zhí)行環(huán)境創(chuàng)建命令激活環(huán)境并安裝所需庫(kù)測(cè)試開(kāi)發(fā)工具功能預(yù)期結(jié)果成功安裝Anaconda創(chuàng)建可用的NLP虛擬環(huán)境能夠正常使用開(kāi)發(fā)工具實(shí)驗(yàn)二:高頻詞云圖生成實(shí)驗(yàn)?zāi)康睦斫馕谋绢A(yù)處理的基本流程掌握中文分詞和詞頻統(tǒng)計(jì)方法學(xué)會(huì)使用Python生成數(shù)據(jù)可視化圖表實(shí)驗(yàn)內(nèi)容文本數(shù)據(jù)讀取和預(yù)處理中文分詞和停用詞過(guò)濾詞頻統(tǒng)計(jì)和排序詞云圖生成和展示實(shí)驗(yàn)步驟導(dǎo)入必要的Python庫(kù)讀取文本文件使用jieba進(jìn)行中文分詞過(guò)濾停用詞并統(tǒng)計(jì)詞頻生成并顯示詞云圖預(yù)期結(jié)果生成美觀的詞云圖正確顯示高頻詞匯理解文本處理流程評(píng)價(jià)標(biāo)準(zhǔn)代碼正確性(40%)運(yùn)行結(jié)果正確性(30%)參數(shù)調(diào)整和創(chuàng)新性(20%)實(shí)驗(yàn)報(bào)告質(zhì)量(10%)8.課后作業(yè)與拓展理論鞏固作業(yè)完成課后選擇題(1-5題)總結(jié)中文NLP與英文NLP的5個(gè)主要差異繪制NLP處理流程圖并標(biāo)注每個(gè)環(huán)節(jié)的作用實(shí)踐編程任務(wù)使用不同的中文文本生成詞云圖嘗試調(diào)整詞云圖的顏色、字體、形狀等參數(shù)比較不同分詞工具的效果差異拓展閱讀材料《自然語(yǔ)言處理綜論》第1-2章BERT模型原理簡(jiǎn)介文章中文分詞技術(shù)發(fā)展綜述思考討論題為什么中文NLP比英文NLP更具挑戰(zhàn)性?人工智能時(shí)代,NLP技術(shù)將如何改變?nèi)藗兊纳??如何評(píng)價(jià)一個(gè)NLP系統(tǒng)的好壞?9.教學(xué)評(píng)價(jià)過(guò)程評(píng)價(jià)課堂參與度(20%):回答問(wèn)題、討論發(fā)言的積極性實(shí)驗(yàn)操作(40%):環(huán)境配置和代碼實(shí)現(xiàn)的完成情況協(xié)作學(xué)習(xí)(20%):小組討論和互助學(xué)習(xí)的表現(xiàn)學(xué)習(xí)態(tài)度(20%):出勤情況和學(xué)習(xí)主動(dòng)性結(jié)果評(píng)價(jià)理論掌握(30%):通過(guò)課堂提問(wèn)和作業(yè)檢查實(shí)踐能力(50%):實(shí)驗(yàn)完成質(zhì)量和代碼正確性創(chuàng)新應(yīng)用(20%):對(duì)知識(shí)的拓展和創(chuàng)新應(yīng)用評(píng)價(jià)標(biāo)準(zhǔn)優(yōu)秀(90-100分):理論理解透徹,實(shí)踐操作熟練,有創(chuàng)新思考良好(80-89分):理論掌握較好,實(shí)踐基本正確,思路清晰中等(70-79分):理論基本理解,實(shí)踐需要指導(dǎo),完成任務(wù)及格(60-69分):理論有欠缺,實(shí)踐勉強(qiáng)完成,需要改進(jìn)10.教學(xué)反思教學(xué)效果自評(píng)學(xué)生對(duì)NLP概念的理解程度開(kāi)發(fā)環(huán)境配置的成功率詞云圖實(shí)驗(yàn)的完成質(zhì)量課堂互動(dòng)和參與情況學(xué)生反饋記錄收集學(xué)生對(duì)教學(xué)內(nèi)容難度的反饋了解學(xué)生對(duì)教學(xué)方法的建議記錄學(xué)生遇到的主要問(wèn)題改進(jìn)措施根據(jù)學(xué)生基礎(chǔ)調(diào)整講解深度優(yōu)化實(shí)驗(yàn)指導(dǎo)的詳細(xì)程度改進(jìn)課堂互動(dòng)方式補(bǔ)充更多實(shí)際應(yīng)用案例下次授課調(diào)整建議增加更多中文NLP的實(shí)際案例提供更詳細(xì)的環(huán)境配置文檔設(shè)計(jì)更多層次的練習(xí)題加強(qiáng)理論與實(shí)踐的結(jié)合11.教學(xué)資源教材和參考書目主教材:《Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)》第二版,肖剛張良均,人民郵電出版社參考書:《自然語(yǔ)言處理綜論》DanielJurafsky《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶《Python自然語(yǔ)言處理》StevenBird在線資源鏈接Anaconda官方網(wǎng)站:/jieba分詞庫(kù)文檔:/fxsjy/jiebaWordCloud庫(kù)文檔:/amueller/word_cloud自然語(yǔ)言處理課程資源合集開(kāi)發(fā)環(huán)境和工具必需軟件:Anaconda、Python3.11+推薦IDE:JupyterNotebook、Spyder、PyCharm常用庫(kù):jieba、wordcloud、matplotlib、numpy、pandas數(shù)據(jù)集和代碼庫(kù)文本數(shù)據(jù):黨的二十大報(bào)告.txt、中文停用詞表.txt示例代碼:詞云圖生成完整代碼參考資源:GitHub上的中文NLP項(xiàng)目在線工具:中文分詞在線測(cè)試工具備注:本教案為第1章內(nèi)容,后續(xù)章節(jié)將在此基礎(chǔ)上深入學(xué)習(xí)更多NLP技術(shù)和應(yīng)用。第2章語(yǔ)料庫(kù)教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)6學(xué)時(shí)(其中理論3學(xué)時(shí),實(shí)驗(yàn)3學(xué)時(shí))章節(jié)名稱第2章語(yǔ)料庫(kù)授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解語(yǔ)料庫(kù)的特點(diǎn)、用途和發(fā)展歷程掌握語(yǔ)料庫(kù)的種類和構(gòu)建原則熟悉中文開(kāi)源語(yǔ)料庫(kù)和網(wǎng)絡(luò)在線語(yǔ)料庫(kù)理解網(wǎng)絡(luò)爬蟲獲取語(yǔ)料的基本原理能力目標(biāo)能夠使用requests庫(kù)發(fā)起HTTP請(qǐng)求獲取網(wǎng)頁(yè)內(nèi)容能夠使用BeautifulSoup解析HTML并提取文本能夠構(gòu)建和分析小型語(yǔ)料庫(kù)能夠進(jìn)行文本預(yù)處理和詞頻統(tǒng)計(jì)分析素質(zhì)目標(biāo)培養(yǎng)數(shù)據(jù)收集和處理的規(guī)范化意識(shí)建立網(wǎng)絡(luò)數(shù)據(jù)獲取的法律和倫理觀念提升文本數(shù)據(jù)分析和可視化能力養(yǎng)成科學(xué)嚴(yán)謹(jǐn)?shù)难芯繎B(tài)度3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)語(yǔ)料庫(kù)的概念、特點(diǎn)和用途語(yǔ)料庫(kù)的種類分類和構(gòu)建原則網(wǎng)絡(luò)爬蟲的基本實(shí)現(xiàn)方法文本預(yù)處理和詞頻統(tǒng)計(jì)技術(shù)教學(xué)難點(diǎn)語(yǔ)料庫(kù)構(gòu)建原則的理解和應(yīng)用requests和BeautifulSoup庫(kù)的使用中文文本的清洗和預(yù)處理方法繁簡(jiǎn)體轉(zhuǎn)換和編碼問(wèn)題處理解決策略通過(guò)具體實(shí)例講解語(yǔ)料庫(kù)構(gòu)建原則提供詳細(xì)的代碼示例和逐步演示使用多個(gè)實(shí)際案例練習(xí)文本處理重點(diǎn)講解中文處理的特殊性4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)語(yǔ)料庫(kù)概述模塊語(yǔ)料庫(kù)的定義和特點(diǎn)語(yǔ)料庫(kù)在NLP中的用途語(yǔ)料庫(kù)發(fā)展歷程語(yǔ)料庫(kù)分類模塊平衡語(yǔ)料庫(kù)與專業(yè)語(yǔ)料庫(kù)雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)靜態(tài)與動(dòng)態(tài)語(yǔ)料庫(kù)注釋語(yǔ)料庫(kù)和多模態(tài)語(yǔ)料庫(kù)構(gòu)建原則模塊代表性、平衡性、多樣性高質(zhì)量、透明性、可追溯性倫理和法律要求可持續(xù)性和可擴(kuò)展性獲取技術(shù)模塊開(kāi)源語(yǔ)料庫(kù)資源網(wǎng)絡(luò)爬蟲技術(shù)文本清洗和預(yù)處理語(yǔ)料庫(kù)構(gòu)建實(shí)踐知識(shí)結(jié)構(gòu)關(guān)系語(yǔ)料庫(kù)概述為理論基礎(chǔ)層分類和原則為方法論層獲取技術(shù)為實(shí)踐應(yīng)用層項(xiàng)目實(shí)戰(zhàn)為綜合運(yùn)用層5.教學(xué)方法與手段理論教學(xué)方法概念講授法:系統(tǒng)講解語(yǔ)料庫(kù)基本概念分類比較法:對(duì)比不同類型語(yǔ)料庫(kù)特點(diǎn)案例分析法:分析真實(shí)語(yǔ)料庫(kù)構(gòu)建案例原則導(dǎo)向法:以構(gòu)建原則指導(dǎo)實(shí)踐實(shí)踐教學(xué)方法代碼演示法:現(xiàn)場(chǎng)演示爬蟲和處理代碼項(xiàng)目驅(qū)動(dòng)法:通過(guò)具體項(xiàng)目學(xué)習(xí)技術(shù)漸進(jìn)式教學(xué):從簡(jiǎn)單到復(fù)雜逐步深入問(wèn)題解決法:解決實(shí)際數(shù)據(jù)處理問(wèn)題教學(xué)工具和平臺(tái)Python開(kāi)發(fā)環(huán)境(Anaconda)JupyterNotebook交互式編程requests和BeautifulSoup庫(kù)在線語(yǔ)料庫(kù)資源網(wǎng)站6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課語(yǔ)料庫(kù)概述與特點(diǎn)用途第2課時(shí)理論課語(yǔ)料庫(kù)種類與構(gòu)建原則第3課時(shí)理論+實(shí)驗(yàn)語(yǔ)料庫(kù)獲取方法與爬蟲基礎(chǔ)第4課時(shí)實(shí)驗(yàn)課網(wǎng)絡(luò)在線語(yǔ)料獲取實(shí)踐第5課時(shí)實(shí)驗(yàn)課語(yǔ)料分析與處理實(shí)戰(zhàn)第6課時(shí)實(shí)驗(yàn)課構(gòu)建電影評(píng)論語(yǔ)料庫(kù)項(xiàng)目各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):語(yǔ)料庫(kù)概述與特點(diǎn)用途導(dǎo)入環(huán)節(jié)(10分鐘)展示ChatGPT、百度翻譯等AI應(yīng)用界面提問(wèn):這些AI系統(tǒng)是如何學(xué)習(xí)語(yǔ)言的?引出語(yǔ)料庫(kù)在NLP中的重要作用新課講授(30分鐘)語(yǔ)料庫(kù)的定義和發(fā)展歷程(8分鐘)語(yǔ)料庫(kù)的8個(gè)主要特點(diǎn)詳解(12分鐘)語(yǔ)料庫(kù)在NLP中的8種用途(10分鐘)案例分析(8分鐘)分析搜狗新聞?wù)Z料庫(kù)、人民日?qǐng)?bào)語(yǔ)料庫(kù)等實(shí)例討論不同語(yǔ)料庫(kù)的應(yīng)用場(chǎng)景課時(shí)小結(jié)(2分鐘)總結(jié)語(yǔ)料庫(kù)的重要性和基本特點(diǎn)預(yù)告下節(jié)課語(yǔ)料庫(kù)分類內(nèi)容第2課時(shí)(理論):語(yǔ)料庫(kù)種類與構(gòu)建原則復(fù)習(xí)導(dǎo)入(5分鐘)回顧語(yǔ)料庫(kù)的定義和特點(diǎn)提問(wèn):如何分類不同的語(yǔ)料庫(kù)?新課講授(35分鐘)語(yǔ)料庫(kù)的6種主要類型(18分鐘)平衡語(yǔ)料庫(kù)與專業(yè)語(yǔ)料庫(kù)對(duì)比雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)特點(diǎn)靜態(tài)與動(dòng)態(tài)語(yǔ)料庫(kù)區(qū)別語(yǔ)料庫(kù)構(gòu)建的7個(gè)核心原則(17分鐘)代表性、平衡性、多樣性質(zhì)量控制和倫理要求討論環(huán)節(jié)(8分鐘)分組討論:如何為特定應(yīng)用選擇合適的語(yǔ)料庫(kù)類型?各組分享討論結(jié)果課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)構(gòu)建原則的重要性介紹下次實(shí)驗(yàn)課安排第3課時(shí)(理論+實(shí)驗(yàn)):語(yǔ)料庫(kù)獲取方法與爬蟲基礎(chǔ)理論講授(25分鐘)中文開(kāi)源語(yǔ)料庫(kù)資源介紹(10分鐘)網(wǎng)絡(luò)在線語(yǔ)料庫(kù)概述(5分鐘)網(wǎng)絡(luò)爬蟲基本原理和技術(shù)棧(10分鐘)技術(shù)演示(20分鐘)requests庫(kù)基本用法演示(8分鐘)BeautifulSoup解析HTML演示(12分鐘)實(shí)踐練習(xí)(40分鐘)學(xué)生跟隨完成簡(jiǎn)單網(wǎng)頁(yè)獲取練習(xí)(20分鐘)練習(xí)HTML解析和文本提?。?0分鐘)答疑總結(jié)(5分鐘)解答學(xué)生遇到的問(wèn)題總結(jié)技術(shù)要點(diǎn)第4課時(shí)(實(shí)驗(yàn)):網(wǎng)絡(luò)在線語(yǔ)料獲取實(shí)踐實(shí)驗(yàn)準(zhǔn)備(5分鐘)檢查開(kāi)發(fā)環(huán)境和網(wǎng)絡(luò)連接準(zhǔn)備實(shí)驗(yàn)所需的庫(kù)和代碼模板實(shí)驗(yàn)講解(15分鐘)講解《西游記》網(wǎng)頁(yè)獲取案例分析代碼結(jié)構(gòu)和關(guān)鍵步驟強(qiáng)調(diào)中文編碼處理要點(diǎn)學(xué)生實(shí)踐(60分鐘)完成網(wǎng)頁(yè)獲取和文本提?。?5分鐘)實(shí)現(xiàn)繁簡(jiǎn)體轉(zhuǎn)換功能(15分鐘)進(jìn)行文本清洗和預(yù)處理(20分鐘)成果展示(10分鐘)學(xué)生展示獲取的文本片段分享遇到的問(wèn)題和解決方案第5課時(shí)(實(shí)驗(yàn)):語(yǔ)料分析與處理實(shí)戰(zhàn)實(shí)驗(yàn)?zāi)繕?biāo)說(shuō)明(5分鐘)介紹網(wǎng)絡(luò)在線語(yǔ)料分析任務(wù)說(shuō)明分析流程和預(yù)期結(jié)果技術(shù)講解(20分鐘)文本清洗的正則表達(dá)式方法(8分鐘)停用詞處理和詞頻統(tǒng)計(jì)技術(shù)(7分鐘)文本預(yù)覽和分析方法(5分鐘)實(shí)踐操作(55分鐘)完成文本獲取和清洗(20分鐘)實(shí)現(xiàn)詞頻統(tǒng)計(jì)和分析(20分鐘)生成分析報(bào)告和可視化(15分鐘)結(jié)果討論(10分鐘)對(duì)比分析不同文本的詞頻特征討論分析結(jié)果的意義第6課時(shí)(實(shí)驗(yàn)):構(gòu)建電影評(píng)論語(yǔ)料庫(kù)項(xiàng)目項(xiàng)目介紹(10分鐘)介紹電影評(píng)論語(yǔ)料庫(kù)構(gòu)建任務(wù)分析CSV數(shù)據(jù)格式和字段含義明確項(xiàng)目目標(biāo)和評(píng)價(jià)標(biāo)準(zhǔn)代碼講解(20分鐘)pandas數(shù)據(jù)讀取和處理方法(8分鐘)文本預(yù)處理函數(shù)設(shè)計(jì)(7分鐘)語(yǔ)料庫(kù)構(gòu)建流程分析(5分鐘)項(xiàng)目實(shí)施(50分鐘)實(shí)現(xiàn)數(shù)據(jù)讀取和預(yù)處理(20分鐘)構(gòu)建語(yǔ)料庫(kù)文件(15分鐘)測(cè)試和驗(yàn)證語(yǔ)料庫(kù)(10分鐘)進(jìn)行語(yǔ)料庫(kù)質(zhì)量分析(5分鐘)項(xiàng)目總結(jié)(10分鐘)展示構(gòu)建的語(yǔ)料庫(kù)總結(jié)項(xiàng)目經(jīng)驗(yàn)和技術(shù)要點(diǎn)7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:網(wǎng)絡(luò)在線語(yǔ)料獲取實(shí)驗(yàn)?zāi)康恼莆帐褂胷equests庫(kù)獲取網(wǎng)頁(yè)內(nèi)容的方法學(xué)會(huì)使用BeautifulSoup解析HTML文檔熟練處理中文編碼和繁簡(jiǎn)體轉(zhuǎn)換實(shí)驗(yàn)內(nèi)容訪問(wèn)古騰堡項(xiàng)目網(wǎng)站獲取中文文本使用requests獲取網(wǎng)頁(yè)HTML內(nèi)容使用BeautifulSoup提取純文本進(jìn)行繁簡(jiǎn)體轉(zhuǎn)換和編碼處理實(shí)驗(yàn)步驟安裝并導(dǎo)入required庫(kù)(requests,bs4,opencc)編寫網(wǎng)頁(yè)獲取函數(shù)實(shí)現(xiàn)HTML解析和文本提取添加繁簡(jiǎn)體轉(zhuǎn)換功能測(cè)試并驗(yàn)證結(jié)果預(yù)期結(jié)果成功獲取指定網(wǎng)頁(yè)的文本內(nèi)容正確處理中文編碼問(wèn)題實(shí)現(xiàn)繁簡(jiǎn)體自動(dòng)轉(zhuǎn)換實(shí)驗(yàn)二:語(yǔ)料分析與處理實(shí)驗(yàn)?zāi)康恼莆瘴谋绢A(yù)處理的基本方法學(xué)會(huì)使用正則表達(dá)式清洗文本熟練進(jìn)行詞頻統(tǒng)計(jì)和分析實(shí)驗(yàn)內(nèi)容對(duì)獲取的文本進(jìn)行清洗處理使用jieba進(jìn)行中文分詞去除停用詞并統(tǒng)計(jì)詞頻生成詞頻分析報(bào)告實(shí)驗(yàn)三:電影評(píng)論語(yǔ)料庫(kù)構(gòu)建實(shí)驗(yàn)?zāi)康膶W(xué)會(huì)從結(jié)構(gòu)化數(shù)據(jù)構(gòu)建語(yǔ)料庫(kù)掌握pandas處理CSV數(shù)據(jù)的方法理解語(yǔ)料庫(kù)構(gòu)建的完整流程實(shí)驗(yàn)內(nèi)容讀取并分析電影評(píng)分CSV數(shù)據(jù)提取和預(yù)處理評(píng)論文本構(gòu)建電影評(píng)論語(yǔ)料庫(kù)文件驗(yàn)證和分析語(yǔ)料庫(kù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)代碼實(shí)現(xiàn)正確性(35%)數(shù)據(jù)處理質(zhì)量(25%)結(jié)果分析合理性(20%)實(shí)驗(yàn)報(bào)告完整性(20%)8.課后作業(yè)與拓展理論鞏固作業(yè)完成課后選擇題(1-5題)總結(jié)語(yǔ)料庫(kù)構(gòu)建的7個(gè)核心原則比較分析3種不同類型語(yǔ)料庫(kù)的特點(diǎn)和應(yīng)用調(diào)研并介紹2個(gè)中文開(kāi)源語(yǔ)料庫(kù)實(shí)踐編程任務(wù)訪問(wèn)古騰堡項(xiàng)目,獲取《孔雀東南飛》文本并分析構(gòu)建一個(gè)新聞文本語(yǔ)料庫(kù)(至少包含50篇文章)比較不同網(wǎng)站文本的詞頻分布特點(diǎn)實(shí)現(xiàn)自動(dòng)化的語(yǔ)料庫(kù)質(zhì)量評(píng)估工具拓展閱讀材料《語(yǔ)料庫(kù)語(yǔ)言學(xué)教程》相關(guān)章節(jié)網(wǎng)絡(luò)爬蟲技術(shù)與應(yīng)用文獻(xiàn)中文文本處理技術(shù)綜述開(kāi)源語(yǔ)料庫(kù)項(xiàng)目案例研究思考討論題如何平衡語(yǔ)料庫(kù)的代表性和專業(yè)性?網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)時(shí)需要注意哪些法律和倫理問(wèn)題?如何評(píng)價(jià)一個(gè)語(yǔ)料庫(kù)的質(zhì)量好壞?人工智能時(shí)代,語(yǔ)料庫(kù)面臨哪些新的挑戰(zhàn)和機(jī)遇?9.教學(xué)評(píng)價(jià)過(guò)程評(píng)價(jià)課堂參與(15%):提問(wèn)回答和討論參與度實(shí)驗(yàn)操作(45%):代碼編寫和調(diào)試能力問(wèn)題解決(25%):遇到困難時(shí)的解決策略團(tuán)隊(duì)協(xié)作(15%):小組討論和互助表現(xiàn)結(jié)果評(píng)價(jià)理論掌握(25%):語(yǔ)料庫(kù)概念和原則理解技術(shù)應(yīng)用(45%):爬蟲和數(shù)據(jù)處理技能項(xiàng)目質(zhì)量(20%):語(yǔ)料庫(kù)構(gòu)建完成度創(chuàng)新思維(10%):方法改進(jìn)和創(chuàng)新應(yīng)用評(píng)價(jià)標(biāo)準(zhǔn)優(yōu)秀(90-100分):理論掌握扎實(shí),技術(shù)應(yīng)用熟練,項(xiàng)目質(zhì)量高,有創(chuàng)新亮點(diǎn)良好(80-89分):理論理解正確,技術(shù)基本掌握,項(xiàng)目完成良好中等(70-79分):理論基本理解,技術(shù)需要指導(dǎo),項(xiàng)目基本完成及格(60-69分):理論有欠缺,技術(shù)掌握不足,項(xiàng)目完成困難特別注意在進(jìn)行網(wǎng)絡(luò)爬蟲實(shí)驗(yàn)時(shí),必須遵守以下原則:遵守網(wǎng)站的robots.txt規(guī)定控制請(qǐng)求頻率,避免對(duì)服務(wù)器造成壓力僅用于學(xué)習(xí)目的,不得商業(yè)使用尊重版權(quán),合理使用原則10.教學(xué)反思教學(xué)效果自評(píng)學(xué)生對(duì)語(yǔ)料庫(kù)概念的理解程度網(wǎng)絡(luò)爬蟲技術(shù)的掌握情況文本處理技能的熟練度項(xiàng)目完成的質(zhì)量和創(chuàng)新性學(xué)生反饋記錄收集學(xué)生對(duì)課程難度的反饋了解學(xué)生對(duì)實(shí)驗(yàn)設(shè)計(jì)的建議記錄技術(shù)學(xué)習(xí)中的常見(jiàn)問(wèn)題評(píng)估學(xué)生的興趣和參與度改進(jìn)措施根據(jù)學(xué)生基礎(chǔ)調(diào)整技術(shù)難度增加更多實(shí)際應(yīng)用案例優(yōu)化實(shí)驗(yàn)指導(dǎo)的詳細(xì)程度加強(qiáng)編程基礎(chǔ)技能訓(xùn)練下次授課調(diào)整建議增加更多中文語(yǔ)料庫(kù)實(shí)例提供更詳細(xì)的錯(cuò)誤處理指導(dǎo)設(shè)計(jì)更多層次的練習(xí)題加強(qiáng)理論與實(shí)踐的結(jié)合11.教學(xué)資源教材和參考書目主教材:《Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)》第二版,肖剛張良均,人民郵電出版社參考書:《語(yǔ)料庫(kù)語(yǔ)言學(xué)教程》楊惠中《Python網(wǎng)絡(luò)爬蟲從入門到實(shí)踐》崔慶才《自然語(yǔ)言處理入門》何晗在線資源鏈接搜狗實(shí)驗(yàn)室:/labs/古騰堡項(xiàng)目:/中文電子文本項(xiàng)目:/清華大學(xué)NLP實(shí)驗(yàn)室:/開(kāi)發(fā)環(huán)境和工具必需軟件:Python3.11+,Anaconda核心庫(kù):requests,beautifulsoup4,jieba,opencc,pandas推薦IDE:JupyterNotebook,PyCharm,VSCode輔助工具:正則表達(dá)式測(cè)試工具,HTML解析器數(shù)據(jù)集和代碼庫(kù)示例數(shù)據(jù):ratings.csv電影評(píng)分?jǐn)?shù)據(jù),停用詞表完整代碼:網(wǎng)絡(luò)爬蟲示例,語(yǔ)料庫(kù)構(gòu)建腳本參考項(xiàng)目:GitHub中文NLP項(xiàng)目集合測(cè)試數(shù)據(jù):多種格式的中文文本樣本備注:本教案注重理論與實(shí)踐相結(jié)合,通過(guò)具體的項(xiàng)目實(shí)戰(zhàn)幫助學(xué)生掌握語(yǔ)料庫(kù)構(gòu)建的完整流程。在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)獲取時(shí),請(qǐng)務(wù)必遵守相關(guān)法律法規(guī)和網(wǎng)站使用條款。第3章正則表達(dá)式教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)6學(xué)時(shí)(其中理論3學(xué)時(shí),實(shí)驗(yàn)3學(xué)時(shí))章節(jié)名稱第3章正則表達(dá)式授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解正則表達(dá)式的概念、作用和應(yīng)用范圍掌握常用正則表達(dá)式函數(shù)的語(yǔ)法和用法熟悉正則表達(dá)式元字符的含義和使用方法理解正則表達(dá)式在文本處理中的重要作用能力目標(biāo)能夠使用match、search、findall等函數(shù)進(jìn)行文本匹配能夠運(yùn)用元字符構(gòu)建復(fù)雜的正則表達(dá)式模式能夠進(jìn)行文本驗(yàn)證、信息提取和文本過(guò)濾能夠解決實(shí)際NLP場(chǎng)景中的文本處理問(wèn)題素質(zhì)目標(biāo)培養(yǎng)邏輯思維和模式識(shí)別能力提升文本數(shù)據(jù)處理的精準(zhǔn)性和效率意識(shí)建立規(guī)范化的代碼編寫習(xí)慣養(yǎng)成解決復(fù)雜問(wèn)題的分析思維3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)正則表達(dá)式的基本概念和應(yīng)用場(chǎng)景常用正則表達(dá)式函數(shù)的使用方法元字符的含義、用法和組合規(guī)則正則表達(dá)式在文本處理中的實(shí)際應(yīng)用教學(xué)難點(diǎn)復(fù)雜正則表達(dá)式模式的構(gòu)建和理解元字符的靈活組合和嵌套使用轉(zhuǎn)義字符的正確使用方法貪婪匹配與非貪婪匹配的區(qū)別解決策略通過(guò)大量實(shí)例演示元字符的具體用法采用遞進(jìn)式教學(xué),從簡(jiǎn)單到復(fù)雜逐步深入提供在線正則測(cè)試工具輔助理解設(shè)計(jì)針對(duì)性練習(xí)強(qiáng)化關(guān)鍵概念4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)正則表達(dá)式基礎(chǔ)模塊正則表達(dá)式的定義和作用在NLP中的應(yīng)用范圍基本語(yǔ)法和規(guī)則函數(shù)應(yīng)用模塊match函數(shù):字符串開(kāi)頭匹配search函數(shù):字符串搜索匹配findall函數(shù):查找所有匹配項(xiàng)sub函數(shù):字符串替換finditer函數(shù):迭代搜索split函數(shù):字符串分割元字符掌握模塊量詞:*、+、?、{n}、{n,}、{n,m}字符類:[]、[^]、\d、\w、\s等錨點(diǎn)邊界:^、$、\b特殊字符:\、.、|、()實(shí)踐應(yīng)用模塊數(shù)據(jù)驗(yàn)證(郵箱、電話、日期)信息提取(姓名、地址、聯(lián)系方式)文本清洗和過(guò)濾常用正則表達(dá)式模式庫(kù)知識(shí)結(jié)構(gòu)關(guān)系基礎(chǔ)概念為理論支撐層函數(shù)掌握為技術(shù)工具層元字符應(yīng)用為核心技能層實(shí)踐應(yīng)用為綜合運(yùn)用層5.教學(xué)方法與手段理論教學(xué)方法遞進(jìn)式講授法:從簡(jiǎn)單模式到復(fù)雜模式逐步深入對(duì)比分析法:對(duì)比不同函數(shù)和元字符的作用實(shí)例演示法:通過(guò)具體例子解釋抽象概念模式歸納法:總結(jié)常用的正則表達(dá)式模式實(shí)踐教學(xué)方法交互式編程:即時(shí)測(cè)試正則表達(dá)式效果案例驅(qū)動(dòng)法:通過(guò)實(shí)際問(wèn)題學(xué)習(xí)技術(shù)錯(cuò)誤診斷法:分析常見(jiàn)錯(cuò)誤和解決方案模式構(gòu)建法:引導(dǎo)學(xué)生自主構(gòu)建表達(dá)式教學(xué)工具和平臺(tái)Python開(kāi)發(fā)環(huán)境(re模塊)JupyterNotebook交互式編程在線正則表達(dá)式測(cè)試工具正則表達(dá)式可視化工具6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課正則表達(dá)式概念與函數(shù)介紹第2課時(shí)理論課正則表達(dá)式元字符詳解第3課時(shí)理論+實(shí)驗(yàn)正則表達(dá)式函數(shù)實(shí)踐第4課時(shí)實(shí)驗(yàn)課元字符應(yīng)用與文本處理第5課時(shí)實(shí)驗(yàn)課正則表達(dá)式綜合應(yīng)用第6課時(shí)實(shí)驗(yàn)課實(shí)訓(xùn)項(xiàng)目與案例分析各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):正則表達(dá)式概念與函數(shù)介紹導(dǎo)入環(huán)節(jié)(10分鐘)展示包含各種格式的文本數(shù)據(jù)(郵箱、電話、身份證號(hào)等)提問(wèn):如何快速識(shí)別和提取這些特定格式的信息?引出正則表達(dá)式在文本處理中的重要作用新課講授(30分鐘)正則表達(dá)式的定義和基本概念(8分鐘)正則表達(dá)式在NLP中的應(yīng)用范圍(7分鐘)常用正則表達(dá)式函數(shù)介紹(15分鐘)match函數(shù)的用法和特點(diǎn)search函數(shù)與match函數(shù)的區(qū)別findall函數(shù)的應(yīng)用場(chǎng)景示例演示(8分鐘)現(xiàn)場(chǎng)演示match、search、findall函數(shù)的基本用法對(duì)比不同函數(shù)在相同文本上的運(yùn)行結(jié)果課時(shí)小結(jié)(2分鐘)總結(jié)正則表達(dá)式的重要性和基本函數(shù)預(yù)告下節(jié)課元字符內(nèi)容第2課時(shí)(理論):正則表達(dá)式元字符詳解復(fù)習(xí)導(dǎo)入(5分鐘)回顧上節(jié)課的主要函數(shù)提問(wèn):如何構(gòu)建更復(fù)雜的匹配模式?新課講授(35分鐘)量詞元字符詳解(12分鐘)*、+、?的區(qū)別和應(yīng)用{n}、{n,}、{n,m}的精確控制貪婪匹配與非貪婪匹配字符類元字符解析(10分鐘)[]、[^]的字符集定義\d、\w、\s等預(yù)定義字符類大小寫敏感的字符匹配錨點(diǎn)和特殊字符(8分鐘)^、$的位置錨定轉(zhuǎn)義字符\的使用.和|的特殊作用元字符組合規(guī)則(5分鐘)互動(dòng)練習(xí)(8分鐘)學(xué)生嘗試構(gòu)建簡(jiǎn)單的正則表達(dá)式教師點(diǎn)評(píng)和糾正常見(jiàn)錯(cuò)誤課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)元字符的重要性和組合原則介紹下次實(shí)驗(yàn)課安排第3課時(shí)(理論+實(shí)驗(yàn)):正則表達(dá)式函數(shù)實(shí)踐理論回顧(15分鐘)快速回顧六個(gè)主要函數(shù)的用法講解sub和split函數(shù)的高級(jí)用法介紹finditer函數(shù)的迭代特性函數(shù)對(duì)比(15分鐘)同一文本使用不同函數(shù)的效果對(duì)比講解group()方法的使用技巧演示函數(shù)參數(shù)flags的作用實(shí)踐操作(50分鐘)練習(xí)1:使用match和search處理文本(15分鐘)練習(xí)2:用findall提取所有匹配項(xiàng)(15分鐘)練習(xí)3:使用sub進(jìn)行文本替換(10分鐘)練習(xí)4:用split進(jìn)行文本分割(10分鐘)答疑總結(jié)(10分鐘)解答學(xué)生在實(shí)踐中遇到的問(wèn)題總結(jié)函數(shù)使用的關(guān)鍵要點(diǎn)第4課時(shí)(實(shí)驗(yàn)):元字符應(yīng)用與文本處理實(shí)驗(yàn)準(zhǔn)備(5分鐘)檢查開(kāi)發(fā)環(huán)境和準(zhǔn)備測(cè)試文本回顧元字符的基本概念元字符實(shí)踐(70分鐘)量詞練習(xí)(20分鐘)練習(xí)不同量詞的匹配效果理解貪婪與非貪婪匹配的區(qū)別字符類應(yīng)用(25分鐘)使用[]構(gòu)建自定義字符集練習(xí)\d、\w、\s等預(yù)定義類掌握[^]排除字符的用法錨點(diǎn)和邊界(15分鐘)使用^和$精確定位理解\b單詞邊界的作用復(fù)雜模式構(gòu)建(10分鐘)組合多個(gè)元字符使用分組()提取信息實(shí)驗(yàn)總結(jié)(15分鐘)總結(jié)元字符的使用技巧討論常見(jiàn)的錯(cuò)誤和解決方法第5課時(shí)(實(shí)驗(yàn)):正則表達(dá)式綜合應(yīng)用應(yīng)用場(chǎng)景介紹(10分鐘)數(shù)據(jù)驗(yàn)證的實(shí)際需求信息提取的應(yīng)用場(chǎng)景文本清洗的重要性綜合練習(xí)(70分鐘)練習(xí)1:驗(yàn)證郵箱地址格式(15分鐘)理解郵箱地址的組成規(guī)則構(gòu)建郵箱驗(yàn)證正則表達(dá)式練習(xí)2:驗(yàn)證電話號(hào)碼格式(15分鐘)處理不同的電話號(hào)碼格式使用正則表達(dá)式進(jìn)行格式統(tǒng)一練習(xí)3:提取個(gè)人信息(20分鐘)從文本中提取姓名、年齡等信息使用分組功能精確提取練習(xí)4:文本清洗處理(20分鐘)過(guò)濾HTML標(biāo)簽和特殊字符保留中文字符,去除無(wú)關(guān)內(nèi)容成果展示(10分鐘)學(xué)生展示練習(xí)成果分享解決問(wèn)題的思路和方法第6課時(shí)(實(shí)驗(yàn)):實(shí)訓(xùn)項(xiàng)目與案例分析項(xiàng)目介紹(10分鐘)介紹三個(gè)實(shí)訓(xùn)項(xiàng)目的要求和目標(biāo)分析項(xiàng)目的技術(shù)要點(diǎn)和難點(diǎn)實(shí)訓(xùn)實(shí)施(70分鐘)實(shí)訓(xùn)1:過(guò)濾《三國(guó)志》中的非中文字符(20分鐘)分析文本中的特殊字符類型設(shè)計(jì)過(guò)濾規(guī)則和正則表達(dá)式實(shí)訓(xùn)2:提取地名與郵編(25分鐘)分析地名郵編的格式特點(diǎn)使用正則表達(dá)式進(jìn)行精確提取實(shí)現(xiàn)地名郵編的對(duì)應(yīng)關(guān)系實(shí)訓(xùn)3:提取網(wǎng)頁(yè)標(biāo)簽中的文本(25分鐘)理解HTML標(biāo)簽的結(jié)構(gòu)設(shè)計(jì)正則表達(dá)式提取標(biāo)簽內(nèi)容處理嵌套標(biāo)簽的復(fù)雜情況項(xiàng)目總結(jié)(10分鐘)總結(jié)實(shí)訓(xùn)中的關(guān)鍵技術(shù)點(diǎn)討論正則表達(dá)式的局限性和替代方案7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:正則表達(dá)式函數(shù)掌握實(shí)驗(yàn)?zāi)康氖炀氄莆樟鶄€(gè)主要正則表達(dá)式函數(shù)的使用理解不同函數(shù)的適用場(chǎng)景和返回結(jié)果學(xué)會(huì)使用group()方法提取分組信息實(shí)驗(yàn)內(nèi)容使用match函數(shù)進(jìn)行字符串開(kāi)頭匹配使用search函數(shù)在字符串中搜索模式使用findall函數(shù)查找所有匹配項(xiàng)使用sub函數(shù)進(jìn)行字符串替換使用finditer函數(shù)進(jìn)行迭代搜索使用split函數(shù)進(jìn)行字符串分割實(shí)驗(yàn)步驟準(zhǔn)備包含多種模式的測(cè)試文本分別使用六個(gè)函數(shù)處理相同文本對(duì)比不同函數(shù)的返回結(jié)果練習(xí)group()方法的使用總結(jié)各函數(shù)的適用場(chǎng)景示例代碼:

importre

text="自然語(yǔ)言處理是研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。"

#使用match函數(shù)

result1=re.match('自然語(yǔ)言處理',text)

#使用search函數(shù)

result2=re.search('通信',text)

#使用findall函數(shù)

result3=re.findall('語(yǔ)言',text)實(shí)驗(yàn)二:元字符應(yīng)用練習(xí)實(shí)驗(yàn)?zāi)康恼莆樟吭~、字符類、錨點(diǎn)等元字符的使用學(xué)會(huì)構(gòu)建復(fù)雜的正則表達(dá)式模式理解貪婪匹配與非貪婪匹配的區(qū)別實(shí)驗(yàn)內(nèi)容量詞元字符的實(shí)際應(yīng)用字符類元字符的靈活使用錨點(diǎn)和邊界的精確定位特殊字符的轉(zhuǎn)義處理實(shí)驗(yàn)三:數(shù)據(jù)驗(yàn)證與信息提取實(shí)驗(yàn)?zāi)康膶W(xué)會(huì)使用正則表達(dá)式進(jìn)行數(shù)據(jù)格式驗(yàn)證掌握從復(fù)雜文本中提取特定信息的方法應(yīng)用正則表達(dá)式解決實(shí)際問(wèn)題實(shí)驗(yàn)內(nèi)容驗(yàn)證郵箱地址、電話號(hào)碼、日期格式從文本中提取姓名、性別、年齡等信息清洗和過(guò)濾文本中的特殊字符處理HTML標(biāo)簽和網(wǎng)頁(yè)內(nèi)容評(píng)價(jià)標(biāo)準(zhǔn)正則表達(dá)式語(yǔ)法正確性(30%)匹配結(jié)果準(zhǔn)確性(35%)代碼效率和規(guī)范性(20%)問(wèn)題解決創(chuàng)新性(15%)8.課后作業(yè)與拓展理論鞏固作業(yè)完成課后選擇題(1-5題)總結(jié)六個(gè)主要正則表達(dá)式函數(shù)的特點(diǎn)和用法整理常用元字符的含義和應(yīng)用場(chǎng)景設(shè)計(jì)5個(gè)不同類型的正則表達(dá)式驗(yàn)證模式實(shí)踐編程任務(wù)編寫一個(gè)通用的數(shù)據(jù)驗(yàn)證函數(shù),支持多種格式驗(yàn)證實(shí)現(xiàn)一個(gè)文本清洗工具,能夠過(guò)濾各類特殊字符開(kāi)發(fā)一個(gè)信息提取器,從簡(jiǎn)歷文本中提取關(guān)鍵信息構(gòu)建一個(gè)網(wǎng)頁(yè)內(nèi)容提取器,去除HTML標(biāo)簽保留純文本拓展閱讀材料《精通正則表達(dá)式》第3版相關(guān)章節(jié)Python官方文檔re模塊詳細(xì)說(shuō)明正則表達(dá)式性能優(yōu)化最佳實(shí)踐復(fù)雜文本處理案例研究思考討論題正則表達(dá)式相比其他文本處理方法有哪些優(yōu)勢(shì)和局限性?如何在保證匹配準(zhǔn)確性的同時(shí)提高正則表達(dá)式的執(zhí)行效率?在什么情況下應(yīng)該選擇正則表達(dá)式,什么情況下應(yīng)該使用其他方法?如何設(shè)計(jì)一個(gè)可維護(hù)、可擴(kuò)展的正則表達(dá)式庫(kù)?9.教學(xué)評(píng)價(jià)過(guò)程評(píng)價(jià)課堂參與(20%):回答問(wèn)題和討論的積極性實(shí)驗(yàn)操作(40%):正則表達(dá)式編寫和調(diào)試能力問(wèn)題解決(25%):面對(duì)復(fù)雜問(wèn)題的分析能力創(chuàng)新思維(15%):提出新穎解決方案的能力結(jié)果評(píng)價(jià)理論掌握(25%):元字符和函數(shù)概念理解技能應(yīng)用(45%):正則表達(dá)式實(shí)際應(yīng)用能力代碼質(zhì)量(20%):代碼規(guī)范性和效率綜合應(yīng)用(10%):解決復(fù)雜問(wèn)題的綜合能力評(píng)價(jià)標(biāo)準(zhǔn)優(yōu)秀(90-100分):熟練掌握所有元字符,能夠構(gòu)建復(fù)雜正則表達(dá)式,解決實(shí)際問(wèn)題良好(80-89分):掌握基本元字符,能夠編寫常用正則表達(dá)式,完成大部分任務(wù)中等(70-79分):理解基本概念,能夠使用簡(jiǎn)單正則表達(dá)式,需要指導(dǎo)完成復(fù)雜任務(wù)及格(60-69分):了解基本用法,在幫助下能夠完成簡(jiǎn)單任務(wù),需要加強(qiáng)練習(xí)學(xué)習(xí)建議正則表達(dá)式的學(xué)習(xí)需要大量練習(xí),建議學(xué)生:多使用在線正則表達(dá)式測(cè)試工具驗(yàn)證理解收集并練習(xí)常見(jiàn)的正則表達(dá)式模式注意總結(jié)元字符的組合規(guī)律在實(shí)際項(xiàng)目中積極應(yīng)用所學(xué)知識(shí)10.教學(xué)反思教學(xué)效果自評(píng)學(xué)生對(duì)正則表達(dá)式概念的理解程度元字符掌握的熟練度和應(yīng)用能力復(fù)雜正則表達(dá)式構(gòu)建的成功率實(shí)際問(wèn)題解決的效果和創(chuàng)新性學(xué)生反饋記錄收集學(xué)生對(duì)元字符學(xué)習(xí)難度的反饋了解學(xué)生對(duì)實(shí)驗(yàn)設(shè)計(jì)的建議記錄學(xué)生在正則表達(dá)式構(gòu)建中的常見(jiàn)錯(cuò)誤評(píng)估學(xué)生對(duì)理論與實(shí)踐結(jié)合的滿意度改進(jìn)措施增加更多可視化工具幫助理解抽象概念設(shè)計(jì)更多層次化的練習(xí)題滿足不同水平需求加強(qiáng)錯(cuò)誤診斷和糾正的教學(xué)環(huán)節(jié)補(bǔ)充更多實(shí)際應(yīng)用場(chǎng)景的案例下次授課調(diào)整建議增加正則表達(dá)式性能優(yōu)化的內(nèi)容提供更多在線練習(xí)資源和工具推薦加強(qiáng)與后續(xù)章節(jié)的知識(shí)銜接設(shè)計(jì)更多協(xié)作式學(xué)習(xí)活動(dòng)11.教學(xué)資源教材和參考書目主教材:《Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)》第二版,肖剛張良均,人民郵電出版社參考書:《精通正則表達(dá)式》第3版JeffreyE.F.Friedl《Python正則表達(dá)式深入淺出》《自然語(yǔ)言處理實(shí)戰(zhàn)》相關(guān)章節(jié)在線資源鏈接Python官方文檔re模塊:/3/library/re.html正則表達(dá)式在線測(cè)試:/正則表達(dá)式可視化:/常用正則表達(dá)式大全:/any86/any-rule開(kāi)發(fā)環(huán)境和工具必需軟件:Python3.11+,re模塊(內(nèi)置)推薦IDE:JupyterNotebook,PyCharm,VSCode在線工具:regex101,regexpal,regexr可視化工具:regexper,regulex常用正則表達(dá)式參考表元字符含義示例匹配結(jié)果.匹配任意單個(gè)字符a.cabc,aXc,a1c*匹配前一個(gè)字符0次或多次ab*cac,abc,abbc+匹配前一個(gè)字符1次或多次ab+cabc,abbc,abbbc?匹配前一個(gè)字符0次或1次ab?cac,abc\d匹配任意數(shù)字\d{3}123,456,789\w匹配字母、數(shù)字、下劃線\w+hello,test123,user_id\s匹配空白字符\s+空格,制表符,換行符^匹配字符串開(kāi)頭^hellohelloworld$匹配字符串結(jié)尾world$helloworld示例代碼庫(kù)基礎(chǔ)練習(xí):六個(gè)主要函數(shù)的使用示例元字符應(yīng)用:各類元字符的實(shí)際應(yīng)用代碼實(shí)戰(zhàn)案例:數(shù)據(jù)驗(yàn)證、信息提取、文本清洗錯(cuò)誤示例:常見(jiàn)錯(cuò)誤及其正確寫法對(duì)比重要提醒在學(xué)習(xí)正則表達(dá)式時(shí),請(qǐng)注意以下幾點(diǎn):正則表達(dá)式功能強(qiáng)大,但不是萬(wàn)能的,要根據(jù)具體場(chǎng)景選擇合適的方法復(fù)雜的正則表達(dá)式可能影響性能,應(yīng)該在準(zhǔn)確性和效率之間找到平衡多練習(xí)是掌握正則表達(dá)式的關(guān)鍵,要在實(shí)際項(xiàng)目中積極應(yīng)用注意正則表達(dá)式的可讀性和可維護(hù)性,適當(dāng)添加注釋備注:本教案通過(guò)大量實(shí)例和練習(xí)幫助學(xué)生掌握正則表達(dá)式這一重要的文本處理工具。正則表達(dá)式是NLP領(lǐng)域的基礎(chǔ)技能,熟練掌握將為后續(xù)課程學(xué)習(xí)和實(shí)際項(xiàng)目開(kāi)發(fā)打下堅(jiān)實(shí)基礎(chǔ)。第4章中文分詞技術(shù)教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)6學(xué)時(shí)(其中理論3學(xué)時(shí),實(shí)驗(yàn)3學(xué)時(shí))章節(jié)名稱第4章中文分詞技術(shù)授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解中文分詞的基本概念和面臨的主要難點(diǎn)熟悉基于規(guī)則分詞的基本概念和常用方法掌握基于統(tǒng)計(jì)分詞的基本原理和HMM模型理解基于深度學(xué)習(xí)的分詞技術(shù)發(fā)展趨勢(shì)能力目標(biāo)能夠?qū)崿F(xiàn)基于規(guī)則的分詞算法(正向、逆向、雙向最大匹配)能夠理解和應(yīng)用隱馬爾可夫模型進(jìn)行中文分詞能夠熟練使用jieba庫(kù)進(jìn)行中文分詞任務(wù)能夠解決實(shí)際文本處理中的分詞問(wèn)題素質(zhì)目標(biāo)培養(yǎng)算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)應(yīng)用能力建立統(tǒng)計(jì)學(xué)習(xí)和概率論在NLP中的應(yīng)用思維提升解決復(fù)雜工程問(wèn)題的綜合能力養(yǎng)成嚴(yán)謹(jǐn)?shù)目茖W(xué)研究態(tài)度和創(chuàng)新意識(shí)3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)中文分詞的基本概念和技術(shù)分類基于規(guī)則的三種匹配算法原理和實(shí)現(xiàn)隱馬爾可夫模型的基本原理和維特比算法jieba庫(kù)的使用方法和分詞模式教學(xué)難點(diǎn)隱馬爾可夫模型的數(shù)學(xué)原理和概率計(jì)算維特比算法的動(dòng)態(tài)規(guī)劃實(shí)現(xiàn)過(guò)程中文分詞中的歧義處理和新詞識(shí)別深度學(xué)習(xí)分詞模型的原理和實(shí)現(xiàn)解決策略通過(guò)具體實(shí)例演示算法的執(zhí)行過(guò)程采用可視化工具展示HMM狀態(tài)轉(zhuǎn)移過(guò)程提供豐富的代碼示例和逐步調(diào)試設(shè)計(jì)層次化的練習(xí)從簡(jiǎn)單到復(fù)雜4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)中文分詞基礎(chǔ)模塊中文分詞的定義和重要性中文分詞面臨的五大難點(diǎn)分詞技術(shù)的三大類別基于規(guī)則的分詞模塊正向最大匹配法(FMM)逆向最大匹配法(BMM)雙向最大匹配法(BiMM)算法優(yōu)缺點(diǎn)對(duì)比分析基于統(tǒng)計(jì)的分詞模塊隱馬爾可夫模型原理HMM的三個(gè)基本問(wèn)題維特比算法詳解HMM在中文分詞中的應(yīng)用實(shí)用工具和應(yīng)用模塊jieba庫(kù)的算法原理三種分詞模式的特點(diǎn)自定義詞典的使用分詞質(zhì)量評(píng)估方法三種分詞技術(shù)對(duì)比基于規(guī)則的分詞優(yōu)點(diǎn):簡(jiǎn)單直觀,可控性強(qiáng)缺點(diǎn):依賴詞典,處理歧義能力差適用:特定領(lǐng)域,規(guī)則明確的場(chǎng)景基于統(tǒng)計(jì)的分詞優(yōu)點(diǎn):自適應(yīng)性強(qiáng),處理歧義效果好缺點(diǎn):需要大量標(biāo)注數(shù)據(jù)適用:通用文本處理基于深度學(xué)習(xí)的分詞優(yōu)點(diǎn):性能最佳,端到端學(xué)習(xí)缺點(diǎn):計(jì)算復(fù)雜度高,可解釋性差適用:大規(guī)模數(shù)據(jù)處理知識(shí)結(jié)構(gòu)關(guān)系分詞基礎(chǔ)概念為理論支撐層規(guī)則方法為算法基礎(chǔ)層統(tǒng)計(jì)方法為核心技術(shù)層實(shí)用工具為應(yīng)用實(shí)踐層5.教學(xué)方法與手段理論教學(xué)方法概念講授法:系統(tǒng)講解分詞的基本概念和原理算法演示法:通過(guò)具體例子演示算法執(zhí)行過(guò)程對(duì)比分析法:對(duì)比不同分詞方法的優(yōu)缺點(diǎn)案例分析法:分析實(shí)際分詞問(wèn)題和解決方案實(shí)踐教學(xué)方法算法實(shí)現(xiàn)法:引導(dǎo)學(xué)生編寫分詞算法代碼調(diào)試觀察法:通過(guò)調(diào)試觀察算法執(zhí)行細(xì)節(jié)項(xiàng)目驅(qū)動(dòng)法:通過(guò)實(shí)際項(xiàng)目應(yīng)用分詞技術(shù)比較測(cè)試法:測(cè)試不同方法的分詞效果教學(xué)工具和平臺(tái)Python開(kāi)發(fā)環(huán)境(jieba、numpy等庫(kù))JupyterNotebook交互式編程分詞效果可視化工具在線分詞測(cè)試平臺(tái)6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課中文分詞概述與基于規(guī)則的分詞方法第2課時(shí)理論課基于統(tǒng)計(jì)的分詞和HMM模型第3課時(shí)理論+實(shí)驗(yàn)HMM算法實(shí)現(xiàn)與深度學(xué)習(xí)分詞第4課時(shí)實(shí)驗(yàn)課基于HMM的中文分詞實(shí)現(xiàn)第5課時(shí)實(shí)驗(yàn)課jieba庫(kù)應(yīng)用與分詞優(yōu)化第6課時(shí)實(shí)驗(yàn)課綜合實(shí)訓(xùn)與分詞系統(tǒng)構(gòu)建各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):中文分詞概述與基于規(guī)則的分詞方法導(dǎo)入環(huán)節(jié)(10分鐘)展示中英文文本對(duì)比,提出中文分詞的必要性提問(wèn):為什么中文分詞比英文分詞更困難?引出中文分詞在NLP中的基礎(chǔ)地位新課講授(30分鐘)中文分詞的定義和重要性(5分鐘)中文分詞面臨的五大難點(diǎn)詳解(10分鐘)詞邊界不明確、歧義詞處理新詞識(shí)別、專有名詞、語(yǔ)境依賴三種分詞技術(shù)分類介紹(8分鐘)基于規(guī)則的分詞方法詳解(7分鐘)正向最大匹配法原理和步驟逆向最大匹配法的改進(jìn)算法演示(8分鐘)現(xiàn)場(chǎng)演示"北京市民辦高中"的分詞過(guò)程對(duì)比正向和逆向匹配的不同結(jié)果課時(shí)小結(jié)(2分鐘)總結(jié)基于規(guī)則分詞的特點(diǎn)預(yù)告下節(jié)課統(tǒng)計(jì)方法內(nèi)容第2課時(shí)(理論):基于統(tǒng)計(jì)的分詞和HMM模型復(fù)習(xí)導(dǎo)入(5分鐘)回顧基于規(guī)則分詞的局限性提問(wèn):如何處理分詞中的歧義問(wèn)題?新課講授(35分鐘)基于統(tǒng)計(jì)分詞的基本思想(5分鐘)隱馬爾可夫模型詳解(20分鐘)HMM的基本概念和組成要素?cái)S骰子例子說(shuō)明HMM原理HMM的兩個(gè)基本假設(shè)HMM的三個(gè)基本問(wèn)題維特比算法原理(10分鐘)動(dòng)態(tài)規(guī)劃思想算法執(zhí)行步驟模型應(yīng)用(8分鐘)HMM在中文分詞中的建模方法BMES標(biāo)注體系介紹課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)統(tǒng)計(jì)方法的優(yōu)勢(shì)介紹下次實(shí)驗(yàn)課安排第3課時(shí)(理論+實(shí)驗(yàn)):HMM算法實(shí)現(xiàn)與深度學(xué)習(xí)分詞理論講解(20分鐘)維特比算法的代碼實(shí)現(xiàn)要點(diǎn)(10分鐘)基于深度學(xué)習(xí)的分詞技術(shù)概述(10分鐘)深度學(xué)習(xí)分詞的主要步驟BiLSTM模型在分詞中的應(yīng)用算法實(shí)現(xiàn)(60分鐘)HMM參數(shù)初始化和概率計(jì)算(20分鐘)維特比算法編程實(shí)現(xiàn)(25分鐘)簡(jiǎn)單的深度學(xué)習(xí)分詞示例(15分鐘)測(cè)試驗(yàn)證(10分鐘)測(cè)試實(shí)現(xiàn)的算法效果分析結(jié)果和討論改進(jìn)方向第4課時(shí)(實(shí)驗(yàn)):基于HMM的中文分詞實(shí)現(xiàn)實(shí)驗(yàn)準(zhǔn)備(5分鐘)準(zhǔn)備訓(xùn)練語(yǔ)料和測(cè)試文本檢查開(kāi)發(fā)環(huán)境和相關(guān)庫(kù)HMM訓(xùn)練(30分鐘)實(shí)現(xiàn)train函數(shù),統(tǒng)計(jì)概率參數(shù)(15分鐘)計(jì)算初始概率、轉(zhuǎn)移概率、發(fā)射概率(15分鐘)分詞實(shí)現(xiàn)(45分鐘)實(shí)現(xiàn)viterbi函數(shù)(25分鐘)實(shí)現(xiàn)cut函數(shù)進(jìn)行分詞(15分鐘)測(cè)試分詞效果并調(diào)試(5分鐘)效果分析(10分鐘)分析分詞結(jié)果的準(zhǔn)確性討論HMM方法的優(yōu)缺點(diǎn)第5課時(shí)(實(shí)驗(yàn)):jieba庫(kù)應(yīng)用與分詞優(yōu)化jieba庫(kù)介紹(15分鐘)jieba庫(kù)的算法原理和特點(diǎn)三種分詞模式的區(qū)別和應(yīng)用場(chǎng)景分詞模式實(shí)踐(35分鐘)精確模式分詞實(shí)驗(yàn)(10分鐘)全模式分詞實(shí)驗(yàn)(10分鐘)搜索引擎模式分詞實(shí)驗(yàn)(10分鐘)對(duì)比分析三種模式的效果(5分鐘)高頻詞提?。?0分鐘)讀取新聞文本數(shù)據(jù)(5分鐘)使用jieba進(jìn)行分詞處理(10分鐘)去除停用詞和統(tǒng)計(jì)詞頻(10分鐘)提取并展示高頻詞匯(5分鐘)分詞優(yōu)化(10分鐘)自定義詞典的使用方法分詞結(jié)果的后處理技巧第6課時(shí)(實(shí)驗(yàn)):綜合實(shí)訓(xùn)與分詞系統(tǒng)構(gòu)建綜合實(shí)訓(xùn)項(xiàng)目(70分鐘)實(shí)訓(xùn)1:實(shí)現(xiàn)完整的HMM分詞系統(tǒng)(25分鐘)使用給定語(yǔ)料訓(xùn)練HMM模型對(duì)測(cè)試文本進(jìn)行分詞評(píng)估分詞質(zhì)量實(shí)訓(xùn)2:構(gòu)建新聞文本分析系統(tǒng)(25分鐘)讀取新聞文本數(shù)據(jù)使用jieba進(jìn)行分詞提取關(guān)鍵詞和高頻詞實(shí)訓(xùn)3:分詞方法對(duì)比分析(20分鐘)比較規(guī)則、統(tǒng)計(jì)、jieba三種方法分析各方法的優(yōu)缺點(diǎn)選擇最適合的分詞策略成果展示(15分鐘)學(xué)生展示實(shí)訓(xùn)成果討論遇到的問(wèn)題和解決方案總結(jié)分詞技術(shù)的應(yīng)用價(jià)值課程總結(jié)(5分鐘)回顧中文分詞技術(shù)的發(fā)展脈絡(luò)展望分詞技術(shù)的未來(lái)發(fā)展7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:基于規(guī)則的分詞算法實(shí)現(xiàn)實(shí)驗(yàn)?zāi)康恼莆照颉⒛嫦?、雙向最大匹配算法的實(shí)現(xiàn)理解基于詞典分詞的基本原理學(xué)會(huì)分析算法的優(yōu)缺點(diǎn)和適用場(chǎng)景實(shí)驗(yàn)內(nèi)容實(shí)現(xiàn)正向最大匹配法(FMM)實(shí)現(xiàn)逆向最大匹配法(BMM)實(shí)現(xiàn)雙向最大匹配法(BiMM)對(duì)比三種算法的分詞效果實(shí)驗(yàn)步驟準(zhǔn)備詞典數(shù)據(jù)和測(cè)試文本編寫正向最大匹配函數(shù)編寫逆向最大匹配函數(shù)編寫雙向最大匹配函數(shù)測(cè)試和比較三種算法效果示例代碼框架:

defforward_maximum_matching(text,dictionary):

#正向最大匹配實(shí)現(xiàn)

word_segmentation=[]

#算法實(shí)現(xiàn)邏輯

returnword_segmentation實(shí)驗(yàn)二:HMM中文分詞系統(tǒng)實(shí)驗(yàn)?zāi)康纳钊肜斫怆[馬爾可夫模型在分詞中的應(yīng)用掌握維特比算法的編程實(shí)現(xiàn)學(xué)會(huì)訓(xùn)練HMM模型和進(jìn)行分詞預(yù)測(cè)實(shí)驗(yàn)內(nèi)容HMM模型參數(shù)訓(xùn)練維特比算法實(shí)現(xiàn)分詞函數(shù)編寫模型效果測(cè)試和優(yōu)化實(shí)驗(yàn)三:jieba庫(kù)深度應(yīng)用實(shí)驗(yàn)?zāi)康氖炀氄莆誮ieba庫(kù)的各種功能學(xué)會(huì)處理實(shí)際文本分詞任務(wù)掌握文本預(yù)處理和后處理技巧實(shí)驗(yàn)內(nèi)容三種分詞模式的應(yīng)用自定義詞典的使用新聞文本高頻詞提取分詞質(zhì)量評(píng)估和優(yōu)化評(píng)價(jià)標(biāo)準(zhǔn)算法實(shí)現(xiàn)正確性(40%)代碼質(zhì)量和規(guī)范性(25%)實(shí)驗(yàn)結(jié)果分析(20%)創(chuàng)新性和擴(kuò)展性(15%)8.課后作業(yè)與拓展理論鞏固作業(yè)完成課后選擇題和操作題總結(jié)三種分詞技術(shù)的優(yōu)缺點(diǎn)和適用場(chǎng)景分析HMM模型的數(shù)學(xué)原理和在分詞中的作用調(diào)研當(dāng)前最新的中文分詞技術(shù)發(fā)展動(dòng)態(tài)實(shí)踐編程任務(wù)優(yōu)化基于規(guī)則的分詞算法,提高處理速度實(shí)現(xiàn)基于條件隨機(jī)場(chǎng)(CRF)的分詞方法構(gòu)建一個(gè)支持多種分詞算法的分詞工具包設(shè)計(jì)分詞質(zhì)量評(píng)估指標(biāo)和測(cè)試框架拓展閱讀材料《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶第5-6章《中文信息處理導(dǎo)論》馮志偉BERT等預(yù)訓(xùn)練模型在中文分詞中的應(yīng)用論文中文分詞評(píng)測(cè)比賽(如SIGHAN)相關(guān)資料思考討論題為什么中文分詞比英文分詞更具挑戰(zhàn)性?如何解決這些挑戰(zhàn)?在實(shí)際應(yīng)用中如何選擇合適的分詞方法?如何評(píng)價(jià)一個(gè)分詞系統(tǒng)的好壞?有哪些評(píng)估指標(biāo)?深度學(xué)習(xí)時(shí)代,傳統(tǒng)分詞方法還有價(jià)值嗎?9.教學(xué)評(píng)價(jià)過(guò)程評(píng)價(jià)課堂參與(15%):提問(wèn)回答和討論參與度算法實(shí)現(xiàn)(45%):分詞算法編程實(shí)現(xiàn)能力實(shí)驗(yàn)操作(25%):實(shí)驗(yàn)完成質(zhì)量和創(chuàng)新性團(tuán)隊(duì)協(xié)作(15%):小組討論和項(xiàng)目協(xié)作表現(xiàn)結(jié)果評(píng)價(jià)理論掌握(30%):分詞原理和模型理解編程能力(40%):算法實(shí)現(xiàn)和代碼質(zhì)量應(yīng)用能力(20%):實(shí)際問(wèn)題解決能力創(chuàng)新思維(10%):算法改進(jìn)和優(yōu)化能力評(píng)價(jià)標(biāo)準(zhǔn)優(yōu)秀(90-100分):全面掌握各種分詞技術(shù),能夠獨(dú)立實(shí)現(xiàn)復(fù)雜算法,有創(chuàng)新改進(jìn)良好(80-89分):較好掌握主要分詞方法,能夠?qū)崿F(xiàn)基本算法,應(yīng)用熟練中等(70-79分):基本理解分詞原理,能夠在指導(dǎo)下完成算法實(shí)現(xiàn)及格(60-69分):了解基本概念,需要幫助完成簡(jiǎn)單的分詞任務(wù)學(xué)習(xí)建議中文分詞技術(shù)學(xué)習(xí)建議:重視算法原理的理解,不要只關(guān)注代碼實(shí)現(xiàn)多動(dòng)手實(shí)踐,通過(guò)編程加深對(duì)算法的理解關(guān)注分詞技術(shù)的最新發(fā)展,特別是深度學(xué)習(xí)方法結(jié)合實(shí)際應(yīng)用場(chǎng)景,理解不同方法的適用性10.教學(xué)反思教學(xué)效果自評(píng)學(xué)生對(duì)分詞算法原理的理解程度HMM模型和維特比算法的掌握情況編程實(shí)現(xiàn)能力和代碼質(zhì)量實(shí)際應(yīng)用和問(wèn)題解決能力學(xué)生反饋記錄收集學(xué)生對(duì)算法難度的反饋了解學(xué)生對(duì)實(shí)驗(yàn)設(shè)計(jì)的建議記錄學(xué)生在編程實(shí)現(xiàn)中的常見(jiàn)問(wèn)題評(píng)估學(xué)生對(duì)理論與實(shí)踐結(jié)合的滿意度改進(jìn)措施增加算法可視化演示,幫助理解抽象概念提供更多層次化的代碼示例和模板加強(qiáng)數(shù)學(xué)基礎(chǔ)知識(shí)的補(bǔ)充說(shuō)明設(shè)計(jì)更多實(shí)際應(yīng)用場(chǎng)景的練習(xí)下次授課調(diào)整建議增加深度學(xué)習(xí)分詞方法的實(shí)踐內(nèi)容提供更多分詞工具的對(duì)比分析加強(qiáng)與后續(xù)課程內(nèi)容的銜接設(shè)計(jì)更多跨學(xué)科應(yīng)用的案例11.教學(xué)資源教材和參考書目主教材:《Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)》第二版,肖剛張良均,人民郵電出版社參考書:《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶,清華大學(xué)出版社《中文信息處理導(dǎo)論》馮志偉,機(jī)械工業(yè)出版社《自然語(yǔ)言處理綜論》DanielJurafsky在線資源鏈接jieba分詞庫(kù)官方文檔:/fxsjy/jiebaHanLP自然語(yǔ)言處理工具包:/hankcs/HanLP中文分詞評(píng)測(cè)數(shù)據(jù)集:SIGHANBakeoffStanfordNLP工具包:/開(kāi)發(fā)環(huán)境和工具必需軟件:Python3.11+,jieba,numpy,pandas推薦IDE:JupyterNotebook,PyCharm,VSCode分詞工具:jieba,HanLP,pkuseg,LTP深度學(xué)習(xí)框架:PyTorch,TensorFlow(可選)算法參考表算法類型代表方法優(yōu)點(diǎn)缺點(diǎn)適用場(chǎng)景基于規(guī)則最大匹配法簡(jiǎn)單快速,可控性強(qiáng)依賴詞典,歧義處理差特定領(lǐng)域,詞典完備基于統(tǒng)計(jì)HMM,CRF自適應(yīng),處理歧義好需要標(biāo)注數(shù)據(jù)通用文本處理深度學(xué)習(xí)BiLSTM,BERT性能最佳,端到端計(jì)算復(fù)雜,數(shù)據(jù)需求大大規(guī)模應(yīng)用混合方法jieba綜合多種優(yōu)勢(shì)系統(tǒng)復(fù)雜實(shí)際產(chǎn)品應(yīng)用數(shù)據(jù)集和代碼庫(kù)訓(xùn)練語(yǔ)料:人民日?qǐng)?bào)語(yǔ)料、搜狐新聞?wù)Z料測(cè)試數(shù)據(jù):SIGHAN分詞評(píng)測(cè)數(shù)據(jù)代碼示例:完整的HMM分詞實(shí)現(xiàn)、jieba應(yīng)用案例工具庫(kù):分詞算法實(shí)現(xiàn)、評(píng)估工具重要提醒在學(xué)習(xí)中文分詞技術(shù)時(shí),請(qǐng)注意以下幾點(diǎn):分詞是NLP的基礎(chǔ),但不同應(yīng)用場(chǎng)景對(duì)分詞精度要求不同沒(méi)有完美的分詞標(biāo)準(zhǔn),要根據(jù)具體任務(wù)選擇合適方法實(shí)際應(yīng)用中往往需要結(jié)合多種技術(shù)和后處理關(guān)注最新的預(yù)訓(xùn)練模型在分詞任務(wù)中的應(yīng)用備注:本教案涵蓋了中文分詞技術(shù)的核心內(nèi)容,從基礎(chǔ)的規(guī)則方法到先進(jìn)的深度學(xué)習(xí)技術(shù)。通過(guò)理論學(xué)習(xí)和實(shí)踐操作,幫助學(xué)生全面掌握中文分詞這一NLP基礎(chǔ)技術(shù),為后續(xù)課程學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。第5章詞性標(biāo)注與命名實(shí)體識(shí)別教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)6學(xué)時(shí)(其中理論3學(xué)時(shí),實(shí)驗(yàn)3學(xué)時(shí))章節(jié)名稱第5章詞性標(biāo)注與命名實(shí)體識(shí)別授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解詞性標(biāo)注和命名實(shí)體識(shí)別的基本概念和應(yīng)用價(jià)值掌握HMM、深度學(xué)習(xí)等詞性標(biāo)注方法的原理熟悉條件隨機(jī)場(chǎng)(CRF)模型的基本原理和應(yīng)用理解中文命名實(shí)體識(shí)別的特點(diǎn)和實(shí)現(xiàn)方法能力目標(biāo)能夠使用jieba庫(kù)進(jìn)行中文詞性標(biāo)注能夠使用sklearn-crfsuite庫(kù)進(jìn)行中文命名實(shí)體識(shí)別能夠設(shè)計(jì)特征工程方案提升NER性能能夠評(píng)估和優(yōu)化詞性標(biāo)注與NER模型的效果素質(zhì)目標(biāo)培養(yǎng)理論聯(lián)系實(shí)際的學(xué)習(xí)能力建立數(shù)據(jù)驅(qū)動(dòng)的分析思維養(yǎng)成規(guī)范化的數(shù)據(jù)處理習(xí)慣提升解決復(fù)雜NLP問(wèn)題的綜合素養(yǎng)3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)詞性標(biāo)注的基本概念和流程HMM和深度學(xué)習(xí)詞性標(biāo)注方法條件隨機(jī)場(chǎng)(CRF)模型原理中文命名實(shí)體識(shí)別的實(shí)現(xiàn)流程教學(xué)難點(diǎn)Viterbi算法在HMM中的應(yīng)用機(jī)制CRF模型的特征函數(shù)設(shè)計(jì)和參數(shù)學(xué)習(xí)中文NER中的BIO標(biāo)注體系理解特征工程在NER任務(wù)中的優(yōu)化策略解決策略通過(guò)可視化演示算法執(zhí)行過(guò)程提供豐富的代碼示例和逐步分析采用案例驅(qū)動(dòng)的教學(xué)方法設(shè)計(jì)層次遞進(jìn)的實(shí)踐任務(wù)4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)詞性標(biāo)注基礎(chǔ)模塊詞性標(biāo)注的定義和作用中文詞性標(biāo)注的特點(diǎn)常見(jiàn)的中文詞性標(biāo)記體系詞性標(biāo)注方法模塊基于HMM的詞性標(biāo)注原理Viterbi算法實(shí)現(xiàn)基于深度學(xué)習(xí)的詞性標(biāo)注jieba詞性標(biāo)注工具使用命名實(shí)體識(shí)別基礎(chǔ)模塊NER的概念和應(yīng)用場(chǎng)景實(shí)體類型分類體系中文NER的挑戰(zhàn)NER實(shí)現(xiàn)方法模塊條件隨機(jī)場(chǎng)(CRF)模型原理特征工程設(shè)計(jì)基于深度學(xué)習(xí)的NER方法sklearn-crfsuite庫(kù)應(yīng)用知識(shí)結(jié)構(gòu)關(guān)系詞性標(biāo)注為文本預(yù)處理基礎(chǔ)層HMM和深度學(xué)習(xí)為方法論核心層命名實(shí)體識(shí)別為應(yīng)用實(shí)踐層CRF模型為技術(shù)深化層5.教學(xué)方法與手段理論教學(xué)方法概念講授法:系統(tǒng)講解詞性標(biāo)注和NER基本概念算法演示法:可視化展示HMM和CRF算法過(guò)程對(duì)比分析法:比較不同方法的優(yōu)缺點(diǎn)案例分析法:通過(guò)實(shí)際語(yǔ)料分析問(wèn)題實(shí)踐教學(xué)方法代碼講解法:逐行分析算法實(shí)現(xiàn)代碼任務(wù)驅(qū)動(dòng)法:通過(guò)具體NER任務(wù)學(xué)習(xí)調(diào)參實(shí)驗(yàn)法:通過(guò)參數(shù)調(diào)整觀察效果項(xiàng)目實(shí)戰(zhàn)法:完整的端到端項(xiàng)目實(shí)現(xiàn)教學(xué)工具和平臺(tái)JupyterNotebook開(kāi)發(fā)環(huán)境jieba、sklearn-crfsuite等庫(kù)多媒體演示設(shè)備在線代碼演示平臺(tái)6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課詞性標(biāo)注概述與方法(HMM、深度學(xué)習(xí)、jieba)第2課時(shí)理論課命名實(shí)體識(shí)別基礎(chǔ)與CRF模型第3課時(shí)理論課深度學(xué)習(xí)NER與評(píng)價(jià)方法第4課時(shí)實(shí)驗(yàn)課詞性標(biāo)注實(shí)踐(jieba與HMM實(shí)現(xiàn))第5課時(shí)實(shí)驗(yàn)課CRF命名實(shí)體識(shí)別實(shí)踐(上)第6課時(shí)實(shí)驗(yàn)課CRF命名實(shí)體識(shí)別實(shí)踐(下)各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):詞性標(biāo)注概述與方法導(dǎo)入環(huán)節(jié)(8分鐘)展示一段中文句子,讓學(xué)生嘗試標(biāo)注詞性分析人工標(biāo)注的困難和不一致性引出自動(dòng)詞性標(biāo)注的必要性新課講授(35分鐘)詞性標(biāo)注的定義和應(yīng)用價(jià)值(8分鐘)HMM在詞性標(biāo)注中的應(yīng)用原理(12分鐘)深度學(xué)習(xí)詞性標(biāo)注方法(10分鐘)jieba詞性標(biāo)注工具介紹(5分鐘)算法演示(5分鐘)Viterbi算法執(zhí)行過(guò)程的可視化演示課時(shí)小結(jié)(2分鐘)總結(jié)詞性標(biāo)注的主要方法預(yù)告下節(jié)課內(nèi)容第2課時(shí)(理論):命名實(shí)體識(shí)別基礎(chǔ)與CRF模型導(dǎo)入環(huán)節(jié)(10分鐘)展示新聞文本,讓學(xué)生識(shí)別其中的人名、地名、機(jī)構(gòu)名討論人工識(shí)別的規(guī)律和困難引出NER的概念和重要性新課講授(32分鐘)命名實(shí)體識(shí)別的定義和實(shí)體類型(8分鐘)BIO標(biāo)注體系詳解(7分鐘)條件隨機(jī)場(chǎng)(CRF)模型原理(12分鐘)CRF與HMM的區(qū)別和優(yōu)勢(shì)(5分鐘)案例分析(6分鐘)分析實(shí)際NER任務(wù)中的挑戰(zhàn)特征函數(shù)的設(shè)計(jì)思路課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)CRF在序列標(biāo)注中的優(yōu)勢(shì)預(yù)告深度學(xué)習(xí)方法第3課時(shí)(理論):深度學(xué)習(xí)NER與評(píng)價(jià)方法復(fù)習(xí)導(dǎo)入(5分鐘)回顧C(jī)RF模型原理提問(wèn):如何評(píng)價(jià)NER系統(tǒng)的性能?新課講授(35分鐘)深度學(xué)習(xí)在NER中的應(yīng)用(15分鐘)BiLSTM-CRF模型架構(gòu)(10分鐘)NER系統(tǒng)的評(píng)價(jià)指標(biāo)(10分鐘)對(duì)比分析(8分鐘)傳統(tǒng)方法與深度學(xué)習(xí)方法的對(duì)比不同模型的適用場(chǎng)景分析課時(shí)小結(jié)(2分鐘)總結(jié)NER方法的技術(shù)發(fā)展脈絡(luò)介紹實(shí)驗(yàn)課安排第4課時(shí)(實(shí)驗(yàn)):詞性標(biāo)注實(shí)踐實(shí)驗(yàn)準(zhǔn)備(5分鐘)檢查jieba庫(kù)安裝情況準(zhǔn)備測(cè)試文本數(shù)據(jù)jieba詞性標(biāo)注實(shí)踐(40分鐘)演示jieba.posseg模塊的使用方法(10分鐘)學(xué)生實(shí)現(xiàn)基本詞性標(biāo)注功能(15分鐘)詞性統(tǒng)計(jì)分析和可視化(15分鐘)HMM算法實(shí)現(xiàn)(40分鐘)講解HMM詞性標(biāo)注代碼結(jié)構(gòu)(15分鐘)學(xué)生跟隨實(shí)現(xiàn)核心算法(20分鐘)測(cè)試和調(diào)試程序(5分鐘)實(shí)驗(yàn)總結(jié)(5分鐘)比較jieba和HMM的標(biāo)注效果討論各方法的優(yōu)缺點(diǎn)第5課時(shí)(實(shí)驗(yàn)):CRF命名實(shí)體識(shí)別實(shí)踐(上)實(shí)驗(yàn)準(zhǔn)備(10分鐘)安裝sklearn-crfsuite庫(kù)準(zhǔn)備美食數(shù)據(jù)集理解BIO標(biāo)注體系數(shù)據(jù)預(yù)處理(30分鐘)語(yǔ)料初始化和格式轉(zhuǎn)換(15分鐘)BIO標(biāo)簽生成和驗(yàn)證(15分鐘)特征工程(40分鐘)設(shè)計(jì)特征提取函數(shù)(20分鐘)窗口切分和特征生成(20分鐘)實(shí)驗(yàn)小結(jié)(10分鐘)檢查數(shù)據(jù)預(yù)處理結(jié)果預(yù)告下次課模型訓(xùn)練內(nèi)容第6課時(shí)(實(shí)驗(yàn)):CRF命名實(shí)體識(shí)別實(shí)踐(下)模型訓(xùn)練(30分鐘)CRF模型參數(shù)設(shè)置和訓(xùn)練(20分鐘)模型性能評(píng)估和分析(10分鐘)模型應(yīng)用(40分鐘)實(shí)現(xiàn)實(shí)體預(yù)測(cè)功能(20分鐘)測(cè)試不同文本的識(shí)別效果(15分鐘)分析識(shí)別錯(cuò)誤和改進(jìn)方案(5分鐘)項(xiàng)目完善(15分鐘)優(yōu)化代碼結(jié)構(gòu)和注釋編寫實(shí)驗(yàn)報(bào)告成果展示(5分鐘)學(xué)生展示NER識(shí)別結(jié)果分享實(shí)驗(yàn)心得體會(huì)7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:詞性標(biāo)注綜合實(shí)踐實(shí)驗(yàn)?zāi)康恼莆誮ieba庫(kù)詞性標(biāo)注功能的使用方法深入理解HMM在詞性標(biāo)注中的應(yīng)用原理學(xué)會(huì)比較和評(píng)估不同詞性標(biāo)注方法實(shí)驗(yàn)內(nèi)容使用jieba.posseg進(jìn)行基本詞性標(biāo)注實(shí)現(xiàn)基于HMM的詞性標(biāo)注算法比較兩種方法的標(biāo)注效果實(shí)現(xiàn)詞性統(tǒng)計(jì)和可視化展示實(shí)驗(yàn)步驟導(dǎo)入相關(guān)庫(kù)和準(zhǔn)備測(cè)試數(shù)據(jù)使用jieba進(jìn)行詞性標(biāo)注并分析結(jié)果實(shí)現(xiàn)HMM算法的核心組件對(duì)比兩種方法的優(yōu)缺點(diǎn)生成詞性分布統(tǒng)計(jì)報(bào)告預(yù)期結(jié)果正確輸出兩種方法的詞性標(biāo)注結(jié)果理解HMM算法的工作機(jī)制能夠分析標(biāo)注質(zhì)量和適用場(chǎng)景核心代碼示例:

#jieba詞性標(biāo)注

importjieba.possegaspseg

words=pseg.cut("我愛(ài)北京天安門")

forword,flaginwords:

print(f"{word}/{flag}")

#HMM詞性標(biāo)注

defviterbi(obs_seq,pos_set,init_prob,trans_prob,emit_prob):

#實(shí)現(xiàn)Viterbi算法

pass實(shí)驗(yàn)二:CRF命名實(shí)體識(shí)別系統(tǒng)實(shí)驗(yàn)?zāi)康恼莆帐褂胹klearn-crfsuite進(jìn)行NER的完整流程學(xué)會(huì)設(shè)計(jì)有效的特征工程方案理解CRF模型在序列標(biāo)注中的優(yōu)勢(shì)實(shí)驗(yàn)內(nèi)容數(shù)據(jù)預(yù)處理和BIO標(biāo)簽轉(zhuǎn)換特征工程設(shè)計(jì)和實(shí)現(xiàn)CRF模型訓(xùn)練和參數(shù)調(diào)優(yōu)模型評(píng)估和實(shí)體識(shí)別測(cè)試實(shí)驗(yàn)步驟加載美食數(shù)據(jù)集并進(jìn)行格式化實(shí)現(xiàn)詞級(jí)和字級(jí)特征提取劃分訓(xùn)練集和測(cè)試集訓(xùn)練CRF模型并調(diào)整參數(shù)在測(cè)試集上評(píng)估模型性能對(duì)新文本進(jìn)行實(shí)體識(shí)別預(yù)期結(jié)果構(gòu)建完整的中文NER系統(tǒng)實(shí)現(xiàn)精確率85%以上的識(shí)別效果能夠識(shí)別地名、食物名等實(shí)體評(píng)價(jià)標(biāo)準(zhǔn)代碼實(shí)現(xiàn)正確性(35%)實(shí)驗(yàn)結(jié)果準(zhǔn)確性(30%)方法對(duì)比分析質(zhì)量(20%)實(shí)驗(yàn)報(bào)告完整性(15%)8.課后作業(yè)與拓展理論鞏固作業(yè)完成課后選擇題和操作題比較HMM、CRF、深度學(xué)習(xí)三種方法的優(yōu)缺點(diǎn)分析中文NER面臨的主要技術(shù)挑戰(zhàn)設(shè)計(jì)一個(gè)評(píng)估詞性標(biāo)注質(zhì)量的方案實(shí)踐編程任務(wù)擴(kuò)展CRF特征集,提升NER性能實(shí)現(xiàn)基于深度學(xué)習(xí)的詞性標(biāo)注模型構(gòu)建多領(lǐng)域的命名實(shí)體識(shí)別系統(tǒng)設(shè)計(jì)NER結(jié)果的可視化展示工具拓展閱讀材料《統(tǒng)計(jì)自然語(yǔ)言處理》第6-7章BERT在NER任務(wù)中的應(yīng)用研究中文分詞與詞性標(biāo)注技術(shù)綜述序列標(biāo)注任務(wù)的深度學(xué)習(xí)方法思考討論題為什么CRF比HMM更適合序列標(biāo)注任務(wù)?如何設(shè)計(jì)特征函數(shù)提升NER系統(tǒng)性能?深度學(xué)習(xí)方法對(duì)傳統(tǒng)NLP技術(shù)的沖擊和影響跨域NER系統(tǒng)面臨的主要技術(shù)挑戰(zhàn)9.教學(xué)評(píng)價(jià)過(guò)程評(píng)價(jià)課堂參與度(20%):主動(dòng)回答問(wèn)題、參與討論的積極性實(shí)驗(yàn)操作(40%):代碼編寫、調(diào)試、運(yùn)行的熟練程度團(tuán)隊(duì)協(xié)作(20%):小組實(shí)驗(yàn)中的配合和貢獻(xiàn)學(xué)習(xí)態(tài)度(20%):預(yù)習(xí)準(zhǔn)備和課后復(fù)習(xí)情況結(jié)果評(píng)價(jià)理論掌握(30%):概念理解和算法原理掌握程度編程實(shí)現(xiàn)(45%):代碼質(zhì)量、功能完整性和創(chuàng)新性問(wèn)題解決(15%):分析問(wèn)題和解決問(wèn)題的能力總結(jié)反思(10%):實(shí)驗(yàn)報(bào)告和學(xué)習(xí)心得質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)優(yōu)秀(90-100分):深入理解算法原理,代碼實(shí)現(xiàn)優(yōu)雅高效,有創(chuàng)新思考良好(80-89分):較好掌握核心概念,代碼基本正確,思路清晰中等(70-79分):基本理解主要內(nèi)容,實(shí)驗(yàn)完成度較高,需指導(dǎo)及格(60-69分):概念理解淺顯,代碼有錯(cuò)誤,完成基本任務(wù)評(píng)價(jià)建議注重理論與實(shí)踐的結(jié)合能力評(píng)估關(guān)注學(xué)生的算法理解深度鼓勵(lì)在特征工程中的創(chuàng)新嘗試重視代碼規(guī)范性和可讀性6學(xué)時(shí)安排說(shuō)明本章調(diào)整為6學(xué)時(shí)安排,在保持核心內(nèi)容完整性的基礎(chǔ)上進(jìn)行了優(yōu)化:理論課整合:將原4個(gè)理論課時(shí)合并為3個(gè),提高內(nèi)容密度實(shí)驗(yàn)課合并:將jieba和HMM實(shí)踐合并為一個(gè)綜合實(shí)驗(yàn)重點(diǎn)突出:更加強(qiáng)調(diào)CRF在NER中的核心作用實(shí)用導(dǎo)向:注重實(shí)際應(yīng)用能力的培養(yǎng)10.教學(xué)反思教學(xué)效果自評(píng)學(xué)生對(duì)HMM和CRF算法原理的理解程度實(shí)驗(yàn)代碼的完成質(zhì)量和運(yùn)行效果特征工程設(shè)計(jì)的創(chuàng)新性表現(xiàn)理論知識(shí)與實(shí)際應(yīng)用的結(jié)合能力學(xué)生反饋記錄算法原理講解的清晰度反饋實(shí)驗(yàn)難度和時(shí)間安排的合理性代碼示例的詳細(xì)程度需求對(duì)更多實(shí)際應(yīng)用案例的期望改進(jìn)措施增加算法可視化演示環(huán)節(jié)提供更多層次的練習(xí)題目?jī)?yōu)化實(shí)驗(yàn)指導(dǎo)文檔的詳細(xì)程度補(bǔ)充前沿技術(shù)發(fā)展動(dòng)態(tài)介紹下次授課調(diào)整建議預(yù)先錄制算法演示視頻供學(xué)生復(fù)習(xí)設(shè)計(jì)更多漸進(jìn)式的編程練習(xí)增加跨領(lǐng)域NER應(yīng)用案例分析強(qiáng)化深度學(xué)習(xí)方法的對(duì)比講解11.教學(xué)資源教材和參考書目主教材:《Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)》第二版,肖剛張良均,人民郵電出版社參考書:《統(tǒng)計(jì)自然語(yǔ)言處理》宗成慶,清華大學(xué)出版社《自然語(yǔ)言處理綜論》DanielJurafsky,JamesH.Martin《機(jī)器學(xué)習(xí)》周志華,清華大學(xué)出版社在線資源鏈接jieba分詞庫(kù):/fxsjy/jiebasklearn-crfsuite文檔:https://sklearn-crfsuite.readthedocs.io/PyTorchNLP教程:/tutorials/中文NER數(shù)據(jù)集:MSRA-NER、人民日?qǐng)?bào)標(biāo)注語(yǔ)料開(kāi)發(fā)環(huán)境和工具必需軟件:Python3.7+、JupyterNotebook推薦IDE:PyCharm、VSCode、Spyder核心庫(kù):jieba、sklearn-crfsuite、numpy、pandas、matplotlib深度學(xué)習(xí)庫(kù):torch、tensorflow、transformers(可選)數(shù)據(jù)集和代碼庫(kù)實(shí)驗(yàn)數(shù)據(jù):美食分詞數(shù)據(jù)集(food.txt)標(biāo)注工具:Brat、LabelStudio等在線標(biāo)注平臺(tái)評(píng)測(cè)工具:conlleval.py評(píng)估腳本示例代碼:HMM、CRF、BiLSTM完整實(shí)現(xiàn)代碼重要提醒實(shí)驗(yàn)前請(qǐng)確保所有依賴庫(kù)已正確安裝BIO標(biāo)注體系的理解是NER實(shí)驗(yàn)的關(guān)鍵特征工程設(shè)計(jì)直接影響CRF模型性能建議學(xué)生課前預(yù)習(xí)相關(guān)算法原理備注:本章為6學(xué)時(shí)安排,內(nèi)容涵蓋詞性標(biāo)注和命名實(shí)體識(shí)別兩大核心技術(shù),是后續(xù)高級(jí)NLP任務(wù)的重要基礎(chǔ)。通過(guò)理論與實(shí)踐相結(jié)合的教學(xué)方式,確保學(xué)生充分掌握相關(guān)技能。第6章關(guān)鍵詞提取教案1.教案基本信息課程名稱Python中文自然語(yǔ)言處理基礎(chǔ)與實(shí)戰(zhàn)課程類別選修適用專業(yè)人工智能類相關(guān)專業(yè)總學(xué)時(shí)64學(xué)時(shí)(其中理論32學(xué)時(shí),實(shí)驗(yàn)32學(xué)時(shí))總學(xué)分4.0學(xué)分本章學(xué)時(shí)6學(xué)時(shí)(其中理論3學(xué)時(shí),實(shí)驗(yàn)3學(xué)時(shí))章節(jié)名稱第6章關(guān)鍵詞提取授課教師授課時(shí)間2.教學(xué)目標(biāo)知識(shí)目標(biāo)了解關(guān)鍵詞提取技術(shù)的基本概念和應(yīng)用場(chǎng)景掌握基于統(tǒng)計(jì)的關(guān)鍵詞提取方法(TF-IDF、TextRank)掌握基于語(yǔ)義的關(guān)鍵詞提取方法(LSA、LDA)熟悉自動(dòng)提取文本關(guān)鍵詞的完整流程能力目標(biāo)能夠使用TF-IDF算法進(jìn)行關(guān)鍵詞提取能夠使用TextRank算法進(jìn)行關(guān)鍵詞提取能夠使用LSA算法進(jìn)行關(guān)鍵詞提取能夠?qū)Ρ炔煌惴ǖ男Ч⑦x擇合適的方法素質(zhì)目標(biāo)培養(yǎng)文本分析和信息提取的思維能力建立算法選擇和性能評(píng)估的意識(shí)養(yǎng)成數(shù)據(jù)驅(qū)動(dòng)決策的分析習(xí)慣提升解決實(shí)際文本處理問(wèn)題的綜合能力3.教學(xué)重點(diǎn)與難點(diǎn)教學(xué)重點(diǎn)關(guān)鍵詞提取的基本概念和應(yīng)用價(jià)值TF-IDF算法的原理和計(jì)算方法TextRank算法的圖模型構(gòu)建LSA/LSI算法的降維原理教學(xué)難點(diǎn)TF-IDF中詞頻和逆文檔頻率的權(quán)衡機(jī)制TextRank算法的圖構(gòu)建和PageRank迭代計(jì)算奇異值分解(SVD)在LSA中的應(yīng)用不同算法的適用場(chǎng)景和效果評(píng)估解決策略通過(guò)具體案例演示算法計(jì)算過(guò)程采用可視化方法展示圖模型結(jié)構(gòu)提供循序漸進(jìn)的編程實(shí)踐設(shè)計(jì)對(duì)比實(shí)驗(yàn)分析不同算法特點(diǎn)4.教學(xué)內(nèi)容與知識(shí)結(jié)構(gòu)主要知識(shí)點(diǎn)關(guān)鍵詞提取基礎(chǔ)模塊關(guān)鍵詞提取的定義和意義關(guān)鍵詞提取的應(yīng)用領(lǐng)域算法分類:統(tǒng)計(jì)方法vs語(yǔ)義方法統(tǒng)計(jì)方法模塊TF-IDF算法原理和計(jì)算TextRank算法和圖模型PageRank迭代計(jì)算語(yǔ)義方法模塊主題模型基本概念LSA/LSI算法和奇異值分解LDA算法原理實(shí)踐應(yīng)用模塊文本預(yù)處理技術(shù)算法實(shí)現(xiàn)和參數(shù)調(diào)優(yōu)效果評(píng)估和算法選擇知識(shí)結(jié)構(gòu)關(guān)系關(guān)鍵詞提取基礎(chǔ)為概念認(rèn)知層統(tǒng)計(jì)方法為傳統(tǒng)方法核心層語(yǔ)義方法為高級(jí)技術(shù)層實(shí)踐應(yīng)用為技能綜合層5.教學(xué)方法與手段理論教學(xué)方法概念講授法:系統(tǒng)講解關(guān)鍵詞提取基本概念算法分析法:詳細(xì)分析各種算法的原理和步驟案例演示法:通過(guò)具體例子展示計(jì)算過(guò)程對(duì)比分析法:比較不同算法的優(yōu)缺點(diǎn)實(shí)踐教學(xué)方法代碼演示法:現(xiàn)場(chǎng)編寫和運(yùn)行算法代碼實(shí)驗(yàn)探究法:通過(guò)實(shí)驗(yàn)驗(yàn)證算法效果項(xiàng)目驅(qū)動(dòng)法:以實(shí)際文本處理項(xiàng)目為載體參數(shù)調(diào)優(yōu)法:通過(guò)調(diào)整參數(shù)觀察效果變化教學(xué)工具和平臺(tái)JupyterNotebook開(kāi)發(fā)環(huán)境Python科學(xué)計(jì)算庫(kù)(numpy、pandas、sklearn)文本處理庫(kù)(jieba、gensim、networkx)可視化工具(matplotlib、wordcloud)6.教學(xué)過(guò)程設(shè)計(jì)課時(shí)安排總覽課時(shí)類型內(nèi)容第1課時(shí)理論課關(guān)鍵詞提取概述與TF-IDF算法第2課時(shí)理論課TextRank算法與圖模型第3課時(shí)理論課基于語(yǔ)義的方法(LSA與LDA)第4課時(shí)實(shí)驗(yàn)課TF-IDF算法實(shí)現(xiàn)與應(yīng)用第5課時(shí)實(shí)驗(yàn)課TextRank與LSA算法實(shí)現(xiàn)第6課時(shí)實(shí)驗(yàn)課綜合實(shí)踐與算法對(duì)比分析各課時(shí)教學(xué)環(huán)節(jié)設(shè)計(jì)第1課時(shí)(理論):關(guān)鍵詞提取概述與TF-IDF算法導(dǎo)入環(huán)節(jié)(10分鐘)展示新聞標(biāo)題和摘要,讓學(xué)生思考如何自動(dòng)提取關(guān)鍵詞介紹關(guān)鍵詞提取在搜索引擎、推薦系統(tǒng)中的應(yīng)用引出關(guān)鍵詞提取技術(shù)的重要性新課講授(32分鐘)關(guān)鍵詞提取的定義和應(yīng)用場(chǎng)景(8分鐘)算法分類:統(tǒng)計(jì)方法vs語(yǔ)義方法(7分鐘)TF-IDF算法的基本思想和公式(12分鐘)TF-IDF計(jì)算實(shí)例詳解(5分鐘)案例分析(6分鐘)使用具體文檔演示TF-IDF計(jì)算過(guò)程分析詞頻和逆文檔頻率的權(quán)衡作用課時(shí)小結(jié)(2分鐘)總結(jié)TF-IDF算法的核心思想預(yù)告下節(jié)課TextRank算法內(nèi)容第2課時(shí)(理論):TextRank算法與圖模型復(fù)習(xí)導(dǎo)入(5分鐘)回顧TF-IDF算法的基本原理提問(wèn):TF-IDF有什么局限性?新課講授(35分鐘)PageRank算法原理簡(jiǎn)介(8分鐘)TextRank算法的基本思想(10分鐘)圖模型構(gòu)建:節(jié)點(diǎn)和邊的定義(10分鐘)TextRank迭代計(jì)算公式(7分鐘)算法演示(8分鐘)繪制簡(jiǎn)單文本的詞匯關(guān)系圖演示TextRank值的迭代計(jì)算過(guò)程課時(shí)小結(jié)(2分鐘)強(qiáng)調(diào)TextRank的圖模型優(yōu)勢(shì)介紹下次課的語(yǔ)義方法第3課時(shí)(理論):基于語(yǔ)義的方法導(dǎo)入環(huán)節(jié)(8分鐘)分析統(tǒng)計(jì)方法的局限性提出語(yǔ)義理解的必要性介紹主題模型的基本思想新課講授(35分鐘)主題模型的基本假設(shè)(8分鐘)LSA算法和奇異值分解(12分鐘)LDA算法的概率模型(10分鐘)語(yǔ)義方法的優(yōu)缺點(diǎn)分析(5分鐘)方法對(duì)比(5分鐘)統(tǒng)計(jì)方法vs語(yǔ)義方法的適用場(chǎng)景算法選擇的影響因素課時(shí)小結(jié)(2分鐘)總結(jié)各種算法的特點(diǎn)預(yù)告實(shí)驗(yàn)課安排第4課時(shí)(實(shí)驗(yàn)):TF-IDF算法實(shí)現(xiàn)與應(yīng)用實(shí)驗(yàn)準(zhǔn)備(5分鐘)檢查實(shí)驗(yàn)環(huán)境和所需庫(kù)準(zhǔn)備實(shí)驗(yàn)數(shù)據(jù)集基礎(chǔ)實(shí)現(xiàn)(35分鐘)使用sklearn實(shí)現(xiàn)TF-IDF(15分鐘)手動(dòng)實(shí)現(xiàn)TF-IDF算法(20分鐘)參數(shù)調(diào)優(yōu)(35分鐘)調(diào)整詞匯過(guò)濾條件觀察效果(15分鐘)比較不同文本的關(guān)鍵詞提取結(jié)果(15分鐘)生成詞云圖可視化展示(5分鐘)實(shí)驗(yàn)總結(jié)(15分鐘)分析TF-IDF算法的實(shí)際效果討論算法的優(yōu)缺點(diǎn)布置預(yù)習(xí)任務(wù)第5課時(shí)(實(shí)驗(yàn)):TextRank與LSA算法實(shí)現(xiàn)TextRank實(shí)現(xiàn)(45分鐘)構(gòu)建詞匯共現(xiàn)圖(15分鐘)實(shí)現(xiàn)PageRank迭代算法(20分鐘)測(cè)試和調(diào)試程序(10分鐘)LSA算法實(shí)現(xiàn)(40分鐘)構(gòu)建詞-文檔矩陣(15分鐘)應(yīng)用奇異值分解(15分鐘)計(jì)算相似度和提取關(guān)鍵詞(10分鐘)實(shí)驗(yàn)分析(5分鐘)對(duì)比不同算法的運(yùn)行時(shí)間分析各算法的內(nèi)存消耗第6課時(shí)(實(shí)驗(yàn)):綜合實(shí)踐與算法對(duì)比分析綜合項(xiàng)目實(shí)施(50分鐘)選擇實(shí)際文本數(shù)據(jù)集(10分鐘)同時(shí)應(yīng)用三種算法提取關(guān)鍵詞(25分鐘)生成對(duì)比分析報(bào)告(15分鐘)效果評(píng)估(25分鐘)人工評(píng)估關(guān)鍵詞質(zhì)量(15分鐘)計(jì)算算法一致性指標(biāo)(10分鐘)成果展示(15分鐘)學(xué)生展示項(xiàng)目成果分享實(shí)驗(yàn)心得和發(fā)現(xiàn)討論算法改進(jìn)方案7.實(shí)驗(yàn)/實(shí)踐設(shè)計(jì)實(shí)驗(yàn)一:TF-IDF關(guān)鍵詞提取系統(tǒng)實(shí)驗(yàn)?zāi)康纳钊肜斫釺F-IDF算法的計(jì)算原理掌握使用sklearn和手動(dòng)實(shí)現(xiàn)TF-IDF的方法學(xué)會(huì)評(píng)估和優(yōu)化關(guān)鍵詞提取效果實(shí)驗(yàn)內(nèi)容使用sklearn.feature_extraction.text實(shí)現(xiàn)TF-IDF手動(dòng)編寫TF-IDF算法并對(duì)比結(jié)果調(diào)整參數(shù)(最小詞頻、最大文檔頻率等)觀察效果生成關(guān)鍵詞詞云圖進(jìn)行可視化展示實(shí)驗(yàn)步驟數(shù)據(jù)預(yù)處理:分詞、去停用詞、詞性過(guò)濾構(gòu)建詞匯表和文檔-詞頻矩陣計(jì)算TF值和IDF值計(jì)算TF-IDF值并排序選擇關(guān)鍵詞對(duì)比sklearn實(shí)現(xiàn)結(jié)果驗(yàn)證正確性預(yù)期結(jié)果成功提取文本關(guān)鍵詞理解TF-IDF計(jì)算的每個(gè)步驟能夠調(diào)優(yōu)參數(shù)提升提取效果核心代碼示例:

fromsklearn.feature_extraction.textimportTfidfVectorizer

importjieba

#文本預(yù)處理

defpreprocess(text):

words=jieba.cut(text)

return''.join([wforwinwordsiflen(w)>1])

#TF-IDF提取關(guān)鍵詞

vectorizer=TfidfVectorizer(max_features=1000)

tfidf_matrix=vectorizer.fit_transform(processed_texts)

feature_names=vectorizer.get_feature_names_out()實(shí)驗(yàn)二:TextRank算法實(shí)現(xiàn)實(shí)驗(yàn)?zāi)康睦斫釺extRank算法的圖模型構(gòu)建過(guò)程掌握PageRank迭代計(jì)算的實(shí)現(xiàn)方法學(xué)會(huì)使用networkx庫(kù)處理圖結(jié)構(gòu)實(shí)驗(yàn)內(nèi)容構(gòu)建詞匯共現(xiàn)圖模型實(shí)現(xiàn)PageRank迭代算法調(diào)整窗口大小和迭代次數(shù)參數(shù)可視化詞匯關(guān)系圖實(shí)驗(yàn)步驟設(shè)定滑動(dòng)窗口大小進(jìn)行分詞統(tǒng)計(jì)窗口內(nèi)詞匯共現(xiàn)關(guān)系構(gòu)建無(wú)向圖并設(shè)置邊權(quán)重應(yīng)用PageRank算法計(jì)算節(jié)點(diǎn)重要性根據(jù)重要性排序提取關(guān)鍵詞預(yù)期結(jié)果構(gòu)建完整的詞匯關(guān)系圖獲得穩(wěn)定的PageRank值提取高質(zhì)量的關(guān)鍵詞實(shí)驗(yàn)三:LSA算法關(guān)鍵詞提取實(shí)驗(yàn)?zāi)康睦斫鉂撛谡Z(yǔ)義分析的降維原理掌握奇異值分解在文本分析中的應(yīng)用學(xué)會(huì)使用gensim庫(kù)進(jìn)行主題建模實(shí)驗(yàn)內(nèi)容構(gòu)建詞-文檔矩陣應(yīng)用SVD進(jìn)行矩陣分解計(jì)算文檔-主題和詞-主題相似度基于相似度提取關(guān)鍵詞實(shí)驗(yàn)步驟構(gòu)建文檔集的詞匯字典生成BOW模型和TF-IDF權(quán)重使用TruncatedSVD進(jìn)行降維計(jì)算余弦相似度提取相似度最高的詞作為關(guān)鍵詞預(yù)期結(jié)果理解LSA的語(yǔ)義空間概念成功實(shí)現(xiàn)基于語(yǔ)義的關(guān)鍵詞提取對(duì)比語(yǔ)義方法與統(tǒng)計(jì)方法的差異評(píng)價(jià)標(biāo)準(zhǔn)算法實(shí)現(xiàn)正確性(3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論