《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱、授課計劃_第1頁
《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱、授課計劃_第2頁
《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱、授課計劃_第3頁
《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱、授課計劃_第4頁
《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱、授課計劃_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)大綱課程名稱:自然語言處理入門與實(shí)戰(zhàn)課程類別:必修適用專業(yè):人工智能類相關(guān)專業(yè)總學(xué)時:64學(xué)時(其中理論36學(xué)時,實(shí)驗(yàn)28學(xué)時)總學(xué)分:4.0學(xué)分課程的性質(zhì)自然語言處理技術(shù)作為智能科技的關(guān)鍵組成部分,在數(shù)字經(jīng)濟(jì)時代正廣泛應(yīng)用于多個領(lǐng)域,成為推動信息處理與知識服務(wù)的重要力量。自然語言處理代表了一種以技術(shù)創(chuàng)新為核心的新質(zhì)生產(chǎn)力,為經(jīng)濟(jì)結(jié)構(gòu)轉(zhuǎn)型注入新動力。為培養(yǎng)符合時代需求的數(shù)據(jù)分析人才,特開設(shè)自然語言處理入門與實(shí)戰(zhàn)課程。課程的任務(wù)通過本課程的學(xué)習(xí),使學(xué)生學(xué)會使用Python進(jìn)行中文分詞、詞性標(biāo)注、命名實(shí)體識別、關(guān)鍵詞提取、文本向量化、文本相似度計算和文本分析,并詳細(xì)拆解學(xué)習(xí)文本分類、情感分析、文本聚類和文本生成4個實(shí)戰(zhàn)案例,將理論與實(shí)踐相結(jié)合,為將來從事自然語言處理研究、工作奠定基礎(chǔ)。課程學(xué)時分配序號教學(xué)內(nèi)容理論學(xué)時實(shí)驗(yàn)學(xué)時其它1第1章導(dǎo)論212第2章文本基礎(chǔ)處理643第3章文本預(yù)處理與分析644第4章新聞自動分類345第5章“天問一號”事件用戶評論情感分析346第6章游客景區(qū)印象分析647第7章論文標(biāo)題自動生成648第8章基于TipDM大數(shù)據(jù)挖掘建模平臺的游客景區(qū)印象分析43總計3628教學(xué)內(nèi)容及學(xué)時安排理論教學(xué)序號章節(jié)名稱主要內(nèi)容教學(xué)目標(biāo)學(xué)時1導(dǎo)論了解自然語言處理的概念掌握自然語言處理的流程了解自然語言處理的應(yīng)用場景了解自然語言處理的常用工具了解Python的Anaconda發(fā)行版在Windows操作系統(tǒng)上安裝Anaconda了解大語言模型的基本概念了解自然語言處理的概念、流程與應(yīng)用場景了解Python常用的自然語言處理庫掌握Windows系統(tǒng)下Anaconda安裝了解大語言模型的基本概念22文本基礎(chǔ)處理了解常見文本數(shù)據(jù)源了解語料庫的常見類型和用途掌握語料庫的構(gòu)建與獲取方法了解常見的中文分詞方法掌握基于jieba的中文分詞方法了解詞性標(biāo)注的概念與規(guī)范了解命名實(shí)體識別的概念了解命名實(shí)體識別的常用算法掌握基于jieba的詞性標(biāo)注與命名實(shí)體識別方法了解常見關(guān)鍵詞提取算法掌握文本的關(guān)鍵詞提取方法了解常見的文本數(shù)據(jù)源。了解語料庫的基本概念、類型、用途和構(gòu)建原則。掌握中文分詞的基本概念和常用方法。掌握中文分詞工具jieba庫的使用方法。了解詞性標(biāo)注和命名實(shí)體識別的基本概念。熟悉jieba詞性標(biāo)注和命名實(shí)體識別的實(shí)現(xiàn)流程。了解關(guān)鍵詞提取的基本概念。掌握關(guān)鍵詞提取的算法。63文本預(yù)處理與分析了解文本向量化和相似度的基本概念了解常見的文本向量化方法掌握文本向量化的實(shí)現(xiàn)了解常見的文本相似度算法掌握文本相似度算法的實(shí)現(xiàn)了解結(jié)構(gòu)化分析了解語義化分析掌握常用的文本分析機(jī)器學(xué)習(xí)算法掌握常用的文本分析深度學(xué)習(xí)算法了解文本向量化和相似度的基本概念。了解文本離散化表示和文本分布式表示的常用方法。熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理。掌握常見的文本相似度計算方法。了解結(jié)構(gòu)化分析和語義化分析的常見類型。掌握文本分析的常用機(jī)器學(xué)習(xí)算法。了解文本分析的常用深度學(xué)習(xí)算法64新聞自動分類了解新聞自動分類的業(yè)務(wù)背景了解新聞自動分類的數(shù)據(jù)熟悉新聞自動分類的主要目標(biāo)和流程了解數(shù)據(jù)采集的過程對數(shù)據(jù)進(jìn)行探索分析對數(shù)據(jù)進(jìn)行文本預(yù)處理構(gòu)建SVM模型對訓(xùn)練后的分類模型進(jìn)行評價了解新聞文本分類案例的業(yè)務(wù)背景、數(shù)據(jù)說明和分析目標(biāo)。掌握數(shù)據(jù)探索的方法,對數(shù)據(jù)進(jìn)行基本的清洗和可視化展示。掌握文本預(yù)處理的方法,對文本進(jìn)行基礎(chǔ)處理和向量化。熟悉支持向量機(jī)分類算法,構(gòu)建分類模型和模型優(yōu)化。掌握分類模型的評價方法,對構(gòu)建的分類模型進(jìn)行模型評價。35“天問一號”事件用戶評論情感分析了解“天問一號”事件用戶評論情感分析的案例背景了解“天問一號”事件用戶評論情感分析的數(shù)據(jù)熟悉“天問一號”事件用戶評論情感分析案例的分析目標(biāo)和流程對數(shù)據(jù)進(jìn)行探索分析對數(shù)據(jù)進(jìn)行文本預(yù)處理對預(yù)處理后的數(shù)據(jù)繪制詞云圖使用樸素貝葉斯構(gòu)建情感分析模型對構(gòu)建的模型進(jìn)行評估對模型進(jìn)行優(yōu)化,并查看優(yōu)化結(jié)果了解“天問一號”事件用戶評論情感分析案例背景、數(shù)據(jù)和目標(biāo)。掌握數(shù)據(jù)探索的方法,對數(shù)據(jù)進(jìn)行可視化處理。掌握文本預(yù)處理的方法,對文本進(jìn)行中文分詞、去停用詞等處理和向量化。掌握樸素貝葉斯分類算法的使用方法,構(gòu)建分類模型和進(jìn)行模型優(yōu)化。掌握分類模型評估方法,對構(gòu)建的分類模型進(jìn)行模型評估。36游客景區(qū)印象分析了解游客景區(qū)印象分析的業(yè)務(wù)背景了解了解游客景區(qū)印象分析的數(shù)據(jù)熟悉游客景區(qū)印象分析的分析目標(biāo)和流程對數(shù)據(jù)進(jìn)行預(yù)處理繪制詞云圖分析景區(qū)印象構(gòu)建聚類模型分析景區(qū)特色基于聚類結(jié)果對提升景區(qū)美譽(yù)度進(jìn)行建議了解游客景區(qū)印象分析的背景、數(shù)據(jù)和分析目標(biāo)。掌握數(shù)據(jù)預(yù)處理的方法,對文本數(shù)據(jù)進(jìn)行排除垃圾評論、分詞與去停用詞、排除無效評論等操作。掌握詞云圖的繪制方法,繪制景區(qū)印象詞云圖。掌握基于K-Means聚類算法的文本挖掘方法,分析景區(qū)特色。67論文標(biāo)題自動生成了解論文標(biāo)題自動生成的應(yīng)用背景了解論文標(biāo)題自動生成的數(shù)據(jù)熟悉論文標(biāo)題自動生成的目標(biāo)和流程對數(shù)據(jù)進(jìn)行文本預(yù)處理加載預(yù)訓(xùn)練的mT5模型使用預(yù)處理后的數(shù)據(jù)進(jìn)行模型訓(xùn)練使用訓(xùn)練后的模型進(jìn)行標(biāo)題生成了解論文標(biāo)題自動生成的應(yīng)用背景。掌握文本預(yù)處理方法。調(diào)用預(yù)訓(xùn)練的mT5模型進(jìn)行論文標(biāo)題自動生成任務(wù),包括模型的加載、訓(xùn)練等操作。68基于TipDM大數(shù)據(jù)挖掘建模平臺的游客景區(qū)印象分析了解TipDM大數(shù)據(jù)挖掘建模平臺的功能熟悉使用TipDM大數(shù)據(jù)挖掘建模平臺實(shí)現(xiàn)游客景區(qū)印象分析的流程配置數(shù)據(jù)源對數(shù)據(jù)進(jìn)行預(yù)處理繪制詞云圖進(jìn)行目的地印象分析構(gòu)建聚類模型進(jìn)行目的地特色分析了解TipDM大數(shù)據(jù)挖掘建模平臺的相關(guān)概念和特點(diǎn)。熟悉使用TipDM大數(shù)據(jù)挖掘建模平臺實(shí)現(xiàn)游客景區(qū)印象分析的總體流程。掌握使用TipDM大數(shù)據(jù)挖掘建模平臺配置數(shù)據(jù)源的方法。掌握使用TipDM大數(shù)據(jù)挖掘建模平臺進(jìn)行記錄去重、刪除垃圾評論、刪除無效評論、拆分各景區(qū)數(shù)據(jù)等操作。掌握使用TipDM大數(shù)據(jù)挖掘建模平臺繪制詞云圖和進(jìn)行特征聚類等操作。4學(xué)時合計36實(shí)驗(yàn)教學(xué)序號實(shí)驗(yàn)項目名稱實(shí)驗(yàn)要求學(xué)時1NLP環(huán)境搭建在Windows系統(tǒng)上安裝Anaconda掌握J(rèn)upyterNotebook的常用功能12文本基礎(chǔ)處理獲取網(wǎng)絡(luò)語料庫對獲取的語料庫內(nèi)容進(jìn)行分析使用jieba庫的三種模式進(jìn)行中文分詞使用jieaba庫進(jìn)行詞性標(biāo)注和命名實(shí)體識別使用TF-IDF算法提取關(guān)鍵詞使用TextRank算法提取關(guān)鍵詞使用主題模型算法提取關(guān)鍵詞43文本預(yù)處理與分析使用Word2Vec模型進(jìn)行文本向量化使用Doc2Vec模型進(jìn)行文本向量化計算文本的余弦相似度和歐氏距離44新聞自動分類讀取采集的新聞數(shù)據(jù)集去除數(shù)據(jù)中的重復(fù)值、缺失值和干擾內(nèi)容(轉(zhuǎn)義符)繪制各欄目新聞的總發(fā)布量柱形圖繪制各欄目各月份的新聞發(fā)布量趨勢折線圖對數(shù)據(jù)進(jìn)行jieba分詞、去停用詞、劃分?jǐn)?shù)據(jù)集對文本構(gòu)建詞向量矩陣將訓(xùn)練集劃分為測試集和訓(xùn)練集通過網(wǎng)格搜索篩選模型構(gòu)建SVM模型使用模型精確率、測試集準(zhǔn)確率和混淆矩陣評估模型45“天問一號”事件用戶評論情感分析繪制不同情感類型評論的數(shù)量分布餅圖繪制點(diǎn)贊數(shù)前10的評論的柱狀圖評論數(shù)據(jù)去重處理評論數(shù)據(jù)中的特殊字符使用jieba庫進(jìn)行分詞去停用詞繪制評論數(shù)據(jù)的詞云圖繪制不同情感類型評論數(shù)據(jù)的詞云圖創(chuàng)建詞頻矩陣將數(shù)據(jù)集劃分為訓(xùn)練集和測試集構(gòu)建、訓(xùn)練模型并進(jìn)行分類預(yù)測使用準(zhǔn)確率、精確率、召回率和F1值評估模型對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化使用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行模型訓(xùn)練與模型評估46游客景區(qū)印象分析去重復(fù)評論和內(nèi)容性垃圾評論分詞與去停用詞排除無效評論拆分景區(qū)數(shù)據(jù)繪制景區(qū)印象詞云圖篩選景區(qū)并結(jié)合景區(qū)特征進(jìn)行聚類分析各景區(qū)的聚類結(jié)果結(jié)合聚類結(jié)果提出美譽(yù)度提升建議47論文標(biāo)題自動生成去除重復(fù)數(shù)據(jù)與檢測格式異常的數(shù)據(jù)創(chuàng)建自定義類加載與訓(xùn)練mT5模型生成標(biāo)題48基于TipDM大數(shù)據(jù)挖掘建模平臺的游客景區(qū)印象分析配置數(shù)據(jù)源配置“記錄去重”組件自定義“刪除垃圾評論”組件自定義“刪除無效評論”組件自定義“拆分各景區(qū)數(shù)據(jù)”組件配自定義“景區(qū)印象分析”組件自定義“景區(qū)評分排序”組件自定義“景區(qū)特征聚類”組件3學(xué)時合計28考核方式突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過程性考核。課程考核的成績構(gòu)成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、繪圖、分組聚合、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題型可采用判斷題、選擇、簡答、應(yīng)用題等方式。教材與參考資料教材徐鵬,張良均.自然語言入門與實(shí)戰(zhàn)[M].北京:電子工業(yè)出版社.2025.參考資料[1] 肖剛,張良均.Python中文自然語言處理基礎(chǔ)與實(shí)戰(zhàn)[M].北京:人民郵電出版社.2021.[2] 戴程,張良均.Python自然語言處理入門與實(shí)戰(zhàn)[M].北京:人民郵電出版社.2022.學(xué)院課程教學(xué)進(jìn)度計劃表(20~20學(xué)年第二學(xué)期) 課程名稱自然語言處理入門與實(shí)戰(zhàn) 授課學(xué)時64 參與教學(xué)教師 授課班級/人數(shù) 專業(yè)(教研室) 填表時間教務(wù)處編印年月課程教學(xué)目的通過本課程的學(xué)習(xí),使學(xué)生學(xué)會使用Python進(jìn)行中文分詞、詞性標(biāo)注、命名實(shí)體識別、關(guān)鍵詞提取、文本向量化、文本相似度計算和文本分析,并詳細(xì)拆解學(xué)習(xí)文本分類、情感分析、文本聚類和文本生成4個實(shí)戰(zhàn)案例,將理論與實(shí)踐相結(jié)合,為將來從事自然語言處理研究、工作奠定基礎(chǔ)。教學(xué)方法及手段本課程將采用理論與實(shí)踐相結(jié)合的教學(xué)方法。在理論上,通過任務(wù)引入概念、原理和方法。在實(shí)踐上,充分地利用現(xiàn)有的硬件資源,發(fā)揮學(xué)生主觀能動性,指導(dǎo)學(xué)生使用Python進(jìn)行文本基礎(chǔ)處理、預(yù)處理和分析。同時結(jié)合四個實(shí)戰(zhàn)案例,引導(dǎo)學(xué)生將所學(xué)知識與企業(yè)需求相結(jié)合,將知識活學(xué)活用。要求學(xué)生自己動手分析實(shí)例,學(xué)習(xí)基本理論和方法,結(jié)合已有的知識,適當(dāng)組織一些討論,充分調(diào)動學(xué)生的主觀能動性,以達(dá)到本課程的教學(xué)目的。課程考核方法突出學(xué)生解決實(shí)際問題的能力,加強(qiáng)過程性考核。課程考核的成績構(gòu)成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應(yīng)包括基本概念、繪圖、分組聚合、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換、模型構(gòu)建等部分,題型可采用判斷題、選擇、簡答、應(yīng)用題等方式。

《自然語言處理入門與實(shí)戰(zhàn)》教學(xué)日歷周次學(xué)時授課內(nèi)容作業(yè)要求備注13第1章導(dǎo)論第1章課后習(xí)題25第2章文本基礎(chǔ)處理(1)第2章課后習(xí)題33第2章文本基礎(chǔ)處理(2)第2章課后習(xí)題45第2章文本基礎(chǔ)處理(3)第3章文本預(yù)處理與分析(1)第3章課后習(xí)題53第3章文本預(yù)處理與分析(2)第3章課后習(xí)題65第3章文本預(yù)處理與分析(3)第4章新聞自動分類(1)第4章課后習(xí)題73第4章新聞自動分類(2)第4章課后習(xí)題85第4章新聞自動分類(3)第5章“天問一號”事件用戶評論情感分析(1)第5章課后習(xí)題93第5章“天問一號”事件用戶評論情感分析(2)第5章課后習(xí)題105第5章“天問一號”事件用戶評論情感分析(3)第6章游客景區(qū)印象分析(1)第6章課后習(xí)題113第6章游客景區(qū)印象分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論