




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第七章自然語言處理主講教師:逯波人工智能通識基礎1目錄自然語言處理的基礎概念01自然語言處理的發(fā)展歷史02自然語言處理的標準流程03自然語言處理的經(jīng)典模型04自然語言處理的常見應用052目錄自然語言處理的基礎概念0131自然語言處理的基礎概念1.1自然語言vs編程語言自然語言是人類社會發(fā)展過程中自然產(chǎn)生的語言,是最能體現(xiàn)人類智慧和文明的產(chǎn)物。自然語言是人類日常交流、表達情感最直接和方便的工具,承載情感、文化和模糊表達。人類歷史上以語言文字形式記載的知識占知識總量的80%以上。圖片來源:/s?id=1773120296040323390&wfr=spider&for=pc4編程語言是人類為精確控制計算機而創(chuàng)造的人工語言,是邏輯與創(chuàng)造力的結晶。編程語言是開發(fā)者將想法轉化為指令的橋梁,遵循嚴格的邏輯規(guī)則,具備精確性、結構化和無歧義的特性。在數(shù)字化時代,全球90%以上的科技產(chǎn)品都通過編程語言構建。5圖片來源:/question/24821788/answer/22697749901自然語言處理的基礎概念1.1自然語言vs編程語言自然語言與編程語言服務于不同的核心目標,這導致了兩者在語法規(guī)則、容錯能力和更新迭代上存在根本性分歧。自然語言具有模糊性與多義性,而編程語言必須遵循邏輯確定性。自然語言交流允許存在語病、重復甚至錯誤,而編程語言要求絕對精確。自然語言根據(jù)社會風俗文化持續(xù)演變,而編程語言必須保持語法規(guī)則的穩(wěn)定性。61自然語言處理的基礎概念1.1自然語言vs編程語言語法規(guī)則(GrammaticalRule)自然語言允許語法成分的省略和語序的靈活調(diào)整,人類依靠語境和常識自動補全邏輯關系。這種容錯性使交流更高效,但可能導致歧義。編程語言需要顯式且完整的語法結構。其語法規(guī)則如同數(shù)學公式,任何符號缺失、縮進錯誤或類型不匹配都會導致程序無法解析。7例子自然語言“如果下雨了就不去”=“下雨了就不去”編程語言ifx>0:print(“正數(shù)”),若缺少if會報錯1自然語言處理的基礎概念1.1自然語言vs編程語言上下文依賴(ContextDependency)自然語言的語義高度依賴上下文。同一詞匯或句子在不同語境中可能呈現(xiàn)完全不同的含義,且人類可通過背景知識、對話場景等隱性信息消除歧義。編程語言的上下文依賴需顯式聲明。變量、函數(shù)等必須在作用域內(nèi)明確定義后才能被調(diào)用,且其含義嚴格遵循代碼的靜態(tài)結構。8例子自然語言“蘋果”or編程語言代碼中未定義變量會報錯。1自然語言處理的基礎概念1.1自然語言vs編程語言容錯能力(ErrorTolerance)自然語言允許局部錯誤而不影響整體理解。人類可通過語義聯(lián)想、上下文補充或常識推理自動修正語法錯誤或信息缺失。編程語言對錯誤零容忍。任何語法違規(guī)或邏輯漏洞均會直接導致程序崩潰或輸出異常。9例子自然語言可以接受“大概七點”的時間表述編程語言3+“5”會因為類型不匹配報錯。1自然語言處理的基礎概念1.1自然語言vs編程語言1.2什么是自然語言處理10自然語言處理(NaturalLanguageProcessing,NLP)是計算機科學與人工智能領域的核心分支,其本質(zhì)在于構建人類語言與機器認知之間的雙向橋梁。NLP的主要目的如下:對語言結構進行精密的數(shù)學建模建立形式化的語法規(guī)則和語義表示專注于研發(fā)使計算機能夠理解、處理和生成人類語言的技術111自然語言處理的基礎概念1.2什么是自然語言處理在數(shù)字化設備普及的時代,互聯(lián)網(wǎng)上萬億的網(wǎng)頁、社交媒體和各類應用軟件包含了海量的信息。其中,超過90%的信息以自然語言形式存在,但這些數(shù)據(jù)往往具有模糊性、歧義性和非規(guī)范性特征。要讓計算機真正理解并處理這些復雜的人類語言信息,就必須依賴NLP技術。12平臺信息量估算信息類型百度數(shù)億次搜索請求。用戶輸入關鍵詞進行搜索,獲取網(wǎng)頁、圖片、視頻、新聞等結果。微信約10億條消息。好友聊天、群聊、公眾號推送、小程序通知等。微博約500萬條微博發(fā)布。用戶原創(chuàng)微博、轉發(fā)微博、評論、點贊等。抖音約數(shù)百萬條短視頻發(fā)布及播放。用戶上傳短視頻、短視頻瀏覽、點贊、評論、分享等。淘寶約數(shù)百萬次搜索、瀏覽及交易。用戶搜索商品、瀏覽商品詳情、下單購買等。小紅書約數(shù)百萬條筆記發(fā)布及瀏覽。用戶分享購物心得、生活經(jīng)驗、旅行攻略等圖文筆記。1自然語言處理的基礎概念1.2什么是自然語言處理作為語言學與計算機技術深度交融的前沿學科,NLP具備多種優(yōu)勢:支持自然語言交互:NLP技術實現(xiàn)了真正的人機自然語言對話。用戶無需掌握專業(yè)編程知識,只需用日常語言表達需求,即可獲得智能化的服務響應。高效處理海量復雜信息:面對互聯(lián)網(wǎng)每天產(chǎn)生的PB級文本和語音數(shù)據(jù),NLP技術展現(xiàn)出強大的自動化處理能力。實現(xiàn)個性化精準服務:NLP技術能夠深度解析用戶的語言風格、情感傾向和潛在需求,據(jù)此提供個性化的服務體驗。131自然語言處理的基礎概念1.2什么是自然語言處理NLP致力于打造無縫的人機溝通橋梁,其核心目標是讓機器獲得類人的語言能力——既能準確理解人類表達的各種語言形式,又能生成自然流暢的文本回應。14能夠理解自然語言的意義
自然語言理解(NaturalLanguageUnderstanding,NLU)以自然語言文本來表達給定的意圖、思想等
自然語言生成(NaturalLanguageGeneration,NLG)1自然語言處理的基礎概念1.2什么是自然語言處理1.3自然語言處理能做什么1516自然語言理解自然語言生成理解生成目標:處理人類用自然語言表達的數(shù)據(jù)。例如:實體識別、指代消解、情感分析等。目標:將語義理解“翻譯”成自然語言。例如:智能創(chuàng)作、機器翻譯、文本生成等。目標:人機交互或輔助人際交流。示例:智能聊天系統(tǒng)、自動摘要、自動字幕等。1自然語言處理的基礎概念1.3自然語言處理能做什么目錄自然語言處理的發(fā)展歷史021720世紀50年代的萌芽期、20世紀60年代到80年代的規(guī)則時代、20世紀90年代到21世紀初的統(tǒng)計時代、2008年2017年的深度學習時代以及2018年至今的大模型時代。2自然語言處理的發(fā)展歷史181947萌芽期WarrenWeaver提出利用計算機進行語言翻譯的可能性、圖靈測試發(fā)問“機器能否思考”、喬治城-IBM實驗實現(xiàn)俄語到英語的機器翻譯。1957規(guī)則時代1993統(tǒng)計時代2008深度時代NoamChomsky提出形式語言理論、聊天機器人ELIZA誕生、SHRDLU系統(tǒng)設計、開發(fā)EPISTLE文本校對系統(tǒng)。IBM推出統(tǒng)計機器翻譯、斯坦福大學開發(fā)概率上下文無關文法解析器、愛丁堡大學提出短語翻譯模型、谷歌翻譯正式發(fā)布。YoshuaBengio團隊將循環(huán)神經(jīng)網(wǎng)絡應用于語言建模、Google發(fā)布Word2Vec詞嵌入模型、Seq-to-Seq端到端翻譯模型、Transformer架構誕生。Google推出BERT革新理解任務、OpenAI發(fā)布GPT-3展現(xiàn)大模型潛力、DeepSeek開源百億參數(shù)大模型、GPT-4和Gemini實現(xiàn)文本、圖像、視頻統(tǒng)一處理。2018大模型時代2.1規(guī)則符號階段1946年,世界上第一臺計算機ENIAC誕生191947年,在ENIAC問世僅一年后,WarrenWeaver就前瞻性地提出了機器翻譯的構想,并在1949年發(fā)表具有里程碑意義的《Translation》備忘錄。圖片來源:/newspage/data/dtlandingsuper?nid=dt_4541929226313140397/a/371515757_7507882自然語言處理的發(fā)展歷史2.1規(guī)則符號階段1950年,AlanTuring在論文《ComputingMachineryandIntelligence》中提出圖靈測試。201954年喬治城大學與IBM合作的俄英翻譯系統(tǒng)成功演示,標志著NLP首次從理論走向實踐,該系統(tǒng)雖然僅能處理60多個固定句式,但標志著機器翻譯和NLP的第一次重大嘗試。圖片來源:/p/562138166?utm_id=0/AveryHzzz/article/details/1437151842自然語言處理的發(fā)展歷史2.1規(guī)則符號階段21語言學理論的突破和學術建制化的加速1957年NoamChomsky發(fā)表《SyntacticStructures》,創(chuàng)立了轉換生成語法理論。1954年ZelligHarris提出的分布分析法,1968年Fillmore提出的格語法理論。1961年國際計算語言學委員會組建,1962年機器翻譯和計算語言學學會成立,1965年召開首屆計算語言學大會。1974年《ComputationalLinguistics》期刊創(chuàng)刊。2自然語言處理的發(fā)展歷史2.1規(guī)則符號階段1966年JosephWeizenbaum開發(fā)了ELIZA系統(tǒng),通過簡單的模式匹配和腳本規(guī)則成功模擬了羅杰斯心理治療對話。221972年TerryWinograd開發(fā)的SHRDLU系統(tǒng)在受限的“積木世界”中實現(xiàn)了句法-語義一體化分析,能處理“把紅色積木放在綠色方塊上”等復雜指令。圖片來源:/articles/view/2172709100/8180e8ec00100xl1n?autocallup=no&isfromsina=no/s?id=1616544787050473942&wfr=spider&for=pc2自然語言處理的發(fā)展歷史2.1規(guī)則符號階段23日益凸顯的規(guī)則系統(tǒng)缺陷1975年MIT的MARGIE系統(tǒng)需2000條規(guī)則解析簡單故事,預示規(guī)則爆炸的危機。1989年Eurotra項目因規(guī)則庫過度膨脹導致系統(tǒng)僵化,暴露出符號范式的邊際效益衰減。1992年Brown語料庫的發(fā)布,標志著大規(guī)模文本資源的可用性突破,最終促使NLP研究在90年代逐步轉向數(shù)據(jù)驅動范式。2自然語言處理的發(fā)展歷史2.1規(guī)則符號階段2.2統(tǒng)計方法階段24251993年是NLP關鍵的轉折點,IBM研究院發(fā)表《TheMathematicsofStatisticalMachineTranslation》論文,正式提出統(tǒng)計機器翻譯的完整理論框架。其核心創(chuàng)新在于將翻譯過程建模為概率優(yōu)化問題,通過雙語平行語料訓練IBMModel1-5系列參數(shù),首次實現(xiàn)無需人工編寫轉換規(guī)則的翻譯系統(tǒng)。圖片來源:/J93-2003.pdf2自然語言處理的發(fā)展歷史2.2統(tǒng)計方法階段26統(tǒng)計方法持續(xù)深化發(fā)展1995年,斯坦福大學開發(fā)出首個概率上下文無關文法(PCFG)解析器,通過樹庫學習語法規(guī)則的概率分布,使句法分析準確率提升至80%以上。2001年,JohnLafferty提出的條件隨機場(CRF)模型,通過引入全局特征函數(shù),在命名實體識別任務上首次突破90%準確率,顯著優(yōu)于基于規(guī)則的系統(tǒng)。2001年Bengio團隊提出神經(jīng)網(wǎng)絡語言模型(NNLM),在保持N-gram高效性的同時,首次嘗試用分布式表示解決詞向量問題。2003年,愛丁堡大學的PhilippKoehn提出短語翻譯模型,將翻譯單元從單詞擴展到短語,通過捕捉局部上下文信息顯著提升翻譯效果。2自然語言處理的發(fā)展歷史2.2統(tǒng)計方法階段272003年,F(xiàn)ranzOch提出對數(shù)線性模型及其權重訓練方法,實現(xiàn)對翻譯候選的動態(tài)排序。這一框架使得短語翻譯模型在工業(yè)界開始廣泛采用。2004年,F(xiàn)ranzOch加入谷歌,并領導了谷歌翻譯的開發(fā)。2006年,谷歌翻譯作為一個免費服務正式發(fā)布,其基于統(tǒng)計機器翻譯的技術架構和大規(guī)模平行語料的應用,不僅降低了翻譯服務的門檻,也推動了統(tǒng)計機器翻譯研究的熱潮。2006年,谷歌正式推出谷歌翻譯服務圖片來源:/zh-CN/history-of-google-translate.html2自然語言處理的發(fā)展歷史2.2統(tǒng)計方法階段28統(tǒng)計方法面臨的挑戰(zhàn)N-gram語言模型受限于局部窗口,無法建?!爸髡Z-謂語”等長距離依賴。CRF模型依賴人工設計特征模板,開發(fā)成本高昂。統(tǒng)計機器翻譯需要千萬級平行語料,對小語種支持不足。2008年NIST評測顯示,統(tǒng)計方法的性能增長已進入平臺期。這些局限性最終促使研究者轉向端到端學習的深度神經(jīng)網(wǎng)絡方法,為NLP的下一階段革命埋下伏筆。2自然語言處理的發(fā)展歷史2.2統(tǒng)計方法階段2.3深度學習階段292008年,YoshuaBengio團隊首次將循環(huán)神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)應用于語言建模任務,展現(xiàn)出強大的時序處理能力。302011年微軟研究院將深度信念網(wǎng)絡與隱馬爾可夫模型結合,在語音識別任務中將詞錯誤率從22.7%降至17.5%,標志著深度學習在NLP領域的首個工業(yè)級應用突破。圖片來源:http://www.zhuanzhi.ai/document/e727995fe49a092a1e87441252595f2d?from=doc_sim_rec/newspage/data/dtlandingsuper?nid=dt_39461039913465939112自然語言處理的發(fā)展歷史2.3深度學習階段312013年,TomasMikolov等人提出的Word2Vec模型,通過淺層神經(jīng)網(wǎng)絡學習詞語的分布式表示,將語義相近的詞語映射到低維向量空間中的鄰近區(qū)域。2013年,斯坦福大學提出的GloVe模型從全局詞共現(xiàn)矩陣出發(fā),融合全局與局部信息,生成高質(zhì)量的詞向量。詞嵌入技術不僅提升了詞匯語義的表達能力,更為深度學習模型提供了高效的輸入表示方式,成為各類NLP模型的標準配置。文本嵌入的鼻祖論文Word2Vec斬獲了NeurIPS2023會議的時間檢驗獎,總引用量超4.7萬次,但在2013年ICLR會議慘遭拒稿。圖片來源:/abs/1301.37812自然語言處理的發(fā)展歷史2.3深度學習階段322014年,Google團隊將Seq2Seq框架應用于機器翻譯,采用編碼器-解碼器結構實現(xiàn)端對端的翻譯過程。該模型通過神經(jīng)網(wǎng)絡自動學習翻譯規(guī)則,顯著提升了翻譯質(zhì)量與效率。2015年,注意力機制的引入進一步增強了Seq2Seq模型對長序列的建模能力,使得模型能夠動態(tài)聚焦于與當前預測相關的上下文信息,成為處理復雜序列任務的關鍵性技術。圖片來源:/u011146203/article/details/1462440032自然語言處理的發(fā)展歷史2.3深度學習階段332017年,Vaswani等人在論文《AttentionIsAllYouNeed》中提出的Transformer架構,徹底改變了NLP的技術格局。其核心創(chuàng)新在于完全摒棄傳統(tǒng)的循環(huán)結構,采用自注意力機制建模序列中任意兩個位置之間的依賴關系,實現(xiàn)了高度的并行計算與長程依賴捕捉。Transformer的出色表現(xiàn)使其迅速成為NLP領域的主流模型,推動了預訓練-微調(diào)范式的興起,并為后續(xù)大模型時代的發(fā)展鋪平了道路。圖片來源:https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf/s?id=1794147830394803894&wfr=spider&for=pc2自然語言處理的發(fā)展歷史2.3深度學習階段2.4大模型階段3435NLP正式邁入大模型學習的新紀元2018年,Google發(fā)布的BERT模型革新了語言理解任務,革新了NLP理解任務的處理方式。BERT在問答、文本分類、命名實體識別等任務上達到當時最先進的表現(xiàn),開啟了預訓練模型結合任務微調(diào)的新范式。圖片來源:/weixin_39929595/article/details/111679309BERT模型與美國知名動畫片《芝麻街》里的虛擬人物同名2自然語言處理的發(fā)展歷史2.4大模型階段362018年,OpenAI推出GPT-1,雖參數(shù)規(guī)模較小,卻驗證了生成式預訓練模型的可行性。2019年,OpenAI的GPT-2展現(xiàn)了生成式模型的驚人潛力,其零樣本學習能力可完成新聞寫作、代碼生成等任務。2020年,GPT-3的問世標志著大模型進入工業(yè)化時代,催生了ChatGPT等實用化應用,使得自然語言交互技術走向大眾。圖片來源:/technology/adc7acc34e.htmlGPT模型以海量的參數(shù)規(guī)模取得了性能優(yōu)勢2自然語言處理的發(fā)展歷史2.4大模型階段372021年,OpenAI發(fā)布了CLIP和DALL-E模型,首次實現(xiàn)了文本與圖像的跨模態(tài)理解生成。2023年,GPT-4和Google的Gemini進一步整合文本、圖像、視頻統(tǒng)一理解與生成能力。2024年12月,Google又推出了Gemini2.0Flash版本,繼續(xù)強化多模態(tài)能力,并在2025年2月擴展了Gemini2.0系列,支持更廣泛的應用場景。圖片來源:/s?id=1795908659203189415&wfr=spider&for=pcGemini是一個由GoogleAI開發(fā)的大語言模型,參數(shù)數(shù)量達到了驚人的1370億。2自然語言處理的發(fā)展歷史2.4大模型階段38百度:文心一言阿里巴巴:通義千問深度求索:DeepSeek字節(jié)跳動:豆包中國移動:九天智能基座大模型圖片來源:/s?id=1831650660880103600&wfr=spider&for=pc中國在人工智能大模型領域快速推動技術落地應用2自然語言處理的發(fā)展歷史2.4大模型階段39從大模型學習階段的爆發(fā)可以看出,NLP的發(fā)展已超越單一任務的優(yōu)化,轉向對語言理解與生成本質(zhì)的探索。預訓練與多模態(tài)技術的結合,不僅提升了模型的泛化能力,更推動了AI向跨模態(tài)、跨任務通用智能的演進。隨著計算資源的持續(xù)進化與數(shù)據(jù)規(guī)模的進一步擴大,大模型技術將持續(xù)賦能自然語言處理,推動AI技術向更廣泛的應用場景滲透,為人類社會的智能化轉型提供核心驅動力。2自然語言處理的發(fā)展歷史2.4大模型階段目錄自然語言處理的標準流程0340自然語言處理的標準化流程可以分為文本預處理、特征提取、模型構建以及效果評估四大部分。41"剛看完《流浪地球2》太太太震撼了?。?!特效??炸裂,劇情比第一部更????!不過有些科學設定有點迷(比如量子計算機為啥能控制行星發(fā)動機???)推薦IMAX廳觀看,絕對值回票價~#國產(chǎn)科幻崛起#春節(jié)檔必看""剛看完流浪地球2太震撼了特效炸裂劇情比第一部更牛逼不過有些科學設定有點迷比如量子計算機為啥能控制行星發(fā)動機推薦IMAX廳觀看絕對值回票價""《流浪地球2》特效與劇情超越前作,但科學設定引發(fā)討論,推薦IMAX觀影體驗?!癛OUGEMETEORBLEU0.820.750.62文本預處理特征提取模型構建效果評估3自然語言處理的標準流程3.1文本預處理42語料收集獲取語料的途徑有很多種,最常見的方式就是直接下載一些開源的語料庫:英文語料庫PennTreebank(詳細語法標注)、WikiText(維基百科文本)、等、SNLI(自然語言推理)、MIMIC-III(臨床記錄和診斷數(shù)據(jù))。中文語料庫SogouCA(大規(guī)模新聞文本)、Weibo數(shù)據(jù)集(社交媒體短文本)、Douban評論數(shù)據(jù)集(海量用戶評論)、Baike數(shù)據(jù)集(高質(zhì)量百科條目)。圖片來源:/p/620228519包含了23個常見任務的中文數(shù)據(jù)集firefly-train-1.1M3自然語言處理的標準流程3.1文本預處理43文本清洗去除噪聲刪除與文本分析任務無關的信息,如HTML標簽、URL鏈接、圖片代碼等。處理缺省值對于缺失或不完整的數(shù)據(jù),可以選擇填充(如使用特定標記或算法預測)或刪除。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤拼寫糾正發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤處理特殊字符移除無意義符號、標點符號或者亂碼,同時保留情感符號和領域特定符號。圖片來源:/3自然語言處理的標準流程3.1文本預處理44圖片來源:/newspage/data/dtlandingsuper?nid=dt_4474647545680084148大小寫轉換將常規(guī)文本統(tǒng)一轉為小寫,同時保留專有名詞和特定縮寫的大寫。停用詞過濾刪除“的”、“是”等高頻無義詞,同時領域敏感停用詞。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤詞干提取將單詞簡化為其基本形式,或將變化的詞還原為原形。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤縮寫擴展借助詞典將縮寫詞擴寫為完整部分。標準化3自然語言處理的標準流程3.1文本預處理45通過預處理流程,原始文本被轉化為結構化程度高、規(guī)格統(tǒng)一的數(shù)據(jù),為后續(xù)特征提取過程奠定堅實基礎。在這一階段,文本被精心雕琢,噪聲被剔除或轉化,格式被統(tǒng)一規(guī)范,詞語邊界被清晰界定,使得機器學習模型能夠更高效地提取有價值的特征。值得注意的是,預處理并非一成不變的標準化流程,而需根據(jù)任務特性靈活調(diào)整,這也是構建健壯NLP系統(tǒng)的關鍵所在。3自然語言處理的標準流程3.1文本預處理3.2特征提取4647圖片來源:/p/583406299發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤One-Hot編碼最簡單的詞表示方法,通過構建維度等于詞典大小的稀疏向量來表示詞匯,每個詞對應向量中唯一為1的位置。這種方法雖然簡單直接,但面臨維度災難且無法表達語義關系。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤3自然語言處理的標準流程3.2特征提取48圖片來源:/p/d14d93d907a9發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤/7731.html詞袋模型在One-Hot編碼的基礎上引入了詞頻統(tǒng)計,不考慮語序和詞法的信息,每個單詞都是相互獨立的,將詞語放入一個“袋子”里,統(tǒng)計每個詞出現(xiàn)的頻率。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤/7731.html3自然語言處理的標準流程3.2特征提取49發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤TF-IDF算法為了更好地區(qū)分常用詞和專業(yè)術語的重要性,TF-IDF算法應運而生。其統(tǒng)計的方式主要是計算詞的頻率(TF)和逆向文檔頻率(IDF),并以此來確定每個詞的TF-IDF值,用來衡量它的重要程度。
3自然語言處理的標準流程3.2特征提取50發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤Word2Vec模型作為里程碑式的突破,在2013年由Google團隊提出,包含CBOW和Skip-gram兩種訓練方式,前者利用上下文的詞預測中心詞,后者利用中心詞預測上下文的詞。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤當你出生時,你在哭泣而大家都在微笑。CBOWSkip-gram當你出生時,你在哭泣而大家都在微笑。3自然語言處理的標準流程3.2特征提取51發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤GloVe算法進一步融合了全局統(tǒng)計信息與局部上下文窗口的優(yōu)勢,通過構建詞匯共現(xiàn)矩陣并優(yōu)化特定的目標函數(shù),在詞類比任務上較Word2Vec提升了5-10%的準確率。發(fā)現(xiàn)并糾正拼寫錯誤、語法錯誤或其他文本錯誤ELMo模型為突破Word2Vec和GloVe的多義詞問題,采用雙向LSTM模型學習深度語境化詞表示,從而可以生成上下文相關的詞向量,使得“蘋果手機”和“吃蘋果”中的“蘋果”獲得不同的向量表示。3自然語言處理的標準流程3.2特征提取52特征提取作為連接原始文本與機器學習模型的關鍵橋梁,其演進深刻反映了NLP領域的發(fā)展脈絡。隨著BERT等預訓練模型的發(fā)展,特征提取已逐漸與模型訓練相融合,但其核心目標始終是構建既保留語言本質(zhì)特征又便于機器處理的數(shù)值化表示。在實際應用中,需要根據(jù)具體任務需求選擇適當?shù)奶卣鞅硎痉椒?,傳統(tǒng)離散表示適合小規(guī)模數(shù)據(jù)和簡單任務,而分布式表示則在大數(shù)據(jù)復雜任務中展現(xiàn)出明顯優(yōu)勢。3.2特征提取3.3模型構建5354在NLP任務中,模型選擇需要綜合考慮任務復雜度、數(shù)據(jù)規(guī)模、計算資源等因素。模型類別統(tǒng)計模型深度學習大語言模型典型代表n-gram、HMM、CRF、樸素貝葉斯RNN、LSTM、TransformerBERT、GPT、DeepSeek核心特性基于概率統(tǒng)計、可解釋性強自動特征提取、層次化表達海量參數(shù)、自注意力機制優(yōu)勢訓練快、小數(shù)據(jù)表現(xiàn)好并行計算、處理序列數(shù)據(jù)企業(yè)級NLP應用、復雜語言理解局限性無法感知上下文、泛化能力弱訓練成本高、對數(shù)據(jù)質(zhì)量敏感計算資源需求大、黑箱問題突出3自然語言處理的標準流程3.3模型構建55NLP模型訓練的本質(zhì)是讓算法從海量文本數(shù)據(jù)中提煉語言規(guī)律。與圖像或語音不同,語言具有層次化結構(字詞-句子-篇章)、強上下文依賴及隱含情感傾向。訓練過程必須采用漸進式學習策略。隨后針對特定任務(如文本分類、對話生成)進行微調(diào),使模型適配領域特征。圖片來源:/7731.html3自然語言處理的標準流程3.3模型構建56模型調(diào)優(yōu)則是針對任務特性的持續(xù)優(yōu)化過程。面對語言數(shù)據(jù)的稀疏性(如專業(yè)術語低頻出現(xiàn))和長尾分布(大量非常見表達),模型需要特別關注樣本權重調(diào)整和損失函數(shù)設計,比如對罕見詞給予更高的學習權重。由于語言理解往往需要捕捉長距離依賴關系,調(diào)優(yōu)過程中需要仔細平衡模型的感受野大小與計算效率,這在處理篇章級文本時尤為關鍵。3自然語言處理的標準流程3.3模型構建57NLP模型訓練遵循“預訓練-微調(diào)-適配-迭代”四步循環(huán)。預訓練構建語言表征基礎,微調(diào)注入任務特異性,適配解決數(shù)據(jù)偏差,迭代實現(xiàn)性能躍升。最終目標是構建既能理解字面含義,又能推斷隱含意圖的智能語言處理系統(tǒng)。圖片來源:豆包AI3自然語言處理的標準流程3.3模型構建3.4效果評估5859精確率衡量模型預測為正例的樣本中有多少是真實目標。在虛假新聞檢測中,高精確率意味著極少誤傷真實新聞。召回率所有實際的正例樣本中,模型成功找出的比例。比如醫(yī)療文本里所有"癌癥"病例,模型能正確識別出90%,這就是高召回率。圖片來源:/video/BV1rL4y1F7uB//pins/25962740873自然語言處理的標準流程3.4效果評估60F1值平衡精確率和召回率的調(diào)和平均數(shù),適合需要兼顧精準和全面的場景。BLEU通過比對譯文和參考譯文中連續(xù)n個詞(n-gram)的匹配程度打分。它特別設計了BP懲罰機制,就像給作文字數(shù)設限。圖片來源:/creative/1247110907//question/detail/580563253自然語言處理的標準流程3.4效果評估61ROUGEBLEU指標的改進版。BLEU嚴格核對答案準確性,ROUGE則更在意答案完整性。METEOR綜合考慮了精確度和召回率。遇到同義詞或詞形變化時,它會翻開“外部知識詞典”對照評分。圖片來源:/newspage/data/dtlandingsuper?nid=dt_4541094057188823547/illustration/171082435.html3自然語言處理的標準流程3.4效果評估62語言任務就像性格迥異的多胞胎,機器翻譯追求信達雅,對話系統(tǒng)要察言觀色,情感分析得細膩入微。這就要求不同的語言任務需要不同的評估方式,比如用BLEU測翻譯質(zhì)量,用F1看分類精度,用人工評測檢驗對話流暢度。這些指標不是冰冷的數(shù)字,而是模型進步的“體檢報告”。如同優(yōu)秀的語言學習者既要通過標準化考試,更要展現(xiàn)創(chuàng)造性思維,真正智能的NLP系統(tǒng)也需在數(shù)字指標與人類認知的平衡中證明自己的語言掌握能力。3自然語言處理的標準流程3.4效果評估目錄自然語言處理的經(jīng)典模型046364n-gram最基礎也最重要的統(tǒng)計語言模型之一,其核心思想基于馬爾可夫假設,認為一個詞的出現(xiàn)概率僅與前面有限個詞相關。在具體實現(xiàn)時,文本會被分割為連續(xù)的n個詞組成的片段,通過統(tǒng)計這些片段在語料中的出現(xiàn)頻率來建立概率模型。范例“我愿意接觸人工智能”可分為1-gram(unigram):“我”、“愿意”等;2-gram(bigram):“我愿意”、“愿意接觸”等;3-gram(trigram):我愿意接觸”等。應用手機輸入法預測用戶輸入:"我想吃"系統(tǒng)3-gram概率較大選項:"蘋果"(0.15)、"火鍋"(0.12)等。4自然語言處理的經(jīng)典模型4.1傳統(tǒng)模型65隱馬爾可夫模型(HMM)經(jīng)典概率圖模型,由兩組序列和三個概率矩陣構成。其基本思路是:每個字在構造一個特定的詞語時都占據(jù)著一個確定的詞位。轉移概率矩陣描述狀態(tài)間的轉換規(guī)律,發(fā)射概率矩陣則反映各狀態(tài)下生成特定觀測值的可能性。圖片來源:/chart/yinmaekefumxa4自然語言處理的經(jīng)典模型4.1傳統(tǒng)模型66條件隨機場模型(CRF)相較于HMM具有三大優(yōu)勢:可以直接建模觀測序列的整體特征;能夠融入任意自定義特征;不存在嚴格的獨立性假設。在CRF的眼中,每個詞匯都是序列中的一個節(jié)點,它們之間通過復雜的邊(即特征依賴關系)相連,共同編織出文本的完整意義。應用醫(yī)療文本中的癥狀識別文本:"患者頭痛發(fā)熱三天"分析1:單個詞的特征(“頭痛”是癥狀詞)分析2:上下文模式(“患者...三天”常引導癥狀描述)結論:準確標注出“頭痛”和“發(fā)熱”為癥狀實體4自然語言處理的經(jīng)典模型4.1傳統(tǒng)模型4.2深度學習模型6768循環(huán)神經(jīng)網(wǎng)絡(RNN)記憶大師它在處理文本時,會巧妙地將當前讀到的詞匯與之前所記住的內(nèi)容融合起來,以此來達成對文本的深入理解。這種出色的記憶能力,使得RNN在處理諸如長序列文本數(shù)據(jù)等連續(xù)信息時,展現(xiàn)出獨特的優(yōu)勢。RNN模型被用于股價預測圖片來源:/product/10101170870833.html?cu=true&utm_source=baidu-juhe&utm_medium=kong&utm_campaign=t_1000151230_juhe4自然語言處理的經(jīng)典模型4.2深度學習模型69長短期記憶網(wǎng)絡(LSTM)配備了智能備忘錄的秘書在處理文本時,它會主動篩選信息,精準判斷哪些信息至關重要需要重點記??;哪些信息相對次要,可以忽略不計。這種“智能備忘錄”功能主要通過三個重要能力來實現(xiàn):信息過濾、新內(nèi)容評估、上下文調(diào)度。LSTM模型常被應用于機器人控制圖片來源:豆包AI4自然語言處理的經(jīng)典模型4.2深度學習模型70Transformer擁有“一目十行”超能力的讀者能夠同時關注文章中所有重要的部分。Transformer實現(xiàn)這一能力的關鍵,在于其獨特的自注意力機制。借助這一機制,文本中的每個詞都能夠直接與文中其他相關的詞建立聯(lián)系。其設計包含兩種極具創(chuàng)新性的亮點:多維理解、順序感知。Transformer模型與著名電影《變形金剛》同名圖片來源:/view/110454自然語言處理的經(jīng)典模型4.2深度學習模型4.3大語言模型7172BERTTransformer的雙向編碼器表示。通在大量語料庫進行預訓練,BERT學習到了豐富的語言表示能力,使其在學習文本時能同時看懂左邊和右邊的上下文信息。關鍵創(chuàng)新包括:掩碼語言建模、判斷句子順序。BERT模型采用掩碼語言學習方式圖片來源:/carolsun/p/14027222.html4自然語言處理的經(jīng)典模型4.3大語言模型73GPT生成式預訓練Transformer。與BERT類似,GPT也是一種預訓練語言模型。它就像個超級作者,根據(jù)前面寫的內(nèi)容,預測接下來該用什么詞,然后寫出通順連貫的文字。GPT的優(yōu)勢之處包括:順著往下寫、多任務適配。GPT開啟了AI創(chuàng)作時代圖片來源:/video/BV1CA6VYSEjF/4自然語言處理的經(jīng)典模型4.3大語言模型74DeepSeekDeepSeek就像是精打細算的創(chuàng)業(yè)公司,成本低卻很實用。DeepSeek采用了一種叫專家混合(MoE)的架構把工作分給不同專家。
它包含兩種優(yōu)化機制:更高效的注意力、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 解析卷-人教版八年級上冊物理聲現(xiàn)象《聲音的特性聲的利用》章節(jié)測試練習題(含答案詳解)
- 灌木修剪課件
- 澳優(yōu)知識產(chǎn)權防范培訓課件
- 考點攻克人教版八年級上冊物理機械運動《運動的描述》綜合練習試題(含詳細解析)
- 考點解析人教版八年級上冊物理《機械運動》定向練習試題(解析版)
- 難點解析-人教版八年級上冊物理聲現(xiàn)象《聲音的特性聲的利用》專項測試試卷(詳解版)
- 酒店中餐考試題及答案大全
- 難點詳解人教版八年級上冊物理聲現(xiàn)象《聲音的特性聲的利用》章節(jié)測試試卷(附答案詳解)
- 重難點解析人教版八年級上冊物理物態(tài)變化《熔化和凝固》專題測試練習題(含答案解析)
- 考點解析-蘇科版八年級物理下冊《力》專項測試試題(含答案解析版)
- 叮當快藥大健康生態(tài)圈戰(zhàn)略解析
- 數(shù)學評比活動方案
- TCPUMT 034-2025 工業(yè)數(shù)字孿生 數(shù)字模型與數(shù)據(jù)集成交換要求
- 曹植的故事課件小學生
- 【艾瑞咨詢】2024年中國健康管理行業(yè)研究報告494mb
- 施工作業(yè)安全管理制度
- 2025年房地產(chǎn)經(jīng)紀人考試題及答案
- 4.3禁止生物武器
- 康復治療技術專業(yè)實訓室設計方案
- 塔里木油田分公司新疆塔里木盆地吐孜洛克氣田開采礦山地質(zhì)環(huán)境保護與土地復墾方案
- 2025年中國鑄鋼件鑄鐵件鑄合件項目投資可行性研究報告
評論
0/150
提交評論