基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取_第1頁
基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取_第2頁
基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取_第3頁
基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取_第4頁
基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

SpotterGPT基于大模型實現(xiàn)結(jié)構(gòu)化標(biāo)簽提取2024.07.06主講人:梁偉201引言02傳統(tǒng)算法方案及其局限03生成式大模型的優(yōu)勢與發(fā)展04系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)05實際效果與自動化能力分析業(yè)務(wù)需求靈活數(shù)據(jù)標(biāo)簽靈活數(shù)據(jù)標(biāo)簽產(chǎn)品迭代02用戶焦點挖掘?qū)τ诤A康挠脩袈晳絷P(guān)注點,聚焦用戶討論中心01各式各樣的數(shù)據(jù)采集源素材分類整理素材分類整理對于海量的社區(qū)用戶發(fā)布的素材難以快速檢索、分類整理03用戶畫像構(gòu)建對用戶需求和行為用戶畫像構(gòu)建對用戶需求和行為缺乏深刻理解,無銷策略、產(chǎn)品設(shè)計和服務(wù)方案,導(dǎo)致資源浪費和用戶滿意度下降05產(chǎn)品反饋通路對于用戶在各個渠速檢索并傳遞至有04易于分析的指標(biāo)平臺預(yù)期目標(biāo)用戶情感波動預(yù)測…活動策劃收益預(yù)估5.用戶情感波動預(yù)測…活動策劃收益預(yù)估車型上市實時輿情分析輿論事件輿情分析…4.車型上市實時輿情分析輿論事件輿情分析…3.統(tǒng)計結(jié)論站內(nèi)3.統(tǒng)計結(jié)論社區(qū)內(nèi)容打標(biāo)內(nèi)測圈打標(biāo)NPS問卷內(nèi)容打標(biāo)…2.社區(qū)內(nèi)容打標(biāo)內(nèi)測圈打標(biāo)NPS問卷內(nèi)容打標(biāo)…1.1.情緒分析舊款車型退市?戶情緒…行業(yè)痛點01提取準(zhǔn)確率現(xiàn),準(zhǔn)確率較低,無法滿足實際應(yīng)用數(shù)據(jù)分析,需要大量人工校準(zhǔn)。73%+準(zhǔn)確率002人力成本大量數(shù)據(jù)需要人工標(biāo)注,不僅耗時且標(biāo)準(zhǔn)不統(tǒng)一問題嚴(yán)重車展宣發(fā)內(nèi)測反饋線下活動NPS問卷人工標(biāo)注速度<100條/天03內(nèi)容覆蓋率且企業(yè)內(nèi)部形成數(shù)據(jù)孤島,無法聯(lián)動<10%抽樣比例傳統(tǒng)算法方案實體命名識別候選實體生成候選實體消歧實體命名識別候選實體生成候選實體消歧正確的實體對象通用命名正確的實體對象通用命名上下文擴充基于概率主題模型基于名稱字典基于詞向量分基于名稱字典字典匹配基于深度學(xué)習(xí)昨天上午九點多,在廣州實驗小學(xué)內(nèi)消防部門舉辦了一場消防知識宣傳講座。時間地點主體事件傳統(tǒng)模型VS生成式大模型傳統(tǒng)模型傳統(tǒng)模型傳統(tǒng)模型包括機器學(xué)習(xí)相關(guān)的經(jīng)典統(tǒng)計算法,如SVM/PCA/HMM等,同時也包括深度學(xué)習(xí)模型,如word2vec詞向量模型/RNN/LSTM/bert等。小而美傳統(tǒng)模型一般參數(shù)量較小而美傳統(tǒng)模型一般參數(shù)量較少,通過巧妙的結(jié)構(gòu)設(shè)計來適應(yīng)不同領(lǐng)域的分析要求。在訓(xùn)練后能勝任具體的下游任務(wù),能力一般但速度快。能力上限低知識容積小知識容積小訓(xùn)練開銷小訓(xùn)練開銷小(算力/數(shù)據(jù))通用性較差通用性較差生成式大模型生成式大模型據(jù)和參數(shù)進行訓(xùn)練,以生成人類類似的文本或回答自然語言的問題。能力上限高大而強能力上限高儲備世界知識訓(xùn)練開銷大適配所有NLP任務(wù)生成式大模型參數(shù)量很大,通過海量知識進行預(yù)訓(xùn)練后能勝任絕大部分NLP任務(wù),儲備世界知識訓(xùn)練開銷大適配所有NLP任務(wù)大模型應(yīng)用發(fā)展路徑RAGRAG法。該方法將信息檢索與生成式模型結(jié)合,通過從大型數(shù)據(jù)庫中檢索相關(guān)信息,再利用語言模型基于這些信息生成答案。04第三階段第三階段PPromptEngineering是設(shè)計prompts)術(shù)。這不需要修改模型本身,只需調(diào)整輸入格式。0303AgentAgent開放域回答知識密集型任務(wù)開放域回答知識密集型任務(wù)Agent)是一種能作的系統(tǒng)。基于大語言模型的智自動執(zhí)行任務(wù)。Fine-TuningFine-TuningFine-Tuning是指在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過使用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進行進一步訓(xùn)練,使模型適應(yīng)特定場景的任務(wù)需文本摘要總結(jié)文本生成增強文本翻譯文本摘要總結(jié)文本生成增強文本翻譯020101個人助手智能客服個人助手智能客服智能家居管理第二階段智能家居管理第二階段情感分析實體識別機器人規(guī)控情感分析實體識別機器人規(guī)控特定垂域文本分類第一階段特定垂域文本分類系統(tǒng)架構(gòu)關(guān)鍵技術(shù)項知識內(nèi)化注入大模型知識內(nèi)化是指通過各種方法使大規(guī)模語言模型能夠有效地吸收、記憶和利用現(xiàn),使模型能夠在其參數(shù)內(nèi)部編碼和內(nèi)化廣泛的知識。提示工程優(yōu)化提示工程優(yōu)化是設(shè)計、測試和優(yōu)化輸入提示,以提高大模型生成正確和有用輸出的效果。通過巧妙構(gòu)造輸入與輸出來提升模型的推理性能。自動化數(shù)據(jù)生產(chǎn)自動化數(shù)據(jù)生產(chǎn)是使用自動化工具和方法生成大規(guī)模訓(xùn)練數(shù)據(jù)集,這些數(shù)據(jù)型。該方法能夠大幅度降低數(shù)據(jù)獲取和人工標(biāo)注的成本。模型訓(xùn)練與更新大模型的訓(xùn)練與更新涉及構(gòu)建、優(yōu)化和定期更新大規(guī)模語言模型,以提升其在單一任務(wù)上的表現(xiàn)。定期更新維護下游數(shù)據(jù)集進行重新訓(xùn)練以及在新硬件和算法上的優(yōu)關(guān)鍵技術(shù)一:知識內(nèi)化注入我們遇到的第一個問題是如何讓大模型從標(biāo)簽庫中找到對應(yīng)的標(biāo)準(zhǔn)詞??方案一prompt提示中,讓模型從標(biāo)簽詞庫中找到合適的詞語進行組合實際效果:由于prompt長度過長的原因,訓(xùn)練和推理流程更為復(fù)雜。由于詞庫過大,導(dǎo)致模型擬合的效果不佳,模型無法從幾百個詞中準(zhǔn)確提取出正確的詞語。缺點:型上做驗證測試時,發(fā)現(xiàn)模型并不能很好的理解這一任務(wù)應(yīng)該來自于詞庫中,會遺忘大部分標(biāo)簽,隨機生成不在庫的標(biāo)簽。prompt長度大約2000字,推理速度極慢。結(jié)論:不可用??方案二將VOC詞對分批次放到prompt中,通過多次推理,綜合每次推理內(nèi)容輸出最終結(jié)果實際效果:將合理的對象詞與現(xiàn)象詞組合作為VOC詞庫,按照20個VOC為一組分為N組,每次分析讓模型在20個VOC中挑選正確的VOC進行輸出,最終將所有的VOC結(jié)果進行聚合。輸出內(nèi)容包含大量空結(jié)果,消耗了非常多的資源缺點:1.需要手動篩選一遍標(biāo)準(zhǔn)VOC詞對,將不合理的VOC詞對刪除,人工處理費時,且不便于拓展2.推理消耗資源過多,標(biāo)準(zhǔn)VOC詞對分為N組,3.模型輸出時,會存在大量無效結(jié)果,即VOC詞對中沒有合適的結(jié)果,浪費推理資源。結(jié)論:不可用??方案三通過訓(xùn)練數(shù)據(jù)將標(biāo)簽庫知識內(nèi)化,把標(biāo)簽作為知識的一部分,寫入到模型參數(shù)中去實際效果:取消prompt中的詞庫,通過擴展訓(xùn)練數(shù)據(jù),讓推理階段直接由模型推理句子中的存在的對象詞和現(xiàn)象詞。成功將【標(biāo)簽庫】這一知識內(nèi)化到模缺點:分錯誤情況據(jù)也需要調(diào)整,同時還需要重新訓(xùn)練模型結(jié)論:可用關(guān)鍵技術(shù)二:提示工程優(yōu)化調(diào)整詞庫注入方式將詞庫注入到訓(xùn)練數(shù)據(jù)中,通過訓(xùn)練數(shù)據(jù)讓模型內(nèi)化標(biāo)簽知識。設(shè)計輸出CoT過程在輸出部分設(shè)計推理過程的CoT,增加關(guān)鍵詞到標(biāo)簽的映射推理關(guān)系,幫助模型理解任務(wù)的真實數(shù)據(jù),提升模型準(zhǔn)確率90%針對詞庫中覆蓋率較低的標(biāo)簽,通過自動化合成數(shù)據(jù)生成該標(biāo)簽相關(guān)詞庫輔助匹配模型通過對比學(xué)習(xí)等方法訓(xùn)練一個小規(guī)模的詞庫輔助匹配模型,在后處理時過濾不在詞庫中的結(jié)果60%設(shè)計輸入prompt設(shè)計prompt,在提示中明確任務(wù),規(guī)范邊界條件,采用1shot結(jié)構(gòu)限制格式關(guān)鍵技術(shù)三:自動化數(shù)據(jù)生產(chǎn)關(guān)鍵技術(shù)四:模型訓(xùn)練與更新算法效果對比100500詞庫靈活性模型泛化能力標(biāo)簽完整性輸出穩(wěn)定性詞庫靈活性模型泛化能力標(biāo)簽完整性輸出穩(wěn)定性機器學(xué)習(xí)算法機器學(xué)習(xí)算法傳統(tǒng)算法缺點:2.模型能力弱,在復(fù)雜case上模型準(zhǔn)確率很低實體+情緒的關(guān)聯(lián)標(biāo)記準(zhǔn)確率73%+基于大模型算法基于大模型算法大模型算法優(yōu)點:分hard場景,模型本身具有很強的泛化能力。盡的提取,信息壓縮比低。準(zhǔn)確率92%+自動化能力部分自動化數(shù)據(jù)合成自動化數(shù)據(jù)合成合成準(zhǔn)確率達到93%將訓(xùn)練數(shù)據(jù)進行線上化管理后,我們設(shè)計了模型訓(xùn)練流水線,將訓(xùn)練數(shù)據(jù)進行線上化管理后,我們設(shè)計了模型訓(xùn)練流水線,自動將數(shù)化模型訓(xùn)練+評測提升效率70%自動化能力迭代迭代流程,以badcase數(shù)據(jù)為基礎(chǔ),自動對訓(xùn)練數(shù)據(jù)進行糾錯和補充。迭代速度迭代速度100908070605040302010010010090706045數(shù)據(jù)制備模型訓(xùn)練模型評測模型上線線上推理模型迭代算法開發(fā)流程應(yīng)用場景指標(biāo)平臺+PLM指標(biāo)平臺利用智能推薦系統(tǒng)提供更精細(xì)、更個性化的業(yè)務(wù)指標(biāo)分析。通過了解用戶的行為和偏好,可以生成針對不同用戶群體的定制化指標(biāo)報告。通過指標(biāo)平臺結(jié)合智能推薦,為不同區(qū)域用戶推薦更匹配的金融產(chǎn)品和車型選擇意見。將指標(biāo)平臺與產(chǎn)品生命周將指標(biāo)平臺與產(chǎn)品生命周期管理(PLM)結(jié)合,為企業(yè)提供更全面和高效的方式來管理產(chǎn)品從概念到退市的全過程。通過數(shù)據(jù)驅(qū)動產(chǎn)品定義,優(yōu)化資源分配,客戶反饋快速集成?;谥笜?biāo)平臺,依據(jù)用戶的行為、興趣和需求等要素,為用戶創(chuàng)建細(xì)致的描述分析,實現(xiàn)個性化精準(zhǔn)服務(wù),比如定向推送推送相關(guān)周邊產(chǎn)品將指標(biāo)平臺和大數(shù)據(jù)相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論