




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
SpotterGPT基于大模型實(shí)現(xiàn)結(jié)構(gòu)化標(biāo)簽提取2024.07.06主講人:梁偉201引言02傳統(tǒng)算法方案及其局限03生成式大模型的優(yōu)勢(shì)與發(fā)展04系統(tǒng)架構(gòu)與關(guān)鍵技術(shù)05實(shí)際效果與自動(dòng)化能力分析業(yè)務(wù)需求靈活數(shù)據(jù)標(biāo)簽靈活數(shù)據(jù)標(biāo)簽產(chǎn)品迭代02用戶焦點(diǎn)挖掘?qū)τ诤A康挠脩袈晳絷P(guān)注點(diǎn),聚焦用戶討論中心01各式各樣的數(shù)據(jù)采集源素材分類整理素材分類整理對(duì)于海量的社區(qū)用戶發(fā)布的素材難以快速檢索、分類整理03用戶畫像構(gòu)建對(duì)用戶需求和行為用戶畫像構(gòu)建對(duì)用戶需求和行為缺乏深刻理解,無(wú)銷策略、產(chǎn)品設(shè)計(jì)和服務(wù)方案,導(dǎo)致資源浪費(fèi)和用戶滿意度下降05產(chǎn)品反饋通路對(duì)于用戶在各個(gè)渠速檢索并傳遞至有04易于分析的指標(biāo)平臺(tái)預(yù)期目標(biāo)用戶情感波動(dòng)預(yù)測(cè)…活動(dòng)策劃收益預(yù)估5.用戶情感波動(dòng)預(yù)測(cè)…活動(dòng)策劃收益預(yù)估車型上市實(shí)時(shí)輿情分析輿論事件輿情分析…4.車型上市實(shí)時(shí)輿情分析輿論事件輿情分析…3.統(tǒng)計(jì)結(jié)論站內(nèi)3.統(tǒng)計(jì)結(jié)論社區(qū)內(nèi)容打標(biāo)內(nèi)測(cè)圈打標(biāo)NPS問(wèn)卷內(nèi)容打標(biāo)…2.社區(qū)內(nèi)容打標(biāo)內(nèi)測(cè)圈打標(biāo)NPS問(wèn)卷內(nèi)容打標(biāo)…1.1.情緒分析舊款車型退市?戶情緒…行業(yè)痛點(diǎn)01提取準(zhǔn)確率現(xiàn),準(zhǔn)確率較低,無(wú)法滿足實(shí)際應(yīng)用數(shù)據(jù)分析,需要大量人工校準(zhǔn)。73%+準(zhǔn)確率002人力成本大量數(shù)據(jù)需要人工標(biāo)注,不僅耗時(shí)且標(biāo)準(zhǔn)不統(tǒng)一問(wèn)題嚴(yán)重車展宣發(fā)內(nèi)測(cè)反饋線下活動(dòng)NPS問(wèn)卷人工標(biāo)注速度<100條/天03內(nèi)容覆蓋率且企業(yè)內(nèi)部形成數(shù)據(jù)孤島,無(wú)法聯(lián)動(dòng)<10%抽樣比例傳統(tǒng)算法方案實(shí)體命名識(shí)別候選實(shí)體生成候選實(shí)體消歧實(shí)體命名識(shí)別候選實(shí)體生成候選實(shí)體消歧正確的實(shí)體對(duì)象通用命名正確的實(shí)體對(duì)象通用命名上下文擴(kuò)充基于概率主題模型基于名稱字典基于詞向量分基于名稱字典字典匹配基于深度學(xué)習(xí)昨天上午九點(diǎn)多,在廣州實(shí)驗(yàn)小學(xué)內(nèi)消防部門舉辦了一場(chǎng)消防知識(shí)宣傳講座。時(shí)間地點(diǎn)主體事件傳統(tǒng)模型VS生成式大模型傳統(tǒng)模型傳統(tǒng)模型傳統(tǒng)模型包括機(jī)器學(xué)習(xí)相關(guān)的經(jīng)典統(tǒng)計(jì)算法,如SVM/PCA/HMM等,同時(shí)也包括深度學(xué)習(xí)模型,如word2vec詞向量模型/RNN/LSTM/bert等。小而美傳統(tǒng)模型一般參數(shù)量較小而美傳統(tǒng)模型一般參數(shù)量較少,通過(guò)巧妙的結(jié)構(gòu)設(shè)計(jì)來(lái)適應(yīng)不同領(lǐng)域的分析要求。在訓(xùn)練后能勝任具體的下游任務(wù),能力一般但速度快。能力上限低知識(shí)容積小知識(shí)容積小訓(xùn)練開銷小訓(xùn)練開銷小(算力/數(shù)據(jù))通用性較差通用性較差生成式大模型生成式大模型據(jù)和參數(shù)進(jìn)行訓(xùn)練,以生成人類類似的文本或回答自然語(yǔ)言的問(wèn)題。能力上限高大而強(qiáng)能力上限高儲(chǔ)備世界知識(shí)訓(xùn)練開銷大適配所有NLP任務(wù)生成式大模型參數(shù)量很大,通過(guò)海量知識(shí)進(jìn)行預(yù)訓(xùn)練后能勝任絕大部分NLP任務(wù),儲(chǔ)備世界知識(shí)訓(xùn)練開銷大適配所有NLP任務(wù)大模型應(yīng)用發(fā)展路徑RAGRAG法。該方法將信息檢索與生成式模型結(jié)合,通過(guò)從大型數(shù)據(jù)庫(kù)中檢索相關(guān)信息,再利用語(yǔ)言模型基于這些信息生成答案。04第三階段第三階段PPromptEngineering是設(shè)計(jì)prompts)術(shù)。這不需要修改模型本身,只需調(diào)整輸入格式。0303AgentAgent開放域回答知識(shí)密集型任務(wù)開放域回答知識(shí)密集型任務(wù)Agent)是一種能作的系統(tǒng)?;诖笳Z(yǔ)言模型的智自動(dòng)執(zhí)行任務(wù)。Fine-TuningFine-TuningFine-Tuning是指在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過(guò)使用特定領(lǐng)域或任務(wù)的數(shù)據(jù)進(jìn)行進(jìn)一步訓(xùn)練,使模型適應(yīng)特定場(chǎng)景的任務(wù)需文本摘要總結(jié)文本生成增強(qiáng)文本翻譯文本摘要總結(jié)文本生成增強(qiáng)文本翻譯020101個(gè)人助手智能客服個(gè)人助手智能客服智能家居管理第二階段智能家居管理第二階段情感分析實(shí)體識(shí)別機(jī)器人規(guī)控情感分析實(shí)體識(shí)別機(jī)器人規(guī)控特定垂域文本分類第一階段特定垂域文本分類系統(tǒng)架構(gòu)關(guān)鍵技術(shù)項(xiàng)知識(shí)內(nèi)化注入大模型知識(shí)內(nèi)化是指通過(guò)各種方法使大規(guī)模語(yǔ)言模型能夠有效地吸收、記憶和利用現(xiàn),使模型能夠在其參數(shù)內(nèi)部編碼和內(nèi)化廣泛的知識(shí)。提示工程優(yōu)化提示工程優(yōu)化是設(shè)計(jì)、測(cè)試和優(yōu)化輸入提示,以提高大模型生成正確和有用輸出的效果。通過(guò)巧妙構(gòu)造輸入與輸出來(lái)提升模型的推理性能。自動(dòng)化數(shù)據(jù)生產(chǎn)自動(dòng)化數(shù)據(jù)生產(chǎn)是使用自動(dòng)化工具和方法生成大規(guī)模訓(xùn)練數(shù)據(jù)集,這些數(shù)據(jù)型。該方法能夠大幅度降低數(shù)據(jù)獲取和人工標(biāo)注的成本。模型訓(xùn)練與更新大模型的訓(xùn)練與更新涉及構(gòu)建、優(yōu)化和定期更新大規(guī)模語(yǔ)言模型,以提升其在單一任務(wù)上的表現(xiàn)。定期更新維護(hù)下游數(shù)據(jù)集進(jìn)行重新訓(xùn)練以及在新硬件和算法上的優(yōu)關(guān)鍵技術(shù)一:知識(shí)內(nèi)化注入我們遇到的第一個(gè)問(wèn)題是如何讓大模型從標(biāo)簽庫(kù)中找到對(duì)應(yīng)的標(biāo)準(zhǔn)詞??方案一prompt提示中,讓模型從標(biāo)簽詞庫(kù)中找到合適的詞語(yǔ)進(jìn)行組合實(shí)際效果:由于prompt長(zhǎng)度過(guò)長(zhǎng)的原因,訓(xùn)練和推理流程更為復(fù)雜。由于詞庫(kù)過(guò)大,導(dǎo)致模型擬合的效果不佳,模型無(wú)法從幾百個(gè)詞中準(zhǔn)確提取出正確的詞語(yǔ)。缺點(diǎn):型上做驗(yàn)證測(cè)試時(shí),發(fā)現(xiàn)模型并不能很好的理解這一任務(wù)應(yīng)該來(lái)自于詞庫(kù)中,會(huì)遺忘大部分標(biāo)簽,隨機(jī)生成不在庫(kù)的標(biāo)簽。prompt長(zhǎng)度大約2000字,推理速度極慢。結(jié)論:不可用??方案二將VOC詞對(duì)分批次放到prompt中,通過(guò)多次推理,綜合每次推理內(nèi)容輸出最終結(jié)果實(shí)際效果:將合理的對(duì)象詞與現(xiàn)象詞組合作為VOC詞庫(kù),按照20個(gè)VOC為一組分為N組,每次分析讓模型在20個(gè)VOC中挑選正確的VOC進(jìn)行輸出,最終將所有的VOC結(jié)果進(jìn)行聚合。輸出內(nèi)容包含大量空結(jié)果,消耗了非常多的資源缺點(diǎn):1.需要手動(dòng)篩選一遍標(biāo)準(zhǔn)VOC詞對(duì),將不合理的VOC詞對(duì)刪除,人工處理費(fèi)時(shí),且不便于拓展2.推理消耗資源過(guò)多,標(biāo)準(zhǔn)VOC詞對(duì)分為N組,3.模型輸出時(shí),會(huì)存在大量無(wú)效結(jié)果,即VOC詞對(duì)中沒(méi)有合適的結(jié)果,浪費(fèi)推理資源。結(jié)論:不可用??方案三通過(guò)訓(xùn)練數(shù)據(jù)將標(biāo)簽庫(kù)知識(shí)內(nèi)化,把標(biāo)簽作為知識(shí)的一部分,寫入到模型參數(shù)中去實(shí)際效果:取消prompt中的詞庫(kù),通過(guò)擴(kuò)展訓(xùn)練數(shù)據(jù),讓推理階段直接由模型推理句子中的存在的對(duì)象詞和現(xiàn)象詞。成功將【標(biāo)簽庫(kù)】這一知識(shí)內(nèi)化到模缺點(diǎn):分錯(cuò)誤情況據(jù)也需要調(diào)整,同時(shí)還需要重新訓(xùn)練模型結(jié)論:可用關(guān)鍵技術(shù)二:提示工程優(yōu)化調(diào)整詞庫(kù)注入方式將詞庫(kù)注入到訓(xùn)練數(shù)據(jù)中,通過(guò)訓(xùn)練數(shù)據(jù)讓模型內(nèi)化標(biāo)簽知識(shí)。設(shè)計(jì)輸出CoT過(guò)程在輸出部分設(shè)計(jì)推理過(guò)程的CoT,增加關(guān)鍵詞到標(biāo)簽的映射推理關(guān)系,幫助模型理解任務(wù)的真實(shí)數(shù)據(jù),提升模型準(zhǔn)確率90%針對(duì)詞庫(kù)中覆蓋率較低的標(biāo)簽,通過(guò)自動(dòng)化合成數(shù)據(jù)生成該標(biāo)簽相關(guān)詞庫(kù)輔助匹配模型通過(guò)對(duì)比學(xué)習(xí)等方法訓(xùn)練一個(gè)小規(guī)模的詞庫(kù)輔助匹配模型,在后處理時(shí)過(guò)濾不在詞庫(kù)中的結(jié)果60%設(shè)計(jì)輸入prompt設(shè)計(jì)prompt,在提示中明確任務(wù),規(guī)范邊界條件,采用1shot結(jié)構(gòu)限制格式關(guān)鍵技術(shù)三:自動(dòng)化數(shù)據(jù)生產(chǎn)關(guān)鍵技術(shù)四:模型訓(xùn)練與更新算法效果對(duì)比100500詞庫(kù)靈活性模型泛化能力標(biāo)簽完整性輸出穩(wěn)定性詞庫(kù)靈活性模型泛化能力標(biāo)簽完整性輸出穩(wěn)定性機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)算法傳統(tǒng)算法缺點(diǎn):2.模型能力弱,在復(fù)雜case上模型準(zhǔn)確率很低實(shí)體+情緒的關(guān)聯(lián)標(biāo)記準(zhǔn)確率73%+基于大模型算法基于大模型算法大模型算法優(yōu)點(diǎn):分hard場(chǎng)景,模型本身具有很強(qiáng)的泛化能力。盡的提取,信息壓縮比低。準(zhǔn)確率92%+自動(dòng)化能力部分自動(dòng)化數(shù)據(jù)合成自動(dòng)化數(shù)據(jù)合成合成準(zhǔn)確率達(dá)到93%將訓(xùn)練數(shù)據(jù)進(jìn)行線上化管理后,我們?cè)O(shè)計(jì)了模型訓(xùn)練流水線,將訓(xùn)練數(shù)據(jù)進(jìn)行線上化管理后,我們?cè)O(shè)計(jì)了模型訓(xùn)練流水線,自動(dòng)將數(shù)化模型訓(xùn)練+評(píng)測(cè)提升效率70%自動(dòng)化能力迭代迭代流程,以badcase數(shù)據(jù)為基礎(chǔ),自動(dòng)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行糾錯(cuò)和補(bǔ)充。迭代速度迭代速度100908070605040302010010010090706045數(shù)據(jù)制備模型訓(xùn)練模型評(píng)測(cè)模型上線線上推理模型迭代算法開發(fā)流程應(yīng)用場(chǎng)景指標(biāo)平臺(tái)+PLM指標(biāo)平臺(tái)利用智能推薦系統(tǒng)提供更精細(xì)、更個(gè)性化的業(yè)務(wù)指標(biāo)分析。通過(guò)了解用戶的行為和偏好,可以生成針對(duì)不同用戶群體的定制化指標(biāo)報(bào)告。通過(guò)指標(biāo)平臺(tái)結(jié)合智能推薦,為不同區(qū)域用戶推薦更匹配的金融產(chǎn)品和車型選擇意見。將指標(biāo)平臺(tái)與產(chǎn)品生命周將指標(biāo)平臺(tái)與產(chǎn)品生命周期管理(PLM)結(jié)合,為企業(yè)提供更全面和高效的方式來(lái)管理產(chǎn)品從概念到退市的全過(guò)程。通過(guò)數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品定義,優(yōu)化資源分配,客戶反饋快速集成?;谥笜?biāo)平臺(tái),依據(jù)用戶的行為、興趣和需求等要素,為用戶創(chuàng)建細(xì)致的描述分析,實(shí)現(xiàn)個(gè)性化精準(zhǔn)服務(wù),比如定向推送推送相關(guān)周邊產(chǎn)品將指標(biāo)平臺(tái)和大數(shù)據(jù)相
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新入職護(hù)士授課課件
- 助貸業(yè)務(wù)員知識(shí)培訓(xùn)總結(jié)課件
- 期中考試英語(yǔ)試題命題規(guī)律分析
- 教學(xué)反思與評(píng)課稿撰寫模板
- 維果斯基與皮亞杰理論對(duì)比分析報(bào)告
- 剖宮產(chǎn)課件教學(xué)課件
- 醫(yī)療器械注冊(cè)申請(qǐng)材料規(guī)范
- 建筑工程驗(yàn)收流程規(guī)范文件
- 醫(yī)院信息系統(tǒng)維護(hù)手冊(cè)及案例
- 大學(xué)新生軍訓(xùn)開營(yíng)儀式講話稿范文
- 電力建設(shè)風(fēng)電工程智慧工地技術(shù)規(guī)范
- 蘇州瑞高新材料股份有限公司擴(kuò)建汽車內(nèi)飾環(huán)保合成革材料及膜塑復(fù)合制品項(xiàng)目報(bào)告表
- 保安公司安全生產(chǎn)管理制度
- 新課標(biāo)版2024-2025學(xué)年高中化學(xué)第一章從實(shí)驗(yàn)學(xué)化學(xué)第一節(jié)第2課時(shí)過(guò)濾蒸發(fā)及SO2-4的檢驗(yàn)學(xué)案新人教版必修1
- 2025年勞務(wù)合同范本
- 住校教官聘用協(xié)議
- 2025年醫(yī)護(hù)人員急診急救及防護(hù)知識(shí)競(jìng)賽題庫(kù)及答案(100題)
- 正規(guī)貸款服務(wù)居間協(xié)議范本
- 建筑工程投資合伙協(xié)議模板
- 日歷表2026年日歷中文版縱向排版周日開始帶周數(shù)帶節(jié)假日調(diào)休安排
- 私對(duì)公借款,公對(duì)私還款
評(píng)論
0/150
提交評(píng)論