大語言模型與知識圖譜機會與挑戰(zhàn)_第1頁
大語言模型與知識圖譜機會與挑戰(zhàn)_第2頁
大語言模型與知識圖譜機會與挑戰(zhàn)_第3頁
大語言模型與知識圖譜機會與挑戰(zhàn)_第4頁
大語言模型與知識圖譜機會與挑戰(zhàn)_第5頁
已閱讀5頁,還剩86頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大語言模型與知識圖譜機會與挑戰(zhàn)張文浙江大學(xué)特聘研究員https://drops.dagstuhl.de/storage/08tgdk/tgdk-vol001/tgdk-vol001-issue001/TGDK.1.1.2/TGDK.1.1.2.pdf從知識表示的角度看從知識表示的角度看?知識表示–KnowledgeRepresentation?知識表示–KnowledgeRepresentation?顯式知識(ExplicitKnowledge)?非結(jié)構(gòu)化知識(文本、圖片、視頻等)?結(jié)構(gòu)化知識(編碼了邏輯信息的,知識圖譜、數(shù)據(jù)庫等)?長期共識:并不是所有的知識都適合顯示化表示?知識表示–KnowledgeRepresentation?顯式知識(ExplicitKnowledge)?非結(jié)構(gòu)化知識(文本、圖片、視頻等)?結(jié)構(gòu)化知識(編碼了邏輯信息的,知識圖譜、數(shù)據(jù)庫等)?長期共識:并不是所有的知識都適合顯示化表示?參數(shù)化知識(ParametricKnowledge)?并不是所有的參數(shù)化知識都能被轉(zhuǎn)化為顯式知識?知識表示–KnowledgeRepresentation?顯式知識(ExplicitKnowledge)?非結(jié)構(gòu)化知識(文本、圖片、視頻等)?結(jié)構(gòu)化知識(編碼了邏輯信息的,知識圖譜、數(shù)據(jù)庫等)?長期共識:并不是所有的知識都適合顯示化表示?參數(shù)化知識(ParametricKnowledge)?并不是所有的參數(shù)化知識都能被轉(zhuǎn)化為顯式知識?顯示的知識表示方法--參數(shù)化的知識表示方法–-混合的知識表示方法(知識圖譜大語言模型知識圖譜+大語言模型)?知識表示–KnowledgeRepresentation?顯式知識(ExplicitKnowledge)?非結(jié)構(gòu)化知識(文本、圖片、視頻等)問:圖書館館長的孩子中最出名的是誰??結(jié)構(gòu)化知識(編碼了邏輯信息的問:圖書館館長的孩子中最出名的是誰??長期共識:并不是所有的知識都適合顯示化表示?參數(shù)化知識(ParametricKnowledge)?并不是所有的參數(shù)化知識都能被轉(zhuǎn)化為顯式知識?顯示的知識表示方法--參數(shù)化的知識表示方法–-混合的知識表示方法(知識圖譜大語言模型知識圖譜+大語言模型)?知識表示和推理(顯式or隱式):?語言模型中知識的學(xué)習(xí)依賴的是統(tǒng)計模式,并不是真正的理解和推理。?LLM缺乏顯式的知識存儲,會產(chǎn)生高概率但錯誤的回答?LLM是否能夠具有directionalentailment的能力,推理概念包含關(guān)系??知識圖譜構(gòu)建成本高?LLM訓(xùn)練成本也很高?但是LLM可用性很強,讓AI從幕后到臺前?總結(jié):準確率V.S.召回率之間的均衡?知識表示和推理(顯式or隱式):?語言模型中知識的學(xué)習(xí)依賴的是統(tǒng)計模式,并不是真正的理解和推理。?LLM缺乏顯式的知識存儲,會產(chǎn)生高概率但錯誤的回答?LLM是否能夠具有directionalentailment的能力,推理概念包含關(guān)系??知識圖譜構(gòu)建成本高?LLM訓(xùn)練成本也很高?但是LLM可用性很強,讓AI從幕后到臺前?總結(jié):準確率V.S.召回率之間的均衡?高準確度的KG構(gòu)建方法?YAGO:>95%準確性?KnowledgeVault沒有產(chǎn)品化:在測試集上沒有達到99%準確率?基于LLM的KG構(gòu)建方法尚未達到高準確度的要求?總結(jié):高準確度的KG構(gòu)建方法有待研究?知識表示和推理(顯式or隱式):?語言模型中知識的學(xué)習(xí)依賴的是統(tǒng)計模式,并不是真正?LLM缺乏顯式的知識存儲,會產(chǎn)生高概率但錯誤的回答?LLM是否能夠具有directionalentailment的能力,概念含關(guān)系??知識圖譜構(gòu)建成本高?LLM訓(xùn)練成本也很高?但是LLM可用性很強,讓AI從幕后到臺前?總結(jié):準確率V.S.召回率之間的均衡?高準確度的KG構(gòu)建方法?YAGO:>95%準確性?KnowledgeVault沒有產(chǎn)品化:在測試集上沒有達到9%準?基于LLM的KG構(gòu)建方法尚未達到高準確度的要求?總結(jié):高準確度的KG構(gòu)建方法有待研究?LLM能否準確記憶和運用數(shù)值知識??人的生日/年齡等?長尾知識:?LLM到底記憶了多少知識??有實驗表明LLM對wikidata中尾部知識的記憶明顯差于頭部知識?但KG中可以準確存儲長尾的信息?長尾知識:?LLM到底記憶了多少知識??有實驗表明LLM對wikidata中尾部知識的記憶明顯差于頭部知識?但KG中可以準確存儲長尾的信息?訓(xùn)練數(shù)據(jù)中的偏見-->LLM輸出的偏見(是否會被放大?)?需要處理LLM訓(xùn)練數(shù)據(jù)中存在的偏見?從模型的參數(shù)知識中刪除知識,比在顯式知識中刪除難很多?長尾知識:?LLM到底記憶了多少知識??有實驗表明LLM對wikidata中尾部知識的記憶明顯差于頭部知識?但KG中可以準確存儲長尾的信息?訓(xùn)練數(shù)據(jù)中的偏見-->LLM輸出的偏見(是否會被放大?)?需要處理LLM訓(xùn)練數(shù)據(jù)中存在的偏見?從模型的參數(shù)知識中刪除知識,比在顯式知識中刪除難很多?可解釋性?知識圖譜在可解釋性需求很強的領(lǐng)域受到較大歡迎?LLM不可解釋,輸出是如何生成的?解析注意力值/模型反思/CoT/資料溯源等?即時訪問大規(guī)模文本語料?借用LLM對大規(guī)模文本進行處理和訪問,避免數(shù)據(jù)收集、數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)查詢?即時訪問大規(guī)模文本語料?借用LLM對大規(guī)模文本進行處理和訪問,避免數(shù)據(jù)收集、數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)查詢?提供更豐富的知識(LLMforKG)?LLM極大地簡化了知識工程流程?通過少樣本微調(diào)、提示便可以讓LLM學(xué)會實體識別、關(guān)系抽取、語法依存樹解析等?知識圖譜的構(gòu)建規(guī)模和質(zhì)量有望得到提升?將顯式知識和LLM進行交互,提升可應(yīng)用性?即時訪問大規(guī)模文本語料?借用LLM對大規(guī)模文本進行處理和訪問,避免數(shù)據(jù)收集、數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)查詢?提供更豐富的知識(LLMforKG)?LLM極大地簡化了知識工程流程?通過少樣本微調(diào)、提示便可以讓LLM學(xué)會實體識別、關(guān)系抽取、語法依存樹解析等?知識圖譜的構(gòu)建規(guī)模和質(zhì)量有望得到提升?將顯式知識和LLM進行交互,提升可應(yīng)用性?即時訪問大規(guī)模文本語料?借用LLM對大規(guī)模文本進行處理和訪問,避免數(shù)據(jù)收集、數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)查詢?提供更豐富的知識(LLMforKG)?LLM極大地簡化了知識工程流程?通過少樣本微調(diào)、提示便可以讓LLM學(xué)會實體識別、關(guān)系抽取、語法依存樹解析等?知識圖譜的構(gòu)建規(guī)模和質(zhì)量有望得到提升?將顯式知識和LLM進行交互,提升可應(yīng)用性?壓縮即是整合?傳統(tǒng)知識工程需要對沖突的信息進行整合?LLM壓縮文本信息自然地完成了這個過程?即時訪問大規(guī)模文本語料?借用LLM對大規(guī)模文本進行處理和訪問,避免數(shù)據(jù)收集、數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)查詢?提供更豐富的知識(LLMforKG)?LLM極大地簡化了知識工程流程?通過少樣本微調(diào)、提示便可以讓LLM學(xué)會實體識別、關(guān)系抽取、語法依存樹解析等?知識圖譜的構(gòu)建規(guī)模和質(zhì)量有望得到提升?將顯式知識和LLM進行交互,提升可應(yīng)用性LLM->KG:增強KGLLM->KG:增強KG的規(guī)模、質(zhì)量和可用性KG->LLM:提升、實例化、校驗LLM的輸出,增強LLM的可信度和可用性?壓縮即是整合?傳統(tǒng)知識工程需要對沖突的信息進行整合?LLM壓縮文本信息自然地完成了這個過程*表格均來結(jié)構(gòu)復(fù)雜**表格均來元數(shù)據(jù)定義不清:表格名稱,列名等大語言模型增強知識圖譜–表格知識抽取?表格預(yù)訓(xùn)練?TURL[1]大語言模型增強知識圖譜–表格知識抽取?表格預(yù)訓(xùn)練?TURL[1]?RPT[2]大語言模型增強知識圖譜–表格知識抽取?表格語義標注,大語言模型增強知識圖譜–表格知識抽取?表格語義標注?使用ChatGPT[2]大語言模型增強知識圖譜–表格知識抽取?表格語義標注?使用ChatGPT[2]挑戰(zhàn)與機會:?將表格轉(zhuǎn)化為序列的方法:轉(zhuǎn)化為序列才能輸入到?提取表格知識:LLM常被用于處理和理解表格,但是大語言模型增強知識圖譜–鏈接預(yù)測直推式鏈接預(yù)測直推式鏈接預(yù)測歸納式鏈接預(yù)測大語言模型增強知識圖譜–鏈接預(yù)測?增加文本信息KGBert[2]KGGPT[3]直推式鏈接預(yù)測直推式鏈接預(yù)測歸納式鏈接預(yù)測大語言模型增強知識圖譜–鏈接預(yù)測?機會與挑戰(zhàn)?LLM生成信息的正確性:?是否已經(jīng)包含在圖譜中了(實體有多個名稱)?鏈接預(yù)測的評估指標主要是排序指標,需要對所有候選集打分,這個對LLM是巨大的挑戰(zhàn)直推式鏈接預(yù)測?鏈接預(yù)測評估的是從已有三元組中預(yù)測新知識的能力,LLM是因為記得相關(guān)事實而輸出答案,還是推理得出很難判斷直推式鏈接預(yù)測?對于LLM沒有訓(xùn)練的領(lǐng)域,面對新知識,需要給語言模型輸入對應(yīng)的schema,設(shè)計prompt的比較復(fù)雜,需要多次嘗試,對于GPT4這樣的模型成本較高?將結(jié)構(gòu)信息融入LLM中歸納式鏈接預(yù)測大語言模型增強知識圖譜–三元組抽取LM-as-KB6432-6443大語言模型增強知識圖譜–三元組抽取LM-as-KB大語言模型增強知識圖譜–三元組抽取??Prompt優(yōu)化可以提升效果?增加信息可以提升效果?有害信息會降低效果?低資源信息效果不佳?Zero-shot能力不佳?模型記憶了訓(xùn)練數(shù)據(jù)?現(xiàn)在的LLM遠遠無法代替符號知識庫?有時不能準確召回事實LM-as-KB大語言模型增強知識圖譜–三元組抽取?LLM的一些傾向(biase)?忽略多角度的不同意見,遵從多數(shù)?LLM到底是學(xué)會的了可遷移的泛化性還是巧妙地利用了數(shù)據(jù)中的捷徑??三元組抽取的自動提示工程大語言模型增強知識圖譜–三元組抽取?LLM的一些傾向(biase)?忽略多角度的不同意見,遵從多數(shù)?LLM到底是學(xué)會的了可遷移的泛化性還是巧妙地利用了數(shù)據(jù)中的捷徑??三元組抽取的自動提示工程?機會與挑戰(zhàn)?實體消歧:不同詞組表示同一個實體、同一個詞組表示不同實體。沒出現(xiàn)在訓(xùn)練數(shù)據(jù)中的實體難消歧?處理長尾實體/理解并利用上下文信息進行消歧/提升指代消解效果?長尾實體:沒能正確記憶事實的時候會生成錯誤的信息?缺乏一致性?檢索增強/微調(diào)等技術(shù)可用?高精確度LLM-KG:?LLM如何能以準確率優(yōu)先??LLM是否可以用于校驗validation?缺乏信息出處大語言模型增強知識圖譜–本體模式構(gòu)建大語言模型增強知識圖譜–本體模式構(gòu)建規(guī)則和約束檢測?實體或事實之間是否有沖突?刪除錯誤信息?推理缺失信息大語言模型增強知識圖譜–本體模式構(gòu)建規(guī)則和約束檢測?實體或事實之間是否有沖突?刪除錯誤信息?推理缺失信息生成規(guī)則的方法:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論