




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1節(jié)知識圖譜融合概述第2節(jié)概念層融合——本體匹配第3節(jié)實例層融合——實體對齊第4節(jié)知識融合技術(shù)前沿浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫1第六講知識圖譜融合第1節(jié)知識圖譜融合概述浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫4早期知識工程的理想是構(gòu)建統(tǒng)一的知識庫人類知識體系復(fù)雜知識會隨時間演化同一領(lǐng)域內(nèi)不同組織構(gòu)建不同知識庫不同領(lǐng)域往往根據(jù)不同的需求獨立構(gòu)建知識庫5不同的系統(tǒng)采用的知識是異構(gòu)的,它們之大量的共指問題會給知識圖譜的應(yīng)用造成知識融合是解決知識圖譜異構(gòu)問題的有效途徑。知識融合的核心問題在于映射的生成。分析造成本體異構(gòu)和實例異構(gòu)的原因明確融合針對的具體對象語言異構(gòu):語法、邏輯、表達(dá)能力不匹配邏輯異構(gòu)?邏輯表示不邏輯異構(gòu)?邏輯表示不disjointWith有差異?Class在OWLFULL和OWL表達(dá)能力?不同語言表達(dá)能力差異?owl:Nothing,owl:Thing?采用不同的描述語言?JSONXMLOWL模型異構(gòu):概念化、解釋不匹配?概念化不匹配?概念范圍不匹配?模型覆蓋不匹配),?解釋不匹配?模型風(fēng)格不匹配?建模術(shù)語不匹配知識圖譜V.S.關(guān)系型數(shù)據(jù)庫模型之間的異構(gòu)問題的研究早在面向?qū)ο蠼:蛿?shù)據(jù)庫建模領(lǐng)域中就已經(jīng)開展了,然a.形式靈活,可擴展性好b.包含豐富語義信息,可進行推理a.缺乏有效的處理工具,大規(guī)模處理需要借助數(shù)據(jù)庫技術(shù)9b.知識圖譜不能代替數(shù)據(jù)庫,兩者互有所長9數(shù)據(jù)清洗構(gòu)建的知識圖譜存在異構(gòu)性知識融合是重要的預(yù)處理步驟之一數(shù)據(jù)集成不同知識圖譜可能存在重疊的知識融合多個不同來源的知識圖譜重用現(xiàn)有的知識合并多個知識圖譜:本體層匹配等價類、子類等價屬性、子屬性實例層匹配等價實例本體匹配(OntologyMatching)發(fā)現(xiàn)(模式層)等價或相似的類、屬性或關(guān)系知識融合本體對齊、本體映射知識融合實體對齊(EntityAlignment)發(fā)現(xiàn)指稱真實世界相同對象的不同實例實體消解、實例匹配知識融合:即合并兩個知識圖譜,基本的問題都是研究怎樣將來自多個來源的關(guān)于同一個實體或概念的描述信息融合起來。語言層面和模型層面的不匹配是導(dǎo)致知識圖譜異構(gòu)的本質(zhì)原因知識融合旨在將不同的知識圖譜融合為統(tǒng)一、一致、簡潔的形式,為使用不同知識圖譜的應(yīng)用程序之間的交互建立互操作性。謝謝大家!第六講知識圖譜融合第2節(jié)概念層融合——本體匹配浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫本體是領(lǐng)域知識規(guī)范的抽象和描述,是表達(dá)、共享、重用知識的方法真實世界的模型術(shù)語集術(shù)語的含義形式化邏輯一階謂詞邏輯術(shù)語匹配方法基于字符串基于語言結(jié)構(gòu)匹配方法基于字符串的方法:直接比較表示本體成分的術(shù)語的字符串結(jié)構(gòu)規(guī)范化連接符正規(guī)化:正規(guī)化單詞的換行連接符等消除無用詞:如“to”和“a”相似度度量方法Levenshtein距離,即最小編輯距離,目的是用最少的編輯操作將一個字符串轉(zhuǎn)換成另一個。舉個例子,計算Lvensshtain與Levenshtein間的編輯距離:上述講Lvensshtain轉(zhuǎn)換為Levenshtein,總共操作3次,編輯距離也就是3LevensteinDistance是典型的動態(tài)規(guī)劃問題,可以通過動態(tài)規(guī)劃算法計算,具體公式如下:其中,+1表示的是插入,刪除和替換操作的代價。一種常用來比較兩個字符串的直接方法是漢明距離,它計算兩個字符中字符出現(xiàn)位置的不同。還可進一步精確度量兩字符串包含共同部分的比例,即子串相似度。Dice系數(shù)用于度量兩個集合的相似性,因為可以把字符串理解為一種集合,因此Dice距離也會用于度量字符串的相似性,Dice系數(shù)定義如下:以Lvensshtain和Levenshtein為例,兩者的相似度為2*9/(11+11)=0.82Jaccard系數(shù)適合處理短文本的相似度,定義如下可以看出與Dice系數(shù)的定義比較相似。兩種方法,將文本轉(zhuǎn)換為集合,除了可以用符號分格單詞外,還可以考慮用n-gram分割單詞,用n-gram分割句子等來構(gòu)建集合,計算相似度。TF-IDF主要用來評估某個字或者用某個詞對一個文檔的重要程度。其中:舉個例子,比如某個語料庫中有5萬篇文章,含有“健康”的有2萬篇,現(xiàn)有一篇文章,共1000個詞,‘健康’出現(xiàn)30次,則simTF-IDF=30/1000*log(50000/(20000+1))=0.012?;谡Z言的方法:基于語言的方法依靠自然語言處理技術(shù)尋找概念或關(guān)系之間的聯(lián)系。內(nèi)部方法使用語言的內(nèi)部屬性,如形態(tài)和語法特點,尋找同一字符串的不同語言形態(tài),如Apple外部方法術(shù)語匹配的原理核心思想:將文檔變?yōu)橄蛄康男问剑ㄟ^向量相似度實現(xiàn)文檔匹配本體中的概念和屬性往往含有大量的文本信息將待匹配的對象的相關(guān)文本組成成文檔的形式,再轉(zhuǎn)換為文檔向量虛擬文檔的構(gòu)建概念的語言學(xué)描述:本地名、標(biāo)簽、注釋匿名結(jié)點的語言學(xué)描述:前向鄰居的語言學(xué)描述概念的鄰居:主語鄰居、謂語鄰居、賓語鄰居Constructingvirtualdocumentsforontologymatching.(WWW2006)結(jié)構(gòu)匹配的原理核心思想:利用本體的結(jié)構(gòu)信息來彌補文本信息量不足的情況本體中的概念和屬性往往有大量相關(guān)的其他概念和屬性,組成了一種圖結(jié)構(gòu)結(jié)構(gòu)匹配器不采用圖匹配技術(shù),后者代價高昂且效果不理想結(jié)構(gòu)匹配器間接的結(jié)構(gòu)匹配器直接的結(jié)構(gòu)匹配器Anchor-PROMPT:Usingnon-localcontextforsemanticmatching.(IJCAI2001)匹配工具僅適用于小型本體,O(n2)許多應(yīng)用需要匹配大型本體,如生命科學(xué)本體Matchinglargeontologies:Adivide-and-conquerapproach.(DKE2008)為什么要分塊記錄進行一一鏈接的時間復(fù)雜度為O(|M|*|N|)基于Hash函數(shù)對于記錄x有hash(x)=hi,則x映射到與關(guān)鍵字hi綁鄰近分塊排序鄰居法Canopy聚類紅黑集覆蓋法本體匹配側(cè)重發(fā)現(xiàn)(模式層)等價或相似的類、屬性或關(guān)系,目前已有基于術(shù)語匹配和結(jié)構(gòu)匹配等方法。大規(guī)模本體匹配通常采用先分塊后匹配的方式第六講知識圖譜融合第3節(jié)實例層的融合——實體對齊浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫實體對齊側(cè)重發(fā)現(xiàn)指稱真實世界相同對象的不同實例與本體對齊類似規(guī)模大,關(guān)系簡單實體意義相近,不同領(lǐng)域的稱謂實例(Instance):知識工程領(lǐng)域):記錄(Record):數(shù)據(jù)庫對象(Object):知識工程領(lǐng)域傳統(tǒng)方法等價關(guān)系推理相似度計算基于表示學(xué)習(xí)的方法基于等價關(guān)系推理基于相似度計算計算特征實體標(biāo)簽信息實體名、昵稱、別名人工定義特征公共鄰居、詞向量、計算相似度基于Embeddng的實體對齊核心思想:基于表示學(xué)習(xí)技術(shù),將知識圖譜中的實體和關(guān)系都映射成低維空間向量,合并預(yù)先匹配好的實體,把兩個網(wǎng)絡(luò)合并為一個網(wǎng)絡(luò),用單一網(wǎng)絡(luò)的嵌入表示進行嵌入。在TransE基礎(chǔ)上增加一個實體對齊損失,采用的線性轉(zhuǎn)換矩陣實現(xiàn)實體對齊AJointEmbeddingMethodforEntityAlignmentofKnowledgeBases先用單一網(wǎng)絡(luò)的嵌入模型分別訓(xùn)練兩個網(wǎng)絡(luò),然后用一些預(yù)先匹配好的實體訓(xùn)練一個線性變換對齊兩個向量空間。先用單一網(wǎng)絡(luò)的嵌入模型分別訓(xùn)練兩個網(wǎng)絡(luò),然后用一些預(yù)先匹配好的實體訓(xùn)練一個線性變換對齊兩個向量空間。MultilingualKnowledgeGraphEmbeddingsforCross-lingualKnowledgeAlignment.(IJCAI2017)在兩個異質(zhì)知識圖譜之間,根據(jù)少量種子對齊實體,可以實現(xiàn)大量實體對齊分別學(xué)習(xí)兩個知識圖譜的表示,建立兩者映射關(guān)系Iterativeentityalignmentviajointknowledgeembeddings.(IJCAI2017)Silk是一個基于Python開發(fā)的集成異構(gòu)數(shù)據(jù)源的開源框架/silk-framework/silk整體框架預(yù)處理:會將索引的結(jié)果排名前N的記錄作為候選對,進行下一步的精準(zhǔn)匹配相似度計算:包含了很多相似度計算的方法過濾:過濾掉相似度小于閾值的記錄對OpenEA一個開源的基于Tensorflow的實體websoft/OpenEAEAKit一個輕量級基于PyTorch的實體對https://github.com/THU-KEG/EAkit知識融合歷經(jīng)了蓬勃發(fā)展,如何將表示學(xué)習(xí)技術(shù)運用于實體對齊過程成為新目前缺乏專門針對實體對齊的表示學(xué)習(xí)模型,導(dǎo)致現(xiàn)有基于表示學(xué)習(xí)的實體對齊方法精度不高。人機協(xié)作可以有效提高實體對齊的效果,目前已經(jīng)得到較多關(guān)注。謝謝大家!第六講知識圖譜融合第4節(jié)知識融合技術(shù)前沿浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫無監(jiān)督對齊不一定都有預(yù)先匹配好的實體多視角嵌入單一模型的嵌入能力往往不足以對齊兩個網(wǎng)絡(luò)嵌入表示增強改進現(xiàn)有的嵌入表示模型并用于對齊超大規(guī)模對齊上億個節(jié)點的網(wǎng)絡(luò)對齊對齊問題的設(shè)定是有一些預(yù)先匹配好的實體,但是這種設(shè)定有時無法滿足,因此有不少研究者在探索如何無監(jiān)督地進行實體對齊。EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)謂詞對齊使用統(tǒng)一的命名方案重新命名兩個KG的謂詞,為關(guān)系嵌入提供統(tǒng)一的向量空間,從而嵌入學(xué)習(xí)結(jié)構(gòu)嵌入屬性字符嵌入結(jié)構(gòu)嵌入和屬性特征嵌入的聯(lián)合學(xué)習(xí)實體對齊EntityAlignmentbetweenKnowledgeGraphsUsingAttributeEmbeddings.(AAAI2019)由于對齊問題的復(fù)雜性,單一模型的嵌入能力往往不足以對齊兩個網(wǎng)絡(luò),因此從多種視角來對齊效果會更好。Literalembedding名稱視圖關(guān)系視圖屬性視圖Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)平均不同視圖嵌入導(dǎo)出一個從每個視圖嵌入空間到共享空間的正交映射矩陣參與多視圖嵌入的聯(lián)合訓(xùn)練,從而使多視圖彼此受益Multi-viewKnowledgeGraphEmbeddingforEntityAlignment.(IJCAI2019)現(xiàn)有的嵌入模型會讓度(節(jié)點的鄰居個數(shù))相似的節(jié)點更接近對抗訓(xùn)練判別器的目標(biāo)是預(yù)測節(jié)點的度,生成器Semi-SupervisedEntityAlignmentviaKnowledgeGraphEmbeddingwithAwarenessofDegreeDifference.(WWW8019)實體異構(gòu)實體歧義大規(guī)模匹配OAG:TowardLinkingLarge-scaleHeterogeneousEntityGraphs.(KDD2019)出版地點匹配論文匹配局部敏感哈希CN
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030健康食品市場消費趨勢與投資可行性分析報告
- 2025河南民航發(fā)展投資集團有限公司招聘28人考前自測高頻考點模擬試題及答案詳解(必刷)
- 2025江蘇南通鑫匯養(yǎng)老產(chǎn)業(yè)發(fā)展有限公司石港頤養(yǎng)中心招聘人員考前自測高頻考點模擬試題及參考答案詳解1套
- 2025貴州省重點產(chǎn)業(yè)人才“蓄水池”第一批崗位專項簡化程序招聘187人考前自測高頻考點模擬試題及一套答案詳解
- 2025昆明市呈貢區(qū)衛(wèi)生健康系統(tǒng)編外合同制專業(yè)技術(shù)人員招聘(7人)考前自測高頻考點模擬試題帶答案詳解
- 2025貴州省水利投資(集團)有限責(zé)任公司招聘84人考前自測高頻考點模擬試題帶答案詳解
- 2025年地面瞄準(zhǔn)設(shè)備、定位定向設(shè)備項目合作計劃書
- 2025閔行七寶鎮(zhèn)村(合作社)、鎮(zhèn)屬公司公開招聘20人考前自測高頻考點模擬試題及答案詳解(網(wǎng)校專用)
- 2025年吉林松原經(jīng)濟技術(shù)開發(fā)區(qū)管理委員會公開招聘事業(yè)單位工作人員(含專項招聘高校畢業(yè)生)(5人)考前自測高頻考點模擬試題及答案詳解(典優(yōu))
- 2025年浙江大學(xué)醫(yī)學(xué)院附屬兒童醫(yī)院招聘眼科勞務(wù)派遣特檢1人考前自測高頻考點模擬試題及完整答案詳解一套
- JG/T 9-1999鋼椼架檢驗及驗收標(biāo)準(zhǔn)
- 外貿(mào)公司簡介課件
- 2023產(chǎn)品質(zhì)量監(jiān)督抽查工作規(guī)范
- 法務(wù)合同協(xié)議模板下載
- 子宮內(nèi)膜異位癥長期管理
- 數(shù)控脈寬脈沖信號發(fā)生器
- 高考文言文120個常見實詞積累練習(xí)(學(xué)生版)
- 大學(xué)實驗室安全培訓(xùn)
- 《實戰(zhàn)電池性能測試》課件
- 2025年全國共青團團員知識競賽題庫及答案(共150題)
- 《電力寬帶微功率無線通信芯片技術(shù)規(guī)范》
評論
0/150
提交評論