第四講-知識圖譜的抽取與構建_第1頁
第四講-知識圖譜的抽取與構建_第2頁
第四講-知識圖譜的抽取與構建_第3頁
第四講-知識圖譜的抽取與構建_第4頁
第四講-知識圖譜的抽取與構建_第5頁
已閱讀5頁,還剩230頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第四講知識圖譜的抽取與構建第1節(jié)重新理解知識工程與知識獲取第2節(jié)知識抽取——實體識別與分類第3節(jié)知識抽取——關系抽取與屬性補全第4節(jié)知識抽取——概念抽取第5節(jié)知識抽取——事件識別與抽取第6節(jié)知識抽取技術前沿浙江大學計算機科學與技術學院陳華鈞、張寧豫1AI&MachineLearningInformationExtractionInformationExtraction&KnowledgeBasePopulationKnowledgeRepresentation&RepresentationLearningGraphGraphDatabase&SemanticSearch&QuestionAnsweringDatabaseDatabase第四講知識圖譜的抽取與構建第1節(jié)重新理解知識工程與知識獲取浙江大學計算機科學與技術學院陳華鈞、張寧豫符號主義的核心思想人工智能源于數(shù)理邏輯智能的本質(zhì)是符號的操作和運算知識工程的誕生KnowledgeisthepowerinAI4知識工程是以知識為處理對象,研究知識系統(tǒng)的知識表示、處理和應用的方法和開發(fā)工具的學科KnowledgeSoup規(guī)模小成本高知識湯人工干預部分7成年人腦包含近1000億神經(jīng)元,每個神經(jīng)元都可能有近1000的連接。模擬這樣的人腦需要約100TB的參數(shù)。假設這100TB的參數(shù)能完整的存儲人腦中的知識,靠人工編碼可以獲取這樣規(guī)模的知識嗎?單個人腦中的知識仍然是有限的,如果需要獲取全體人類知識,靠人工編碼是無法完成的。挑戰(zhàn)機器自主獲取知識的極限感知層面感知層面視覺視覺挑戰(zhàn)機器自主獲取知識的極限認知層面認知層面語言語言邏輯邏輯模型模型概念抽取實體抽取關系抽取事件抽取規(guī)則抽取數(shù)據(jù)庫數(shù)據(jù)庫知識抽取技術知識圖譜從不同來源、不同結構的數(shù)據(jù)中進行知識提取,形成知識存入到知識圖譜。鏈接數(shù)據(jù)結構化數(shù)據(jù)結構化數(shù)據(jù)數(shù)據(jù)庫D2R轉(zhuǎn)換語義集成數(shù)據(jù)庫概念Concept實體Entities半結構化數(shù)據(jù)關系Relation事實FactsInfobox事件Events規(guī)則Rules純文本數(shù)據(jù)InformationExtraction純文本數(shù)據(jù)/TR/r2rml/SceneGraphConstruction檢測:庫克非常興奮。[庫克]:實體[庫克]:人物●術語抽?。ǜ拍畛槿。恼Z料中發(fā)現(xiàn)多個單詞組成的相關術語。王思聰是萬達集團董事長王健林的獨子。[王健林]<父子關系>[王思聰]據(jù)路透社消息,英國當?shù)貢r間9月15日早8時15分,位于倫敦西南地鐵線DistrictLine的ParsonsGreen地鐵站發(fā)生爆炸,目前已確定有多人受傷,具體傷亡人數(shù)尚不明確。目前,英國警方已將此次爆炸與起火定性為恐怖襲擊。?恐怖襲擊事件--知識圖譜就是新一代的知識工程馮諾依曼曾估計單個個體的大腦中的全量知識馮諾依曼曾估計單個個體的大腦中的全量知識需要2.4*1020字節(jié)存儲,知識工程的根本性科學問題是知識完備性問題,即規(guī)?;詣踊R獲取與處理能力。人工高階謂詞邏輯自動化以三元組為主謝謝大家!第四講知識圖譜的抽取與構建第2節(jié)知識抽取——實體識別與分類浙江大學計算機科學與技術學院陳華鈞、張寧豫從文本中識別實體邊界及其類型從文本中識別實體邊界及其類型北京時間10月25日,騎士后來居上,在主場以119-112擊退公牛。中新社華盛頓10月24日電美國眾議院三個委員會24日宣布將分別展開兩項與希拉里·克林頓有關的調(diào)查,國會民主黨人稱這是共和黨人試圖轉(zhuǎn)移注意力。人物將文本與規(guī)則進行匹配來識別出命名實體“***大學”、“***醫(yī)院”優(yōu)點:準確,有些實體識別只能依靠規(guī)則抽取缺點:需要大量的語言學知識需要謹慎處理規(guī)則之間的沖突問題;構建規(guī)則的過程費時費力、可移植性不好。確定標簽體系選擇模型定義特征模型訓練□詞本身的特征-邊界特征:邊界詞概率-詞性-依存關系□前后綴特征-姓氏:李XX、王X-地名:XX省、XX市□字本身的特征-是否是數(shù)字-是否是字符由OO清浙華江大大學學的OO的OO李張大小大小迎OO戰(zhàn)OO有向圖模型基于馬爾可夫性,假設特征之間是獨立的觀測變量…B-ORGI-ORGI-ORGI-ORGOOB-LOCB隱藏狀態(tài)集合Q,對應所有可能的標簽集合,大小為N;觀測狀態(tài)集合V,對應所有可能的詞的集合,大小為M。對于一個長度為T的序列,I對應狀態(tài)序列(即標簽序列),O對應觀測序列(即詞組成的句子)。狀態(tài)轉(zhuǎn)移概率矩陣A=[aij]N*N:轉(zhuǎn)移概率是指某一個隱藏狀態(tài)(如標簽“B-Per”)轉(zhuǎn)移到下一個隱藏狀態(tài)(如標簽“I-Per”)的概率。例如,B-ORG標簽的下一個標簽大概率是I-ORG,但一定不可能是I-Per。發(fā)射概率矩陣B=[bj(k)]N*M:指在某個隱藏狀態(tài)(如標簽“B-Per”)下,生成某個觀測狀態(tài)(如詞“陳”)的概率。隱藏狀態(tài)的初始分布Π=[π(i)]N,這里指的是標簽的先驗概率分布。評估觀察序列概率:給定模型λ=(A,B,Π)和觀測序列O(如一句話“浙江大學位于杭州”),計算在模型λ下觀測序列O出現(xiàn)的概率P(O|λ),這需要用到前向后向算法。模型參數(shù)學習問題:即給定觀測序列O,估計模型λ的參數(shù),使該模型下觀測序列的條件概率P(O|λ)最大。這個問題的求解需要用到基于EM算法的鮑姆-韋爾奇算法。預測問題:也稱為解碼問題,即給定模型λ和觀測序列O,求最可能出現(xiàn)的對應的隱藏狀態(tài)序列(標簽序列),這個問題的求解需要用到基于動態(tài)規(guī)劃的維特比算法。問題:假設模型參數(shù)全知,要求推斷某個句子出現(xiàn)的概率問題:假設模型參數(shù)全知,要求推斷某個句子出現(xiàn)的概率前向概率(局部狀態(tài)):定義時刻t時隱藏狀態(tài)為qi,觀測狀態(tài)的序列為o1,o2,…ot的概率為前向概率。記為:αt(i)=P(o1,o2,…,ot,it=qi|λ)遞推關系式:從t時刻遞推t+1時刻αt+1(i)=[=1~Nαt(j)aji]bi(ot+1)利用遞推關系式,從t=1時刻遞推算出t=T時刻,并計算最終結果:P(“浙江大學位于杭州”|λ)=∑i=1~NαT(i)t前向后向算法比起窮舉搜索的指數(shù)級復雜度,其復雜度與序列長度是線性關系。t+1tαt(i)αt+1(i)26假設樣本從標簽q假設樣本從標簽qi轉(zhuǎn)移到標簽qj的頻率計數(shù)是Aij,那么隱藏狀態(tài)轉(zhuǎn)移矩陣求得>標簽轉(zhuǎn)移概率矩陣A=[aij]N*N>>標簽轉(zhuǎn)移概率矩陣A=[aij]N*N>詞的生成概率矩陣B=[bj(k)]N*M>標簽的初始分布Π=[π(i)]N假設所有樣本中初始標簽為qi的頻率計數(shù)為C(i),那么初始概率分布為:模型參數(shù)的估計與學習問題:利用訓練語料估計模型參數(shù)問題:利用訓練語料估計模型參數(shù)>標簽轉(zhuǎn)移概率矩陣A=[aij]N*N>詞的生成概率矩陣B=[bj(k)]N*M>標簽的初始分布Π=[π(i)]N很多時候我們無法得到句子對應的實體標簽序列,因為這需要大量的人工數(shù)據(jù)標注工作。如果只有D個長度為T的句子,即問題:給定訓練好的模型,給定一句話,預測每個詞對應的實體標簽問題:給定訓練好的模型,給定一句話,預測每個詞對應的實體標簽輸入:模型λ=(A,B,Π),觀測序列O=(浙,江,大,學,位,于,杭,州);輸出:最有可能的隱藏狀態(tài)序列I={i1,i2,…iT},即實體標簽序列;這里的優(yōu)化目標是使P(I|O)最大化。αt(i)αt+1(i)問題:給定訓練好的模型,給定一句話,預測每個詞對應的實體標簽問題:給定訓練好的模型,給定一句話,預測每個詞對應的實體標簽輸入:模型λ=(A,B,Π),觀測序列O=(浙,江,大,學,位,于,杭,州)輸出:最有可能的隱藏狀態(tài)序列I={i1,i2,…iT},即實體標簽序列2.進行動態(tài)規(guī)劃遞推時刻t=2,3,…T時刻的局部狀態(tài)3.如此遞推,可計算最后時刻T最大的δT(i),即為最可能隱藏狀態(tài)序列出現(xiàn)的概率4.計算時刻T最大的Ψt(i),即為時刻T最可能的隱藏狀態(tài)。5.利用局部狀態(tài)Ψ(i)開始回溯,最終得到解碼的序列,如:“…B-ORG,I-ORG,I-ORG,I-ORG,O,O,B-LOC,B-LOC…”。CRFCRF是無向圖模型隨機場包含多個位置,每個位置按某種分布隨機賦予一個值,其全體就叫做隨機場。馬爾科夫隨機場假設隨機場中某個位置的賦值僅與和它相鄰位置的賦值有關,和不相鄰位置的賦值無關。條件隨機場進一步假設馬爾科夫隨機場中只有X和Y兩種變量,X一般是給定的,而Y一般是在給定X的條件下的輸出。例如:實體識別任務要求對一句話中的十個詞做實體類型標記,這十個詞可以從可能實體類型標簽中選擇,這就形成了一個隨機場。如果假設某個詞的標簽只與其相鄰的詞的標簽有關,則形成馬科夫隨機場,同時由于這個隨機場只有兩種變量,令X為詞,Y為實體類型標簽,則形成一個條件隨機場,即,我們的目標時求解P(Y|X)優(yōu)化目標:P(Y|X)ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)線性變換預訓練或隨機初始化CRF層的參數(shù)是一個(k+2)×(k+2)的矩陣A;Aij表示的是從第i個標簽(如B-LOC)到第j個標簽(如B-Org)的轉(zhuǎn)移得分;加2是因為要為句子首部添加一個起始狀態(tài)以及為句子尾部添加一個終止狀態(tài)。(k+2)(k+2)(k+2)起始標簽1標簽2標簽3…起始標簽1標簽2標簽3…Softmax最大化對數(shù)似然函數(shù)預測過程ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)實體識別仍面臨著標簽分布不平衡,實體嵌套等問題,制約了現(xiàn)實應用;中文的實體識別面臨一些特有的問題,例如:中文沒有自然分詞、用字變化多、簡化表達現(xiàn)象嚴重等等;實體識別是語義理解和構建知識圖譜的重要一環(huán),也是進一步抽取三元組和關系分類的前提基礎。謝謝大家!第四講知識圖譜的抽取與構建第3節(jié)知識抽取——關系抽取與屬性補全浙江大學計算機科學與技術學院陳華鈞、張寧豫從文本中抽取出兩個或者多個實體之間的語義關系;從文本獲取知識圖譜三元組的主要技術手段,通常被用于知識圖譜(西湖,位于,杭州浙江省,省會,杭州)封閉域關系抽取封閉域關系抽取開放域關系抽取特征工程深度學習深度學習人工模板監(jiān)督學習遠程監(jiān)督遠程監(jiān)督無監(jiān)督跨句推理聯(lián)合抽取聯(lián)合抽取對抗學習預訓練模型預訓練模型以動詞為幾點,構建規(guī)則,對節(jié)點上的詞性和邊上的依存關系進行限定45依存句法分析句子的句法結構1.對句子進行分詞、詞性標注、命名實體識別、依存分析等處理2.根據(jù)句子依存語法樹結構上匹配規(guī)則,每匹配一條規(guī)則就生成一個三元組3.根據(jù)擴展規(guī)則對抽取到的三元組進行擴展4.對三元組實體和觸發(fā)詞進一步處理抽取出關系董卿現(xiàn)身國家博物館看展優(yōu)雅端莊大方董卿現(xiàn)身國家博物館看展優(yōu)雅端莊大方依存分析結果詞0董卿人名1定語1現(xiàn)身動詞核心詞2國家博物館地名13看動詞1順承4展動詞3補語5優(yōu)雅形容詞7定語6端莊形容詞7定語7大方形容詞4規(guī)則抽取結果優(yōu)點在小規(guī)模數(shù)據(jù)集上容易實現(xiàn)構建簡單缺點特定領域的模板需要專家構建難以維護可移植性差規(guī)則集合小的時候,召回率很低AtAt-least-oneHypothesissentencethatmentions建模為一個分類建模為一個分類實體特征實體前后的詞實體的類型、語法、語義信息實體詞的共現(xiàn)特征,e.g.,dogandcat引入外部語義關系,e.g.,ACEentitytypesWordNetfeatures關系特征實體之間的詞窗口及Chunk序列實體間的依存關系路徑實體間樹結構的距離特定的結構信息,如最小子樹BryanRinket.alACL2016的條件下使熵H最大的同關系句子具有類似的文本特征同關系句子具有類似的文本特征在關系抽取任務中,給定句子空間X,核函數(shù)K:X*X—>[0,∞)表示一個二元函數(shù),它具體而言,給定輸入文本T中的兩個實體e1和e2,核函數(shù)方法采用下述方法計算它們之間首先從標注數(shù)據(jù)中找到文本T’,且T’中包含滿足關系r的e1’和e2’。然后基于核函數(shù)計算T和T’之該做法背后體現(xiàn)的思想是:如果兩個實體對同時滿足某個關系r,這兩個實體對分別所在的文本計算相似度的方法有基于字符串核(Sequencekernel)和基于樹核函數(shù)(Tree機器學習框架—字符串核舉例給定帶有關系標注的訓練樣本集合,該方法首先基于每個樣本中出現(xiàn)的實體e1和e2將該樣本切分給定測試樣本,根據(jù)其中出現(xiàn)的實體e1’和e2’對其進行同樣的切分,生成left’、m基于字符串核函數(shù)計算該樣本與每個訓練樣本在上述三個上下文上的相似度最后對三個相似度得分進行加和,并用于分類模型的訓練與預測。句法樹核,增加節(jié)點特征句法樹核,增加節(jié)點特征Dependencytreekernelsforrelationextraction.(ACL2004)上下文相關最短路徑依賴樹核函數(shù)最短依賴路徑樹(上下文相關最短路徑依賴樹核函數(shù)最短依賴路徑樹(SPT)內(nèi)核機器學習框架—深度學習方法基于特征的方法需要人工設計特征,這類方法適用于標注數(shù)量較少,精度要求較高,人工能夠基于核函數(shù)的方法能夠從字符串或句法樹中自動抽取大量特征,但這類方法始終是在衡量兩段此外,上述兩類方法通常都需要做詞性標注和句法分析,用于特征抽取或核函數(shù)計算,這是典深度學習技術不斷發(fā)展,端到端的抽取方法能大幅減少特征工程,并減少對詞性標注等預處理機器學習框架——基于遞歸神經(jīng)網(wǎng)絡的關系抽取2.然后從該子樹對應的葉節(jié)點開始,通過自底向上的方4.該方法基于詞向量和句法樹本身的結構,有效的考慮了句法和語義信SemanticCompositionalitythroughRecursiveMatrix-VectorSpaces.(EMNLP2012)entenceLevelentenceLevelFeature僅用詞級別的特征提取,是會丟失語序、上下文、句子整體的信息,使用seq_length方向的詞卷積,以盡量提取些機器學習—Piece-wiseCNNModel位置敏感的位置敏感的CNN模型機器學習框架—基于BiLSTM的關系抽取ttentionttention+BiLST圖神經(jīng)網(wǎng)絡在圖像領域的成功應用證明了以節(jié)點為中心的局部信息聚合同樣可以有效的提利用句子的依賴解析樹構成圖卷積中的鄰接矩陣,以句子中的每個單詞為節(jié)點做圖卷積操GraphConvolutionoverPrunedDependencyTreesImprovesRelationExtraction.(SimpleBERTModelsforRelationExtractionandSemanticRoleLabeling[J],2019.MatchingtheBlanks:DistributionalSimilarityforRelationLearning.(ACL2019)誤差傳播問題關系抽取實體識別與分類關系抽取0.770.850.77實體識別和關系抽取任務之間的關聯(lián)北京0.9位于北京0.9北京是中國的政治經(jīng)濟文化中心0.010.01定義一種新穎的實體關系聯(lián)合抽取的序列標注規(guī)范JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.(ACL2017)級聯(lián)三元組抽取級聯(lián)三元組抽取ANovelCascadeBinaryTaggingFrameworkforRelationalTripleExtraction.(ACL2020)傳統(tǒng)模型主要關注單標簽關系抽取,但同一個句子可能包含多個關系。采用膠囊神經(jīng)網(wǎng)絡如圖所示,模型首先通過預訓練的embedding將句子中的詞轉(zhuǎn)化為詞向量;隨后使用BiLSTM網(wǎng)絡得到粗粒度的句子特征表示,再將所得結果輸入到膠囊網(wǎng)絡,首先構建出primarycapsule,經(jīng)由動態(tài)路由的方法得到與分類結果相匹配的輸出膠囊。膠囊的模長代表分類結果的概率大小。Attention-basedcapsulenetworkswithdynamicroutingforrelationextraction.(EMNLP2018)拓展問題—跨句推理提取不同句子中單實體間的關系提取不同句子中單實體間的關系遠程監(jiān)督的基本假設:兩個實體如果在知識庫中存在某種關系,則包含該兩個實體的非結構化句子均可能表示出這種關系。(浙江大學,位于,杭州)杭州浙江大學坐落于杭州浙江大學浙江大學通常簡稱浙大,位于中國浙江省杭州市浙江大學西湖大學杭州浙大校友會是由杭州市的浙江大學校友自愿組成的非營利組織西湖大學Distantsupervisionforrelationextractionwithoutlabeleddata.(ACL2009)包含相同實體對的句子組成一個Bag基于注意力機制選擇樣本NeuralRelationExtractionwithSelectiveAttentionoverInstances.(ACL2016)采取強化學習方式在考慮當前句子的選擇狀態(tài)下選擇樣例關系分類器向樣例選擇器反饋,改進選擇策略ReinforcementLearningforRelationExtractionfromNoisyData.(AAAI2018)規(guī)則庫X位于Y規(guī)則庫X位于YX坐落于Y……機構位置浙江大學杭州復旦大學上?!谋編煳骱髮W位于杭州東南大學坐落于南京生成規(guī)則遍歷文本生成元組(西湖大學,杭州)生成規(guī)則遍歷文本生成元組(西湖大學,杭州)(東南大學,南京)…………入庫NeuralSnowballforFew-ShotRelationLearning.(AAAI2020)新增加的實例與種子實例不相關或不屬于同一類型,稱為Bootstraping的語義漂移問題。限制迭代次數(shù)采用語義類型SemanticType對樣本進行過濾和約束(Organization〉’sheadquartersin(Location〉(Location〉-based(Organization〉對抽取結果進行類型檢查耦合訓練屬性知識16853.57km2亞熱帶季風氣候16853.57km2亞熱帶季風氣候氣候?qū)傩匝a全氣候面積人口杭州對實體擁有的屬性及屬性值進行補全方法面積人口杭州1036萬人車牌抽取式1036萬人車牌行政類別?行政類別?浙A基于機器學習模型浙A生成式0371基于機器學習模型0371抽取式屬性補全抽取輸入文本中的字詞,組成預測的屬性值。預測出的屬性值一定要在輸入側出現(xiàn)過生成式屬性補全直接生成屬性值,而這個屬性值不一定在輸入文本中出現(xiàn),只要模型在訓練數(shù)據(jù)中見抽取式只能抽取在輸入文本中出現(xiàn)過的屬性值預測屬性值一定在輸入中出現(xiàn)過,具有一定可解釋性,準確性也更高生成式可以預測不在文本中出現(xiàn)的屬性值只能預測可枚舉的高頻屬性,導致很多屬性值不可獲取預測出來的屬性值沒有可解釋性商品關鍵屬性補全利于買家選擇利于提升導購利于優(yōu)質(zhì)選品方法借助算法的圖文識別能力,通過小結-關系抽取方法的演變1990s特征工程SVM,MaxEnt隨著機器學習的發(fā)展,關系抽取開始了基于特征工程的分類器時代神經(jīng)網(wǎng)絡CNN,RNN卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡使得關系抽取不再需要人工特征工程20092016ELMo,BERT,GPT2基于預訓練語言模型的關系抽取極大的提升了抽取效果I2000s遠程監(jiān)督20152018早期關系抽取基于正則表達式和依存句法規(guī)則匹配基于遠程監(jiān)督的關系抽取方法極大的降低了標注樣本的成本Attention,RL,GAN多種降噪策略的出現(xiàn)進一步降低了遠程監(jiān)督的噪音,關系抽取取得了進一步的發(fā)展謝謝大家!第四講知識圖譜的抽取與構建第4節(jié)知識抽取——概念抽取浙江大學計算機科學與技術學院陳華鈞、張寧豫概念知識圖譜的組成isA關系、subclassOf關系通常用于本體構建實體isA(instanceOf)比如“浙江大學”isA(instanceOf)比如“高?!睂嶓w和概念之間的關系(isA)比如“浙江大學”isA“高?!备拍钆c概念之間的關系(subClassOf)比如“高校”isA“學?!眎sA(subClassOf)isA(subClassOf)浙江大學浙江大學概念是認知的基石概念認知同類實體例如,昆蟲這一概念使得我們能夠認知各種各樣的昆蟲,無需糾纏細節(jié)的不同概念可以更好的理解自然語言用小號試探男朋友。小號isA輔助賬號概念可以用于解釋現(xiàn)象遇到老虎為什么要跑?老虎是食肉動物解釋解釋語言認知世界認知世界實體、概念通?;谠~匯進行表達實體與概念,概念與概念之間的關系屬于自然語言處理中的語言上下位關系概念抽取并構建成無環(huán)圖的過程又被稱為?準確率高,召回率較低?模板構造成本高?無法從復雜文本抽取概念?無法從復雜文本抽取概念?準確率召回率都相對較高?可從復雜文本抽取概念HearstPatterns:基于固定的句型可以抽取isA關系左圖列出了一些Hearstpattern的例子右圖舉了一些符合Hearstpattern的例子1)…Sci-fimoviessuchasTerminator…3)China,UnitedStates,Japanandother…TerminatorisASci-fimovies由于構造和維護模板的成本都比較高,人們又發(fā)明了Boostrapping的方法,通常由專家構造種子HearstPattern,然后基于Boostrapping半自動產(chǎn)生新模板。概念知識抽取從半結構化數(shù)據(jù)中獲取上下文關系驗證抽取的結果概念校驗91屬性分布相似度實體相似度概念知識驗證屬性分布相似度實體相似度領域規(guī)則過濾輸入概念知識,判斷是否合法方法領域規(guī)則過濾互斥概念發(fā)現(xiàn)e.g.,劉德華isA香港演員V.S.內(nèi)地演員實體相似度屬性分布相似度領域規(guī)則過濾從大量文本中獲取概念知識基于序列標注模型需要大量標注樣本基于模板匹配的弱監(jiān)督OpenConcept:浙江大學知識引擎實驗室開發(fā)和維護一個大規(guī)模的中文開放領域概念知識圖譜賦能推薦、問答、對話等應用/概念知識可以幫助機器理解自然語言地球末日生存回收臺怎么用游戲游戲游戲裝備游戲裝備游戲裝備使用方式概念知識可以幫助理解搜索意圖,獲得更加準確的結果重點中學杭州的中學重點中學杭二中杭二中十三中學軍中學育新中學北京四中十三中學軍中學育新中學北京四中人大附中人大附中概念(Concept)是人類在認識過程中,從感性認識上升到理性認識,把所感知的事物的共同本質(zhì)特點抽象出來的一種表達概念知識一般可以通過基于模板、基于百科和基于序列標注等方法進行獲取概念知識可以幫助自然語言理解,促進搜索、推薦等應用的效果第四講知識圖譜的抽取與構建第5節(jié)知識抽取——事件識別與抽取浙江大學計算機科學與技術學院陳華鈞、張寧豫世界是所有事實,而不是事物的總和------《邏輯哲學論》事件是發(fā)生在某個特定的時間點或時間段、某個特定的地域范圍內(nèi),由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變。不同的動作或者狀態(tài)的改變代表不同類型的事件同一個類型的事件中不同的要素代表了不同的事件實例同一個類型的事件中不同粒度的要素代表不同粒度的事件實例從無結構文本中自動抽取結構化事件知識:什么人/組織,什么時間,在什么地方,做了什么事事件發(fā)現(xiàn)和分類事件要素的抽取事件發(fā)現(xiàn)和分類識別觸發(fā)詞(Trigger):體現(xiàn)發(fā)生事件的核心詞語,比如這里的quit):事件要素抽取識別事件要素(EventArgument):參與事件的實體分類要素的角色(ArgumentRole):參與事件的實體在事件所扮演的角色kidnapped出現(xiàn)在被動結構,對應的主語被標記為victim102基于人工標注語料的模式匹配模板的產(chǎn)生完全基于人工標注語料,學習效果高度依賴于人工標注質(zhì)量AutoSloga.事件元素首次提及之處即可確定該元素與事件間的關系b.事件元素周圍的語句中包含了事件元素在事件中的角色描述pedyesterdayby句法分析觸發(fā)規(guī)則RicardoCastellar是?RicardoCastellar是?RicardoCastellar是victimRichardoCastellar是主語基于弱監(jiān)督的模式匹配人工標注耗時耗力,且存在一致性問題弱監(jiān)督方法不需要對語料進行完全標注AutoSlog-TS基于模式匹配的方法在特定領域中性能較好,便于理解和后續(xù)應用,但對于語言、領域和文檔形式都有不同程度的依賴,覆蓋度和可移植性較差模式匹配的方法中,模板準確性是影響整個方法性能的重要因素,主要特點是高準確率低召回率基于特征的方法詞性實體類型依存樹N元組觸發(fā)詞識別觸發(fā)詞識別事件分類要素識別角色分類Jointeventextractionviastructuredpredictionwithglobalfeatures.(ACL2013)基于結構預測的方法JointInference將各模型通過整體優(yōu)化目標整合起來,可以通過整數(shù)規(guī)劃等方法進行優(yōu)化。JointModeling(Structured)將事件結構看作依存樹,抽取任務相應轉(zhuǎn)化為依存樹結構預測問題基于神經(jīng)網(wǎng)絡的事件抽取模型:DMCNNEventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.(ACL2015)基于神經(jīng)網(wǎng)絡的事件抽取需要大量標注樣本樣本難標注遠程監(jiān)督困難FrameNet和事件抽取有著很高的相似性ACE語料訓練的分類器去判定FrameNet中句子的事件類別,再利用全局推斷將FrameNet的語義框架和ACE中的事件類別進行映射框架名Execution類型框架名Execution類型AeroPlaneBombedThecourtfinedher40yesterdayLeveragingFrameNettoImproveAutomaticEventDetection.(ACL2016)中文事件抽取數(shù)據(jù)集/broad/subordinate?dataset=duee中文事件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論