擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索_第1頁
擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索_第2頁
擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索_第3頁
擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索_第4頁
擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、擴(kuò)展知識(shí)圖譜上的實(shí)體關(guān)系檢索摘要:現(xiàn)有文本數(shù)據(jù)集上的實(shí)體搜索和自然語言查詢方法無法處理需要將分散在不同文檔中的信息碎片鏈接起來以滿足有復(fù)雜實(shí)體關(guān)系的查詢,而知識(shí)庫上的查詢雖然可以表示實(shí)體間的復(fù)雜關(guān)系,但由于知識(shí)庫的異構(gòu)性和不完全性,通常查全率較低。針對(duì)這些問題,提出使用文本數(shù)據(jù)集對(duì)知識(shí)庫進(jìn)行擴(kuò)展,并設(shè)計(jì)相應(yīng)的含文本短語的三元組模式查詢以支持對(duì)知識(shí)庫和文本數(shù)據(jù)的統(tǒng)一查詢。在此基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了查詢放松機(jī)制和對(duì)結(jié)果元組的評(píng)分模型,并給出了高效的查詢處理方法。使用YAGO、ClueWeb09和其上的FACC1數(shù)據(jù)集,在三個(gè)不同的查詢測(cè)試集上與兩個(gè)典型相關(guān)工作作了比較。實(shí)驗(yàn)結(jié)果顯示,擴(kuò)展知識(shí)圖譜上使

2、用查詢放松規(guī)則的實(shí)體關(guān)系檢索系統(tǒng)的檢索效果大大超出了其他系統(tǒng),具體地在三個(gè)查詢測(cè)試集上,其平均正確率均值比其他系統(tǒng)分別提升了27%、37%和64%以上。中國(guó)論文網(wǎng) /8/view-7316903.htm關(guān)鍵詞:知識(shí)圖譜;實(shí)體關(guān)系檢索;實(shí)體搜索;三元組模式查詢;查詢放松中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)志碼:A -最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-0引言近年來,隨著從文本中提取結(jié)構(gòu)化數(shù)據(jù)的信息抽取技術(shù)1日益成熟,大規(guī)模知識(shí)庫的構(gòu)建得到了迅猛發(fā)展,產(chǎn)生了許多形形色色的知識(shí)庫,如DBpedia、Freebase、YAGO、Wikidata、NELL、Probase、Goog

3、le KG和Microsoft Satori等2。這些機(jī)器可讀的知識(shí)大多被表示成三元組形式的資源描述框架數(shù)據(jù),描述實(shí)體、實(shí)體分類以及實(shí)體和實(shí)體之間的各種關(guān)系等,被廣泛應(yīng)用在文本分析、自然語言理解、機(jī)器閱讀、語義搜索、自然語言問答等各類智能型的應(yīng)用中。例如,Google、百度、Bing等搜索引擎正積極構(gòu)建大型知識(shí)圖譜,并利用知識(shí)圖譜改善其搜索效果,如生成結(jié)構(gòu)化的結(jié)果摘要、實(shí)體推薦、實(shí)體搜索和自然語言問答等。在知識(shí)圖譜上進(jìn)行自然語言問答的通常做法是先將自然語言問題理解成確切的結(jié)構(gòu)化查詢,如SPARQL查詢,然后再在知識(shí)庫上執(zhí)行該查詢而獲得確切答案。例如,如果要找出所有影片和它們的插曲,而知識(shí)庫中又

4、有music_in_film這樣一個(gè)song類型實(shí)體和movie類型實(shí)體之間的關(guān)系,則可以將此信息需求理解成以下SPARQL查詢:程序前-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-程序后然后在知識(shí)庫上執(zhí)行該查詢就可以得到所有影片和它們的插曲。理解成確切的SPARQL查詢的方法查準(zhǔn)率高,但查全率卻較低。這主要是由于知識(shí)庫的異構(gòu)性和不完全性造成的。1)異構(gòu)性:同一語義在自然語言中有多種表達(dá)方式,在知識(shí)圖譜上同樣可以有許多不同的存在方式。例如,有些電影和它們的插曲之間的關(guān)系可能不是用一個(gè)直接的music_in_film關(guān)系表示的,而是存在一個(gè)has_soundtrack關(guān)系連接電影

5、和其電影原聲帶,以及一個(gè)contains_song關(guān)系連接電影原聲帶和其中的樂曲等。2)不完全性:知識(shí)庫中的信息是不完全的。規(guī)模再大的知識(shí)庫也有缺失信息,如有些影片和其插曲的信息在知識(shí)庫中不存在。造成信息缺失的原因有很多種,如信息抽取的精度沒達(dá)到閾值等。針對(duì)知識(shí)庫的異構(gòu)性和不完全性所帶來的問題,本文提出使用文本數(shù)據(jù)來補(bǔ)充知識(shí)庫的信息,并實(shí)現(xiàn)二者的統(tǒng)一查詢。不同于一般的實(shí)體檢索返回實(shí)體列表,本文主要考慮的是實(shí)體間具有較復(fù)雜關(guān)聯(lián)關(guān)系的實(shí)體關(guān)系查詢,返回的結(jié)果是實(shí)體元組列表。具體地,問題定義如下:給定一個(gè)知識(shí)庫和文本數(shù)據(jù)集,如何查詢才能有效滿足用戶提出的復(fù)雜信息需求。 -最新精選范文分享-謝謝觀看-

6、最新精選范文公文分享-歡迎觀看-本文的主要工作:1)提出擴(kuò)展的知識(shí)圖譜的數(shù)據(jù)模型,將文本數(shù)據(jù)和知識(shí)圖譜融合在一起;2)相應(yīng)地提出了三元組模式查詢,它是對(duì)SPARQL查詢模型的擴(kuò)展,結(jié)合了模糊匹配和文本檢索等功能,可以更有效地對(duì)擴(kuò)展的知識(shí)圖譜進(jìn)行查詢;3)提出了對(duì)查詢結(jié)果,即實(shí)體元組,進(jìn)行評(píng)分和排序的模型,并給出了各種查詢放松的策略和高效的查詢執(zhí)行算法;4)設(shè)計(jì)實(shí)驗(yàn)和已有的一些典型相關(guān)工作進(jìn)行了全面的比較,實(shí)驗(yàn)結(jié)果證實(shí)本文的方法對(duì)復(fù)雜查詢具有很好的檢索效果,優(yōu)于當(dāng)前最好的相關(guān)工作。1數(shù)據(jù)模型和查詢語言1.1擴(kuò)展的知識(shí)圖譜在RDF數(shù)據(jù)表示的知識(shí)圖譜中有兩類數(shù)據(jù)對(duì)象:1)用URI唯一標(biāo)識(shí)的資源,包括

7、所有實(shí)體、類和謂詞/屬性等;2)各種類型的數(shù)值,如數(shù)字、字符串、日期等。這里分別用R表示知識(shí)圖譜中所有資源的集合,L表示所有數(shù)值的集合。定義1知識(shí)圖譜。一個(gè)知識(shí)圖譜KG是一個(gè)三元組的集合:KG?。三元組的三部分通常分別被稱為主語、謂詞和賓語。如果主語和賓語都是用URI標(biāo)識(shí)的實(shí)體,則謂詞表示的是兩實(shí)體之間的關(guān)系,如has_soundtrack、-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-contains_song等;如果賓語是數(shù)值,則謂詞表示的是主語實(shí)體的某種屬性,如birth_date等。表1給出了一個(gè)知識(shí)庫的部分示例。為了簡(jiǎn)單起見,表中顯示的是實(shí)體和關(guān)系的名稱而不是它們的U

8、RI。規(guī)模再大的知識(shí)庫也不可能包含所有的信息,總有一些實(shí)體、類別、屬性或它們之間的關(guān)系沒有被知識(shí)庫所捕獲。為了解決知識(shí)庫的不完全性問題,本文提出使用文檔集對(duì)原知識(shí)庫進(jìn)行擴(kuò)展。具體地,首先,可以使用實(shí)體鏈接方法將文檔中的實(shí)體出現(xiàn)鏈接到已有知識(shí)庫中的實(shí)體上,從而從文檔集中抽取出更多的實(shí)體間的關(guān)系,當(dāng)然這些事實(shí)可能已經(jīng)存在于知識(shí)庫中,但很多并沒有被知識(shí)庫包含,因而可以補(bǔ)充知識(shí)庫中的信息。其次,可以使用開放信息抽取技術(shù)1從文本中抽取出由兩個(gè)名詞短語和它們之間的動(dòng)詞、名詞或介詞短語構(gòu)成的三元組,其中首尾兩個(gè)名詞短語分別是主語和賓語,連接它們的動(dòng)詞、名詞或介詞短語是三元組的謂詞部分。這樣的三元組不同于知識(shí)

9、庫中的三元組,因?yàn)闆]有URI,三部分都是字符串表示的短語。再使用命名實(shí)體消歧技術(shù)3將主語和賓語上的名詞短語對(duì)應(yīng)到知識(shí)庫中的實(shí)體,找不到對(duì)應(yīng)實(shí)體的名詞短語就保留其字符串的表示形式。這樣就會(huì)得到如表2所示的一些三元組,它們不同于知識(shí)-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-庫中的三元組在于三元組的主、謂、賓三部分均可以是任意的字符串表示的短語。表1和表2的內(nèi)容合在一起就構(gòu)成了擴(kuò)展的知識(shí)庫。所有記號(hào)的集合記作C,那么擴(kuò)展的知識(shí)圖譜可以定義為一個(gè)由所有記號(hào)構(gòu)成的三元組的多重集。 定義2擴(kuò)展的知識(shí)圖譜。一個(gè)擴(kuò)展的知識(shí)圖譜XKG是一個(gè)三元組的多重集合:XKGCCC。注意擴(kuò)展的知識(shí)圖譜被

10、定義為多重集,即允許相同的三元組事實(shí)重復(fù)出現(xiàn)多次,這通常是由于此事實(shí)出現(xiàn)在不同的文檔或數(shù)據(jù)源中從而被多次抽取。保留這種冗余可用于三元組事實(shí)的排序,具體見第3章。1.2三元組模式查詢本文使用類似SPARQL的三元組模式查詢語言從一個(gè)擴(kuò)展的知識(shí)圖譜中更有效地獲取信息。本節(jié)給出該查詢語言的定義。V表示所有變量的集合,每個(gè)變量可被一個(gè)變量名唯一標(biāo)識(shí),所有的變量名都以“,”開頭。定義3三元組模式及其匹配。一個(gè)三元組模式q是來自集合的一個(gè)三元組。三元組模式q的一個(gè)匹配是知識(shí)庫中的一個(gè)三元組t,其中: q的非變量部分和t對(duì)應(yīng)的部分相匹配,而t中對(duì)應(yīng)于q的變量部分的內(nèi)容稱為對(duì)該變量的一個(gè)綁定。-最新精選范文分

11、享-謝謝觀看-最新精選范文公文分享-歡迎觀看-例如,,x usedIn KillBill 和 ,x “appears in”“Kill Bill Vol 1”是兩個(gè)三元組模式,其中第一個(gè)三元組模式的主語、謂詞和賓語部分分別是變量、關(guān)系和實(shí)體,而第二個(gè)三元組模式的三部分分別是變量、動(dòng)詞短語和名詞短語。 q與t對(duì)應(yīng)部分的記號(hào)相匹配有兩種情況:1)精確匹配,即二者完全相等;2)部分匹配,即q中的記號(hào)是t中記號(hào)的部分,如“British”是“best British singer”的部分匹配。定義4查詢。一個(gè)三元組模式查詢Q=q1,q2,qn是一個(gè)包含n個(gè)三元組模式的集合。查詢Q的輸出變量集合,記為P

12、,是Q中出現(xiàn)的所有變量集合的子集。定義5查詢結(jié)果。三元組模式查詢Q的一個(gè)結(jié)果a是Q中所有變量的綁定所構(gòu)成的元組。查詢結(jié)果a在Q中每個(gè)三元組模式qi上的匹配是ti,記a=ti。如果P不包含Q中的所有變量,則最終輸出結(jié)果為a在P上的投影,記為aP。查詢示例1找出英國(guó)歌手演唱的插曲和電影。三元組模式查詢可以表達(dá)如下:程序前5.1實(shí)驗(yàn)設(shè)置5.1.1數(shù)據(jù)集本文實(shí)驗(yàn)使用的知識(shí)庫是Yago2,其中的實(shí)體-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-來自Wikipedia。Yago2共包含48106個(gè)三元組。另外,F(xiàn)ACC1數(shù)據(jù)集被用來構(gòu)造擴(kuò)展的知識(shí)庫。ClueWeb09是Lemur研究團(tuán)隊(duì)在

13、2009年1月到2月之間爬取的約10億個(gè)Web網(wǎng)頁集合,其中大約有500106個(gè)英文網(wǎng)頁。FACC1數(shù)據(jù)集是對(duì)ClueWeb09中所有英文網(wǎng)頁上出現(xiàn)的Freebase實(shí)體作了標(biāo)注,大概估測(cè)的標(biāo)注精度和覆蓋率分別是80%,85%和70%,85%。由于Freebase中的實(shí)體可以對(duì)應(yīng)于Wikipedia的實(shí)體,繼而對(duì)應(yīng)于Yago2中的實(shí)體,所以FACC1數(shù)據(jù)集可以很容易地轉(zhuǎn)化為用Yago2來標(biāo)注的網(wǎng)頁集合。本文使用一種簡(jiǎn)單卻非常有效的抽取方法從上面介紹的數(shù)據(jù)集中獲得一些由自然語言短語構(gòu)成的三元組集合。具體地,在標(biāo)注的頁面上獲得所有出現(xiàn)在同一句子中并且中間間隔不超過50個(gè)字符的實(shí)體對(duì),分別作為三元組

14、的主語和賓語,而它們之間的字符串短語作為三元組的謂詞。這樣從FACC1數(shù)據(jù)集上共獲得了392106個(gè)三元組,其中有65106個(gè)不同的三元組,可看出信息的冗余度還是很大的,而這冗余度可以被用來對(duì)三元組進(jìn)行評(píng)分。這些用簡(jiǎn)易方法抽取出的三元組加上原來的知識(shí)庫Yago2共同構(gòu)成了下面實(shí)驗(yàn)中所使用的擴(kuò)展知識(shí)庫XKG。據(jù)估測(cè),這樣生成-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-的XKG的精度大概是70%,80%。另外,本文使用第2章中所描述的謂詞改寫的抽取方法從XKG中挖掘出大約172106個(gè)謂詞與其轉(zhuǎn)述或逆轉(zhuǎn)述對(duì),類似表3中所示,每一對(duì)謂詞有一個(gè)計(jì)算出來的改寫權(quán)重。5.1.2查詢集因?yàn)?/p>

15、現(xiàn)有的查詢集大多是沒有關(guān)系條件或最多只有一個(gè)關(guān)系條件的實(shí)體查詢,所以本項(xiàng)目在實(shí)驗(yàn)中設(shè)計(jì)生成了一組包含多個(gè)實(shí)體間關(guān)系的復(fù)雜查詢,例如“找出所有由獲圖靈獎(jiǎng)的人發(fā)明的編程語言?!边@里涉及了三個(gè)實(shí)體,“圖靈獎(jiǎng)”“人”和“編程語言”,它們之間有兩個(gè)關(guān)系相連,“人”獲得“圖靈獎(jiǎng)”,并且“人”發(fā)明了“編程語言”。這些復(fù)雜查詢是通過從XKG中采樣出2,4個(gè)相互關(guān)聯(lián)的實(shí)體而構(gòu)建生成的。例如,采樣出ALGOL、JohnBackus和TuringAward三個(gè)相互關(guān)聯(lián)的實(shí)體,即可以生成上面的那條復(fù)雜查詢。下面介紹具體的實(shí)體采樣步驟。首先,XKG中的知識(shí)被分成不同領(lǐng)域,每次采樣都在同一領(lǐng)域中進(jìn)行。本文考慮的采樣領(lǐng)域有

16、電影、音樂、書籍、體育、計(jì)算機(jī)和軍事沖突等,每一領(lǐng)域包含一些特定類型的實(shí)體。例如,電影領(lǐng)域包括actor、 show、 director、 award和producer等類型的實(shí)體。在每個(gè)領(lǐng)域中,先基于領(lǐng)域-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-中每個(gè)實(shí)體出現(xiàn)的先驗(yàn)概率選擇一個(gè)中心實(shí)體。然后,選擇領(lǐng)域中與中心實(shí)體聯(lián)系最緊密的20個(gè)實(shí)體,實(shí)體間聯(lián)系的緊密程度用Milne和Witten在文獻(xiàn)9提出的基于Wikipedia鏈接的度量值來衡量。接下來,在這20個(gè)候選實(shí)體中,按照一定概率依次選擇下一個(gè)中心實(shí)體,直到選夠2,4個(gè)實(shí)體為止。選擇下一個(gè)中心實(shí)體的概率值正比于每個(gè)候選實(shí)體與

17、當(dāng)前中心實(shí)體在XKG中連接的三元組事實(shí)數(shù)目。得到這樣相互關(guān)聯(lián)的2,4個(gè)實(shí)體之后,人工地去構(gòu)建一個(gè)涉及所有這些實(shí)體,并且返回第一個(gè)中心實(shí)體作為答案的自然語言查詢。通過采樣生成的復(fù)雜查詢測(cè)試集記為COMPLEX。另外,本文也在現(xiàn)有的一些公認(rèn)的查詢測(cè)試集上進(jìn)行了實(shí)驗(yàn)。首先是Balog和Neumayer從各個(gè)查詢測(cè)試集匯總而成的包含485個(gè)實(shí)體查詢的測(cè)試集10,記為ESQ。從中來自SemSearch ES和INEX LD的測(cè)試查詢被去除,因?yàn)樗鼈兒捅疚膶?shí)驗(yàn)的測(cè)試內(nèi)容不相吻合。首先,來自SemSearch ES的大多查詢僅僅是要查找實(shí)體的名字描述,而不涉及任何關(guān)系,例如查詢“YMCA Tampa”“no

18、kia e73”等;其次,來自INEX LD的測(cè)試查詢是關(guān)鍵詞查詢,其語義模糊且標(biāo)準(zhǔn)答案集有很多噪聲。去除SemSearch ES和INEX LD之后,ESQ集合還剩255個(gè)測(cè)試查詢,又從中去除了37個(gè)-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-含有聚集操作的查詢,因?yàn)閷?shí)驗(yàn)中的所有系統(tǒng)都沒有考慮帶聚集操作的查詢。最后,ESQ包含218個(gè)測(cè)試查詢。不同于COMPLEX中的查詢,ESQ中的查詢是返回單個(gè)實(shí)體的查詢,而不是返回實(shí)體元組。這些查詢通常被表示為實(shí)體類型或?qū)嶓w類型加上一個(gè)實(shí)體關(guān)系的限制條件。 本文使用的第三個(gè)測(cè)試查詢集,記為ERQ11,包含28個(gè)查詢。ERQ中的22個(gè)查詢

19、和ESQ中的查詢類似,也是返回單個(gè)實(shí)體的查詢;另外6個(gè)查詢較復(fù)雜,返回實(shí)體對(duì)。5.1.3對(duì)比系統(tǒng)實(shí)驗(yàn)將本文提出的系統(tǒng)和兩個(gè)典型的相關(guān)工作進(jìn)行了比較。第一個(gè)系統(tǒng)記為ES,是基于Balog等13提出的方法。在此方法中,每個(gè)實(shí)體被表示為一個(gè)結(jié)構(gòu)化文檔,其中每個(gè)域?qū)?yīng)于該實(shí)體所屬于的實(shí)體類型或該實(shí)體在Wikipedia中的描述文本。本文實(shí)驗(yàn)中使用的是論文中的Model 4,因?yàn)樵撃P驮诒疚牡臏y(cè)試數(shù)據(jù)集上效果最好。因?yàn)槲墨I(xiàn)13方法面向?qū)嶓w搜索,返回的都是單個(gè)實(shí)體而不能是實(shí)體元組,所以對(duì)于測(cè)試查詢集中一些返回實(shí)體元組的查詢,本文為ES系統(tǒng)專門修改成返回單個(gè)實(shí)體的查詢,然后相應(yīng)地衡量結(jié)果相關(guān)度。在本文實(shí)驗(yàn)中

20、采用了該方法的強(qiáng)制類型-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-符合策略,即答案的實(shí)體類型必須符合查詢要求的實(shí)體類型。本文也實(shí)驗(yàn)了沒有類型符合約束的版本,但檢索效果比有強(qiáng)制類型符合約束的差。另外,本文還嘗試將實(shí)體在XKG中出現(xiàn)的三元組內(nèi)容納入到該實(shí)體的結(jié)構(gòu)化文檔表示中,但獲得了更差的檢索效果。第二個(gè)系統(tǒng)記為ERS,是Li等12給出的在有實(shí)體標(biāo)注的文本集上進(jìn)行實(shí)體關(guān)系查詢的方法。在此方法中,實(shí)體和實(shí)體間關(guān)系的查詢條件都被表示為一組關(guān)鍵詞,評(píng)分模型主要依賴于查詢條件中的關(guān)鍵詞和實(shí)體變量或?qū)嶓w變量對(duì)在文本集上綁定之間的距離鄰近度。在原論文中,ERS只在Wikipedia文檔集的子

21、集上且限定在10種類型的實(shí)體上進(jìn)行了實(shí)驗(yàn)。在本文的實(shí)驗(yàn)中,為了能公平比較,對(duì)所有系統(tǒng)使用相同的數(shù)據(jù)集和查詢集,即前兩節(jié)所述的XKG和三個(gè)測(cè)試查詢集。本文提出的系統(tǒng)記為XKGERS。本文開發(fā)實(shí)驗(yàn)了兩個(gè)版本:一個(gè)是沒有使用查詢放松的XKGERS;另一個(gè)是應(yīng)用了查詢放松規(guī)則的系統(tǒng),記為XKGERS+relax。由于三個(gè)比較的系統(tǒng)使用不同類型的查詢語言,所以查詢測(cè)試集中每個(gè)用自然語言描述的信息需求被手動(dòng)地將其翻譯成每個(gè)系統(tǒng)要求的查詢格式。例-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-如,“找出所有由獲圖靈獎(jiǎng)的人發(fā)明的編程語言?!北环g成每個(gè)系統(tǒng)所接受的查詢?nèi)缦?程序前XKGERS:S

22、ELECT ,x ,y WHERE ,xtypeprogramming_language .,ytypeperson .,x”invented by”,y .,yhasWonPrizeTuringAwardERS:SELECT ,x ,yFROMprogramming_language,x,person,yWHERE,x:“won”, “turing award”AND,x, ,y:“invented by”ES:category: text:程序后5.2實(shí)驗(yàn)結(jié)果與分析表4,6分別給出了在三個(gè)測(cè)試查詢集ESQ、ERQ和COMPLEX上的實(shí)驗(yàn)結(jié)果。類似于其他同類工作,本文采用標(biāo)準(zhǔn)的P5、NDCG

23、、平均正確率均值和召回率來衡量查詢系統(tǒng)的有效性。返回空結(jié)果列表的查詢,其所有衡量指標(biāo)為被設(shè)為0。-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-ESQ測(cè)試查詢集為每個(gè)查詢給出了相關(guān)結(jié)果;而ERQ和COMPLEX測(cè)試查詢集沒有給出相關(guān)結(jié)果,所以本文使用眾包機(jī)制來獲取每個(gè)測(cè)試查詢的相關(guān)結(jié)果,即每個(gè)查詢與一個(gè)結(jié)果的相關(guān)度分別由三個(gè)不同的人作出判定,然后取多數(shù)判定結(jié)果為最終結(jié)果。不同判定者之間判定一致性的Kappa系數(shù)為0.837,說明大家的結(jié)論還是非常一致的。在所有測(cè)試查詢集上使用的是二值相關(guān)度,即只有相關(guān)和不相關(guān)兩種情況。對(duì)于大多數(shù)查詢而言,很難獲得其所有的相關(guān)結(jié)果,例如“peopl

24、e born in Spain”等。因而,類似于信息檢索系統(tǒng)評(píng)測(cè)通常采用的池化方法,所有系統(tǒng)返回的相關(guān)結(jié)果被合在一起作為相關(guān)結(jié)果的全集,從而可以計(jì)算NDCG和召回率等衡量指標(biāo)了。從表4可看出,對(duì)于單個(gè)實(shí)體的查詢,即ESQ測(cè)試查詢集中的查詢,本文的系統(tǒng)XKGERS+relax在各個(gè)指標(biāo)上均超過了其他系統(tǒng),但是沒有應(yīng)用查詢放松的XKGERS卻不如另外兩個(gè)對(duì)比系統(tǒng)。主要原因是用戶表達(dá)查詢的方式和知識(shí)庫中知識(shí)的表達(dá)方式之間存在很大的差異。例如,查詢“Italian Nobel winners”,在XKGERS系統(tǒng)中被翻譯成含知識(shí)庫中的hasWonPrize謂詞的三元組模式。這看上去是合理的,但事實(shí)上,

25、知識(shí)庫中只給出了特定諾貝爾獎(jiǎng)的獲得者,-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-如謂詞NobelPrizeInLiterature。在應(yīng)用了查詢放松規(guī)則的XKGERS+relax系統(tǒng)中,hasWonPrize謂詞被放松為它的一個(gè)逆轉(zhuǎn)述謂詞“winer”-1,這使得系統(tǒng)可以返回諸如這樣的從文本中抽取出的三元組,從而得到正確的答案。同時(shí)在表4中還可以看到ES和ERS系統(tǒng)的效果非常接近。這是因?yàn)閷?duì)大多數(shù)單個(gè)實(shí)體查詢,ERS查詢退化成了ES查詢,即用一個(gè)類型約束和一組關(guān)鍵詞來描述目標(biāo)實(shí)體,只是具體的評(píng)分模型不同而已。另外值得注意的是對(duì)一些單個(gè)實(shí)體查詢來說,基于關(guān)鍵詞的檢索方法就可以

26、得到令人滿意的結(jié)果了,例如查詢“Formula one races in Europe”“Ratt albums”等。如果讓用戶把它們表示成結(jié)構(gòu)化的三元組模式查詢反而是件困難的事。 ERQ測(cè)試查詢集共有28個(gè)查詢,其實(shí)驗(yàn)結(jié)果如表5所示。其中22個(gè)查詢類似于ESQ中的查詢,也是關(guān)于單個(gè)實(shí)體的查詢,不包含實(shí)體間的關(guān)系;剩下的6個(gè)查詢是實(shí)體關(guān)系查詢,涉及到多個(gè)實(shí)體,需要返回實(shí)體元組,如查詢“Films starring Robert de Niro, and their directors”和“Novels and their Academy Award winning film adaptatio

27、ns”等。當(dāng)查詢條件中的信息恰巧正確地包含在一個(gè)文檔中時(shí),ES和ERS系統(tǒng)可以返回正確答案。但對(duì)于一些看似簡(jiǎn)單卻-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-需要精準(zhǔn)地理解實(shí)體間關(guān)系的實(shí)體關(guān)系查詢,由于ES和ERS系統(tǒng)只是用和關(guān)鍵詞的鄰近度來判定關(guān)系,往往會(huì)返回錯(cuò)誤結(jié)果。例如,ES和ERS系統(tǒng)對(duì)查詢“football players who were FIFA Player of the Year”返回的答案中包含DavidBeckham和ThierryHenry,但他們僅是被提名該獎(jiǎng)項(xiàng),并未實(shí)際獲得此獎(jiǎng)項(xiàng);而XKGERS系統(tǒng)由于可以正確確立實(shí)體間的關(guān)系,所以可以返回該查詢的正

28、確答案。表6給出的是在COMPLEX測(cè)試查詢集上的實(shí)驗(yàn)結(jié)果。要正確回答這些查詢常常需要集成從多個(gè)源獲得的知識(shí),并能正確確立查詢中實(shí)體間的關(guān)系。可以看到,對(duì)這類查詢,XKGERS+relax的表現(xiàn)遠(yuǎn)遠(yuǎn)超過了其他系統(tǒng)。下面一個(gè)具體的查詢示例可用來解釋其中可能的原因。例如,給定查詢“Spouses of actors whograduated from an Ivy League university”,翻譯成的三元組模式查詢?yōu)?程序前SELECT ,x ,y ,z WHERE ,x type person .,y type actor .,z type university . -最新精選范文分享

29、-謝謝觀看-最新精選范文公文分享-歡迎觀看-,x marriedTo ,y .,y graduatedFrom ,z .,z “member of”IvyLeague程序后假設(shè)擴(kuò)展的知識(shí)庫XKG中存放著如下一些三元組:程序前ChristopherReevegraduatedFromJuilliardSchoolChristopherReeve“went to”CornellUniversity程序后另外,預(yù)先挖掘出的一些查詢放松規(guī)則如下:程序前: 0.06程序后可看出,該查詢需要的所有信息極少會(huì)被包含在同一個(gè)文檔中,所以 ES系統(tǒng)很難返回相關(guān)答案。知識(shí)庫雖然能夠解決這種需要鏈接不同信息片段的多

30、步查詢,但是知識(shí)庫的信息是非常不完全的,例如graduatedFrom關(guān)系在此知識(shí)庫中就沒有覆蓋所有可能的實(shí)體對(duì)。而本文提出的擴(kuò)展知識(shí)庫用從文本中挖掘出的文本短語三元組補(bǔ)充原知識(shí)庫,并使用查詢放-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-松規(guī)則匹配語義相近的謂詞,例如graduatedFrom可以被放松為“went to”。這樣就可以返回相關(guān)答案:雖然ERS系統(tǒng)也可以回答帶有關(guān)系的查詢,但它使用實(shí)體和關(guān)系短語在文本中出現(xiàn)的鄰近距離來確立實(shí)體間的關(guān)系,所以會(huì)造成很多錯(cuò)誤,例如文本中出現(xiàn)了“private and public universities including Ivy

31、League members, MIT, Vanderbilt University, Swartmore College, Cal Berkeley ”,ERS系統(tǒng)會(huì)據(jù)此確立Swartmore College屬于常春藤盟校的關(guān)系,而這是錯(cuò)誤的。綜上所述,XKGERS+relax的實(shí)驗(yàn)效果大大超出了所有其他比較系統(tǒng),尤其是在COMPLEX測(cè)試查詢集上。最后,分析一下XKGERS+relax系統(tǒng)的局限性。該系統(tǒng)在一些查詢上失敗的原因主要有兩大類:錯(cuò)誤的事實(shí)知識(shí)和由查詢放松造成的語義漂移。錯(cuò)誤的知識(shí)主要來源于實(shí)體標(biāo)注中的錯(cuò)誤和本文使用的過于簡(jiǎn)單的三元組事實(shí)抽取機(jī)制。一般情況下,這些錯(cuò)誤的知識(shí)的出現(xiàn)

32、頻率較小,因而與三元組模式匹配的得分較低,通常不會(huì)被返回。但對(duì)于一些正確答案很少的查詢可能會(huì)造成問題。系統(tǒng)的另一類錯(cuò)誤來源于由查-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-詢放松造成的語義漂移。同樣,受這類錯(cuò)誤影響最大的是那些正確答案數(shù)小于5的查詢。6結(jié)語針對(duì)現(xiàn)有的實(shí)體檢索和知識(shí)圖譜上的查詢系統(tǒng)的不足,本文著重研究了如何利用帶實(shí)體標(biāo)注的文本集擴(kuò)展知識(shí)庫來進(jìn)行復(fù)雜的實(shí)體關(guān)系查詢的方法。首先不同于現(xiàn)有的實(shí)體檢索系統(tǒng),本文著重研究帶復(fù)雜關(guān)系的查詢,返回的是實(shí)體元組的列表而不僅是單個(gè)實(shí)體的列表;其次不同于已有的知識(shí)圖譜上的查詢系統(tǒng),本文提出使用帶實(shí)體標(biāo)注的文本集來擴(kuò)充原有的知識(shí)庫,從

33、而在一定程度上克服知識(shí)庫固有的不完全問題,并能彌合一部分知識(shí)表示和自然語言表示之間的距離。相應(yīng)地,本文提出了查詢放松機(jī)制和評(píng)分模型以及高效的topk查詢處理方法;最后,本文用實(shí)驗(yàn)驗(yàn)證了該方法的有效性。在此基礎(chǔ)上,本項(xiàng)目進(jìn)一步的研究工作包括實(shí)驗(yàn)更復(fù)雜、更精確的事實(shí)抽取方法,研究更完善和詳盡的查詢放松機(jī)制,設(shè)計(jì)更合理有效的評(píng)分模型,研究該方法的應(yīng)用實(shí)例。有關(guān)應(yīng)用實(shí)例,此方法會(huì)為記者或一些內(nèi)容分析員提供有效的幫助,他們常常要通過分析大量的文本數(shù)據(jù)來獲取、發(fā)掘或驗(yàn)證相關(guān)實(shí)體間的一些復(fù)雜關(guān)系。 參考文獻(xiàn): -最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-1MAUSAM第一作者就只有一個(gè)詞,

34、 SCHMITZM, SODERLAND S, et al. Open language learning for information extraction C/ Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012:523-534.2

35、HOVY E H, NAVIGLI R, PONZETTO S P.Collaboratively built semistructured content and artificial intelligence: the story so far J. Artificial Intelligence,2013, 194: 2-27.3HOFFART J. Robust disambiguation of named entities in text C/ Proceedings of the 2011 Conference on Empirical Methods in Natural La

36、nguage Processing. Stroudsburg, PA, USA: Association forComputational Linguistics, 2011: 782-792.4GABRILOVICH E, MARKOVITCH C.-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-Computing semantic relatedness using Wikipediabased explicit semantic analysis C/ Proceedings of the 20th International Joint Conference on Art

37、ificial Intelligence. San Francisco: Morgan Kaufmann Publishers, 2007:1606-1611.5GALARRAGA L A, TEIOUDI C, HOSE K,et al. AMIE: association rule mining under incomplete evidence in ontological knowledge bases C/ WWW 2013: Proceedings of 22nd International World Wide Web. New York: ACM, 2013: 413-422.

38、6ZHAI C, LAFFERTY J. A study of smoothingmethods for language models applied to Ad Hoc information retrieval C/ Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2001: 334-342.7FAGIN R, LOTEM A, NAOR M. Optimalaggre

39、gation algorithms for middleware J. Journal of Computer and System Sciences, 2003,6:14-656.-最新精選范文分享-謝謝觀看-最新精選范文公文分享-歡迎觀看-8ILYAS I F, BESKALES G, SOLIMAN M A. Asurvey of topk query processing techniques in relational database systems J. ACM Computing Surveys, 2008,40: Article No. 11.9THEOBALD M, SCH

40、ENKEL R, WEIKUM G.Efficient and selftuning incremental query expansion for topk query processing C/ Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2005: 242-249.10MILNE D, WITTEN I H. Learning to link with Wikipedia C/ Proceedings of the 17th ACM Conference on Information and Kn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論