《網(wǎng)絡信息檢索》課件第9章_第1頁
《網(wǎng)絡信息檢索》課件第9章_第2頁
《網(wǎng)絡信息檢索》課件第9章_第3頁
《網(wǎng)絡信息檢索》課件第9章_第4頁
《網(wǎng)絡信息檢索》課件第9章_第5頁
已閱讀5頁,還剩85頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第9章中文和跨語言信息檢索9.1中文預處理9.2中文信息檢索9.3跨語言信息檢索9.4小結(jié)思考題

9.1中文預處理

中文信息有其特殊性,它和英文信息有很大的差別,所以,中文信息檢索和英文信息檢索的基本原理雖然大同小異,但是針對中文信息的特別處理卻是必不可少的,直接影響檢索效果。中文網(wǎng)絡信息檢索和英文網(wǎng)絡信息檢索在機制和原理上基本一致,但由于中文本身的特點,必須引入針對中文的特殊處理技術,中文編碼轉(zhuǎn)換和中文分詞是兩個重要的中文處理技術。9.1.1中文編碼及轉(zhuǎn)換

網(wǎng)頁的源代碼以文本文件的形式存放在Web服務器,在網(wǎng)頁的HTML源碼中通過“Content-Type”屬性標注該網(wǎng)頁所用的編碼方式,下面給出一個以GB2312編碼的中文網(wǎng)的源代碼的頭部:

〈html〉

〈head〉

〈title〉Content-type的說明〈/title〉

〈metahttp-equiv=″Content-Type″content=″text/html;charset=gb2312″〉…

可以通過對charset設定不同的值,對網(wǎng)頁的編碼信息進行標注。中國大陸主要采用的編碼是GB2312、GBK、GB18030,其中GB2312最常用,而中國臺灣地區(qū)則長期采用BIG5碼。20世紀80年代,國家質(zhì)量技術監(jiān)督局頒布GB2132中文簡體字集標準,收錄了6763個漢字及682個符號。1995年,國家補充制定了漢字擴展規(guī)范GBK,共收錄了21886個漢字和符號。2000年,國家質(zhì)量技術監(jiān)督局頒布GB18030取代GBK,收錄了27484個漢字,還收錄了藏文、蒙文和維吾爾文等主要的少數(shù)民族文字。這3類編碼方法是向下兼容的,即同一個字符總是有相同的編碼。

下面對這幾種編碼作個簡單的介紹。

1.中文編碼標準

1)GB2312

1981年我國國家標準總局頒布了《信息交換用漢字字符集——基本集》,即漢字國標碼GB2312。GB2312使用最普遍的中文代碼,該標準編碼字符集共收錄了6763個漢字和682個圖形符號,共7445個符號。GB2312提供了每個漢字的標準代碼,收入漢字信息交換用的基本圖形字符,采用一字一碼的原則,具體包括:一般符號、序號、數(shù)字、拉丁字母、日文假名、希臘字母、俄文字母、漢語拼音符號、漢語注音字母及簡化漢字6763個。

除了基本字符集外,GB2312—80還包括各種輔助集:GB12345—90、GB7589—87、GB13131—1991、GB7590—87、GB13132—1991。

2)GBK

1995年,頒布GBK編碼標準,它完全兼容GB2312,在全部采用了GB2312的符號基礎上,共收錄漢字21003個、符號883個,并提供1894個造字碼位,將簡、繁體字融于一庫之中。GBK是中文編碼擴展國家標準。

3)GB18030

2000年,頒布GB18030標準,即《信息技術信息交換用漢字編碼字符集基本集的擴充》,是我國繼GB2312之后最重要的漢字編碼標準,是我國計算機系統(tǒng)必須遵循的基礎性標準之一。GB18030共收錄了27484個漢字,總編碼空間超過150萬個碼位,為解決人名、地名用字問題提供了方案,為漢字研究、古籍整理等領域提供了統(tǒng)一的信息平臺基礎。

4)BIG5

1984年,我國臺灣地區(qū)財團法人資訊工業(yè)策進會和5家資訊公司共同創(chuàng)立了五大碼,其英文名稱為“BIG5”,后稱為大五碼,是繁體中文的編碼標準。我國臺灣、香港等地區(qū)常用該碼。BIG5包括440個符號、5401個一級漢字、7652個二級漢字。

5)ISO/IEC10646

ISO/IEC10646是國際編碼標準,也稱《信息技術通用多八位編碼字符集》(GB13000),是全新的編碼體系,采用4個“八位”(即4個字節(jié))編碼方式,統(tǒng)一編碼世界上的主要文字。這4個字節(jié)分別表示組、平面、行和字位,每個平面含65536個碼位空間,其中00組00平面稱為基本多文種平面(BMP),編碼空間總共2147483648個碼位(128組×256平面×256行×256字位)。在基本多文種平面中包括27484個漢字和我國少數(shù)民族文字(藏文、蒙文、彝文)等,其中藏文基本集194個字符,蒙文基本集155個字符,彝文1215個字符。

6)Unicode

對于采用了不同字符編碼標準的系統(tǒng),必須經(jīng)過字符碼轉(zhuǎn)換。例如:中英文混合情況。為解決這個問題,國際標準組織于1984年4月成立ISO/IECJTC1/SC2/WG2工作組,針對各國文字、符號進行統(tǒng)一編碼,Unicode(統(tǒng)一碼)被視為ISO10646國際編碼標準的實踐版。由Unicode學術學會制定的統(tǒng)一碼3.0版本,與ISO/IEC10646-1:2000相對應,于2000年2月正式推出。這個版本收納了49194個來自世界各地不同語種的字符,其中包括27484個東亞的表意文字(漢字,漢字是經(jīng)過CJK整合的,

即將中日韓文中相近的漢字用單一的編碼,稱為統(tǒng)漢字Unihan,共2萬多個,但并不包含一些罕見的字,如康熙字典中的一些古字)。

Unicode編碼有多種實現(xiàn),常見的有UTF8、UTF16、UCS-2、UCS-4等。

2.中文編碼轉(zhuǎn)換

由于互聯(lián)網(wǎng)上不同的中文編碼方式共存,為了能以統(tǒng)一的過程對中文網(wǎng)頁信息進行正確處理,必須對收集到的中文信息進行內(nèi)碼轉(zhuǎn)換,在計算機內(nèi)以統(tǒng)一的編碼方式存放中文信息。漢字內(nèi)碼的轉(zhuǎn)換一般基于碼表,碼表提供了從一種字符編碼到另一種字符編碼的映射。

以下以GBK碼到BIG5碼的轉(zhuǎn)換為例介紹內(nèi)碼轉(zhuǎn)換的算法。

1)碼表

首先需要一個碼表:GBKtoBIG5。碼表的作用在于記錄了所有源編碼字符在目標編碼方案中的編碼。GBKtoBIG5[n]中保存的就是GBK碼表中第n個字符的BIG5編碼。對于一個GBK碼字符,只要知道它在GBK碼表中的位置posit,就可以通過GBK2BIG5[posit]得到它的BIG5碼表示。

2)定位

GBK是2字節(jié)編碼,第一字節(jié)(ch1)編碼范圍是0x81~FE,第二字節(jié)(ch2)編碼范圍是0x40~0x7E和0x80~0xFE。因此,整個GBK的編碼空間可以按ch1進行分組,每組190個漢字,第一組(0x80)GBK編碼如表9-1所示。表9-1第一組(0x80)GBK編碼因此,對于GBK(首字節(jié)ch1,第二字節(jié)ch2)字符可以進行如下定位:(9-1)posit=(ch1-129)×190+(ch2-64)-9.1.2中文分詞

中文分詞的含義是,把中文的漢字切分成有意義的詞。中文信息檢索系統(tǒng)中,在建立索引之前,必須對被索引的文檔進行分析。文檔由被稱做特征項的索引詞(詞或者字)組成,文檔分析是將一個文檔表示為特征項的過程。在提取特征項時,中文又面臨與英文處理不同的問題。中文信息和英文信息有一個明顯的差別:英語單詞之間用空格分隔;而在中文文本中,詞與詞之間沒有天然的分隔符,中文詞匯大多是由兩個或兩個以上的漢字組成的,并且語句是連續(xù)書寫的。這就要求在對中文文本進行自動分析前,先將整句切割成小的詞匯單元,這就是中文分詞的任務。漢語詞語雖然由不同的字數(shù)構(gòu)成,但具有一定的規(guī)律。例如漢語中大部分的詞都是雙字組,根據(jù)北京現(xiàn)代漢語頻率詞典的數(shù)據(jù),漢語詞匯中26.7%是單字詞(Unigram),69.8%是雙字詞(Bigram),2.7%是三字詞(Trigram)。

中文是以語句分隔開的,而語句是由有意義的字、詞組成的,中文的詞有雙字的、三字的,或更多字的。中文分詞的目的就是把中文中的字切分成有意義的詞。中文網(wǎng)絡信息檢索系統(tǒng)中,在建立索引之前,對被索引的文檔進行分析,將有助于檢索效果的提升,避免得到錯誤的檢索結(jié)果。文檔分析是將一個文檔表示為特征項的過程,特征項也即索引項。

表9-2是對于一個字串,其所有單字詞、雙字詞和三字詞的切分的示例。自動分詞的基本方法有:基于統(tǒng)計的分詞方法和基于字符串匹配的分詞方法。

1.基于統(tǒng)計的分詞方法

從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此,字與字相鄰共現(xiàn)的頻率或概率能夠較好地反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息。計算漢字X和Y的互現(xiàn)信息(ConcurrenceInformation)公式為(9-2)其中,P(X,Y)是漢字X、Y的相鄰共現(xiàn)概率,P(X)、P(Y)分別是X、Y在語料中出現(xiàn)的概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關系的緊密程度。當互現(xiàn)信息越大時,表示相關程度越高;當該值為0,則表示不相關;若該值為負,則表示負相關。

Richard算法[1]是基于互現(xiàn)信息的一種自動分詞算法,其算法描述如下:

1.計算短語中所有相鄰的雙字詞的互信息量(只對短語中的單字或雙字詞進行識別);

2.將短語中互信息量最大的雙字詞當作詞從短語中提取,提取雙字詞后原來的短語將分裂成更短的短語;

3.重復步驟2直到所有的短語都由一或兩個漢字組成。

【例9-1】

利用Richard的分詞原理,試對語句S=“中國大陸新發(fā)現(xiàn)的油田”進行分詞。

以TREC-5ChineseCollection為語料庫,表9-3給出了中文分詞的一個例子。根據(jù)表9-3的計算結(jié)果,對句子進行刪除詞操作,得到的分詞結(jié)果如表9-4所示。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但這種方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高,但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時空開銷大。

2.基于字符串匹配的分詞方法

基于字符串匹配的分詞方法的基本思想是:截取一個字符串,把它與詞典中的詞條進行匹配,若在詞典中找到對應的詞,該字符串就被識別為一個詞。這種方法又稱為機械分詞方法。

按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(或最長)匹配和最小(或最短)匹配;按照是否與詞性標注過程相結(jié)合,又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的幾種機械分詞方法如下:

(1)正向最大匹配(MaximumMatching):從左到右的方向匹配;

(2)逆向最大匹配(ReverseMaximumMatching):從右到左的方向匹配;

(3)最少切分:使每一句中切出的詞數(shù)最小。

還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計結(jié)果表明[2],單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245(這可能是因為漢語的中心語靠后的特點)。對于機械分詞方法,可以建立一個一般的模型,形式地表示為ASM(d,a,m),即自動分析模型(AutomaticSegmentationModel),其中,

d:匹配方向,+表示正向,-表示逆向;

a:每次匹配失敗后增加或減少字串長度(字符數(shù)),+為增字,-為減字;

m:最大或最小匹配標志,+為最大匹配,-為最小匹配。

例如,ASM(+,-,+)就是正向減字最大匹配法(MaximumMatchbasedapproach,MM),ASM(-,-,+)就是逆向減字最大匹配法(簡記為RMM方法),等等。對于現(xiàn)代漢語來說,只有m=+是實用的方法。以下以正向減字最大匹配為例具體介紹分詞算法。

正向減字最大匹配法:切分的過程是從自然語言的中文語句中提取出設定的長度字串,與詞典比較,如果在詞典中,就算一個有意義的詞串,并用分隔符分隔輸出,否則縮短字串,在詞典中重新查找(詞典是預先定義好的)。

圖9-1所示為正向減字最大匹配法流程圖。圖9-1正向減字最大匹配法流程圖輸入:中文詞典,待切分的文本d,d中有若干被標點符號分割的句子S1,設定的最大詞長MaxLen,即窗口寬度。

輸出:每個句子S1被切為若干長度不超過MaxLen的字符串,并用分隔符分開,記為S2,所有S2的連接構(gòu)成d切分之后的文本。

該算法的思想:對于文檔中的每個句子S1從左向右以MaxLen為界選出候選字串W,如果W在詞典中,處理下一個長為MaxLen的候選字段;否則,將W最右邊一個字去掉,繼續(xù)與詞典比較;S1切分完之后,構(gòu)成詞的字符串或者此時W已經(jīng)為單字,用分隔符隔開輸出給S2。從S1中減去W,繼續(xù)處理后續(xù)的字串。S1處理結(jié)束,取T中的下一個句子賦給S1,重復前述步驟,直到整篇文本都切分完畢。

下面給出正向減字最大匹配法算法的偽碼:在正向減字最大匹配法中,窗口寬度的大小設置可能直接影響分詞的結(jié)果。如果窗口寬度設置得過短,將導致長詞被切碎,比如當窗口寬度設為3時,詞“中華人民共和國”將被切碎打散,與事實不符;如果窗口寬度設置得過長,又將導致效率低下,因為窗口寬度越長,每一次的W就愈長,小循環(huán)的次數(shù)就愈多。根據(jù)2005年Bakeoff評測語料庫的統(tǒng)計,中文詞長的分布如表9-5所示。可見,小于5個字的詞在中文中超過了99%,占絕大多數(shù),所以窗口寬度設置為5一般不會發(fā)生將詞切碎的問題;如果需要提高分詞速度,不妨將窗口寬度設置為2,因為小于2個字(包括2)的詞超過90%。

整個算法的時間復雜度為O(mklogn)。

【例9-2】

試用正向減字最大匹配法對這個中文語句進行分詞。設字符串S1=“搜索引擎是上網(wǎng)工具”,窗口寬度MaxLen=5,所采用的詞典包括如下這些詞:搜索引擎、上網(wǎng)和工具等。試列出分詞過程,回答分詞結(jié)果S2是什么?

解:第一步:

(1)S1不為空,從S1的最左邊開始截取MaxLen個字作候選字符串W=“搜索引擎是”;

(2)查詞典,找不到匹配項,從W字串右邊去掉一個字,W=“搜索引擎”;

(3)查詞典,找到匹配項,S2=“搜索引擎/”,S1=“是上網(wǎng)工具”。

第二步:

(1)S1不為空,從S1的最左邊開始截取MaxLen個字作候選字符串W=“是上網(wǎng)工具”;

(2)查詞典,找不到匹配項,從W字串右邊去掉一個字,W不是單字,W=“是上網(wǎng)工”;

(3)查詞典,找不到匹配項,繼續(xù)從W字串右邊去掉一個字,W不是單字,W=“是上網(wǎng)”;查詞典,仍然找不到匹配項,繼續(xù)從W字串右邊去掉一個字,W不是單字,W=“是上”;

(4)查詞典,仍找不到匹配項,繼續(xù)從W字串右邊去掉一個字,W=“是”;

(5)W是單字,S2=“搜索引擎/是”,S1=“上網(wǎng)工具”。

第三步:

(1)S1不為空,從S1的最左邊開始截取剩下的4個字(小于MaxLen)作候選字符串,W=“上網(wǎng)工具”;

(2)查詞典,找不到匹配項,從W字串右邊去掉一個字,W不是單字,W=“上網(wǎng)工”;

(3)查詞典,找不到匹配項,從W字串右邊去掉一個字,W不是單字,W=“上網(wǎng)”;

(4)查字典,找到匹配項,S2=“搜索引擎/是/上網(wǎng)”,S1=“工具”。第四步:

(1)S1不為空,從S1的最左邊開始截取剩下的2個字(小于MaxLen)作候選字符串,W=“工具”;

(2)查字典,找到匹配項,S2=“搜索引擎/是/上網(wǎng)/工具”,S1=“”。

第五步:S1為空,結(jié)束分詞過程。

所以,最后的分詞結(jié)果是S2=“搜索引擎/是/上網(wǎng)/工具”,分出了單字、雙字詞和四字詞共4個單詞。

另外一個問題就是最大匹配法分詞掩蓋了分詞歧義。見下例。

【例9-3】

已知Sa=“有意見分歧”,Sb=“結(jié)合成分子時”,請寫出最大匹配法分詞的結(jié)果。

解:Sa=“有意見分歧”,分詞結(jié)果是:

正向最大匹配結(jié)果:有意/見/分歧/

逆向最大匹配結(jié)果:有/意見/分歧/

由此可以看出,正向最大匹配結(jié)果和逆向最大匹配結(jié)果不同。

Sb=“結(jié)合成分子時”,分詞結(jié)果是:

正向最大匹配結(jié)果:結(jié)合/成分/子時

逆向最大匹配結(jié)果:結(jié)合/成分/子時

由此可以看出,正向最大匹配結(jié)果和逆向最大匹配結(jié)果相同。

3.基于理解的分詞方法

這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。

在中文信息檢索系統(tǒng)中,應用最大匹配法分詞能檢索大部分的中文詞語,但由于中文本身的特點,仍然存在一些分詞的難題,這就是歧義識別和新詞識別。

1)歧義識別

這是由中文本身的特性形成的,比如交叉歧義,“表面的”這個短語就可以分成“表面的”和“表面的”;組合歧義,如句子“這個門把手壞了”,“把手”是個詞,但在句子“請把手拿開”中“把手”就不是一個詞;真歧義,例如,對于句子“乒乓球拍賣完了”,可以切分成“乒乓/球拍/賣/完/了”,也可切分成“乒乓球/拍賣/完/了”。

2)新詞識別

由于中文信息檢索系統(tǒng)中的索引項是基于一定的詞庫構(gòu)建而成的,定期更新,那么對于一些沒有收入詞庫而用戶提交查詢的新詞,檢索系統(tǒng)是無法按照用戶的本意來識別這些新詞的。比如在2003年非典發(fā)生之前,你若輸入“非典”這個詞,是無法找到你想要的信息的。解決這個問題的通用做法是盡可能多地收集詞匯,以降低碰到未登錄詞的機會;通過構(gòu)詞規(guī)則和上下文特征規(guī)則來識別;通過統(tǒng)計的方法來猜測經(jīng)過一般的分詞過程后剩下的“連續(xù)單字詞碎片”是人名、地名等的可能性,從而識別出未登錄詞。對于未定義詞識別的一般解決方法,首先要為每一類未定義詞都構(gòu)造專門的識別算法;再就是根據(jù)內(nèi)部構(gòu)成規(guī)律(用字規(guī)律)、外部環(huán)境(上下文)和重復出現(xiàn)規(guī)律來識別一些新詞。因而,目前新詞識別準確率已經(jīng)成為評價一個分詞系統(tǒng)好壞的重要標志之一。

實際應用的統(tǒng)計分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統(tǒng)計方法識別一些新的詞,即將串頻統(tǒng)計和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

9.2中文信息檢索

對于計算機來說,中文文本就是由漢字和標點符號等最基本的語言符號組成的字符串,由字構(gòu)成詞,由詞構(gòu)成短語,進而形成句、段、節(jié)、章和篇等語言結(jié)構(gòu)。用盡量簡單并且準確的方法表示文檔,是進行中文信息檢索的前提。9.2.1中文檢索模型

與面向英語的信息檢索不同,在中文信息檢索中,詞條之間并不以空格分隔。因此,各種基于詞條的英文信息檢索方法并不能直接應用到中文上。雖然有些索引技術,例如倒排文件、基于模型的簽名、疊加編碼簽名、變長位塊壓縮簽名等,可以通過修改應用于索引中文文檔,但這些技術只能影響到檢索效率(即存儲大小和檢索速度),對檢索的有效性(例如查準率和查全率)并沒有明顯影響。因此,在分詞的基礎上選擇合適的索引項是建立中文信息檢索的關鍵。目前常用的中文信息檢索模型是向量空間模型和概率模型,而后者又包括2-Poisson模型、LR模型和Pircs模型等典型方法。

1.向量空間模型

向量空間模型(VSM)[3]是在文本中提取其特征項組成特征向量,并以某種方式為特征項賦權(quán),具體定義及公式在本書2.3節(jié)有詳細描述。

向量空間模型索引項的權(quán)重計算方法對檢索的效果有很大的影響。除了第2章介紹的經(jīng)典的TF-IDF權(quán)重方法外,有許多常用的變體計算公式,如表9-6所示,可在中文檢索應用中適當使用。

2.概率模型

概率模型通過計算查詢q與文檔dj相關的概率P(q,di)得到q和dj的相似度,應用于中文信息檢索的概率模型有2-Poisson模型、LR模型和Pircs模型等。

1)2-Poisson模型

Robertson等人[4]提出了2-Poisson模型,這一模型有很多變體,其中應用于BM11系統(tǒng)[5]的一個是(9-3)式中:N是文檔的總數(shù);nj是所有含有索引項j的文檔的總數(shù);qj是查詢項j的權(quán)重;ti,j是索引項j在文檔i中的詞頻;leni是文檔i的長度;len是平均文檔長度。對于文檔長度,有兩種計算方法:(9-4)(9-5)

2)LR(Logistic-Regression)模型

LR模型[6]是另外一個應用在信息檢索中的著名的概率模型,它通過回歸的方法對數(shù)據(jù)的相關性進行建模,建模的結(jié)果是得到更復雜的表達式:(9-6)其中,logO(r|di,q)=-3.51+37.4X1+0.33X2-0.1937X3+0.929X4X4=N

3)Pircs模型

Pircs[7]是另外一個著名的基于概率的信息索引和檢索模型,它常常參加各種公開的中文信息檢索評測并有很好的表現(xiàn)。與其他的概率模型不同,Pircs考慮了查詢項的匹配方向:

(9-7)(9-8)(9-9)式中第i個文檔的權(quán)重P(q,di)是查詢項活性與文檔的線性加權(quán)和,該加權(quán)和基于式(9-7)、(9-8)和(9-9)所表示的由查詢詞、索引詞和文檔所構(gòu)成的概念框架。該“混合模型”中的權(quán)重取決于匹配方向,這是與貝葉斯概率模型的一個重要區(qū)別。混合參數(shù)α決定了查詢項和索引項對權(quán)重的“貢獻”,它的值對檢索的效果影響很小。

在上述模型中,查詢詞和文檔的概率權(quán)重wi,j和ωi,j經(jīng)信號轉(zhuǎn)換函數(shù)S(·)處理后再被規(guī)范化的文檔和查詢項權(quán)重調(diào)整。信號轉(zhuǎn)換函數(shù)可以采用S函數(shù)Ss(x)≡1/(1+e-x)或線性斜坡函數(shù)Sr(x)≡max{0.025+x,0.2}。9.2.2中文索引

有多種方式對中文文檔進行索引:

(1)按字索引:索引項為中文文檔中單個的漢字;

(2)按詞索引:索引項為中文文檔中的詞,要對文檔進行按詞的索引,首先要對文檔進行分詞;

(3)按短詞索引:索引項為中文文檔中的1~4字詞,可以通過互信息量從文章中提取;

(4)按雙字詞索引:索引項為中文文檔中的所有雙字詞;

(5)混合索引:按詞、字混合進行索引,按短詞、字混合進行索引。一般來說,基于字的索引方法具有較高的查全率,基于詞和雙字詞的索引方法具有較高的查準率。與基于詞的索引不同,基于雙字詞的索引方法沒有“未登錄詞”的問題,但它所用的存儲空間要比基于詞的索引方法的大。此外,不同的索引方法,所需的存儲空間如圖9-2所示。圖9-2幾種中文索引方法和模型的比較[8]

C代表按字索引,W代表按詞索引,S代表按短詞索引,WC代表詞和字混合索引,SC代表短詞和字混合索引,B代表按雙字詞索引,E代表偶數(shù)長度切分。

檢索速度取決于查詢詞的數(shù)量以及對每個查詢詞提交列表的大小。圖9-3描述了不同檢索模型對每一個TREC-5組合查詢檢索時間的散點圖(使用Pircs索引方法)。每種方法的趨勢擬合線為直線,而且對所有的檢索模型來說相關系數(shù)都很高。圖9-3幾種中文索引方法和模型的比較[8]表9-7比較了不同檢索模型和索引策略的平均檢索時間。從表9-7可以看出,不管使用哪種模型,每個查詢以詞為索引單位所需的時間都比其他索引方法的要短,其后依次是雙字索引、短詞索引和Pircs索引。VSM檢索模型在各種索引策略下所需的時間是最短的,之后是2-Poisson模型、Pircs檢索模型和LR模型。

在表9-7中,S是每個查詢的平均檢索時間,單位為秒;R是對每個查詢VSM模型平均檢索時間的相對值;位次是按照檢索時間對不同模型的排序,位次為1的模型最快,位次是5的最慢。

9.3跨語言信息檢索

9.3.1基本原理

網(wǎng)絡的普及使人們擺脫了地域的限制,但是語言的多樣性卻使這種自由受到限制,同時還影響了網(wǎng)絡信息價值的充分發(fā)揮。

圖9-4給出了全球幾種主要語言的使用人數(shù)分布情況,圖9-5給出了互聯(lián)網(wǎng)上網(wǎng)站信息使用的語言的分布情況。從圖中可以看出,盡管英語是網(wǎng)絡信息所使用的主要語言(占80%),但相當多的一部分人(40%)不懂英語。于是人們提出了跨語言信息檢索技術,即允許用戶使用其熟悉的一種語言構(gòu)造查詢檢索式,檢索出以另外一種或幾種語言表達的信息[9]。圖9-4全球幾種主要語言的使用人數(shù)分布圖9-5互聯(lián)網(wǎng)上網(wǎng)站信息使用的語言的分布跨語言信息檢索系統(tǒng)的目標是,在不同于用戶查詢條件語種的文檔集中檢索出與查詢條件相關的文檔。早期的跨語言信息檢索可以追溯到20世紀70年代Salton建立的關于英德和英法德跨語言檢索研究[10],經(jīng)過相關領域科研人員幾十年的不懈探索,跨語言信息檢索領域已經(jīng)取得了很大的進展,但還存在許多需要研究的問題及挑戰(zhàn)。

(1)查詢與文檔分屬不同語言。

這是跨語言信息檢索主要的特征。在跨語言信息檢索中,一般將用戶所使用的構(gòu)造檢索提問語言稱為源語言,而將文獻信息所使用的語言稱為目標語言。要實現(xiàn)跨語言的信息檢索,就必須實現(xiàn)兩種語言的翻譯。

(2)查詢中的詞可能是多義。

為消除歧義,人們往往采用以下的方式:

①選擇詞典中第一個詞義。這種做法基于一個假設,就是詞典中詞的第一個定義往往是最常用的。

②選擇詞典中所有詞義。既然無法判斷詞的意義,為保證查全率,將所有意義都翻譯出來作為檢索詞,相應地使檢索詞數(shù)量變得很大,導致查準率大幅度下降。

③任選N個意義,但基于上述方法造成的查準率急速下降,采用任選N個意義的方法以控制查詢問句的任意膨脹。④選擇N

個最貼切意義。由于任選的方式隨機性太大,根本無法控制查準率。因此人們利用語料庫計算不同詞義出現(xiàn)的頻率,然后選擇頻率較高的N個作為檢索用詞。隨著對統(tǒng)計語言學研究的深入,使用統(tǒng)計方法解決歧義問題越來越受到人們的重視。

(3)查詢通常很簡短。

查詢處理不僅包括查詢翻譯,還包括查詢擴展。查詢擴展是在用戶輸入檢索提問后,采取一定策略,對用戶的檢索要求進行擴充,前提是添加的詞匯必須是受控且與原檢索詞相關。通常,我們利用同義詞典來進行查詢擴展。

(4)跨語言信息檢索中的索引項。

一些語言,例如中文、日文和韓文等,詞與詞之間并沒有明顯的分隔符,分詞在此也是個問題。在對文檔進行檢索之前,需要對其進行預處理,索引是其中的一部分工作。

(5)文檔的多語性。

網(wǎng)絡文檔由不同的語言表達,語言識別(languageidentification)是檢索的基本工作。識別文檔的語言信息有助于提高索引質(zhì)量,改善檢索效果。

(6)輸出結(jié)果的呈現(xiàn)。

檢索所得的多語言文件,如何分辨彼此間的差異,以及合并不同語言文件檢索結(jié)果并呈現(xiàn)給用戶,也是跨語言信息檢索必須面對的挑戰(zhàn)。

下面簡單說明跨語言信息檢索的常用方法。

1.基于機器翻譯的方法

實現(xiàn)跨語言檢索系統(tǒng)最直接的方法是將機器翻譯系統(tǒng)應用于檢索過程中。一種方法是將用戶查詢翻譯為與文檔相同的語種,另一種方法是將文檔集中的文檔翻譯為與查詢語言相同的語種,然后再用單語種的信息檢索系統(tǒng)進行檢索。

基于機器翻譯的方法基本上可以分為查詢翻譯(querytranslation)、文檔翻譯(documenttranslation)和不翻譯(notranslation)三類。

(1)查詢翻譯:將查詢提問中的源語言翻譯成目標語言,然后再利用由目標語言構(gòu)成的檢索表達式去查找相關信息。

(2)文檔翻譯:把數(shù)據(jù)庫的文檔翻譯成與查詢語言相同的語言,再進行檢索。這種方法的優(yōu)點是:語境比較寬,歧義性分析所能用的線索較多,缺點是實時性差,查準率差,不適合于大規(guī)模處理。

(3)不翻譯:主要是使用線性代數(shù)或統(tǒng)計的方法解決跨語言信息檢索問題。目前通過不翻譯實現(xiàn)跨語言信息檢索的典型技術是廣義向量空間模型(GeneralizedVectorSpaceModel,GVSM)和潛語義索引(LatentSemanticIndexing,LSI)。

圖9-6是一個基于翻譯的中英文跨語言信息檢索的標準模型。圖9-6基于翻譯的中英文跨語言信息檢索模型

2.基于本體(ontology-based)的方法

本體是源自哲學上的一個概念,用于描述事物的本質(zhì)。本體定義了組成主體領域的詞匯的基本術語和關系,以及把術語和關系組合在一起定義詞匯外延的規(guī)則。利用本體來刻畫不同語言中對應領域的知識,以解決從查詢語言到檢索語言之間轉(zhuǎn)換過程中出現(xiàn)的語義損失和曲解等問題,從而保證在檢索過程中能夠有效地遵循用戶的查詢意圖,獲得預期的檢索信息?;诒倔w的方法的基本原理是使用本體作為搜索引擎的語義核心,充分利用其在知識表示和語義描述上的特性和優(yōu)點,將語義處理結(jié)合到模型中去。

3.基于語料(corpus-based)的方法

由于在現(xiàn)實生活中不可能構(gòu)建完備的雙語詞典或是手工構(gòu)建復雜的主題詞表,因此基于語料的方法從分析現(xiàn)有大規(guī)模的語料入手,從中抽取所需信息,自動構(gòu)建與應用有關的翻譯技術。這些語料分為平行語料和可比語料。

(1)平行語料(parallelcorpus):語料中包含文檔及其相應的翻譯文檔,按照文檔翻譯的方式又分為文檔對齊(documentalignment)、語句對齊(sentencealignment)和語詞對齊(wordalignment)3種方式。

(2)可比語料(comparablecorpus):語料中包含不同語種的涉及相似主題的文檔,不同語種的文檔之間不存在一一對應的關系。

前者是指同一文件,不同語言對譯;后者為同一主題(或事件),不同語言的描述。后者的定義較前者寬松,因此更容易獲得。

根據(jù)平行或可比語料,就可以制作出虛擬的平行文件。然后從中抽取出翻譯辭典,用來產(chǎn)生目標詢問(targetquery)。

4.基于字典的方法

基于字典的方法的中心思想是在查詢翻譯后,每一個單詞在檢索語種中都會有一個以上的單詞與之對應,它們能夠形成不同的單詞組合,對這些組合的出現(xiàn)情況在檢索語種的語料庫中進行統(tǒng)計后,根據(jù)常用詞組和習慣用法的出現(xiàn)頻率比較高的特點來凈化翻譯結(jié)果。同時,也可以直接使用這些單詞組合來進行檢索,同理,得到的結(jié)果中常用詞組和習慣用法將會構(gòu)成檢索結(jié)果中的主要部分。9.3.2基于GVSM的跨語言檢索

廣義向量空間模型GVSM[13]進行單語言信息檢索的步驟包括查詢轉(zhuǎn)換、文檔轉(zhuǎn)換和轉(zhuǎn)換后的查詢與文檔之間的相似性比較。檢索標準定義為(9-10)sim(q,d)=cos(ATq,ATd)查詢轉(zhuǎn)換q′=ATq相當于使用原始查詢中的權(quán)重改變每個詞條的分布模式,并將加權(quán)改變后的模式累加起來以得到新的查詢表示。文檔轉(zhuǎn)換與詞類似,d′=ATd改變并累加文檔中包含的詞條分布模式的權(quán)重。轉(zhuǎn)換后的查詢與文檔向量都是n維的,相應于矩陣A中的n個文檔。A使用的文檔集常被稱為訓練集,而對文檔和查詢的轉(zhuǎn)換則被稱為包入(fold-in)過程。一般來說,待轉(zhuǎn)換的文檔不包含在訓練集中。通過對單語言GVSM方法進行擴展,可以將之應用于跨語言檢索[11]。定義兩個矩陣A和B,其中A是源語言(或稱做查詢語言)訓練集的詞條-文檔矩陣,B是目標語言訓練集的詞條-文檔矩陣,A和B中的對應列是兩個訓練集的匹配文檔。如表9-8所示,這里的矩陣使用二值元素。這里Dn是英語和西班牙語訓練集中的第n對匹配文檔。源語言中的某個詞,例如dog,被表示為它在源語言文檔集中的分布,而目標語言中的某個詞,例如perro,則被表示為它在源語言文檔集中的分布。兩種語言中具有相同意義的詞常常具有相同或相似的行,例如dog和perro。兩種語言中并不是每個詞都存在另一種語言中對應的詞,而且并非所有的對應詞都有完全相同的出現(xiàn)模式。例如,動詞tolock一般翻譯為cerrarconllave,這兩個詞具有非常相似的出現(xiàn)模式。

令A和B分別表示源語言的查詢轉(zhuǎn)換和目標語言中的文檔轉(zhuǎn)換,則檢索標準可以定義為

sim(q,d)=cos(ATq,BTd)(9-11)由于矩陣A和B存在于同一個雙空間(dualspace)中,因此ATq和BTd使查詢和文檔具有共同的基(詞條在文檔中的分布模式),從而可以進行相似性比較。

【例9-4】

設有以下中英文平行語料庫(如表9-9所示)和待檢索英文文檔集(如表9-10所示),試用GVSM方法檢索與中文查詢詞“保護法”相關的文檔。步驟一:對語料庫進行預處理并建立相應的索引詞-文檔矩陣。對于英文文檔,預處理過程主要包括提取詞干和去除停止詞;而中文文檔的預處理步驟主要是分詞。所得到的索引詞-文檔矩陣分別如表9-11(列E1~E8)和表9-12(列C1~C8)所示。步驟二:對待索引文檔和查詢進行預處理并得到相應的索引詞-文檔矩陣。預處理的方法與對語料庫的預處理相同(包括詞干提取方法、停止詞表以及中文分詞方法等)。英文待索引文檔集的索引詞-文檔矩陣如表9-11(列D1~D3)。對查詢“保護法”進行分詞,得到兩個索引詞“保護”和“法”,相應的查詢向量如表9-12(列Q所示)。

步驟三:相關度計算。

對每一篇文檔d,其與查詢q的相關度,采用如下公式計算:

sim(d,q)=cos(ATd,BTq)

經(jīng)計算得:

BTq=(1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0)

ATd1=(1.0,0.0,2.0,0.0,1.0,1.0,0.0,2.0)

ATd2=(1.0,0.0,1.0,0.0,2.0,1.0,0.0,4.0)

ATd3=(1.0,2.0,1.0,4.0,1.0,0.0,0.0,0.0)

查詢與各文檔的相關度分別為

sim(q,d1)=0.905

sim(q,d2)=0.834

sim(q,d3)=0.313

若取閾值為0.7,則與查詢相關的文檔為D1和D2。9.3.3基于LSI的跨語言檢索

在單語言檢索中,潛語義分析LSI首先使用詞條-文檔矩陣A進行訓練,這一點與GVSM是相同的。LSI計算矩陣A中的正交維(即所謂的潛在語義結(jié)構(gòu)),并選擇最大的主維作為降維后向量空間的新基[14]。單語言LSI檢索標準定義為

A=UΣVT

sim(q,d)=cos(UTq,UT

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論