




已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
中文摘要 互聯(lián)網(wǎng)上存在大量的多語語料資源。如何通過w e b 挖掘和信息抽取的相關技 術,從非平行可比較或部分平行語料中抽取出術語的正確翻譯,是當前研究者廣 為關注同時又極具挑戰(zhàn)性的問題。 本文首先對目前的術語翻譯技術進行了比較分析,總結(jié)了其各自的優(yōu)缺點。 然后針對中英術語翻譯,分析了w e b 上部分平行語料的存在性和可用性,并實現(xiàn) 了一個自動術語翻譯系統(tǒng)。該系統(tǒng)利用一對源術語e 及其正確翻譯f 作為輸入, 基于搜索引擎的查詢結(jié)果來獲取匹配模式,并以模式出現(xiàn)頻率作為其評分。在候 選答案的選擇方面,確定了三條層次規(guī)則,依據(jù)這三條規(guī)則,建立候選答案的評 分函數(shù)。實驗結(jié)果表明,相對于已有的系統(tǒng),本文系統(tǒng)可以有效地從w e b 上自動 挖掘出術語的合理翻譯。 在w e b 上還蘊含著大量包含術語的頁面,如何自動發(fā)現(xiàn)此類頁面并將其中的 術語對抽取出來也是一個很有意義的研究課題。本文利用已有術語對( 術語表或 詞典中的術語) 作為“種子”詞語,并以查詢條件的形式提交給搜索引擎,而后 采用簡單的判斷原則,對返回結(jié)果的s n i p p e t s 進行分析,自動發(fā)現(xiàn)包含大量術語 的網(wǎng)頁。接著,利用正則表達式,將這些網(wǎng)頁中的術語以規(guī)定的格式抽取出來, 并添加到本地詞庫中,從而實現(xiàn)了本地詞庫的不斷擴充。 最后本文給出了基于w e b 的自動術語翻譯的一些建議,對今后的研究工作進 行了展望,提出了若干值得研究的問題。 關鍵詞:自動術語翻譯,信息抽取,搜索引擎,正則表達式 a bs t r a c t t h e r ei sag r e a ta m o u n to fm u i t i l i n g u a ic o r p u so nt h ei n t e r a c t h o wt oe x t r a c t t h e r i g h tt r a n s l a t i o no fat e r m i n o l o g yf r o mn o n p a r a l l e l ,c o m p a r a b l e o rp a r t i a lp a r a l l e l c o r p u sb yw e bm i n i n ga n di n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi s ac h a l l e n g i n gw o r k w i d e l yc o n c e r n e db yr e s e a r c h e r s t h i s p a p e rf i r s ta n a l y z e sc u r r e n tt e r m i n o l o g y t r a n s l a t i o nt e c h n o l o g i e sa n d s u m m a r i z e st h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s s e c o n d ,i nv i e wo fc h i n e s e e n g l i s h t r a n s l a t i o n ,w ea n a l y z et h ep r e s e n c ea n da v a i l a b i l i t yo fp a r t i a lp a r a l l e lc o r p u so nw e b , a n di m p l e m e n ta l la u t o m a t i ct e r m i n o l o g yt r a n s l a t i o ns y s t e m i ts u b m i t sap a i r o f s o u r c et e r m i n o l o g yea n di t st r a n s l a t i o nft oas e a r c he n g i n e ,e x t r a c t st h em a t c h i n g p a t t e r n s f r o mr e t u r n e ds u m m a r i e s ,a n ds c o r e st h ep a t t e r n sb yt h e i ro c c u l t e n c e f r e q u e n c y o ns e l e c t i n gt r a n s l a t i o nc a n d i d a t e s ,w ef i n df o u rh e u r i s t i cr u l e s ,a n d a l l e m p i r i c a lf o r m u l at og c o r et h ec a n d i d a t e s t h ee x p e r i m e n t si n d i c a t et h a tc o m p a r e d w i t ho t h e re x i s t i n gs y s t e m ,o u rs y s t e mc a l le x t r a c tr e a s o n a b l et r a n s l a t i o no fag i v e n t e r m i n o l o g yf r o mw e ba u t o m a t i c a l l ya n de f f e c t i v e l y m a n yw e bp a g e si n c l u d eag r e a td e a lo ft e r m i n o l o g i e s h o wt of i n dt h e s ep a g e s a n dt oe x t r a c tt e r m i n o l o g yp a i r sf r o mt h e mi sa l s oa l li n t e r e s t i n gw o r k i nt h i sp a p e r w eu s ee x i s t i n gt e r m i n o l o g yp a i r s ( t e r m i n o l o g i e si ng l o s s a r yo rd i c t i o n a r y ) a s “s e e d w o r d s ,s u b m i tt h e mi n t os e a r c he n g i n e ,a n dt h e na d o p tf o u rr u l e st oa n a l y z et h e s n i p p e t sf r o mr e t u r n e d s u m m a r i e sa n df i n dw e bp a g e si n c l u d i n gag r e a td e a lo f t e r m i n o l o g i e sa u t o m a t i c a l l y n e x t ,w ee x t r a c tt h e s et e r m i n o l o g i e sa c c o r d i n gt o t h e s p e c i f i e df o r m a tb yu s i n gr e g u l a re x p r e s s i o n s ,a n dp u tt h e mi n t ol o c a ld i c t i o n a r yf o r t h ec o n t i n u o u s l ye x p a n s i o no ft h el o c a ld i c t i o n a r y t h i sp a p e ra l s og i v e ss o m es u g g e s t i o n st oa u t o m a t i ct e r m i n o l o g yt r a n s l a t i o n b a s e do nw e b ,m a k e se x p e c t a t i o nt ot h ef u t u r ew o r k ,a n dp r o p o s e ss o m ep r o b l e m s w o r t h yo fs t u d y k e yw o r d s :a u t o m a t i ct e r m i n o l o g yt r a n s l a t i o n ,i n f o r m a t i o ne x t r a c t i o n ,s e a r c he n g i n e , r e g u l a re x p r e s s i o n 獨創(chuàng)性聲明 本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作和取得的 研究成果,除了文中特別加以標注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表 或撰寫過的研究成果,也不包含為獲得墨空苤堂或其他教育機構的學位或證 書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均己在論文中 作了明確的說明并表示了謝意。 學位論文作者簽名:閹坼施& 簽字日期: 。7 年9 月,。日 學位論文版權使用授權書 本學位論文作者完全了解苤鲞叁鱟有關保留、使用學位論文的規(guī)定。 特授權苤鲞盤堂可以將學位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫進行檢 索,并采用影印、縮印或掃描等復制手段保存、匯編以供查閱和借閱。同意學校 向國家有關部門或機構送交論文的復印件和磁盤。 ( 保密的學位論文在解密后適用本授權說明) 學位論文作者簽名:同珞戈泉 導師簽名:而z , ,j 一 簽字日期:d 夕年可月f d 日 簽字日期:d _ 7 年q 月7o 日 第一章緒論 1 1 課題研究背景 第一章緒論 人們一般會認為機器翻譯系統(tǒng)是最理想的解決自動翻譯的系統(tǒng),但是機器翻 譯發(fā)展到現(xiàn)在,翻譯的結(jié)果卻遠不能令人滿意,因此我們需要別的手段來輔助或 補充機器翻譯系統(tǒng)。利用雙語語料進行機器輔助翻譯是現(xiàn)在計算語言學上的一個 很強的趨勢,而其中的術語對抽取也可以成為一些應用中輔助機器翻譯的一種手 段。 術語對( t e r mp a i r ) 簡稱t p ,是指互為翻譯的源語言和目標語言片段構成 的二元組。理論上說這個片斷可以是詞匯、短語、句子,甚至篇章。本文將重點 考慮的是專業(yè)術語對。比如說“搜索引擎”和“s e a r c he n g i n e ”、“機器學習” 和“m a c h i n el e a r n i n g ”等。從雙語語料庫中抽取t p 就是從雙語語料庫中抽取互 為翻譯的源語言與目標語言片段。 術語對抽取根據(jù)所采用的雙語語料庫是否對齊分為兩種:一種是從已經(jīng)做到 句子甚至更細對齊的雙語語料庫中抽取t p ;另一種是從未對齊的也可以說是全 文對齊的雙語語料庫中抽取t p 。由于真正做到句子對齊或者更細對齊的雙語語 料少之又少,相對而言未對齊的雙語對照語料卻多的多,因此從未對齊的雙語語 料中進行t p 抽取是一個有趣而又現(xiàn)實的問題。 自從關于雙語言詞典編輯和統(tǒng)計機器翻譯模型的早期研究出現(xiàn)以來 1 1 , 1 8 , 1 9 , 2 0 ,人們將很多的精力和時間放在用于抽取術語對的平行語料的收集上。 但是可用的雙語平行語料來源非常有限,局限于特定應用場合比如聯(lián)合國的文 件、宗教的文獻、某種產(chǎn)品的多語種介紹手冊等等,使用者很難獲得各種領域的 平行語料庫。而且,平行語料庫收集和整理是一件很耗時耗力的工作,如同其他 一些語言研究資源一樣,使用具備一定規(guī)模的平行語料還需付費,這為基于平行 語料的研究帶來了障礙。 隨著計算機和互聯(lián)網(wǎng)的普及,人們越來越習慣于通過互聯(lián)網(wǎng)來獲取和傳播信 息。同時,由于國際化的需要,越來越多的文檔、網(wǎng)頁采用多種語言的形式在互 聯(lián)網(wǎng)上傳播。互聯(lián)網(wǎng)是一個取之不盡、日益增長的信息源,而且是一個潛在的巨 大的多語種語料庫。用戶可以通過自動工具從互聯(lián)網(wǎng)上下載大量語料,例如,可 以下載一張術語對照表:或者輸入關鍵字,通過搜索引擎下載特定領域的詳細的 單語種語料,然后就可以利用這些語料來抽取某個領域的詳細術語。同時,在互 聯(lián)網(wǎng)上還存在大量網(wǎng)站,為我們提供了許多對齊或者非對齊的語料。這都為我們 基于互聯(lián)網(wǎng)抽取多語種術語對提供了有利條件,而這種研究思路也己成為目前自 第一章緒論 然語言處理和信息獲取的一個研究趨勢1 2 j 。 在各個行業(yè)中,不斷涌現(xiàn)出的新術語往往首先是展現(xiàn)在網(wǎng)絡上。本文基于 w e b 挖掘和信息抽取技術而實現(xiàn)的自動術語翻譯系統(tǒng),模擬用戶基于搜索引擎查 找術語翻譯的情形,將其過程自動化,大大節(jié)省了用戶的查找時間。同時,該系 統(tǒng)對于挖掘、抽取大量術語對,實現(xiàn)專業(yè)領域的自動詞典編撰,也可以起到良好 的輔助作用。最后,本研究所實現(xiàn)的算法也可以用于跨語言信息檢索中查詢條件 的自動翻譯和擴展上。 1 2 自動術語翻譯的研究現(xiàn)狀 最初的詞典編撰方式是依靠專家來收集領域的相關術語,這必然造成很大的 人力、物力和財力的開銷。同時,隨著社會的發(fā)展,專業(yè)領域的新詞也不斷涌現(xiàn), 僅僅依靠人工維護的方式已經(jīng)無法滿足現(xiàn)實用戶的需求。 在這個領域取得的最初突破進展是借助于干凈、平行的語料,并利用詞語特 征的統(tǒng)計信息實現(xiàn)術語的自動翻譯p 4 5 6 7 8 】。這里所謂的“干凈”,指的是平行語 料通常都經(jīng)過人工預先處理,以消除其中噪聲的影響。所謂“平行”,指韻是一 種文件以兩種或多種語言表達、以句子或段落為單位互相對應的語料。這里最常 用的詞語特征是在平行語料中詞語的共現(xiàn)頻率,對共現(xiàn)頻率接近或相等的術語 對,以一定的關系度量算法抽取出來。從平行語料抽取術語的方法實現(xiàn)簡單,準 確率較高,但同時,這種方法至少有以下兩個局限性:一是可用的平行語料的規(guī) 模是有限的:二是對語料噪聲的限制過于嚴格。 我們注意到,在真實世界數(shù)據(jù)中,尤其是在w e b 上,可比較的非平行語料或 部分平行語料相對于平行語料而言占有絕對的數(shù)量優(yōu)勢。如何從這些豐富的數(shù)據(jù) 資源中自動挖掘出術語的合理翻譯,已成為目前研究者廣為關注同時又極具挑戰(zhàn) 性的問題。 在基于可比較非平行語料的術語翻譯中,一個顯著的特點是不要求兩種類型 的語料規(guī)模是一致或接近的l9 1 ,其大小可能會相差一個或多個數(shù)量級。在這個領 域的早期研究主要是基于這樣的一種假設,即不同語言中具有相同含義的詞語具 有類似的上下文分布,通過構造詞語的上下文向量,有希望挖掘出合理的術語配 對。基于這種假設,人們提出了許多相關的算法來解決此類語料的術語抽取 1 1 , 1 2 , 1 3 , 1 4 】。這些工作側(cè)重解決如下三個問題:( 1 ) 如何構建源術語和目標術語的 上下文向量:( 2 ) 如何實現(xiàn)向量轉(zhuǎn)換;( 3 ) 如何選擇候選答案。例如,可以通過 一個t f i d f 向型】,來表示術語的上下文,其中的每個元素對應于上下文中的 一個詞語,而在候選答案選擇時,則選擇向量相似度最高的目標術語作為答案。 第一章緒論 但是,源術語和目標術語的上下文中的詞語是一個多對多的映射關系,因此,在 進行相似度計算之前,必須將源語言向量精確轉(zhuǎn)換到目標語言向量,而其工作只 是采用了這樣一個簡單的假設:特定領域的兩種語言之間的詞語是一對的映射 關系。顯而易見,這種假設并不嚴格。對此,微軟亞洲研究院的c a o 和l i 等提出 了基于e m 算法的改進思路,將這種映射關系擴充到多對多的形式,但同時也岡 此而損失了過多的上下文信劇 】。c h i a o 等在其工作中1 1 4 】,加入了一個“逆向翻 譯”的過程,即按照與前三步相同的算法,將候選答案逆向翻譯為源語言術語, 并通過計算調(diào)和平均數(shù)而重新對候選答案進行排r 芋。在醫(yī)學領域語料上的測試表 明,該方法具有一定積極效果,但作者所選取的語料是固定的,而并非基于w e b 的開放域語料,由此限定了算法的應用范圍;同時,在進行向量轉(zhuǎn)換時,只是選 擇上下文在詞典中的第一翻譯,因而向量的構造比較粗略,難免會影響到后續(xù)操 作的有效性。 在基于w e b 的術語翻譯研究中,還有一種基于部分平行文本的新思路。所謂 “部分平行”,指的是在一個單語語料中,蘊含著部分雙語資源。例如,m a s a a k i n a g a t a 等人提出一種利用部分平行文本中雙語單詞之間的距離信息抽取術語對 的方法【1 6 1 。其基本思路是:將源術語c 提交給搜索引擎,從結(jié)果集中挑選出部 分蘊含部分雙語的文檔集d ,對d 中的每個文檔d 中的每個目標語單詞,計 算其與c 之間的相關度,而后依據(jù)相關度高低排序候選翻譯。其中,相關度計 算主要依據(jù)二者在文檔中出現(xiàn)的距離信息給出。其方法的缺點是評分模式過于簡 單,容易產(chǎn)生過多的噪聲結(jié)果。w u 、l i n 和c h a n g 貝1 j 指出源術語和目標術語之間 的字符串距離與翻譯的可靠性具有很大關系。他們認為,不同的字符串代表不同 的匹配模式,并基于模式發(fā)現(xiàn),提供了一個“t e r m m i n e ”系統(tǒng)【1 7 j 。但在其工作 中存在兩個主要缺陷:( 1 ) 模式的數(shù)量和可靠性受訓練集限制;( 2 ) 對候選答案 的評分方式過于簡單。 綜上所述,目前的自動術語翻譯主要是基于三種語料,即純粹的平行語料、 非平行可比較語料以及介于二者之間的部分平行語料?;谌N語料的研究方法 各有其優(yōu)缺點。在本文第二章將會對其做詳細說明。 1 3 本文主要研究工作和創(chuàng)新之處 本文的主要目標是建立一個基于w e b 的自動術語翻譯系統(tǒng),具有如下主要功 能:( 1 ) 基于w e b 的自動術語翻譯;( 2 ) 大規(guī)模w e b 術語的挖掘、收集與加工。 所實現(xiàn)系統(tǒng)至少應滿足以下的設計目標:( 1 ) 由于提供的是一個在線杏詢系統(tǒng), 因此系統(tǒng)應能及時響應用戶查詢,在較短的時間內(nèi)給出術語的翻譯答案;( 2 ) 候 第一章緒論 選翻譯應滿足一定的準確率?;谏鲜龅墓δ芤蠛驮O計目標,本文主要研究了 如下內(nèi)容: 1 術語翻譯的模式獲取和評分 基于非平行語料抽取術語對的方法涉及術語上下文構建、向量轉(zhuǎn)換等諸多文 本處理過程,由此可能造成較大的時間開銷,不適宜開發(fā)在線式的術語查詢系統(tǒng)。 我們注意到,在w e b 上也存在大量的部分平行語料,這樣的語料易于獲得、易于 處理,因此,本文基于信息抽取的相關技術,從此類語料中實現(xiàn)術語對的自動獲 取。其中一個關鍵之處在于如何獲得術語對的匹配模式。傳統(tǒng)方法是借助于一定 的已有語料,通過文本挖掘之類的技術預先抽取出有關的模式,并對其進行評分, 因而其模式數(shù)量有限,且評分固定,不適于動態(tài)調(diào)整。本文利用一對源術語e 及 其正確翻譯f 作為輸入,基于搜索引擎的查詢結(jié)果,來獲取匹配模式,并以模式 出現(xiàn)頻率作為其評分。該方法簡單有效,并可通過調(diào)整輸入術語對的數(shù)量,來不 斷獲取有效的模式和調(diào)整模式評分。 2 待翻譯術語的候選答案評分 在本研究中,初步確定了三條層次規(guī)則,以實現(xiàn)候選答案的合理評分,包括: ( 1 ) 具有高出現(xiàn)頻率的候選答案應比低頻率的答案更為可靠:( 2 ) 在多個模式 中出現(xiàn)的候選鑲案應比僅在少數(shù)模式中出現(xiàn)的答案更為可靠;( 3 ) 在具有高分值 匹配模式( 關鍵模式) 中出現(xiàn)的候選答案應比在具有低分值模式中出現(xiàn)的答案更 為可靠??梢砸罁?jù)這三條規(guī)則,建立候選答案的評分函數(shù)。 3 大規(guī)模w e b 術語的挖掘、收集與加工 本文利用詞典的種子術語,采用若干判斷原則,實現(xiàn)了大規(guī)模術語網(wǎng)頁的發(fā) 現(xiàn),并利用正則表達式的方法,將其中的術語自動抽取出來添加到本地詞庫,從 而實現(xiàn)了本地詞庫的不斷擴充。 1 4 本文的組織結(jié)構 第一章即本章,主要介紹了課題的研究背景和研究意義,以及自動術語的相 關研究工作,并列出了本文的核心工作。 第二章綜述基于大規(guī)模語料實現(xiàn)自動術語翻譯的相關技術,包括基于平行語 料、非平行語料和部分平行語料實現(xiàn)術語翻譯的各自特點、成熟算法,各自的優(yōu) 缺點分析等。 第三章實現(xiàn)了一個基于w e b 挖掘和模式匹配的自動術語翻譯系統(tǒng),詳細說明 了系統(tǒng)的架構、實現(xiàn)算法以及實現(xiàn)界面,并隨后給出實驗結(jié)果證明系統(tǒng)的有效性。 第四章介紹了如何基于詞典發(fā)現(xiàn)包含大量術語的網(wǎng)頁,以及如何基于規(guī)則方 第一章緒論 法實現(xiàn)網(wǎng)頁術語的自動抓取,并將其擴充到本地詞庫中,從而實現(xiàn)本地詞庫隨用 戶檢索而不斷擴充。 第五章總結(jié)本文的研究工作,對今后的研究工作進行了展望,提出了若干值 得研究的問題。 第二章術語對抽取技術的研究現(xiàn)狀 第二章術語對抽取技術的研究現(xiàn)狀 2 1 基于平行語料的術語對抽取 所謂“平行語料”,指的是一種文件以兩種或多種語言表達、以句子或段 落為單位互相對應的語料。利用平行雙語語料庫自動獲取詞匯對應關系的研究可 以追溯到2 0 世紀8 0 年代。最初的嘗試是使用經(jīng)過句對齊加工,由一百多萬句對組 成的英一法對譯語料庫自動計算英法詞匯的翻譯概率。隨后,研究人員不斷嘗試 各種方法試圖從不同雙語語料庫中找到對應的詞對 2 1 ,z 2 j 。 目前,基于句對齊雙語語料庫的術語對抽取方法主要分為兩類:基于統(tǒng)計的 方法和基于詞典的方法。統(tǒng)計方法是主流方法,其主要思想是通過大規(guī)模雙語語 料的統(tǒng)計訓練,獲得雙語對譯詞的翻譯概率,從而得到最佳的翻譯對:基于詞典 的方法,其主要思想是充分利用現(xiàn)有的機讀詞典資源,通過詞典譯文檢索或義類 匹配得到雙語術語對。由于這兩種方法仍然存在缺陷,研究人員還提出了一種基 于雙語語料庫的最小求交詞對齊方法。下面對以上方法作簡單的介紹。 基于統(tǒng)計的方法 基于統(tǒng)計的方法基本可以分為兩大類:啟發(fā)式方法,即基于假設一檢驗的方 法,代表性的有g a l e 和f e n g 的工作【1 8 4 1 :基于統(tǒng)計機器翻譯模型的方法,代表性 的是b r o w n 和w u 的工作i7 ,2 6 1 。 1 啟發(fā)式方法 啟發(fā)式方法比較簡單易行,分析源語言和目標語言中術語的關聯(lián)強度從而建 立術語對譯關系,因而在實際工作中經(jīng)常使用。其工作原理主要基于下面的事實: 互為翻譯的一對單詞要比不互為翻譯的一對單詞更有可能出現(xiàn)在同一個對齊的 句子對中。 工作過程主要由兩個階段構成:假設階段和檢驗階段。假設階段生成所有候 選的翻譯等價術語對,而檢驗階段則根據(jù)統(tǒng)計關聯(lián)度量手段選出統(tǒng)計意義上較為 可靠的翻譯等價術語對。其中第二階段是該方法中最為關鍵的一步。 目前存在各種各樣的統(tǒng)計關聯(lián)度度量辦法,大部分是基于詞的共現(xiàn)頻率計算 出任意兩個詞的關聯(lián)強度( 對譯強度) 。其中d i c e 系數(shù)( d i c ec o e f f i c i e n t ) ,互信 息( m u t u a li n f o r m a t i o n ) t 2 4 1 ,聯(lián)列表( c o n t i n g e n c yt a b l e ) 1 1 8 3 1 ,3 2 】和對數(shù)似然比( l o g l i k e l i h o o dr a t i o ) 是經(jīng)常使用的4 種計算關聯(lián)度的統(tǒng)計模型。d i c e 系數(shù)的值在【0 , ill - _ ,數(shù)值越入,表示二者共現(xiàn)頻率越大,越有可能成為對譯詞匯【2 - r j 。k a y l 2 8 】在 估計詞匯對譯可能性時使用t d i c e 系數(shù),m a d j a l 2 9 ,3 0 1 在搭配抽取實驗中證明d i c e 第二章術語對抽取技術的研究現(xiàn)狀 系數(shù)在描述詞匯同現(xiàn)概率時效果好于互信息。 啟發(fā)式( 假設一檢驗) 方法的優(yōu)點是簡單,而且很容易實施和理解。但其缺點 也是很明顯的:( 1 ) 它大多基于詞乳:對應的一對一假設1 3 引,然而事實是,在英 漢翻譯中存在大量的一對多、多對一和多對多詞匯對應。如: “h a r dd i s k ”對應 “硬盤”,“p r o f i l e ”對應“配置文件”,“o p e r a t i n gs y s t e m ”對應“操作系 統(tǒng)”等等,英漢翻譯中約有1 5 是多詞對應關系。( 2 ) 由于單語中詞i 1 :的固定搭 配、復合詞等的影響,使得一些并非直接對應的雙語詞匯具有很高的共現(xiàn)頻率, 這種現(xiàn)象稱為“間接相關”1 3 3 , 3 4 l 。如:“6 l e ”的正確翻譯為“文件”,“s y s t e m ” 的正確翻譯為“系統(tǒng)”,然而“f i l es y s t e m ”和“文件系統(tǒng)”在單語中有很強的 搭配關系,使得“f i l e ”和“系統(tǒng)”,“s y s t e m ”和“文件”也有很高的共現(xiàn)頻率 而被作為翻譯對抽取出來?!伴g接相關”大大降低了翻譯對獲取的正確率。針對 以上問題,一些學者【”1 提出了使用了一種基于n g r a m 模型來提取多詞候選翻譯 單元,用基于貪心策略的迭代算法來解決“間接相關”問題。 2 基于統(tǒng)計機器翻譯模型的方法 b r o w n 等人提出了基于統(tǒng)計的機器翻譯模型f 7j ,把源文s 到譯文丁的翻譯看 成是丁經(jīng)過某個噪聲信道畸變成s ,然后通過s 恢復丁的過程。對于給定源文s , 其最可能的譯文即是求解具有最大概率p ( 丁is ) 的譯文丁,根據(jù)b a y e s i a n _ 論,這個 概率值表示為: p ( 丁l s ) = 只( slr ) 只( r ) 只( s ) ( 2 1 ) 由于分母只( s ) 與該式的最大值無關,因此得到: t = a r g m a x 只( ts ) = a r g m a x ( e r ( si 丁) p r ( 丁) ) ( 2 - 2 ) 其中,只( r ) 稱為語言模型,只( sl 丁) 稱為翻譯模型,可以通過訓練分別得 到這兩個模型的參數(shù)。 對于翻譯模型p ( sf 丁) ,b r o w n 提出了5 個基于詞匯對齊的模型。這幾個模 型可以總結(jié)為:翻譯模型p ( slr ) 實際上是7 中的一個詞到s 中的零個、一個或 多個詞的翻譯概率的聯(lián)結(jié)過程,而這種詞到詞的翻譯概率又取決于以下三種概率 ( 不同模型取決于不同概率的組合) : 直譯概率( t r a n s l a t i o np r o b a b i l i t y ) 只( s ,iz ) :表示詞z 直接翻譯成s ,的概 率。 繁殖概率( f e r t i l i t yp r o b a b i l i t y ) p ( 三( s ,) f ( z ) ) :表示z 中詞的個數(shù)三( 7 :) 繁 殖成s 中詞的個數(shù)l ( s ,) 的概率。在b r o w n 的模型中,只考慮丁中的一個詞的繁 殖概率。 形變概率( d i s t o r t i o np r o b a b i l i t y ) p ( i ,) :表示位置上的詞翻譯到位置, 上的概率。 第二章術語對抽取技術的研究現(xiàn)狀 這些概率就是模型的參數(shù),可以通過對已經(jīng)做到句子級別對齊的句對使用 e m 算法迭代訓練得到( b r o w n 等人使用了3 百萬英法旬對進行訓練) 。在已知這 些參數(shù)的情況下,詞匯對齊的過程就是一個求最大概率值的搜索過程。b r o w n 等 利用該模型實現(xiàn)了統(tǒng)計機器翻譯,但是沒有具體給出詞匯對齊的正確率。d a g a n i j 6 j 等人使用改進的b r o w n 模型對含有6 5 0 0 0 個詞的英法噪聲文本進行詞匯對齊,其 中6 0 5 的詞獲得了正確的對齊。 由于參數(shù)空間的巨大以及對已經(jīng)對齊的語料庫的要求,模型參數(shù)的訓練是 一個相當復雜困難的過程1 1 8 j :首先,由于它使用e m 算法進行迭代,在運行時所 需內(nèi)存空間非常大。另外,e m 算法本身缺乏魯棒性,b r o w n 等人也曾提到過這 一點。e m 算法只能夠收斂到局部最優(yōu)解,并且它的迭代結(jié)果很大程度上依賴于 參數(shù)初始值的選擇。 基于統(tǒng)計的方法的優(yōu)點是不依賴于具體語言和特定的語言學資源,完全通 過雙語語料庫本身即可獲得雙語詞匯的對應關系,因此具有較好的通用性。但是 該方法需要極大規(guī)模的雙語語料庫作為訓練基礎,對于很難獲得較大規(guī)模雙語語 料庫的語言對來說,統(tǒng)計方法不可避免存在數(shù)據(jù)稀疏問題。 基于詞典的方法 近年來,基于詞典的詞匯對齊方法逐漸受到人們重視,其主要思想是充分利 用現(xiàn)有的機讀詞典資源,通過詞典譯文檢索或義類匹配實現(xiàn)雙語詞匯對齊。 以英一漢雙語詞匯對齊為例,首先對英語句子進行短語識別和形態(tài)還原處理, 對漢語句子進行分詞處理,對于英語句子中每個單詞或短語根據(jù)詞典譯文在漢語 句子中進行搜索匹配,如果存在與譯文相同的漢語詞匯,則確定為一個候選對齊。 完全基于詞典來對齊非空詞匯具有很高的正確率,但由于真實翻譯中上下文 的多樣性和翻譯的靈活性,根據(jù)詞典譯文的詞匯對齊覆蓋率相對較低。為了提高 詞典譯文的覆蓋率,引入了基于譯文的相似度和基于語義的詞匯對齊方法川。 1 基于譯文的相似度的方法 雖然有些對齊詞的譯文在詞典中并沒有給出,但在很多情況下對應譯文和詞 典的譯文包含一些相同的字。 漢語詞c l 和c 2 的模糊匹配相似度定義為: s m ( c ) :型塵竺型 ( 2 3 ) lc 1l + jc 2i 其中ic ln c 2l 為c l 和c 2 所含的公共字的個數(shù),lc ll 和fc 21 分別為c l 和f 2 所含 字數(shù),在此基礎上,英語詞e 和漢語詞c 的匹配相似度為: d t s i m ( e ,c ) = m a xs i m ( d ,c ) + ( c o,c ) 扛) 一1 ) x 0 () j ,u f n p t ( s i m ( d 1 2-4dedt(e)de 第二章術語對抽取技術的研究現(xiàn)狀 其中d t ( e ) 為e 的所有譯文,豇為相似度的閾值,c o u n t ( ) 函數(shù)用于統(tǒng)計相 似度大于閾值的譯文個數(shù),在譯文相似度最大值基礎上,每增加一個相似度大于 閾值的譯文,則增加0 1 的經(jīng)驗權值。 基于譯文的相似度的方法,在對齊正確率下降不大的情況下,召回率有了顯 著的提高。 2 基于語義相似度的方法 翻譯中常常會有利用同義詞代替翻譯詞的現(xiàn)象。k e r 【3 8 1 和王斌例在詞匯對齊 中都曾引用語義作為雙語詞典對齊的補充,可以采用譯類詞典,如同義詞詞林 作為語義相似度評價詞典,它所收詞全部按語義分類編排,通過計算兩詞義s l 和 s 2 之間的語義距離s e n s e d i s t ( s l ,s 2 ) 可以得到s l 和s 2 的語義相似度,從而實現(xiàn)詞 匯對齊。 利用語義相似度的方法,可以彌補雙語詞典譯文覆蓋的不足。 最小求交詞對齊方法 利用雙語語料庫中源語言詞匯和目標語言詞匯的共現(xiàn)信息,計算共現(xiàn)頻率的 方法,通常只能對齊高頻單詞,而無法對齊低頻單詞。使用雙語詞典對齊方法, 在處理靈活翻譯的真實文本時,由于單詞的譯文不局限于詞典的解釋,對齊的效 果并不理想。而且一些術語和未登錄詞也無法使用雙語詞典對齊。因此吳宏林等 人【4 0 l 提出了一種基于雙語語料庫的最小求交詞對齊方法,它把自然語言的句子形 式化地表示為單詞的集合,通過最小求交模型即若干中一英文句對的交集來進行 詞對齊,使用倒排索引表和集合運算實現(xiàn)了高效的最小求交算法。與傳統(tǒng)方法相 比,該方法的優(yōu)點是能對齊低頻單詞和未登錄詞,無需構造龐大的雙語詞典。實 驗證明這是一種行之有效的方法,其中用到的一些方法和技術會對其他層次的對 齊提供幫助或啟發(fā)。 2 2 基于非平行語料的術語對抽取 2 2 1 從平行語料到非平行語料 盡管在平行語料基礎上抽取雙語術語對的結(jié)果比較好,但是,平行語料,特 別是經(jīng)過人工對齊的高質(zhì)量的平行語料是比較稀少的,無法及時滿足雙語詞典編 纂的需求。同時,一些新的詞語,尤其是專業(yè)領域的新術語,具有很強的時效性, 此類術語的收集必然要以語料資源的及時提供為先決條件。幸運的是,在w e b 上每日都新增了很多最新的多語語料,而這些語料通過適當?shù)能浖ぞ呖梢暂p易 獲取。因此,人們開始把目光轉(zhuǎn)移到非平行語料上,試圖從其中抽取術語對。 第二章術語對抽取技術的研究現(xiàn)狀 與平行語料不同 4 4 , 4 5 , 4 6 , 4 7 , 4 8 】,非平行語料的形式可謂包羅萬象,其非平行性 主要體現(xiàn)在以下幾個方面: 1 文本的作者可能不同。由于這些文本是由使用不同語言的人分別寫成 的,作者的行文風格不同。 2 文本的領域可能不同。每種語言基本上都有描述不同領域內(nèi)容的文字。 3 相同領域的文本的主題也可以從完全相同到部分重疊。 4 文本的時問跨度可能是變化的,比如報紙上的新聞,這也會導致主題的 變化。 大部分的文本語料在以上幾個方面都是不平行的。語料的非平行性越高,從 其中抽取雙語信息的難度越大。因此一個比較可行的方法是適當降低語料的非平 行性程度,比如選擇同一時間范圍內(nèi)的文本,或同一作者的文本,或同一領域的 文本。 基于非平行語料的術語對抽取大都基于以下假設4 3 】:在單語語料中,盡管一 個單詞出現(xiàn)在不同文本中,但是與之共現(xiàn)的單詞集合( 即其上下文) 是穩(wěn)定的, 這說明單詞共現(xiàn)關系具有一定的穩(wěn)定性。這種規(guī)律性可推廣到多語言語料中,并 有如下更為詳細的假設: 1 如果某一單詞w l 與另一單詞w 2 在源語言語料l l 中非常相關,則它 們在目標語言語料l 2 中對應的單詞w 1 與w 2 也會非常相關; 2 給定一個大的單詞集合b = ( b l ,b 2 ,b n ) ,單詞w l 僅與其中的一個子 集a c b 非常相關; 3 如果單詞w 。與一組單詞b l ,b 2 ,b n 以不同的程度相關,則w l 與b l , b 2 ,b i 也以相似的程度相關。 其中,l l 代表源語言,l 2 代表目標語言,w l ,w 2 ,b l ,b 2 ,b 1 1 為源語言 單詞,w l ,w 2 ,b l ,b 2 ,b n 為目標語言單詞,w i ,w 2 分別為w l ,w 2 在 目標語言中的翻譯。這樣每個單詞的共現(xiàn)單詞子集及其相關程度就可以作為該單 詞區(qū)別于其他單詞的特征。 2 2 2 基于非平行語料的術語對抽取技術及分析 共現(xiàn)單詞子集構成了某一詞語的上下文,對其中的每個單詞進行定量化處 理,即可構成該詞語的上下文向量,基于此可實現(xiàn)多語術語對的抽取。其通常步 驟是:( 1 ) 對不同語料的各個詞語分別構建上下文向量。通常是選擇一個詞語前 后的若干詞語作為上下文,因此可定義不同大小的上下文窗口。較小窗口有助于 識別固定表達和如句法依存之類的關系,而較大窗口則可突顯出語義概念即詞語 較大范圍內(nèi)保持的其它關系l m l ;( 2 ) 根據(jù)主導詞進行上下文向量轉(zhuǎn)換,即將源語 第二章術語對抽取技術的研究現(xiàn)狀 言向量轉(zhuǎn)換為目標語言向量。在向量轉(zhuǎn)換時,需要對待翻譯術語的上下文進行翻 譯,這通常需要借助于詞典,但上下文難免會有多種翻譯,由此可能產(chǎn)生復雜的 向量組合,為此通常是選擇上下文中的主導詞,即詞典中包含的詞語來構成向量; ( 3 ) 計算轉(zhuǎn)換向量與目標語言中的各個向量的相似度,并依相似度高低對候選 答案進行排序。 下面對幾種典型的基于非平行語料的術語對抽取技術進行詳細介紹,并做具 體分析。 k 向量法和d k - v e e 法 p a s c a l ef u n g 提出了兩種從非平行的雙語語料庫中提取術語對的方法,第一 種方法稱為k 向量法1 4 。其思路相當簡單,即將每個單詞語料庫按長度分為k 段, 單詞w 是否在第i 段出現(xiàn)記為l 和0 。于是每個單詞都可以用k 維布爾向量來表示。 通過計算源語言單詞和目標單詞的向量相似性,便可以抽取出相似度很大的源語 言和目標語言詞對。該方法可以快速粗略的抽取翻譯詞對,但是它的明顯缺點是 假定源文件與目標文件長度之間存在很好的線性關系。于是如果分成k 段,可能 會對諸如漢一英這樣的長度線性關系并不十分顯著的語言對不太合適,況且文本 中的任何插入刪除都會進一步加劇文本長度之間的非線性度,從而影響計算結(jié)果 的準確性。 考慮到上述方法的缺陷,p a s c a l ef u n g 又提出了基于詞對特征匹配的稱為 d k v e c 的方法1 4 引。通過考察,p a s c a l ef u n g 提取了一種稱為“詞間隔向量”的 特征。具體說就是假定某個詞w 在文本中出現(xiàn)n 次( n 1 ) ,它的每次出現(xiàn)所 在的字節(jié)偏移為o f f s e t i ,o f f s e t 2 o f f s e t ,則它的分布間隔向量為 。統(tǒng)計發(fā)現(xiàn)互為翻譯的高頻詞 的出現(xiàn)間隔向量常常表現(xiàn)出很強的相似性,而不互為翻譯的詞對的出現(xiàn)的間隔向 量卻往往相似性不強。于是,通過比較源語言和目標語言詞對的出現(xiàn)的間隔向量 的相似度同樣可以達到抽取翻譯詞對的目的。由于任意兩個詞分布的間隔向量的 維數(shù)可能不同,通過d t w ( d y n a m i ct i m ew a r p i n g ,動態(tài)時間規(guī)整) 的動態(tài)規(guī)劃 算法來實現(xiàn)兩個不同維數(shù)向量之間的比較。 p a s c a l ef u n g 的第二種方法克服了的一種方法的缺點,只需要通過比較詞的 分布信息就可以抽取到可能的翻譯詞對。即使文本中存在定的插入和刪除章節(jié) 也不會對結(jié)果造成多大的影響。但是通?;榉g的源語言文件和目標語言文件 的長度是不同的,特別是對于印歐一非印歐語言對( 如英漢) ,這種長度上的差 別更加明顯。長度差異的情況下進行距離差值的直接運算,可以認為是在不同的 數(shù)量級上進行計算,這在意義上也不成立。所以有人引進了歸一化岡子,它的值 為源語言與目標語言文本長度的比值。 第二章術語對抽取技術的研究現(xiàn)狀 利用雙語詞典作為種子詞庫實現(xiàn)源術語上下文翻譯1 其研究工作主要涉及上述步驟( 1 ) 和步驟( 2 ) 。為找到個術語的可能候 選翻譯,首先統(tǒng)計出現(xiàn)在它們的上下文的公共詞語。在雙語語料里,公共詞語實 際上就是雙語詞對。利用m t 系統(tǒng)的詞典來找到所有的雙語詞對,這些詞語對被 當作種子單詞。第二個步驟就是列出上下文詞語出現(xiàn)的頻率。比方說,如果在某 一個中文術語的上下文中,多個種子詞語的出現(xiàn)頻率所構成的向量與某個英語術 語的類似上下文向量足夠相似,則可認為該中文術語和英文術語是一個可能匹配 的術語對。 在這種利用雙語種子詞語作為“橋梁”的雙語翻譯中,詞典的質(zhì)量將很自然 地影響到系統(tǒng)的輸出結(jié)果。以歐洲的語言對( 如法英) 為例,我們可以預見到通 過利用它們共有的同詞源信息作為“橋梁”。最重要的是,可以假定法文和英文 的單詞之間的分界是很相似的。然而英文和中文的情況卻要糟糕的多。首先,在 獲取中文術語的上下文時,需要對上下文相關句子進行分詞,這本身會引入一些 切分誤差( 如歧義等) 。這兩種語言無論在詞干的特征上還是在詞的排列順序上 都有很大的不同,這樣就導致了一個英文單詞將可能對應很多的中文詞語,反之 亦然。在文獻【1 1 】的工作中,為解決這個問題,對作為種子詞語的每個詞對引入 了一個“信任權重”,即如果一個英文詞語i 。是一個中文詞語i 。的第k 個候 選翻譯,則將其在上下文向量中的對應權重乘以一個常數(shù)。顯然這是一種比較粗 糙的處理方式。實際上,對于基于上下文向量來實現(xiàn)術語抽取的相關研究而言, 上述情形都是有待解決的問題,而這些問題也恰恰是限制結(jié)果可靠性的重要因 素。 上下文特征法 h a n gl i 等人提出了另外一種基于w e b 實現(xiàn)術語翻譯的方法,這種方法主要 根據(jù)雙語詞條的上下文特征來判另u - - - 者之間的相關度1 2 5 , 1 5 1 。具體來說,其方法分 為兩步。第一步:對給定的源語詞條,首先交給搜索引擎在目標語的頁而中查找, 在找出的頁面中尋找正好位于源語詞條前面的目標語詞條,并統(tǒng)計其頻率,然后 給出該源語詞條對應的目標語詞條候選列表。第二步:對于在第一步中無法找到 結(jié)果的源語詞條,可采用上下文特征距離法。 上下文特征距離法的具體步驟如下: 1 生成候選目標語詞條集 a ) 對源語詞條中的每個詞在源語一目標語詞典中查詢對應的譯項: b ) 將每個譯項按順序拼湊成多個目標語詞條: c ) 在目標語語料中搜索上一步中生成的目標語詞條,并統(tǒng)計其出現(xiàn)頻率: 第二章術語對抽取技術的研究現(xiàn)狀 d ) 濾掉那些頻率值為零的目標語詞條,并按頻率排序,產(chǎn)生候選目標語詞 條集。 2 選擇能成為源語詞譯項的目標語詞 a ) 在源語語料中搜索源語詞,在結(jié)果文檔集中選出那些與源語詞共同出現(xiàn) 的上下文詞,并統(tǒng)計其頻率,形成源語言上下文詞向量; b ) 在目標語語料中搜索目標語詞,在結(jié)果文檔集中選出那些與目標語詞共 同出現(xiàn)的上下文詞,并統(tǒng)計其頻率,形成目標語上下文詞向量; c ) 選擇那些在源語言上下文詞向量與目標語上下文詞向量中互為翻譯的詞 條,重構源語言上下文詞向量與目標語上下文詞向量,并在互為翻譯的詞條間建 立聯(lián)系; d ) 計算源語言上下文詞向量與目標語言上下文詞向量之間的相關度; e ) 對候選目標語詞集中的每個候選目標語詞重復b ) 至d ) 步; f ) 挑選相關度較高的若干個目標語詞作為源語詞條的譯項。 這種方法適合于詞組的翻譯的發(fā)現(xiàn),但其存在的問題是: ( 1 ) 基于詞典翻 譯而獲得的目標短語未必就包含正確的候選答案。如“a i r c r a f tc a r r i e r ”這個詞語, 其所實現(xiàn)的系統(tǒng)最終翻譯為“飛機承運人”( 正確翻譯應為“航空母艦”) 。這 個翻譯的產(chǎn)生過程為:從詞典中找出“a i r c r a f t ”的翻譯為“飛機”,而“c a r r i e r 則翻譯為“承運人”,但是這種組合并非正確答案;( 2 ) 如果源短語的每個詞 語包含多種翻譯,則可能產(chǎn)生過多的組合,導致向搜索引擎的多次提交和計算, 由此影響系統(tǒng)的響應速度;( 3 ) 在論文所列舉的實例中,候選答案的統(tǒng)計量區(qū) 分已經(jīng)非常明顯。一般而言,正確和非正確的候選答案在搜索引擎的返回結(jié)果中, 其統(tǒng)計量的差距在很大程度上都是比較大的。由此自然產(chǎn)生的疑問是“如果僅僅 依賴于這個頻率數(shù)據(jù),而不必依靠文中所提復雜算法,是否也可生成按一定標準 排序的候選答案呢? ”。 2 3 基于部分平行語料的術語對抽取 在w e b 上還存在大量的部分平行語料,即在單語文本中蘊含著部分的雙語資 源,這些資源也可用來幫助實現(xiàn)術語的自動翻譯。這個領域的相關研究工作比較 少見,最典型的研究是m a s a a k in a g a t a 提出的距離信息法和w u ,l i n 和c h a n g 提出的模式匹配法。 距離信息法 根據(jù)對互聯(lián)網(wǎng)上各種部分平行雙語文檔的分析,m a s a a k in a g a t a 提出了一 第二章
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年游戲開發(fā)程序員應聘面試指南及預測題
- 光電材料與器件教學課件
- 鄉(xiāng)村教師廖老師教學課件
- 2025年電力系統(tǒng)運行值班員高級模擬題及解析
- 2025年特崗教師招聘面試初中生物高頻考點預測
- 健全安全評價與監(jiān)測體系支持企業(yè)安全管理
- 化工原理課程設計列管式換熱器
- 青光眼護理查房
- 修辭手法教學課件
- 《望洞庭》教學課件
- 頭腦特工隊-Inside-Out中英文字幕對照
- XX村集體經(jīng)濟發(fā)展章程
- 高尿酸血癥營養(yǎng)和運動指導
- 2021國家職業(yè)技能認定(初級茶藝師)理論內(nèi)容細目表
- 2024年國藥控股股份有限公司招聘筆試沖刺題(帶答案解析)
- 【長期護理險制度運行中的問題及優(yōu)化建議分析13000字】
- 葡萄糖耐量試驗課件
- 應用文寫作全套教學課件
- 密閉式靜脈輸血技術操作評分標準
- 做新時代的青年馬克思主義者講課
- 《遞延所得稅講解》課件
評論
0/150
提交評論