數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第1頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第2頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第3頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第4頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章語言和語言數(shù)據(jù)數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)01自然語言PARTONE用語言溝通是一種人類的高級(jí)智能活動(dòng),語言是人類特有的用來進(jìn)行思維的工具。語言也是一種由語音、詞匯和語法構(gòu)成的復(fù)雜符號(hào)系統(tǒng),是人類最重要的交際工具。語言還是一種特殊的社會(huì)現(xiàn)象,是族群認(rèn)同、文化傳承的重要組成部分。當(dāng)我們談?wù)摗罢Z言”時(shí),一般包括它的視覺形式—文字,但在與“文字”并舉時(shí),語言僅指口語。1.語言的存在形式語言是以什么形式存在的?有人認(rèn)為語言就是說話。這么說并不錯(cuò),但很不全面。說話本身是一種復(fù)雜的現(xiàn)象,其至少可以分為三個(gè)部分:一是說話的動(dòng)作;二是說出來或?qū)懗鰜淼膬?nèi)容,即產(chǎn)生的語言數(shù)據(jù);三是說話使用的工具(如漢語和英語就是不同的工具)。在下面三個(gè)例子中的“說話”和“話”具有不同的含義。請(qǐng)比較:①輪到問話的時(shí)候你才說話。②警察認(rèn)為嫌犯說的話可信。③在庭審時(shí)都應(yīng)該說普通話。什么是自然語言①中的“說話”指實(shí)際說話的過程,可以叫作言語動(dòng)作。②中“嫌犯說的話”是說出來(包括寫下來)的話,是一種語言數(shù)據(jù)。言語動(dòng)作和語言數(shù)據(jù)又可以統(tǒng)稱為“言語”(parole/speech)。③中“普通話”是指說話時(shí)使用的符號(hào)工具,這才是“語言”(langue/language)。抽象地講,語言是人使用的符號(hào)工具,使用這種工具的行為是言語動(dòng)作,而行為的結(jié)果是語言數(shù)據(jù)。語言顯然是十分抽象的存在。學(xué)者通過言語動(dòng)作和語言數(shù)據(jù)來研究語言。工程師通過語言數(shù)據(jù)(讓機(jī)器)模擬言語行為,挖掘其蘊(yùn)含的信息。什么是自然語言語言數(shù)據(jù)又分為兩種:用嘴說出來的,叫作“口語”;用文字寫下來的,叫作“書面語”。之所以要區(qū)分口語和書面語,原因有兩個(gè):一是世界上任何一種語言都有口頭形式,但只有少數(shù)語言有相應(yīng)文字表現(xiàn)的書面形式;二是任何一種語言總是先有口語,后有書面語,書面語只能在口語的基礎(chǔ)上產(chǎn)生,而且或早或晚隨著口語的發(fā)展演變而發(fā)展演變。從這個(gè)意義上說,口語是第一性的,書面語是第二性的。盡管如此,書面語并不是口語絕對(duì)忠實(shí)的記錄??陬^交際總是在一定的語境中進(jìn)行的,常常伴隨說話人的各種表情、手勢(shì)、體態(tài)和語調(diào),而書面語一般不記錄這些成分;另外,寫作書面語有比較充裕的時(shí)間推敲,書面語可以比口語更精練、更精確。因此,確切地說,書面語是經(jīng)過提煉和加工的口語的書面形式。書面語一旦在口語的基礎(chǔ)上產(chǎn)生就具有相對(duì)的獨(dú)立性,能夠產(chǎn)生比口語更豐富的語匯、更復(fù)雜的結(jié)構(gòu)和更多樣化的表達(dá)方式,從而反過來影響和促進(jìn)口語的發(fā)展。書面語和口語有差別,但大多數(shù)情況下兩者的語匯成分和語法結(jié)構(gòu)還是基本一致的。書面語和口語會(huì)脫節(jié),但或早或晚會(huì)根據(jù)口語的演變而演變。當(dāng)然,口語已經(jīng)發(fā)生巨大變化,而書面語長期保持古代語言的面貌不變的現(xiàn)象也是存在的,中國的文言文和西方的拉丁文就是“言文脫節(jié)”的典型例子,而兩者最終都在或激烈或和緩的歷史動(dòng)蕩中重新和口語實(shí)現(xiàn)了一致。什么是自然語言(1)語言的思維功能。

思維是人腦借助語言、表象或動(dòng)作對(duì)客觀現(xiàn)實(shí)的能動(dòng)反映。思維和直覺感受不同,它揭露的是事物的本質(zhì)特征和內(nèi)部聯(lián)系。思維除語言之外,還可以有其他載體,如形象。低級(jí)的形象思維是人類和動(dòng)物共有的。形象思維的高級(jí)階段往往屬于掌握語言的人。這時(shí)人的思維呈現(xiàn)更加復(fù)雜的情形,各種類型常常有所側(cè)重或交替使用。語言不但可以參與思維活動(dòng),而且可以在無形中起到主導(dǎo)的作用。我們可以肯定,在人的思維中,語言不參與的思維活動(dòng)不占主導(dǎo)地位,占主導(dǎo)地位的是語言參與的思維活動(dòng)。2.語言的功能語言的功能是語言在實(shí)現(xiàn)人的具體目的中所起的作用。一般來說,語言有三種基本功能:①從人與自己的關(guān)系看,語言是人認(rèn)識(shí)世界的工具,人類既用語言進(jìn)行思維,又用語言調(diào)節(jié)行為,即思維功能;②從人與人的關(guān)系看,語言是交際方式和交流思想的手段,即交際功能;③從人與社會(huì)的關(guān)系看,語言是文化信息的載體,是人類保存、傳遞、領(lǐng)會(huì)人類社會(huì)歷史經(jīng)驗(yàn)和科學(xué)、文化、藝術(shù)成就的手段,即文化功能。什么是自然語言(3)語言的文化功能。

語言是信息和民族、社群文化的重要載體,因而成為凝聚民族、社群認(rèn)同和情感的文化圖騰。語言成為最重要的文化圖騰的原因也在于其具有民族、社群文化信息的傳遞功能。人類用語言把自己對(duì)客觀世界的認(rèn)識(shí)及自己的活動(dòng)記錄下來,使語言成為文化的記錄者。人通過語言交際,傳遞著語言本身所記錄的文化信息,又使語言成為文化的傳播者。通過語言交際,不同地域、社群的文化可以相互交流,語言文字本身所承載的文化信息可以傳到遠(yuǎn)方,可以傳給后世。語言只有載錄人類發(fā)現(xiàn)和創(chuàng)造的一切,才能發(fā)揮交際工具的作用。(2)語言的交際功能。人與人之間的交際活動(dòng)是社會(huì)生活中最重要的組成部分。人類社會(huì)90%以上的信息是通過語言進(jìn)行傳遞的。語言是音義結(jié)合的詞匯系統(tǒng)和語法系統(tǒng),它作為一種交際工具,一視同仁地為本民族的各個(gè)階層的各種人服務(wù),同時(shí)一視同仁地為全人類的各個(gè)社會(huì)集團(tuán)、各個(gè)民族服務(wù)。我們可以說:“各民族的語言和文字是全世界人民的共同財(cái)富?!笔裁词亲匀徽Z言語系(languagefamily)語族(languagegroup)語支(languagebranch)語言(language)方言(dialect)土語(亞方言、次方言sub-dialect)據(jù)統(tǒng)計(jì),現(xiàn)在世界上查明的語言有7000多種,其中大部分隨著使用人口的快速減少而正在衰亡。根據(jù)歷史比較語言學(xué)的研究成果,一般認(rèn)為世界上的語言按親屬關(guān)系可以分為十幾或二十幾個(gè)語系,其中比較重要的有印歐語系、漢藏語系、烏拉爾語系、阿爾泰語系、閃-含語系、高加索語系、達(dá)羅毗荼語系、南島語系(又稱馬來-波利尼西亞語系)、南亞語系等語系。歷史語言學(xué)把來自一個(gè)共同原始母語的所有語言都劃歸到同一個(gè)語系中,而語系下面還有語族、語支、語言、方言、土語等。它們的層次關(guān)系如下所示:世界語言概況按使用人口來算,漢藏語系(SinoTibetanfamily)是僅次于印歐語系的第二大語系。它包括世界上使用人數(shù)最多的語言—漢語。漢藏語系一般歸為四個(gè)語族,即漢語族、藏緬語族、侗臺(tái)語族和苗瑤語族。漢藏語系的語言一般是由單音節(jié)字組成的聲調(diào)語言。詞由單個(gè)音節(jié)的字組成,每個(gè)音節(jié)都有聲調(diào)。漢語普通話有四個(gè)聲調(diào),泰語有五個(gè)聲調(diào),廣東方言有九個(gè)聲調(diào)。漢藏語系的語言大多數(shù)使用虛詞和語序作為表達(dá)語法意義的主要手段。閃-含語系(SemiticHamiticfamily),又稱亞非語系,主要分布在亞洲的阿拉伯半島和非洲的北部。閃-含語系的名稱源于《圣經(jīng)》傳說中挪亞的兩個(gè)兒子的名字:閃是希伯來人和阿拉伯人的祖先,含是亞述人和北非人的祖先。閃-含語系主要包括希伯來語、阿拉伯語、埃及語、阿拉米語、馬耳他語和阿姆哈拉語等,使用人口約5億。受限于篇幅,我們選擇其中最具影響力的三大語系簡要進(jìn)行介紹。人類語言中分布最廣、使用人口最多、影響力最大的是印歐語系(IndoEuropeanfamily)。印歐語系包含世界上許多重要的語言,如英語、西班牙語、法語、德語、俄語等。這些語言是很多國家和組織的官方語言,在世界商業(yè)、科技、學(xué)術(shù)、通信、外交領(lǐng)域占有極其重要的地位。上述語言的使用者占全球總?cè)丝诘囊话胍陨?。與宗教、文化、哲學(xué)有關(guān)的一些經(jīng)典語言也在印歐語系中,如拉丁語、希臘語、波斯語、梵語、巴利語等。世界語言概況02語言智能PARTTWO我們可以說,語言智能是機(jī)器掌握、使用自然語言的能力,包含為實(shí)現(xiàn)此能力而發(fā)展的理論、技術(shù)、資源等。語言智能的研究和發(fā)展的目標(biāo)是使計(jì)算機(jī)理解和運(yùn)用自然語言。在本書中,除非特別指出,語言智能都是指機(jī)器,尤其計(jì)算機(jī)理解和利用語言的能力。和語言智能相關(guān)的術(shù)語還有“計(jì)算語言學(xué)”、“自然語言處理”、“語言信息處理”它們常?;煊谩J聦?shí)上,這幾個(gè)概念雖然內(nèi)涵相近,但在使用上各有側(cè)重?!坝?jì)算語言學(xué)”側(cè)重于研究理論,探索科學(xué)規(guī)律。“自然語言處理”和“語言信息處理”則是同義詞,側(cè)重于試驗(yàn)方法和工程實(shí)現(xiàn),不斷開發(fā)各種智能語言服務(wù)。語言智能原指人類有效使用語言的能力。隨著人工智能的發(fā)展,機(jī)器開始具備了一定的“語言能力”。機(jī)器不僅能聽能說、掌握多國語言,在大規(guī)模語言數(shù)據(jù)的幫助下還能實(shí)現(xiàn)很多社會(huì)價(jià)值和商業(yè)價(jià)值。輸入法、機(jī)器翻譯、語音識(shí)別都是例證。機(jī)器掌握“語言能力”十分有用。在理論上,人工智能領(lǐng)域的開路人阿蘭·圖靈提出判斷機(jī)器是否具有智能的方法,便是進(jìn)行長時(shí)間語言交互(對(duì)話)來進(jìn)行測(cè)試,即著名的圖靈測(cè)試。最早的人工智能應(yīng)用也和語言有關(guān)。由此可見語言能力之于人工智能的重要性,因而機(jī)器的“語言智能”被譽(yù)為“人工智能皇冠上的明珠”。語言智能是什么(1)語音合成

語音合成是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),是讓計(jì)算機(jī)像人一樣將要表達(dá)的信息以普通人可以聽懂的語音播放出來的技術(shù)。(2)語音識(shí)別

語音識(shí)別的根本目的是研究一種具有聽覺功能的機(jī)器,使機(jī)器能直接接受人的口語命令,理解人的意圖并做出相應(yīng)的反應(yīng)。語言智能是什么隨著當(dāng)今智能化革命的進(jìn)程日益深入,語言智能的發(fā)展也一日千里。許多基本常見的語言智能服務(wù)已經(jīng)深入社會(huì)生產(chǎn)生活的各個(gè)角落,從而極大地解放了勞動(dòng)力,提高了生產(chǎn)效率。1.語音處理隨著人工智能的發(fā)展,與鍵盤和鼠標(biāo)等交互方式相比,人們迫切希望直接使用語音進(jìn)行人機(jī)交互。2.文字處理作為語素文字,漢字?jǐn)?shù)量龐大,這使?jié)h字信息化,即漢字處理技術(shù),較之僅使用有限字母的拼音文字,面臨的困難要大得多。在20世紀(jì)中期,甚至有學(xué)者悲觀地認(rèn)為,我國要進(jìn)入信息化,必須廢除漢字。但經(jīng)過幾代科研人員的努力,自20世紀(jì)80年代以來,我國已成功地使7萬多個(gè)漢字及相關(guān)字符進(jìn)入計(jì)算機(jī),實(shí)現(xiàn)了漢字和漢語文本的信息化。漢字處理技術(shù)與標(biāo)準(zhǔn)目前取得了三個(gè)方面的巨大成就:一是解決了在計(jì)算機(jī)中存儲(chǔ)大量離散漢字的問題;二是實(shí)現(xiàn)了準(zhǔn)確、快捷地在計(jì)算機(jī)中讀取、調(diào)用不同的漢字字符,即漢字輸入技術(shù);三是實(shí)現(xiàn)了在各種媒介中,如屏幕或打印設(shè)備中顯示或輸出漢字字符圖形,即漢字輸出技術(shù)。語言智能是什么在漢字輸入中,除使用鍵盤外,更為便捷的方式是直接識(shí)別照片、傳真中的字符,即光學(xué)字符識(shí)別(opticalcharacterrecognition,OCR)。這是關(guān)于將文字圖像轉(zhuǎn)換成可供計(jì)算機(jī)處理的內(nèi)碼的技術(shù)。字符識(shí)別根據(jù)識(shí)別的實(shí)時(shí)性分為聯(lián)機(jī)識(shí)別和脫機(jī)識(shí)別,根據(jù)識(shí)別對(duì)象分為手寫體識(shí)別和印刷體識(shí)別。我國面向漢字的字符識(shí)別研究始于20世紀(jì)70年代末。字符識(shí)別的基本方法主要有統(tǒng)計(jì)法和結(jié)構(gòu)法兩種。由于漢字具有較嚴(yán)格的拓?fù)浣Y(jié)構(gòu),包含豐富的結(jié)構(gòu)信息,因而結(jié)構(gòu)法較適用于漢字識(shí)別。目前,印刷體漢字識(shí)別和聯(lián)機(jī)手寫體識(shí)別均已實(shí)用化,高質(zhì)量的印刷體識(shí)別正確率可達(dá)98%以上。近年來,以深度學(xué)習(xí)技術(shù)為代表的統(tǒng)計(jì)方法也大幅提升了文字識(shí)別的效果。此外,在當(dāng)今語言生活中,漢字有簡繁之分,社會(huì)對(duì)計(jì)算機(jī)自動(dòng)地在簡繁漢字之間準(zhǔn)確轉(zhuǎn)換提出了迫切需求。因此,漢字簡繁轉(zhuǎn)換技術(shù)近年來取得了重大進(jìn)步??傮w而言,漢字處理技術(shù)已經(jīng)基本成熟,較好地適應(yīng)了人們?cè)谝杂?jì)算機(jī)為代表的信息工具中處理漢字的日常需求。語言智能是什么語言智能是什么3.詞法、句法、語義分析(1)詞法分析。詞法分析主要包括漢語分詞和詞性標(biāo)注兩部分。與大部分西方語言不同,漢語書面語詞語之間沒有明顯的空格標(biāo)記,文本中的句子以字串的形式出現(xiàn)。因此,漢語自然語言處理的首要工作就是將輸入的字串切分為一個(gè)個(gè)的詞語,然后在此基礎(chǔ)上進(jìn)行其他更高級(jí)的分析,這一步驟稱為分詞。例1展示了一個(gè)中文句子分詞前后的差異。當(dāng)然該例句包含歧義,因而有兩種分詞結(jié)果。(2)句法分析。句法分析是對(duì)輸入的文本句子進(jìn)行分析,以得到句子句法結(jié)構(gòu)的處理過程。對(duì)句法結(jié)構(gòu)進(jìn)行分析,一方面是語言理解的自身需求,另一方面為其他自然語言處理任務(wù)提供支持,如對(duì)文檔信息進(jìn)行精確表示。語義分析也通常以句法分析的輸出結(jié)果作為輸入,以便獲得更多的指示信息。圖1-1為依存句法理論的句法分析示例。按照層次,語義分析分為詞匯級(jí)、句子級(jí)和篇章級(jí)。詞匯級(jí)的語義分析主要研究詞義消歧和詞匯的形式化表示;句子級(jí)的語義分析關(guān)注句子內(nèi)的語義角色識(shí)別和整句的邏輯表達(dá)式生成;篇章級(jí)的語義分析目標(biāo)則是篇章內(nèi)小句、句子和段落間的語義關(guān)系。(3)語義分析。語義分析的最終目的是理解句子表達(dá)的真實(shí)語義。但是,語義應(yīng)該采用什么表示形式一直困擾著學(xué)術(shù)界,這個(gè)問題至今也沒有統(tǒng)一的答案。語義角色標(biāo)注是目前比較成熟的淺層語義分析技術(shù),基于邏輯表達(dá)的語義分析也得到了學(xué)術(shù)界的長期關(guān)注。語言智能是什么4.機(jī)器翻譯機(jī)器翻譯又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。機(jī)器翻譯是各項(xiàng)語言智能技術(shù)的綜合體現(xiàn)。以使用方式進(jìn)行劃分,機(jī)器翻譯系統(tǒng)可以分為文本機(jī)器翻譯和語音機(jī)器翻譯,近年來還興起了“拍照翻譯”形式的圖像機(jī)器翻譯。語音輸入和圖像輸入在本質(zhì)上都是通過語音技術(shù)和光學(xué)字符識(shí)別技術(shù)轉(zhuǎn)換為文字后,進(jìn)行機(jī)器翻譯。機(jī)器翻譯系統(tǒng)在技術(shù)上可劃分為基于規(guī)則(rule-based)和基于語料庫(corpus-based)兩大類。前者由詞典和規(guī)則庫構(gòu)成知識(shí)源;后者由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識(shí)源,以統(tǒng)計(jì)規(guī)律為主。基于語料庫的機(jī)器翻譯系統(tǒng)又因其使用的技術(shù)不同而進(jìn)一步分為基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的機(jī)器翻譯和近年來興起的基于神經(jīng)網(wǎng)絡(luò)模型的機(jī)器翻譯。目前,機(jī)器翻譯已經(jīng)步入普惠大眾、服務(wù)社會(huì)的實(shí)用階段。語言智能是什么5.其他語言智能應(yīng)用(1)知識(shí)圖譜。知識(shí)圖譜旨在以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體、事件間的復(fù)雜關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知的形式,并提供一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識(shí)圖譜在智能問答中顯示出強(qiáng)大威力,同時(shí)給互聯(lián)網(wǎng)語義搜索帶來了活力,已經(jīng)成為互聯(lián)網(wǎng)智能服務(wù)的基礎(chǔ)設(shè)施。語言智能是什么(2)智能問答與聊天機(jī)器人。雖然搜索引擎發(fā)展迅速,但傳統(tǒng)的基于關(guān)鍵詞的信息檢索方式仍然無法滿足用戶需求。在很多情況下,用戶不需要獲得文獻(xiàn)全文而只想要知道某個(gè)具體問題的答案,如林書豪有多高、用什么軟件打開ttf格式文件、冰島第一夫人是誰等。能從大量數(shù)據(jù)中檢索和整合出用戶答案的系統(tǒng)稱為問答系統(tǒng)。隨著Web2.0時(shí)代的到來,面向用戶生成內(nèi)容的互聯(lián)網(wǎng)服務(wù)越來越流行,社區(qū)問答系統(tǒng)應(yīng)運(yùn)而生,如知乎、百度知道、搜狗問問等。社區(qū)問答為互聯(lián)網(wǎng)知識(shí)分享提供了新的平臺(tái),輔之以對(duì)“問題-答案對(duì)”的處理,結(jié)合語言信息處理技術(shù)和信息檢索技術(shù),可以有效地滿足用戶多樣性的知識(shí)需求。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,越來越多的問答系統(tǒng)以聊天機(jī)器人的產(chǎn)品形式接觸到用戶。聊天機(jī)器人是用來模擬人類對(duì)話或聊天的程序,在回答用戶問題之外還需要進(jìn)行對(duì)話管理和情感計(jì)算,以提供更貼近人類陪伴者的用戶體驗(yàn)。越來越多的企業(yè)和機(jī)構(gòu)開始使用聊天機(jī)器人進(jìn)行客戶服務(wù),也有眾多企業(yè)開發(fā)了以問答、聊天為主要功能的個(gè)人數(shù)字助理產(chǎn)品。2011年,IBM公司研發(fā)的Watson問答系統(tǒng)(Ferruccietc.,2010)在美國智力競(jìng)賽節(jié)目“危險(xiǎn)邊緣”中戰(zhàn)勝人類冠軍,并于2012年通過美國職業(yè)醫(yī)師資格考試。2017年,科大訊飛領(lǐng)銜的“863”國家高考答題機(jī)器人項(xiàng)目成果AI-MATH參加了當(dāng)年高考數(shù)學(xué)考試并取得105分(滿分150分)的成績。這些都讓人們直觀體驗(yàn)到語言信息處理與信息檢索技術(shù)相結(jié)合,在自動(dòng)加工大規(guī)模數(shù)據(jù)和知識(shí)推理中的巨大能量。語言智能是什么(3)自動(dòng)校對(duì)與作文批閱。文本校對(duì)是語言信息處理技術(shù)的重要應(yīng)用領(lǐng)域之一,早在20世紀(jì)60年代,美國就開展了面向英文文本的自動(dòng)校對(duì)研究(Kukich,1992),目前已實(shí)現(xiàn)實(shí)用化和商業(yè)化。面向英語作為第二語言寫作者的校對(duì)技術(shù)也已十分成熟,如批改網(wǎng)和E-Rater都是較為成熟的產(chǎn)品。語言智能是什么我國的中文文本自動(dòng)校對(duì)研究起源于20世紀(jì)90年代,發(fā)展速度較快。從嵌入微軟Office系統(tǒng)的別字、錯(cuò)詞診斷到目前在出版業(yè)廣泛使用的黑馬、方正、金山自動(dòng)校對(duì)系統(tǒng),中文自動(dòng)校對(duì)已經(jīng)走出實(shí)驗(yàn)室,成為新聞出版業(yè)中降低人力成本、提高出版質(zhì)量的重要手段。目前,中文文本校對(duì)主要面向上下文相關(guān)錯(cuò)誤,其校對(duì)方法主要是利用上下文信息(統(tǒng)計(jì)特征、語法和語義特征)構(gòu)建統(tǒng)計(jì)模型,并與形式化的語法規(guī)則相結(jié)合,建立文本自動(dòng)差錯(cuò)與糾錯(cuò)模型(張仰森,2017)。結(jié)合語義知識(shí)庫和篇章處理技術(shù),實(shí)現(xiàn)語義層面和篇章級(jí)別的文本自動(dòng)校對(duì)是這一領(lǐng)域研究的重要發(fā)展方向。在教學(xué)領(lǐng)域,中文文本校對(duì)技術(shù)可以應(yīng)用于作文語法錯(cuò)誤診斷和糾正。漢語作為第二語言的留學(xué)生作文是句法錯(cuò)誤診斷的主要研究對(duì)象。目前,基于深度神經(jīng)網(wǎng)絡(luò)和序列標(biāo)注模型的實(shí)驗(yàn)系統(tǒng),可以初步實(shí)現(xiàn)對(duì)成分缺少、成分冗余、語序錯(cuò)亂和詞匯使用錯(cuò)誤四類句法錯(cuò)誤的診斷,但精度尚不足以投入實(shí)際應(yīng)用。(4)自動(dòng)文摘與智能寫作。隨著互聯(lián)網(wǎng)上信息爆炸性地增長,信息過載問題給人們?cè)斐闪司薮蟮睦_。自動(dòng)文本摘要可以幫助人們更加輕松地從海量文本中獲得關(guān)鍵信息,快速理解原文內(nèi)容。自動(dòng)文摘可以看作一個(gè)信息壓縮過程,將輸入的一篇或多篇文檔壓縮為一篇簡短的摘要,這涉及對(duì)輸入文檔的理解、要點(diǎn)的篩選和文摘合成三個(gè)主要步驟。語言智能是什么較之語法錯(cuò)誤的診斷,面向漢語母語者作文的自動(dòng)處理集中于自動(dòng)評(píng)分這一任務(wù),其原理與文本校對(duì)略有不同。作文自動(dòng)評(píng)分技術(shù)將人工打分作文中的語言特征作為訓(xùn)練數(shù)據(jù),用以調(diào)試統(tǒng)計(jì)回歸模型或分類模型,將未評(píng)分作文分類到不同的分?jǐn)?shù)段中以實(shí)現(xiàn)評(píng)分功能。目前,中考、高考作文的自動(dòng)評(píng)分質(zhì)量已逐步逼近人工評(píng)分水平。與上述情況類似,基于對(duì)詩文、楹聯(lián)數(shù)據(jù)進(jìn)行挖掘的智能寫作系統(tǒng)也在自動(dòng)作詩、自動(dòng)對(duì)聯(lián)方面嶄露頭角。微軟公司的小冰系統(tǒng)和清華大學(xué)的九歌系統(tǒng)分別在新詩和古體詩的自動(dòng)生成上達(dá)到了以假亂真的程度。例3為智能寫作系統(tǒng)生成的古詩。與自動(dòng)文摘的過程相反的是基于給定關(guān)鍵信息生成完整篇章的智能寫作技術(shù),該技術(shù)近年來的發(fā)展也十分迅速。具體而言,智能寫作是利用計(jì)算機(jī)完全自動(dòng)地對(duì)收集的文檔進(jìn)行整理、提取、過濾、篩選、組裝,并根據(jù)指定主題和關(guān)鍵信息(如時(shí)間、地點(diǎn)、人物、事件類型)自動(dòng)地生成文章,通過從特定語體海量文本數(shù)據(jù)中挖掘語言特征,系統(tǒng)可以構(gòu)建特定語體中“詞-句”和“句-篇”兩級(jí)知識(shí)庫,并最終形成文本模板。這類應(yīng)用目前集中于結(jié)構(gòu)、格式比較固定的受限語體中,如新聞報(bào)道、公文、通知等。語言智能是什么03語言資源PARTTHREE語言資源這一概念誕生于20世紀(jì)80年代。語言因其可用性而具有被開發(fā)利用的價(jià)值,從而被認(rèn)定為一種資源。廣義的語言資源包括語言數(shù)據(jù)、具有特定語言能力的人、語言文化成果、語言研究成果等。狹義的語言資源就是指大規(guī)模的可使用的語言數(shù)據(jù)。按照存儲(chǔ)媒介,可將語言資源分為語音、圖像和文本三大類。以語音形式存在的語言資源是各類錄音、錄像資源,主要用于記錄人類語言的音響信號(hào)。圖像形式的資源,主要是各種文字的照片、掃描件等,記錄文字和書寫行為的光學(xué)信號(hào)。文本類型的語言資源最為多樣,數(shù)量也最多。前兩種類型的語言資源大多數(shù)需要轉(zhuǎn)換為文本資源,以供進(jìn)一步加工使用。詞匯、語法、語義信息和相關(guān)的知識(shí)庫,大多數(shù)以文本形式進(jìn)行儲(chǔ)存和傳輸。按照層次,可將語言資源分為記錄語音信息的語言資源、記錄文字信息的語言資源、記錄詞匯信息的語言資源、記錄語法信息的語言資源,以及記錄篇章、語用、對(duì)話信息的語言資源。按照服務(wù)的形式,可將語言資源分為數(shù)據(jù)庫和知識(shí)庫兩大類。數(shù)據(jù)庫也稱語料庫,記錄大規(guī)模的語言數(shù)據(jù),是語言行為的真實(shí)記錄;通常還會(huì)進(jìn)行各種各樣的標(biāo)注,如語音庫、文本庫等。知識(shí)庫則是對(duì)語言知識(shí)的形式化記錄,如詞典就是一種有關(guān)詞義和詞法的知識(shí)庫。什么是語言資源按照語言的種類,可將語言資源分為單語資源和多語資源。多語資源是將兩種或多種語言的同類型資源放在一起發(fā)揮作用。如果將不同語言表達(dá)相同內(nèi)容的詞擺在一起,一一對(duì)應(yīng),就稱為詞對(duì)齊資源。多語資源按照對(duì)齊方式,可分為詞對(duì)齊、句對(duì)齊和段落對(duì)齊、篇章對(duì)齊。對(duì)齊的語言資源也稱為平行語料,它們是機(jī)器翻譯系統(tǒng)必需的資源。按照服務(wù)目標(biāo),可將語言資源分為記錄母語者言語行為的描寫型語料庫、幫助語言學(xué)習(xí)者的學(xué)習(xí)型語料庫、記錄社會(huì)語言生活發(fā)展變化的監(jiān)測(cè)語料庫,以及大量服務(wù)于特定領(lǐng)域的垂直型語料庫,如醫(yī)院問診語料庫、旅行客票問詢語料庫、法庭辯論語料庫等。什么是語言資源在這個(gè)過程中,語言資源是語言智能研究和開發(fā)的基礎(chǔ)。語言智能的目標(biāo)是讓機(jī)器掌握語言,則機(jī)器必須獲得充足的語言知識(shí),而語言知識(shí)正蘊(yùn)含在語言資源之中。高性能的語言智能應(yīng)用,也需要高品質(zhì)的語言數(shù)據(jù),猶如核反應(yīng)堆的運(yùn)行(智能應(yīng)用),需要大量高品位礦石(語言數(shù)據(jù))中的放射性同位素(語言知識(shí))。語言智能應(yīng)用在研究和開發(fā)中的技術(shù)路線可以分為基于規(guī)則、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度神經(jīng)網(wǎng)絡(luò)三種。對(duì)于特定的任務(wù)和應(yīng)用,研發(fā)人員首先明確一個(gè)語言智能系統(tǒng)的輸入和輸出;其次制備大規(guī)模、高質(zhì)量的語言資源,從中抽取或總結(jié)和任務(wù)目標(biāo)相關(guān)的語言規(guī)則,統(tǒng)計(jì)語言現(xiàn)象的規(guī)律,進(jìn)行各種預(yù)處理;最后訓(xùn)練各類機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)符合任務(wù)目標(biāo)的輸出。為什么語言資源是語言智能的基礎(chǔ)標(biāo)注本義是進(jìn)行標(biāo)記。數(shù)據(jù)標(biāo)注是對(duì)數(shù)據(jù)的屬性、功能、(數(shù)據(jù)之間的)關(guān)系等進(jìn)行標(biāo)記的過程。原始的語言數(shù)據(jù)如果只是簡單記錄言語行為,則許多語言知識(shí)、言語動(dòng)機(jī)都是隱含的。標(biāo)記的過程是標(biāo)注人員(或輔之以機(jī)器)將其識(shí)別并標(biāo)記出來,前面曾舉例的詞和詞之間的空格、詞下面的詞性符號(hào)就是一種標(biāo)記。這些標(biāo)記顯示了詞的范圍(空格之間)和詞的功能(動(dòng)詞、名詞或形容詞等)。識(shí)別出這些信息并標(biāo)記出來的過程就是數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注不限于語言數(shù)據(jù),工業(yè)數(shù)據(jù)、商業(yè)數(shù)據(jù)、醫(yī)療數(shù)據(jù)也有各不相同的標(biāo)注方式,但目標(biāo)從總體上來說是一樣的。如同礦石需要加工、原油需要提煉,有用的語言資源或語言數(shù)據(jù)不是語言行為的單純記錄,需要精細(xì)地篩選和深入地加工,降低雜質(zhì),增加知識(shí)的含量(甚至注入一些知識(shí))。這種加工有面向數(shù)據(jù)格式、存儲(chǔ)形態(tài)的加工,有去除不良數(shù)據(jù)(也稱為噪聲)、瑕疵的加工,更重要的是名為“數(shù)據(jù)標(biāo)注”(dataannotation)的數(shù)據(jù)加工。為什么語言資源是語言智能的基礎(chǔ)對(duì)語言資源的研究和建設(shè)由來已久。服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論