數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)

上傳人：y*** IP屬地：山東上傳時(shí)間：2025-08-19 格式：PPTX 頁數(shù)：30 大?。?.46MB 積分：15 舉報(bào) 版權(quán)申訴

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第2頁

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第3頁

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第4頁

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)_第5頁

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章語言和語言數(shù)據(jù)數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)01自然語言PARTONE用語言溝通是一種人類的高級(jí)智能活動(dòng)，語言是人類特有的用來進(jìn)行思維的工具。語言也是一種由語音、詞匯和語法構(gòu)成的復(fù)雜符號(hào)系統(tǒng)，是人類最重要的交際工具。語言還是一種特殊的社會(huì)現(xiàn)象，是族群認(rèn)同、文化傳承的重要組成部分。當(dāng)我們談?wù)摗罢Z言”時(shí)，一般包括它的視覺形式—文字，但在與“文字”并舉時(shí)，語言僅指口語。1．語言的存在形式語言是以什么形式存在的？有人認(rèn)為語言就是說話。這么說并不錯(cuò)，但很不全面。說話本身是一種復(fù)雜的現(xiàn)象，其至少可以分為三個(gè)部分：一是說話的動(dòng)作；二是說出來或?qū)懗鰜淼膬?nèi)容，即產(chǎn)生的語言數(shù)據(jù)；三是說話使用的工具（如漢語和英語就是不同的工具）。在下面三個(gè)例子中的“說話”和“話”具有不同的含義。請(qǐng)比較：①輪到問話的時(shí)候你才說話。②警察認(rèn)為嫌犯說的話可信。③在庭審時(shí)都應(yīng)該說普通話。什么是自然語言①中的“說話”指實(shí)際說話的過程，可以叫作言語動(dòng)作。②中“嫌犯說的話”是說出來（包括寫下來）的話，是一種語言數(shù)據(jù)。言語動(dòng)作和語言數(shù)據(jù)又可以統(tǒng)稱為“言語”（parole/speech）。③中“普通話”是指說話時(shí)使用的符號(hào)工具，這才是“語言”（langue/language）。抽象地講，語言是人使用的符號(hào)工具，使用這種工具的行為是言語動(dòng)作，而行為的結(jié)果是語言數(shù)據(jù)。語言顯然是十分抽象的存在。學(xué)者通過言語動(dòng)作和語言數(shù)據(jù)來研究語言。工程師通過語言數(shù)據(jù)（讓機(jī)器）模擬言語行為，挖掘其蘊(yùn)含的信息。什么是自然語言語言數(shù)據(jù)又分為兩種：用嘴說出來的，叫作“口語”；用文字寫下來的，叫作“書面語”。之所以要區(qū)分口語和書面語，原因有兩個(gè)：一是世界上任何一種語言都有口頭形式，但只有少數(shù)語言有相應(yīng)文字表現(xiàn)的書面形式；二是任何一種語言總是先有口語，后有書面語，書面語只能在口語的基礎(chǔ)上產(chǎn)生，而且或早或晚隨著口語的發(fā)展演變而發(fā)展演變。從這個(gè)意義上說，口語是第一性的，書面語是第二性的。盡管如此，書面語并不是口語絕對(duì)忠實(shí)的記錄?？陬^交際總是在一定的語境中進(jìn)行的，常常伴隨說話人的各種表情、手勢(shì)、體態(tài)和語調(diào)，而書面語一般不記錄這些成分；另外，寫作書面語有比較充裕的時(shí)間推敲，書面語可以比口語更精練、更精確。因此，確切地說，書面語是經(jīng)過提煉和加工的口語的書面形式。書面語一旦在口語的基礎(chǔ)上產(chǎn)生就具有相對(duì)的獨(dú)立性，能夠產(chǎn)生比口語更豐富的語匯、更復(fù)雜的結(jié)構(gòu)和更多樣化的表達(dá)方式，從而反過來影響和促進(jìn)口語的發(fā)展。書面語和口語有差別，但大多數(shù)情況下兩者的語匯成分和語法結(jié)構(gòu)還是基本一致的。書面語和口語會(huì)脫節(jié)，但或早或晚會(huì)根據(jù)口語的演變而演變。當(dāng)然，口語已經(jīng)發(fā)生巨大變化，而書面語長期保持古代語言的面貌不變的現(xiàn)象也是存在的，中國的文言文和西方的拉丁文就是“言文脫節(jié)”的典型例子，而兩者最終都在或激烈或和緩的歷史動(dòng)蕩中重新和口語實(shí)現(xiàn)了一致。什么是自然語言（1）語言的思維功能。

思維是人腦借助語言、表象或動(dòng)作對(duì)客觀現(xiàn)實(shí)的能動(dòng)反映。思維和直覺感受不同，它揭露的是事物的本質(zhì)特征和內(nèi)部聯(lián)系。思維除語言之外，還可以有其他載體，如形象。低級(jí)的形象思維是人類和動(dòng)物共有的。形象思維的高級(jí)階段往往屬于掌握語言的人。這時(shí)人的思維呈現(xiàn)更加復(fù)雜的情形，各種類型常常有所側(cè)重或交替使用。語言不但可以參與思維活動(dòng)，而且可以在無形中起到主導(dǎo)的作用。我們可以肯定，在人的思維中，語言不參與的思維活動(dòng)不占主導(dǎo)地位，占主導(dǎo)地位的是語言參與的思維活動(dòng)。2．語言的功能語言的功能是語言在實(shí)現(xiàn)人的具體目的中所起的作用。一般來說，語言有三種基本功能：①從人與自己的關(guān)系看，語言是人認(rèn)識(shí)世界的工具，人類既用語言進(jìn)行思維，又用語言調(diào)節(jié)行為，即思維功能；②從人與人的關(guān)系看，語言是交際方式和交流思想的手段，即交際功能；③從人與社會(huì)的關(guān)系看，語言是文化信息的載體，是人類保存、傳遞、領(lǐng)會(huì)人類社會(huì)歷史經(jīng)驗(yàn)和科學(xué)、文化、藝術(shù)成就的手段，即文化功能。什么是自然語言（3）語言的文化功能。

語言是信息和民族、社群文化的重要載體，因而成為凝聚民族、社群認(rèn)同和情感的文化圖騰。語言成為最重要的文化圖騰的原因也在于其具有民族、社群文化信息的傳遞功能。人類用語言把自己對(duì)客觀世界的認(rèn)識(shí)及自己的活動(dòng)記錄下來，使語言成為文化的記錄者。人通過語言交際，傳遞著語言本身所記錄的文化信息，又使語言成為文化的傳播者。通過語言交際，不同地域、社群的文化可以相互交流，語言文字本身所承載的文化信息可以傳到遠(yuǎn)方，可以傳給后世。語言只有載錄人類發(fā)現(xiàn)和創(chuàng)造的一切，才能發(fā)揮交際工具的作用。（2）語言的交際功能。人與人之間的交際活動(dòng)是社會(huì)生活中最重要的組成部分。人類社會(huì)90%以上的信息是通過語言進(jìn)行傳遞的。語言是音義結(jié)合的詞匯系統(tǒng)和語法系統(tǒng)，它作為一種交際工具，一視同仁地為本民族的各個(gè)階層的各種人服務(wù)，同時(shí)一視同仁地為全人類的各個(gè)社會(huì)集團(tuán)、各個(gè)民族服務(wù)。我們可以說：“各民族的語言和文字是全世界人民的共同財(cái)富?！笔裁词亲匀徽Z言語系（languagefamily）語族（languagegroup）語支（languagebranch）語言（language）方言（dialect）土語（亞方言、次方言sub-dialect）據(jù)統(tǒng)計(jì)，現(xiàn)在世界上查明的語言有7000多種，其中大部分隨著使用人口的快速減少而正在衰亡。根據(jù)歷史比較語言學(xué)的研究成果，一般認(rèn)為世界上的語言按親屬關(guān)系可以分為十幾或二十幾個(gè)語系，其中比較重要的有印歐語系、漢藏語系、烏拉爾語系、阿爾泰語系、閃-含語系、高加索語系、達(dá)羅毗荼語系、南島語系（又稱馬來-波利尼西亞語系）、南亞語系等語系。歷史語言學(xué)把來自一個(gè)共同原始母語的所有語言都劃歸到同一個(gè)語系中，而語系下面還有語族、語支、語言、方言、土語等。它們的層次關(guān)系如下所示：世界語言概況按使用人口來算，漢藏語系（SinoTibetanfamily）是僅次于印歐語系的第二大語系。它包括世界上使用人數(shù)最多的語言—漢語。漢藏語系一般歸為四個(gè)語族，即漢語族、藏緬語族、侗臺(tái)語族和苗瑤語族。漢藏語系的語言一般是由單音節(jié)字組成的聲調(diào)語言。詞由單個(gè)音節(jié)的字組成，每個(gè)音節(jié)都有聲調(diào)。漢語普通話有四個(gè)聲調(diào)，泰語有五個(gè)聲調(diào)，廣東方言有九個(gè)聲調(diào)。漢藏語系的語言大多數(shù)使用虛詞和語序作為表達(dá)語法意義的主要手段。閃-含語系（SemiticHamiticfamily），又稱亞非語系，主要分布在亞洲的阿拉伯半島和非洲的北部。閃-含語系的名稱源于《圣經(jīng)》傳說中挪亞的兩個(gè)兒子的名字：閃是希伯來人和阿拉伯人的祖先，含是亞述人和北非人的祖先。閃-含語系主要包括希伯來語、阿拉伯語、埃及語、阿拉米語、馬耳他語和阿姆哈拉語等，使用人口約5億。受限于篇幅，我們選擇其中最具影響力的三大語系簡要進(jìn)行介紹。人類語言中分布最廣、使用人口最多、影響力最大的是印歐語系（IndoEuropeanfamily）。印歐語系包含世界上許多重要的語言，如英語、西班牙語、法語、德語、俄語等。這些語言是很多國家和組織的官方語言，在世界商業(yè)、科技、學(xué)術(shù)、通信、外交領(lǐng)域占有極其重要的地位。上述語言的使用者占全球總?cè)丝诘囊话胍陨?。與宗教、文化、哲學(xué)有關(guān)的一些經(jīng)典語言也在印歐語系中，如拉丁語、希臘語、波斯語、梵語、巴利語等。世界語言概況02語言智能PARTTWO我們可以說，語言智能是機(jī)器掌握、使用自然語言的能力，包含為實(shí)現(xiàn)此能力而發(fā)展的理論、技術(shù)、資源等。語言智能的研究和發(fā)展的目標(biāo)是使計(jì)算機(jī)理解和運(yùn)用自然語言。在本書中，除非特別指出，語言智能都是指機(jī)器，尤其計(jì)算機(jī)理解和利用語言的能力。和語言智能相關(guān)的術(shù)語還有“計(jì)算語言學(xué)”、“自然語言處理”、“語言信息處理”它們常?；煊谩Ｊ聦?shí)上，這幾個(gè)概念雖然內(nèi)涵相近，但在使用上各有側(cè)重?！坝?jì)算語言學(xué)”側(cè)重于研究理論，探索科學(xué)規(guī)律。“自然語言處理”和“語言信息處理”則是同義詞，側(cè)重于試驗(yàn)方法和工程實(shí)現(xiàn)，不斷開發(fā)各種智能語言服務(wù)。語言智能原指人類有效使用語言的能力。隨著人工智能的發(fā)展，機(jī)器開始具備了一定的“語言能力”。機(jī)器不僅能聽能說、掌握多國語言，在大規(guī)模語言數(shù)據(jù)的幫助下還能實(shí)現(xiàn)很多社會(huì)價(jià)值和商業(yè)價(jià)值。輸入法、機(jī)器翻譯、語音識(shí)別都是例證。機(jī)器掌握“語言能力”十分有用。在理論上，人工智能領(lǐng)域的開路人阿蘭·圖靈提出判斷機(jī)器是否具有智能的方法，便是進(jìn)行長時(shí)間語言交互（對(duì)話）來進(jìn)行測(cè)試，即著名的圖靈測(cè)試。最早的人工智能應(yīng)用也和語言有關(guān)。由此可見語言能力之于人工智能的重要性，因而機(jī)器的“語言智能”被譽(yù)為“人工智能皇冠上的明珠”。語言智能是什么（1）語音合成

語音合成是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)，是讓計(jì)算機(jī)像人一樣將要表達(dá)的信息以普通人可以聽懂的語音播放出來的技術(shù)。（2）語音識(shí)別

語音識(shí)別的根本目的是研究一種具有聽覺功能的機(jī)器，使機(jī)器能直接接受人的口語命令，理解人的意圖并做出相應(yīng)的反應(yīng)。語言智能是什么隨著當(dāng)今智能化革命的進(jìn)程日益深入，語言智能的發(fā)展也一日千里。許多基本常見的語言智能服務(wù)已經(jīng)深入社會(huì)生產(chǎn)生活的各個(gè)角落，從而極大地解放了勞動(dòng)力，提高了生產(chǎn)效率。1．語音處理隨著人工智能的發(fā)展，與鍵盤和鼠標(biāo)等交互方式相比，人們迫切希望直接使用語音進(jìn)行人機(jī)交互。2．文字處理作為語素文字，漢字?jǐn)?shù)量龐大，這使?jié)h字信息化，即漢字處理技術(shù)，較之僅使用有限字母的拼音文字，面臨的困難要大得多。在20世紀(jì)中期，甚至有學(xué)者悲觀地認(rèn)為，我國要進(jìn)入信息化，必須廢除漢字。但經(jīng)過幾代科研人員的努力，自20世紀(jì)80年代以來，我國已成功地使7萬多個(gè)漢字及相關(guān)字符進(jìn)入計(jì)算機(jī)，實(shí)現(xiàn)了漢字和漢語文本的信息化。漢字處理技術(shù)與標(biāo)準(zhǔn)目前取得了三個(gè)方面的巨大成就：一是解決了在計(jì)算機(jī)中存儲(chǔ)大量離散漢字的問題；二是實(shí)現(xiàn)了準(zhǔn)確、快捷地在計(jì)算機(jī)中讀取、調(diào)用不同的漢字字符，即漢字輸入技術(shù)；三是實(shí)現(xiàn)了在各種媒介中，如屏幕或打印設(shè)備中顯示或輸出漢字字符圖形，即漢字輸出技術(shù)。語言智能是什么在漢字輸入中，除使用鍵盤外，更為便捷的方式是直接識(shí)別照片、傳真中的字符，即光學(xué)字符識(shí)別（opticalcharacterrecognition，OCR）。這是關(guān)于將文字圖像轉(zhuǎn)換成可供計(jì)算機(jī)處理的內(nèi)碼的技術(shù)。字符識(shí)別根據(jù)識(shí)別的實(shí)時(shí)性分為聯(lián)機(jī)識(shí)別和脫機(jī)識(shí)別，根據(jù)識(shí)別對(duì)象分為手寫體識(shí)別和印刷體識(shí)別。我國面向漢字的字符識(shí)別研究始于20世紀(jì)70年代末。字符識(shí)別的基本方法主要有統(tǒng)計(jì)法和結(jié)構(gòu)法兩種。由于漢字具有較嚴(yán)格的拓?fù)浣Y(jié)構(gòu)，包含豐富的結(jié)構(gòu)信息，因而結(jié)構(gòu)法較適用于漢字識(shí)別。目前，印刷體漢字識(shí)別和聯(lián)機(jī)手寫體識(shí)別均已實(shí)用化，高質(zhì)量的印刷體識(shí)別正確率可達(dá)98%以上。近年來，以深度學(xué)習(xí)技術(shù)為代表的統(tǒng)計(jì)方法也大幅提升了文字識(shí)別的效果。此外，在當(dāng)今語言生活中，漢字有簡繁之分，社會(huì)對(duì)計(jì)算機(jī)自動(dòng)地在簡繁漢字之間準(zhǔn)確轉(zhuǎn)換提出了迫切需求。因此，漢字簡繁轉(zhuǎn)換技術(shù)近年來取得了重大進(jìn)步?？傮w而言，漢字處理技術(shù)已經(jīng)基本成熟，較好地適應(yīng)了人們?cè)谝杂?jì)算機(jī)為代表的信息工具中處理漢字的日常需求。語言智能是什么語言智能是什么3．詞法、句法、語義分析（1）詞法分析。詞法分析主要包括漢語分詞和詞性標(biāo)注兩部分。與大部分西方語言不同，漢語書面語詞語之間沒有明顯的空格標(biāo)記，文本中的句子以字串的形式出現(xiàn)。因此，漢語自然語言處理的首要工作就是將輸入的字串切分為一個(gè)個(gè)的詞語，然后在此基礎(chǔ)上進(jìn)行其他更高級(jí)的分析，這一步驟稱為分詞。例1展示了一個(gè)中文句子分詞前后的差異。當(dāng)然該例句包含歧義，因而有兩種分詞結(jié)果。（2）句法分析。句法分析是對(duì)輸入的文本句子進(jìn)行分析，以得到句子句法結(jié)構(gòu)的處理過程。對(duì)句法結(jié)構(gòu)進(jìn)行分析，一方面是語言理解的自身需求，另一方面為其他自然語言處理任務(wù)提供支持，如對(duì)文檔信息進(jìn)行精確表示。語義分析也通常以句法分析的輸出結(jié)果作為輸入，以便獲得更多的指示信息。圖1-1為依存句法理論的句法分析示例。按照層次，語義分析分為詞匯級(jí)、句子級(jí)和篇章級(jí)。詞匯級(jí)的語義分析主要研究詞義消歧和詞匯的形式化表示；句子級(jí)的語義分析關(guān)注句子內(nèi)的語義角色識(shí)別和整句的邏輯表達(dá)式生成；篇章級(jí)的語義分析目標(biāo)則是篇章內(nèi)小句、句子和段落間的語義關(guān)系。（3）語義分析。語義分析的最終目的是理解句子表達(dá)的真實(shí)語義。但是，語義應(yīng)該采用什么表示形式一直困擾著學(xué)術(shù)界，這個(gè)問題至今也沒有統(tǒng)一的答案。語義角色標(biāo)注是目前比較成熟的淺層語義分析技術(shù)，基于邏輯表達(dá)的語義分析也得到了學(xué)術(shù)界的長期關(guān)注。語言智能是什么4．機(jī)器翻譯機(jī)器翻譯又稱為自動(dòng)翻譯，是利用計(jì)算機(jī)將一種自然語言（源語言）轉(zhuǎn)換為另一種自然語言（目標(biāo)語言）的過程。機(jī)器翻譯是各項(xiàng)語言智能技術(shù)的綜合體現(xiàn)。以使用方式進(jìn)行劃分，機(jī)器翻譯系統(tǒng)可以分為文本機(jī)器翻譯和語音機(jī)器翻譯，近年來還興起了“拍照翻譯”形式的圖像機(jī)器翻譯。語音輸入和圖像輸入在本質(zhì)上都是通過語音技術(shù)和光學(xué)字符識(shí)別技術(shù)轉(zhuǎn)換為文字后，進(jìn)行機(jī)器翻譯。機(jī)器翻譯系統(tǒng)在技術(shù)上可劃分為基于規(guī)則（rule-based）和基于語料庫（corpus-based）兩大類。前者由詞典和規(guī)則庫構(gòu)成知識(shí)源；后者由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識(shí)源，以統(tǒng)計(jì)規(guī)律為主。基于語料庫的機(jī)器翻譯系統(tǒng)又因其使用的技術(shù)不同而進(jìn)一步分為基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的機(jī)器翻譯和近年來興起的基于神經(jīng)網(wǎng)絡(luò)模型的機(jī)器翻譯。目前，機(jī)器翻譯已經(jīng)步入普惠大眾、服務(wù)社會(huì)的實(shí)用階段。語言智能是什么5．其他語言智能應(yīng)用（1）知識(shí)圖譜。知識(shí)圖譜旨在以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體、事件間的復(fù)雜關(guān)系，將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知的形式，并提供一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識(shí)圖譜在智能問答中顯示出強(qiáng)大威力，同時(shí)給互聯(lián)網(wǎng)語義搜索帶來了活力，已經(jīng)成為互聯(lián)網(wǎng)智能服務(wù)的基礎(chǔ)設(shè)施。語言智能是什么（2）智能問答與聊天機(jī)器人。雖然搜索引擎發(fā)展迅速，但傳統(tǒng)的基于關(guān)鍵詞的信息檢索方式仍然無法滿足用戶需求。在很多情況下，用戶不需要獲得文獻(xiàn)全文而只想要知道某個(gè)具體問題的答案，如林書豪有多高、用什么軟件打開ttf格式文件、冰島第一夫人是誰等。能從大量數(shù)據(jù)中檢索和整合出用戶答案的系統(tǒng)稱為問答系統(tǒng)。隨著Web2.0時(shí)代的到來，面向用戶生成內(nèi)容的互聯(lián)網(wǎng)服務(wù)越來越流行，社區(qū)問答系統(tǒng)應(yīng)運(yùn)而生，如知乎、百度知道、搜狗問問等。社區(qū)問答為互聯(lián)網(wǎng)知識(shí)分享提供了新的平臺(tái)，輔之以對(duì)“問題-答案對(duì)”的處理，結(jié)合語言信息處理技術(shù)和信息檢索技術(shù)，可以有效地滿足用戶多樣性的知識(shí)需求。在移動(dòng)互聯(lián)網(wǎng)時(shí)代，越來越多的問答系統(tǒng)以聊天機(jī)器人的產(chǎn)品形式接觸到用戶。聊天機(jī)器人是用來模擬人類對(duì)話或聊天的程序，在回答用戶問題之外還需要進(jìn)行對(duì)話管理和情感計(jì)算，以提供更貼近人類陪伴者的用戶體驗(yàn)。越來越多的企業(yè)和機(jī)構(gòu)開始使用聊天機(jī)器人進(jìn)行客戶服務(wù)，也有眾多企業(yè)開發(fā)了以問答、聊天為主要功能的個(gè)人數(shù)字助理產(chǎn)品。2011年，IBM公司研發(fā)的Watson問答系統(tǒng)（Ferruccietc.,2010）在美國智力競(jìng)賽節(jié)目“危險(xiǎn)邊緣”中戰(zhàn)勝人類冠軍，并于2012年通過美國職業(yè)醫(yī)師資格考試。2017年，科大訊飛領(lǐng)銜的“863”國家高考答題機(jī)器人項(xiàng)目成果AI-MATH參加了當(dāng)年高考數(shù)學(xué)考試并取得105分（滿分150分）的成績。這些都讓人們直觀體驗(yàn)到語言信息處理與信息檢索技術(shù)相結(jié)合，在自動(dòng)加工大規(guī)模數(shù)據(jù)和知識(shí)推理中的巨大能量。語言智能是什么（3）自動(dòng)校對(duì)與作文批閱。文本校對(duì)是語言信息處理技術(shù)的重要應(yīng)用領(lǐng)域之一，早在20世紀(jì)60年代，美國就開展了面向英文文本的自動(dòng)校對(duì)研究（Kukich，1992），目前已實(shí)現(xiàn)實(shí)用化和商業(yè)化。面向英語作為第二語言寫作者的校對(duì)技術(shù)也已十分成熟，如批改網(wǎng)和E-Rater都是較為成熟的產(chǎn)品。語言智能是什么我國的中文文本自動(dòng)校對(duì)研究起源于20世紀(jì)90年代，發(fā)展速度較快。從嵌入微軟Office系統(tǒng)的別字、錯(cuò)詞診斷到目前在出版業(yè)廣泛使用的黑馬、方正、金山自動(dòng)校對(duì)系統(tǒng)，中文自動(dòng)校對(duì)已經(jīng)走出實(shí)驗(yàn)室，成為新聞出版業(yè)中降低人力成本、提高出版質(zhì)量的重要手段。目前，中文文本校對(duì)主要面向上下文相關(guān)錯(cuò)誤，其校對(duì)方法主要是利用上下文信息（統(tǒng)計(jì)特征、語法和語義特征）構(gòu)建統(tǒng)計(jì)模型，并與形式化的語法規(guī)則相結(jié)合，建立文本自動(dòng)差錯(cuò)與糾錯(cuò)模型（張仰森，2017）。結(jié)合語義知識(shí)庫和篇章處理技術(shù)，實(shí)現(xiàn)語義層面和篇章級(jí)別的文本自動(dòng)校對(duì)是這一領(lǐng)域研究的重要發(fā)展方向。在教學(xué)領(lǐng)域，中文文本校對(duì)技術(shù)可以應(yīng)用于作文語法錯(cuò)誤診斷和糾正。漢語作為第二語言的留學(xué)生作文是句法錯(cuò)誤診斷的主要研究對(duì)象。目前，基于深度神經(jīng)網(wǎng)絡(luò)和序列標(biāo)注模型的實(shí)驗(yàn)系統(tǒng)，可以初步實(shí)現(xiàn)對(duì)成分缺少、成分冗余、語序錯(cuò)亂和詞匯使用錯(cuò)誤四類句法錯(cuò)誤的診斷，但精度尚不足以投入實(shí)際應(yīng)用。（4）自動(dòng)文摘與智能寫作。隨著互聯(lián)網(wǎng)上信息爆炸性地增長，信息過載問題給人們?cè)斐闪司薮蟮睦_。自動(dòng)文本摘要可以幫助人們更加輕松地從海量文本中獲得關(guān)鍵信息，快速理解原文內(nèi)容。自動(dòng)文摘可以看作一個(gè)信息壓縮過程，將輸入的一篇或多篇文檔壓縮為一篇簡短的摘要，這涉及對(duì)輸入文檔的理解、要點(diǎn)的篩選和文摘合成三個(gè)主要步驟。語言智能是什么較之語法錯(cuò)誤的診斷，面向漢語母語者作文的自動(dòng)處理集中于自動(dòng)評(píng)分這一任務(wù)，其原理與文本校對(duì)略有不同。作文自動(dòng)評(píng)分技術(shù)將人工打分作文中的語言特征作為訓(xùn)練數(shù)據(jù)，用以調(diào)試統(tǒng)計(jì)回歸模型或分類模型，將未評(píng)分作文分類到不同的分?jǐn)?shù)段中以實(shí)現(xiàn)評(píng)分功能。目前，中考、高考作文的自動(dòng)評(píng)分質(zhì)量已逐步逼近人工評(píng)分水平。與上述情況類似，基于對(duì)詩文、楹聯(lián)數(shù)據(jù)進(jìn)行挖掘的智能寫作系統(tǒng)也在自動(dòng)作詩、自動(dòng)對(duì)聯(lián)方面嶄露頭角。微軟公司的小冰系統(tǒng)和清華大學(xué)的九歌系統(tǒng)分別在新詩和古體詩的自動(dòng)生成上達(dá)到了以假亂真的程度。例3為智能寫作系統(tǒng)生成的古詩。與自動(dòng)文摘的過程相反的是基于給定關(guān)鍵信息生成完整篇章的智能寫作技術(shù)，該技術(shù)近年來的發(fā)展也十分迅速。具體而言，智能寫作是利用計(jì)算機(jī)完全自動(dòng)地對(duì)收集的文檔進(jìn)行整理、提取、過濾、篩選、組裝，并根據(jù)指定主題和關(guān)鍵信息（如時(shí)間、地點(diǎn)、人物、事件類型）自動(dòng)地生成文章，通過從特定語體海量文本數(shù)據(jù)中挖掘語言特征，系統(tǒng)可以構(gòu)建特定語體中“詞-句”和“句-篇”兩級(jí)知識(shí)庫，并最終形成文本模板。這類應(yīng)用目前集中于結(jié)構(gòu)、格式比較固定的受限語體中，如新聞報(bào)道、公文、通知等。語言智能是什么03語言資源PARTTHREE語言資源這一概念誕生于20世紀(jì)80年代。語言因其可用性而具有被開發(fā)利用的價(jià)值，從而被認(rèn)定為一種資源。廣義的語言資源包括語言數(shù)據(jù)、具有特定語言能力的人、語言文化成果、語言研究成果等。狹義的語言資源就是指大規(guī)模的可使用的語言數(shù)據(jù)。按照存儲(chǔ)媒介，可將語言資源分為語音、圖像和文本三大類。以語音形式存在的語言資源是各類錄音、錄像資源，主要用于記錄人類語言的音響信號(hào)。圖像形式的資源，主要是各種文字的照片、掃描件等，記錄文字和書寫行為的光學(xué)信號(hào)。文本類型的語言資源最為多樣，數(shù)量也最多。前兩種類型的語言資源大多數(shù)需要轉(zhuǎn)換為文本資源，以供進(jìn)一步加工使用。詞匯、語法、語義信息和相關(guān)的知識(shí)庫，大多數(shù)以文本形式進(jìn)行儲(chǔ)存和傳輸。按照層次，可將語言資源分為記錄語音信息的語言資源、記錄文字信息的語言資源、記錄詞匯信息的語言資源、記錄語法信息的語言資源，以及記錄篇章、語用、對(duì)話信息的語言資源。按照服務(wù)的形式，可將語言資源分為數(shù)據(jù)庫和知識(shí)庫兩大類。數(shù)據(jù)庫也稱語料庫，記錄大規(guī)模的語言數(shù)據(jù)，是語言行為的真實(shí)記錄；通常還會(huì)進(jìn)行各種各樣的標(biāo)注，如語音庫、文本庫等。知識(shí)庫則是對(duì)語言知識(shí)的形式化記錄，如詞典就是一種有關(guān)詞義和詞法的知識(shí)庫。什么是語言資源按照語言的種類，可將語言資源分為單語資源和多語資源。多語資源是將兩種或多種語言的同類型資源放在一起發(fā)揮作用。如果將不同語言表達(dá)相同內(nèi)容的詞擺在一起，一一對(duì)應(yīng)，就稱為詞對(duì)齊資源。多語資源按照對(duì)齊方式，可分為詞對(duì)齊、句對(duì)齊和段落對(duì)齊、篇章對(duì)齊。對(duì)齊的語言資源也稱為平行語料，它們是機(jī)器翻譯系統(tǒng)必需的資源。按照服務(wù)目標(biāo)，可將語言資源分為記錄母語者言語行為的描寫型語料庫、幫助語言學(xué)習(xí)者的學(xué)習(xí)型語料庫、記錄社會(huì)語言生活發(fā)展變化的監(jiān)測(cè)語料庫，以及大量服務(wù)于特定領(lǐng)域的垂直型語料庫，如醫(yī)院問診語料庫、旅行客票問詢語料庫、法庭辯論語料庫等。什么是語言資源在這個(gè)過程中，語言資源是語言智能研究和開發(fā)的基礎(chǔ)。語言智能的目標(biāo)是讓機(jī)器掌握語言，則機(jī)器必須獲得充足的語言知識(shí)，而語言知識(shí)正蘊(yùn)含在語言資源之中。高性能的語言智能應(yīng)用，也需要高品質(zhì)的語言數(shù)據(jù)，猶如核反應(yīng)堆的運(yùn)行（智能應(yīng)用），需要大量高品位礦石（語言數(shù)據(jù)）中的放射性同位素（語言知識(shí)）。語言智能應(yīng)用在研究和開發(fā)中的技術(shù)路線可以分為基于規(guī)則、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度神經(jīng)網(wǎng)絡(luò)三種。對(duì)于特定的任務(wù)和應(yīng)用，研發(fā)人員首先明確一個(gè)語言智能系統(tǒng)的輸入和輸出；其次制備大規(guī)模、高質(zhì)量的語言資源，從中抽取或總結(jié)和任務(wù)目標(biāo)相關(guān)的語言規(guī)則，統(tǒng)計(jì)語言現(xiàn)象的規(guī)律，進(jìn)行各種預(yù)處理；最后訓(xùn)練各類機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型，實(shí)現(xiàn)符合任務(wù)目標(biāo)的輸出。為什么語言資源是語言智能的基礎(chǔ)標(biāo)注本義是進(jìn)行標(biāo)記。數(shù)據(jù)標(biāo)注是對(duì)數(shù)據(jù)的屬性、功能、（數(shù)據(jù)之間的）關(guān)系等進(jìn)行標(biāo)記的過程。原始的語言數(shù)據(jù)如果只是簡單記錄言語行為，則許多語言知識(shí)、言語動(dòng)機(jī)都是隱含的。標(biāo)記的過程是標(biāo)注人員（或輔之以機(jī)器）將其識(shí)別并標(biāo)記出來，前面曾舉例的詞和詞之間的空格、詞下面的詞性符號(hào)就是一種標(biāo)記。這些標(biāo)記顯示了詞的范圍（空格之間）和詞的功能（動(dòng)詞、名詞或形容詞等）。識(shí)別出這些信息并標(biāo)記出來的過程就是數(shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注不限于語言數(shù)據(jù)，工業(yè)數(shù)據(jù)、商業(yè)數(shù)據(jù)、醫(yī)療數(shù)據(jù)也有各不相同的標(biāo)注方式，但目標(biāo)從總體上來說是一樣的。如同礦石需要加工、原油需要提煉，有用的語言資源或語言數(shù)據(jù)不是語言行為的單純記錄，需要精細(xì)地篩選和深入地加工，降低雜質(zhì)，增加知識(shí)的含量（甚至注入一些知識(shí)）。這種加工有面向數(shù)據(jù)格式、存儲(chǔ)形態(tài)的加工，有去除不良數(shù)據(jù)（也稱為噪聲）、瑕疵的加工，更重要的是名為“數(shù)據(jù)標(biāo)注”（dataannotation）的數(shù)據(jù)加工。為什么語言資源是語言智能的基礎(chǔ)對(duì)語言資源的研究和建設(shè)由來已久。服務(wù)

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

中文字字幕乱码视频,亚洲av无码乱码在线观看富二代,亚洲乱妇亚洲乱妇xinglu,亚洲日韩乱码中文无码蜜桃臀,亚洲精品无码久久久久久久

數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 課件ch01 語言和語言數(shù)據(jù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔