數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案全套 ch01-06 語言和語言數(shù)據(jù) -篇章和篇章信息處理_第1頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案全套 ch01-06 語言和語言數(shù)據(jù) -篇章和篇章信息處理_第2頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案全套 ch01-06 語言和語言數(shù)據(jù) -篇章和篇章信息處理_第3頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案全套 ch01-06 語言和語言數(shù)據(jù) -篇章和篇章信息處理_第4頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案全套 ch01-06 語言和語言數(shù)據(jù) -篇章和篇章信息處理_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:語言和語言數(shù)據(jù)教學(xué)目的:知識目標(biāo):掌握自然語言定義、語言智能任務(wù)(如機器翻譯)、語言資源類型(語料庫/知識庫)。能力目標(biāo):能分析語言資源在NLP任務(wù)中的基礎(chǔ)性作用。素養(yǎng)目標(biāo):理解語言資源建設(shè)的倫理與社會意義(如瀕危語言保護)。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:掌握分析語言資源在NLP任務(wù)中的基礎(chǔ)性作用的能力。教學(xué)難點:難點:理解語言資源建設(shè)的倫理與社會意義(如瀕危語言保護)。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題語言和語言數(shù)據(jù)課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入從人類溝通的基石——自然語言出發(fā),探討語言多樣性(全球7000+語種)與智能化的關(guān)聯(lián)。通過語音助手、機器翻譯等日常案例,引出語言資源對AI發(fā)展的核心支撐作用,激發(fā)學(xué)生對語言數(shù)據(jù)價值的思考。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式1.1自然語言1.1.1什么是自然語言用語言溝通是一種人類的高級智能活動,語言是人類特有的用來進行思維的工具。語言也是一種由語音、詞匯和語法構(gòu)成的復(fù)雜符號系統(tǒng),是人類最重要的交際工具。語言還是一種特殊的社會現(xiàn)象,是族群認(rèn)同、文化傳承的重要組成部分。當(dāng)我們談?wù)摗罢Z言”時,一般包括它的視覺形式—文字,但在與“文字”并舉時,語言僅指口語。1.語言的存在形式語言是以什么形式存在的?有人認(rèn)為語言就是說話。這么說并不錯,但很不全面。說話本身是一種復(fù)雜的現(xiàn)象,其至少可以分為三個部分:一是說話的動作;二是說出來或?qū)懗鰜淼膬?nèi)容,即產(chǎn)生的語言數(shù)據(jù);三是說話使用的工具(如漢語和英語就是不同的工具)。2.語言的功能語言的功能是語言在實現(xiàn)人的具體目的中所起的作用。一般來說,語言有三種基本功能:①從人與自己的關(guān)系看,語言是人認(rèn)識世界的工具,人類既用語言進行思維,又用語言調(diào)節(jié)行為,即思維功能;②從人與人的關(guān)系看,語言是交際方式和交流思想的手段,即交際功能;③從人與社會的關(guān)系看,語言是文化信息的載體,是人類保存、傳遞、領(lǐng)會人類社會歷史經(jīng)驗和科學(xué)、文化、藝術(shù)成就的手段,即文化功能。1.1.2世界語言概況據(jù)統(tǒng)計,現(xiàn)在世界上查明的語言有7000多種,其中大部分隨著使用人口的快速減少而正在衰亡。根據(jù)歷史比較語言學(xué)的研究成果,一般認(rèn)為世界上的語言按親屬關(guān)系可以分為十幾或二十幾個語系,其中比較重要的有印歐語系、漢藏語系、烏拉爾語系、阿爾泰語系、閃-含語系、高加索語系、達羅毗荼語系、南島語系(又稱馬來-波利尼西亞語系)、南亞語系等語系。歷史語言學(xué)把來自一個共同原始母語的所有語言都劃歸到同一個語系中,而語系下面還有語族、語支、語言、方言、土語等。它們的層次關(guān)系如下所示:人類語言中分布最廣、使用人口最多、影響力最大的是印歐語系(IndoEuropeanfamily)。印歐語系包含世界上許多重要的語言,如英語、西班牙語、法語、德語、俄語等。這些語言是很多國家和組織的官方語言,在世界商業(yè)、科技、學(xué)術(shù)、通信、外交領(lǐng)域占有極其重要的地位。上述語言的使用者占全球總?cè)丝诘囊话胍陨稀Ec宗教、文化、哲學(xué)有關(guān)的一些經(jīng)典語言也在印歐語系中,如拉丁語、希臘語、波斯語、梵語、巴利語等。1.2語言智能1.2.1語言智能是什么語言智能(languageintelligence)原指人類有效使用語言的能力。隨著人工智能的發(fā)展,機器開始具備了一定的“語言能力”。機器不僅能聽能說、掌握多國語言,在大規(guī)模語言數(shù)據(jù)的幫助下還能實現(xiàn)很多社會價值和商業(yè)價值。輸入法、機器翻譯、語音識別都是例證。機器掌握“語言能力”十分有用。在理論上,人工智能領(lǐng)域的開路人阿蘭·圖靈提出判斷機器是否具有智能的方法,便是進行長時間語言交互(對話)來進行測試,即著名的圖靈測試。最早的人工智能應(yīng)用也和語言有關(guān)(機器翻譯)。由此可見語言能力之于人工智能的重要性,因而機器的“語言智能”被譽為“人工智能皇冠上的明珠”。我們可以說,語言智能是機器掌握、使用自然語言的能力,包含為實現(xiàn)此能力而發(fā)展的理論、技術(shù)、資源等。語言智能的研究和發(fā)展的目標(biāo)是使計算機理解和運用自然語言。在本書中,除非特別指出,語言智能都是指機器,尤其計算機理解和利用語言的能力。1.2.2語言智能的常見任務(wù)和應(yīng)用隨著當(dāng)今智能化革命的進程日益深入,語言智能的發(fā)展也一日千里。許多基本常見的語言智能服務(wù)已經(jīng)深入社會生產(chǎn)生活的各個角落,從而極大地解放了勞動力,提高了生產(chǎn)效率。1.語音處理隨著人工智能的發(fā)展,與鍵盤和鼠標(biāo)等交互方式相比,人們迫切希望直接使用語音進行人機交互。(1)語音合成。語音合成是中文信息處理領(lǐng)域的一項前沿技術(shù),是讓計算機像人一樣將要表達的信息以普通人可以聽懂的語音播放出來的技術(shù)。語音合成近年來在技術(shù)和應(yīng)用方面都取得了很大的進展。語音合成的自然度和音質(zhì)都得到了明顯的改善,從而促進了其在實際生活中的應(yīng)用。目前,語音合成技術(shù)已經(jīng)在自動應(yīng)答呼叫中心、電話信息查詢、汽車導(dǎo)航,以及電子郵件閱讀等方面得到廣泛的應(yīng)用,針對娛樂和教育方面的應(yīng)用也正在開展。(2)語音識別。語音識別的根本目的是研究一種具有聽覺功能的機器,使機器能直接接受人的口語命令,理解人的意圖并做出相應(yīng)的反應(yīng)。其基本原理是含有語音識別技術(shù)的智能物體能夠?qū)⒙曇粜盘栟D(zhuǎn)換成文字,然后根據(jù)需要做記錄、查詢等相應(yīng)的工作。一個典型的語音識別系統(tǒng)首先從人的語音中提取特征,其次在聲學(xué)層面上將特征序列通過識別翻譯成音素序列,最后根據(jù)字典、詞典和語法中的組合信息將音素序列依次轉(zhuǎn)化為字序列、詞序列和語句。2.文字處理作為語素文字,漢字?jǐn)?shù)量龐大,這使?jié)h字信息化,即漢字處理技術(shù),較之僅使用有限字母的拼音文字,面臨的困難要大得多。在20世紀(jì)中期,甚至有學(xué)者悲觀地認(rèn)為,我國要進入信息化,必須廢除漢字。但經(jīng)過幾代科研人員的努力,自20世紀(jì)80年代以來,我國已成功地使7萬多個漢字及相關(guān)字符進入計算機,實現(xiàn)了漢字和漢語文本的信息化。3.詞法、句法、語義分析(1)詞法分析。詞法分析主要包括漢語分詞和詞性標(biāo)注兩部分。與大部分西方語言不同,漢語書面語詞語之間沒有明顯的空格標(biāo)記,文本中的句子以字串的形式出現(xiàn)。因此,漢語自然語言處理的首要工作就是將輸入的字串切分為一個個的詞語,然后在此基礎(chǔ)上進行其他更高級的分析,這一步驟稱為分詞。例1展示了一個中文句子分詞前后的差異。當(dāng)然該例句包含歧義,因而有兩種分詞結(jié)果。(2)句法分析。句法分析是對輸入的文本句子進行分析,以得到句子句法結(jié)構(gòu)的處理過程。對句法結(jié)構(gòu)進行分析,一方面是語言理解的自身需求,另一方面為其他自然語言處理任務(wù)提供支持,如對文檔信息進行精確表示。語義分析也通常以句法分析的輸出結(jié)果作為輸入,以便獲得更多的指示信息。(3)語義分析。語義分析的最終目的是理解句子表達的真實語義。但是,語義應(yīng)該采用什么表示形式一直困擾著學(xué)術(shù)界,這個問題至今也沒有統(tǒng)一的答案。語義角色標(biāo)注是目前比較成熟的淺層語義分析技術(shù),基于邏輯表達的語義分析也得到了學(xué)術(shù)界的長期關(guān)注。4.機器翻譯以使用方式進行劃分,機器翻譯系統(tǒng)可以分為文本機器翻譯和語音機器翻譯,近年來還興起了“拍照翻譯”形式的圖像機器翻譯。語音輸入和圖像輸入在本質(zhì)上都是通過語音技術(shù)和光學(xué)字符識別技術(shù)轉(zhuǎn)換為文字后,進行機器翻譯。機器翻譯系統(tǒng)在技術(shù)上可劃分為基于規(guī)則(rule-based)和基于語料庫(corpus-based)兩大類。前者由詞典和規(guī)則庫構(gòu)成知識源;后者由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識源,以統(tǒng)計規(guī)律為主?;谡Z料庫的機器翻譯系統(tǒng)又因其使用的技術(shù)不同而進一步分為基于統(tǒng)計機器學(xué)習(xí)模型的機器翻譯和近年來興起的基于神經(jīng)網(wǎng)絡(luò)模型的機器翻譯。5.其他語言智能應(yīng)用(1)知識圖譜。(2)智能問答與聊天機器人。(3)自動校對與作文批閱。(4)自動文摘與智能寫作。1.3語言資源1.3.1什么是語言資源語言資源這一概念誕生于20世紀(jì)80年代。語言因其可用性而具有被開發(fā)利用的價值,從而被認(rèn)定為一種資源。廣義的語言資源包括語言數(shù)據(jù)、具有特定語言能力的人、語言文化成果、語言研究成果等。狹義的語言資源就是指大規(guī)模的可使用的語言數(shù)據(jù)。按照存儲媒介,可將語言資源分為語音、圖像和文本三大類。以語音形式存在的語言資源是各類錄音、錄像資源,主要用于記錄人類語言的音響信號。圖像形式的資源,主要是各種文字的照片、掃描件等,記錄文字和書寫行為的光學(xué)信號。文本類型的語言資源最為多樣,數(shù)量也最多。前兩種類型的語言資源大多數(shù)需要轉(zhuǎn)換為文本資源,以供進一步加工使用。詞匯、語法、語義信息和相關(guān)的知識庫,大多數(shù)以文本形式進行儲存和傳輸。按照層次,可將語言資源分為記錄語音信息的語言資源、記錄文字信息的語言資源、記錄詞匯信息的語言資源、記錄語法信息的語言資源,以及記錄篇章、語用、對話信息的語言資源。按照服務(wù)的形式,可將語言資源分為數(shù)據(jù)庫和知識庫兩大類。數(shù)據(jù)庫也稱語料庫,記錄大規(guī)模的語言數(shù)據(jù),是語言行為的真實記錄;通常還會進行各種各樣的標(biāo)注,如語音庫、文本庫等。知識庫則是對語言知識的形式化記錄,如詞典就是一種有關(guān)詞義和詞法的知識庫。1.3.2為什么語言資源是語言智能的基礎(chǔ)語言智能應(yīng)用在研究和開發(fā)中的技術(shù)路線可以分為基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)和基于深度神經(jīng)網(wǎng)絡(luò)三種。對于特定的任務(wù)和應(yīng)用,研發(fā)人員首先明確一個語言智能系統(tǒng)的輸入和輸出;其次制備大規(guī)模、高質(zhì)量的語言資源,從中抽取或總結(jié)和任務(wù)目標(biāo)相關(guān)的語言規(guī)則,統(tǒng)計語言現(xiàn)象的規(guī)律,進行各種預(yù)處理;最后訓(xùn)練各類機器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)符合任務(wù)目標(biāo)的輸出。在這個過程中,語言資源是語言智能研究和開發(fā)的基礎(chǔ)。語言智能的目標(biāo)是讓機器掌握語言,則機器必須獲得充足的語言知識,而語言知識正蘊含在語言資源之中。高性能的語言智能應(yīng)用,也需要高品質(zhì)的語言數(shù)據(jù),猶如核反應(yīng)堆的運行(智能應(yīng)用),需要大量高品位礦石(語言數(shù)據(jù))中的放射性同位素(語言知識)。如同礦石需要加工、原油需要提煉,有用的語言資源或語言數(shù)據(jù)不是語言行為的單純記錄,需要精細(xì)地篩選和深入地加工,降低雜質(zhì),增加知識的含量(甚至注入一些知識)。這種加工有面向數(shù)據(jù)格式、存儲形態(tài)的加工,有去除不良數(shù)據(jù)(也稱為噪聲)、瑕疵的加工,更重要的是名為“數(shù)據(jù)標(biāo)注”(dataannotation)的數(shù)據(jù)加工。1.3.3語言資源建設(shè)概況對語言資源的研究和建設(shè)由來已久。服務(wù)于研究和語言信息處理的語料庫建設(shè)隨著語料庫語言學(xué)的興起而獲得發(fā)展。自20世紀(jì)60年代以來,西方語言學(xué)家出于詞典編纂、語言教學(xué)的目的開始建設(shè)面向詞匯信息的語料庫。大半個世紀(jì)以來,在科研和工業(yè)發(fā)展(以人工智能為代表)的刺激下,以語料庫為代表的語言資源建設(shè)在規(guī)模、語種和標(biāo)注深度、科學(xué)性上都有飛躍式的發(fā)展。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解語言和語言數(shù)據(jù)。2.整個教學(xué)過程中,各教學(xué)點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章系統(tǒng)梳理自然語言特征、語言智能應(yīng)用(語音識別/情感分析)及資源建設(shè)現(xiàn)狀。強調(diào)語言資源是AI發(fā)展的"燃料",需兼顧技術(shù)需求與人文關(guān)懷,為后續(xù)語音、文字處理奠定基礎(chǔ)?!稊?shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:語音和語音數(shù)據(jù)教學(xué)目的:知識目標(biāo):理解語音屬性(時域/頻域)、語言學(xué)單位(音位/音節(jié))及處理技術(shù)(合成/識別)。能力目標(biāo):能解析語音信號的信息結(jié)構(gòu),區(qū)分聲學(xué)特征與語言學(xué)特征。素養(yǎng)目標(biāo):認(rèn)識多方言語音數(shù)據(jù)采集的包容性設(shè)計原則。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:能解析語音信號的信息結(jié)構(gòu),區(qū)分聲學(xué)特征與語言學(xué)特征。教學(xué)難點:難點:認(rèn)識多方言語音數(shù)據(jù)采集的包容性設(shè)計原則。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題語音和語音數(shù)據(jù)課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入以智能音箱實時轉(zhuǎn)寫指令為場景,剖析語音如何從聲波轉(zhuǎn)化為數(shù)字信號。通過對比中英文音節(jié)結(jié)構(gòu)(如漢語聲母/韻母),揭示語音處理的跨語言挑戰(zhàn),引出語言學(xué)與工程學(xué)的交叉需求。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式2.1語音和語音信息處理如前所述,由語言器官發(fā)出并用于交際、表達一定意義的聲音是語音。在漢語普通話系統(tǒng)中,“shēnɡyīn”這一串聲音與“聲音”這個詞的意義聯(lián)系在一起,“tǎnkè”這一串聲音與“坦克”這個詞的意義聯(lián)系在一起。人們說出這樣的一串聲音后別人就能明白其意義,這些聲音就屬于語音。自然語言基本上都是有聲語言,只有語音才是人類語言的物質(zhì)載體。部分西方語言學(xué)家將手語也歸入自然語言,當(dāng)然它是沒有語音的。然而,這不在本書的討論范圍之內(nèi)。隨著信息技術(shù)和人工智能的發(fā)展,機器正在逐步獲得識別、模擬和生成人類語音的能力。與鍵盤和鼠標(biāo)等交互方式相比,人們迫切希望直接使用語音進行人機交互,這就帶來了對語音信息處理的巨大需求。語種識別、語音糾錯、語音合成和語音識別都是語音信息處理的重要任務(wù),其中最重要的是語音合成和語音識別。2.1.1語音合成語音合成是讓計算機生成和模擬人類語音的技術(shù)。在語音合成任務(wù)中,大部分的場景是讓計算機根據(jù)準(zhǔn)備好的文本來生成相對應(yīng)的語音,因而狹義的語音合成也指文語轉(zhuǎn)換(texttospeech)技術(shù)。我們希望讓機器像人一樣開口說話,但這與傳統(tǒng)的聲音回放設(shè)備有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機,是通過預(yù)先錄制聲音然后回放來實現(xiàn)“讓機器說話”的。這種方式無論是在內(nèi)容、存儲、傳輸還是在方便性、及時性等方面都存在很大的限制。而通過計算機語音合成則可以在任何時候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實現(xiàn)讓機器“像人一樣開口說話”。2.1.2語音識別與機器進行語音交流,讓機器明白人在說什么,是語音識別任務(wù)的出發(fā)點。有人形象地把語音識別比作“機器的聽覺系統(tǒng)”。語音識別技術(shù)就是讓機器通過識別過程和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。2.2語音的語言學(xué)結(jié)構(gòu)2.2.1語音的屬性語音的屬性包括物理屬性、生理屬性和社會屬性。

1.物理屬性(1)音高。音高指的是聲音的高低,它取決于發(fā)音體振動的快慢(頻率)。在單位時間里,振動的次數(shù)越多(頻率越高),聲音就越高;振動的次數(shù)越少,聲音就越低。聲音的高低往往跟發(fā)音體的大小、長短、厚薄、粗細(xì)、松緊有關(guān)。對于語音,聲音的高低跟每個人聲帶的長短、厚薄、松緊有關(guān)。通常而言,女人跟男人相比,小孩跟成人相比,聲帶短一些、薄一些,所以聲音高一些。就同一個人而言,可以發(fā)出高低不同的聲音,因為人可以控制聲帶的松緊:聲帶繃緊聲音就高,聲帶放松聲音就低。(2)音強。音強指的是聲音的強弱。它由發(fā)音體振動幅度(振幅)的大小決定:振幅越大聲音越強,振幅越小聲音越弱。對于語音,聲音的強弱跟呼出的氣流沖擊聲帶和其他發(fā)音器官的壓力大小有關(guān)。音高和音強不同,兩者之間沒有對應(yīng)關(guān)系。聲音高不一定聲音強,聲音低不一定聲音弱。(3)音長。音長指的是聲音的長短,它取決于發(fā)音體振動時間的長短。振動時間越長,聲音越長;振動時間越短,聲音越短。普通話一般不靠聲音長短來區(qū)別詞的意義,而有的方言中音長變化有區(qū)別詞的意義的作用。例如,在廣州方言中,“[sam](心)”和“[sa:m](三)”,“[hau](口)”和“[ha:u](考)”是完全不同的詞。很多外語也依靠音長區(qū)分語義。(4)音色。音色指的是聲音的個性、特色,也叫音質(zhì)。音色的不同主要取決于聲波振動形式的差異。聲波振動形式的不同主要是由發(fā)音體、發(fā)音方法、共鳴器的形狀三個因素決定的。在這三個因素中,只要有一個不同,發(fā)出的音色就不同。對人類而言,發(fā)音體就是聲帶。沒有人的聲帶是完全一樣的,因此每個人的聲音有所不同。發(fā)音方法也影響語音。例如,在普通話中,b和p的發(fā)音不同,就是發(fā)音時呼出氣流的強弱不同造成的;g和h的發(fā)音不同,是因為g用爆發(fā)的方式發(fā)音,而h用摩擦的方式發(fā)音。在共鳴器上,人的口腔、鼻腔都是共鳴器,它們形狀的差異造成了共鳴器的差異。普通話元音u發(fā)音時嘴唇是展平的,元音ü發(fā)音時嘴唇是攏圓的,這種嘴唇形狀的不同造成了口腔形狀的差異,形成了不同的共鳴器,因而聽上去是兩個不同的音。2.生理屬性人類語音的物理屬性在本質(zhì)上是由生理屬性決定的。人類的發(fā)音器官可以分為三大部分—肺、聲帶和聲腔。(1)肺。肺是發(fā)音的動力器官。氣流由肺部呼出后通過氣管到達喉頭,作用于聲帶,并經(jīng)過咽腔、口腔、鼻腔等共鳴器的調(diào)節(jié),發(fā)出各種不同的聲音。肺呼出氣流的壓力大小與語音的強弱直接相關(guān):呼氣量大聲音就強,呼氣量小聲音就弱。(2)聲帶。人類發(fā)音的振動體是喉頭里的聲帶。喉頭上通咽頭,下連氣管。聲帶位于喉頭的中間,是由富有彈性的肌肉組成的,可以拉緊或放松。聲帶和音高的關(guān)系最為密切,聲帶的張力和聲帶本身的狀況決定語音的高低:聲帶拉緊,聲音就變高;聲帶放松,聲音就變低。(3)聲腔。聲腔包括口腔、鼻腔、咽腔,是發(fā)音的共鳴器。有的時候胸腔甚至腹腔也參與共鳴。它們的形狀和姿勢對音色有巨大影響。說話的時候,氣流通過咽腔后可以有三種輸送方式。3.社會屬性作為一種具有交際功能的聲音,語音除有物理屬性和生理屬性外,還有社會屬性。語音的社會屬性是語音與其他聲音相區(qū)別的本質(zhì)屬性。語音的社會屬性主要表現(xiàn)在語音和意義之間的關(guān)系上。語言符號的音義結(jié)合不是個人行為,而是由語言社團成員共同約定的。例如,漢語普通話“shēnɡ”這個音的意義可以是“生”,詞語“生”的這一音義約定顯然不是個人行為,而是整個漢語普通話言語社團的集體行為,這就是語音的社會屬性。2.2.2音節(jié)和音位1.音節(jié)音節(jié)是語音的基本結(jié)構(gòu)單位,是能夠自然感知到的最小語音單位。音節(jié)基本上都是由元音和輔音組成的(也存在只由元音或特殊的輔音構(gòu)成的音節(jié))。漢語音節(jié)還包括聲調(diào)。2.音位音位(phoneme)是人類某種語言中能夠區(qū)別意義的最小語音單位。每種語言都有一套音位系統(tǒng)。音位是按語音的辨義作用歸納出來的音類,是從語言的社會屬性劃分出來的語言單位。音位并不是實際的發(fā)音。一個音位可以對應(yīng)數(shù)種不同的發(fā)音,但語言使用者在心理上認(rèn)定這幾種發(fā)音是相同的,甚至可能不會察覺語音上有所不同。也就是說,發(fā)音的不同是一個聲學(xué)概念,而音位則是語言認(rèn)知上的結(jié)果。這種認(rèn)知當(dāng)然隨著語言的不同而有所差異。對應(yīng)同一個音位的不同發(fā)音,稱為同位異音或音位變體。音位可視為與母語相關(guān)的聲音,為了便于描述一個音位,通常會取這群聲音當(dāng)中最有代表性的一個來稱呼整族聲音。2.2.3輔音和聲母聲母和輔音是兩個不同的概念。聲母是漢語傳統(tǒng)語音分析中的概念,輔音是語音學(xué)中的概念。聲母是漢語音節(jié)的開頭部分,輔音則是音素中的一個大類。之所以把它們放在一起,是因為在大部分情況下(除零聲母外)聲母由輔音充當(dāng),但不是所有的輔音都能充當(dāng)聲母。2.2.4元音和韻母1.單元音韻母單元音韻母指由單個元音構(gòu)成的韻母,簡稱單韻母。普通話中的單韻母有10個,包括7個舌面元音、2個舌尖元音、1個卷舌元音,如下所示:舌面元音:a、o、e、ê、i、u、ü舌尖元音:-i[?](前)、-i[?](后)卷舌元音:er其中,舌面元音既可以單獨做韻母,也可以跟其他元音組合構(gòu)成復(fù)韻母;舌尖元音和卷舌元音只能單獨做韻母,可以統(tǒng)稱為特殊元音韻母。2.復(fù)元音韻母復(fù)元音韻母指由兩個或三個元音復(fù)合而成的韻母,簡稱復(fù)韻母。普通話中的復(fù)韻母有13個,如下所示:ai、ei、ao、ouia、ie、iao、iouua、uo、uai、ueiüe由兩個元音組成的復(fù)合元音叫二合元音,共有9個;由三個元音組成的復(fù)合元音叫三合元音,共有4個。由于復(fù)元音韻母由兩個或三個元音組合而成,因此發(fā)音時舌位、唇形都有3.鼻音韻母鼻音韻母指由一個或兩個元音與做韻尾的鼻輔音結(jié)合而成的韻母,簡稱鼻韻母。帶前鼻音n的韻母叫作前鼻音韻母,帶后鼻音ng的韻母叫作后鼻音韻母。普通話中的前鼻音韻母有8個,后鼻音韻母也有8個,如下所示:前鼻音韻母:an、en、in、un、ian、uan、üan、uen后鼻音韻母:ang、eng、ing、ong、iong、iang、uang、ueng押韻,也叫壓韻,指在詩、詞、歌、賦、曲等韻文中,為了音調(diào)和諧動聽,易于唱誦,在某些句子相同的位置上(通常是句末)使用韻母相同或相近的字。押韻最常見的是在詩歌中。古代詩歌格律比較嚴(yán)格,一般在詩句固定的位置上要求押韻(如律詩和絕句的偶數(shù)句必須押韻,首句也常常押韻)。2.3語音的信息結(jié)構(gòu)語音本身是一種信號。對信號進行分析有多種方式,每種方式提供了不同的角度。用來分析信號的不同角度稱為域。時域和頻域是信號的基本性質(zhì),可清楚反映信號的特性。一般來說,時域分析較為形象與直觀,頻域分析則更為簡練,剖析問題更為深刻和方便。2.3.1時域信息時域(timedomain)是描述數(shù)學(xué)函數(shù)或物理信號與時間的關(guān)系。例如,一個信號的時域波形可以表達信號隨著時間的變化。時域是真實世界,是唯一實際存在的域。人的經(jīng)歷都是在時域中發(fā)展和驗證的,已經(jīng)習(xí)慣于事件按時間的先后順序發(fā)生。在評估數(shù)字產(chǎn)品的性能時,通常在時域中進行分析,因為產(chǎn)品的性能最終就是在時域中測量的。2.3.2頻域信息頻域(frequencydomain)即頻率域,自變量是頻率,用坐標(biāo)圖表示,橫軸是頻率,縱軸是該頻率信號的振幅。頻域圖常被稱為頻譜圖,如圖2-3所示。頻域圖描述了信號的頻率結(jié)構(gòu)及頻率與該頻率信號幅度的關(guān)系。頻域是把時域波形的表達式做傅里葉變化得到的結(jié)果。頻域圖展示了語音頻率和能量的分布,是更加抽象的語音描述方式。我們描述信號的方式有時域和頻域兩種,時域是描述數(shù)學(xué)函數(shù)或物理信號與時間的關(guān)系,而頻域是描述信號在頻率方面的特性時用到的一種坐標(biāo)系。簡單來說,這兩種方式的縱坐標(biāo)都是振幅,橫坐標(biāo)一個是時間,一個是頻率。它們從兩個維度共同描述一個語音信號,頻域和時域的關(guān)系如圖2-4所示。時域表達的特點是簡單、直觀,也是最常用的一種方式,如信號的實時波形。對于兩個形狀相似的非正弦波形,因為從時域角度很難看出兩個信號之間的本質(zhì)區(qū)別,所以需要用到頻域表達方式。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解語音和語音數(shù)據(jù)。2.整個教學(xué)過程中,各教學(xué)點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章系統(tǒng)梳理自然語言特征、語言智能應(yīng)用(語音識別/情感分析)及資源建設(shè)現(xiàn)狀。強調(diào)語言資源是AI發(fā)展的"燃料",需兼顧技術(shù)需求與人文關(guān)懷,為后續(xù)語音、文字處理奠定基礎(chǔ)?!稊?shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:漢字和文字?jǐn)?shù)據(jù)教學(xué)目的:知識目標(biāo):掌握漢字結(jié)構(gòu)特點(象形/會意)、編碼標(biāo)準(zhǔn)(GB2312/Unicode)、字符集分類。能力目標(biāo):能對比漢字與拼音文字的信息化處理差異。素養(yǎng)目標(biāo):理解漢字規(guī)范化對文化傳承的重要性。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:能對比漢字與拼音文字的信息化處理差異。教學(xué)難點:難點:理解漢字規(guī)范化對文化傳承的重要性。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題漢字和文字?jǐn)?shù)據(jù)課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入從手機漢字輸入法"拼形→選字"過程切入,追溯漢字從甲骨文到Unicode的演化史。通過字符亂碼案例,直觀展示編碼標(biāo)準(zhǔn)對信息存儲的核心意義,引出漢字信息化處理的獨特性。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式3.1漢字信息處理漢字信息處理是計算機直接對漢字信息進行輸入、輸出和加工處理的技術(shù)。在計算機發(fā)展之初,由于歷史因素和技術(shù)因素,文字編碼僅考慮英文和部分最基本的計算機操作符號的需要。最早也是今天最通行的文字編碼方案美國信息交換標(biāo)準(zhǔn)代碼(AmericanStandardCodeforInformationInterchange,ASCII)將一個字符表示為不超過7個二進制位,即一個0和1構(gòu)成的串,且長度不超過7。顯然這種方式只能表示27=128個字符:英文大寫字母與小寫字母共52個字符,數(shù)字0~9,換行、回車等控制符,文頭、文尾等通信標(biāo)記符。英語之外的其他語言的文本顯然無法直接使用ASCII編碼進入計算機。例如,法語字母上方有注音符號,無法用ASCII編碼表示。而亞洲語言,尤其漢語有十萬以上的文字,無法使用這種編碼方式。僅為漢字編號就是不小的存儲和運算開銷。因而在20世紀(jì)中葉,不少專家悲觀地表示漢字與計算機無緣。我們必須承認(rèn),漢字字種繁多,字形復(fù)雜,漢字的信息處理與通用的字母數(shù)字類信息處理有很大差異,突出表現(xiàn)在漢字輸入輸出技術(shù)和漢字處理系統(tǒng)的軟件方面。但是,漢字信息在信息結(jié)構(gòu)、信息交換、信息加工等方面與西文信息加工又存在共性。因此,漢字信息處理多采用與西文信息處理兼容的途徑,以便充分利用已有的計算機信息處理技術(shù)資源。同時,漢字信息處理還包括研究適合漢字特點的操作系統(tǒng)和漢字計算機語言。3.2漢字的結(jié)構(gòu)3.2.1漢字的演化表意文字和表音文字是在世界文字中并存的、代表兩種發(fā)展趨勢的文字系統(tǒng),它們有各自的發(fā)展規(guī)律。大部分漢字既表意也表音,這使?jié)h字基本上能夠滿足漢語對文字的要求,而且使?jié)h字成為世界上一種獨特的文字體系。今天能看到的最可靠的、最早的文字資料是從公元前14世紀(jì)到公元前11世紀(jì)的商代后期的甲骨文和金文。甲骨文和金文都已經(jīng)是很成熟的文字了。從原始文字到成熟文字,無疑需要相當(dāng)長的時間,我們可以設(shè)想漢字的出現(xiàn)應(yīng)該遠(yuǎn)遠(yuǎn)早于距今3400年左右的商代后期。漢字和其他的古老文字一樣,也是從圖畫和雕刻逐步演變過來的,甲骨文和金文的資料就可以證明。最初出現(xiàn)的漢字字符大多數(shù)是形象地刻畫事物的圖形,圖形分別有“象形”“指事”“會意”三種情況。漢字首先是從“象形”發(fā)展到“表意”的?!跋笮巍笔呛喕说氖挛锏膱D形,這肯定是最早創(chuàng)造出來的漢字符號的形式。象形文字必須像事物之形。但客觀事物紛繁復(fù)雜,眾多的抽象事物畫不出具體形象,于是漢字發(fā)展出了另一種造字方法,就是“指事”。例如,“下”沒有具體形象,就在一條長線的下面畫一條短線來表示,后來演化為現(xiàn)在的寫法。指事字已經(jīng)由單純象形過渡到突出表意。這讓漢字使用者可以在一個象形字上加上另外的象形字構(gòu)成一個新的字。這種把兩個或兩個以上象形字或指事字拼合在一起,并把它們的意義結(jié)合成一個新的意義的造字方法就是“會意”。例如,“休”由一個人字和一個木字組成,表示人靠在樹上休息。從單純象形到利用象形表意,這是漢字發(fā)展的一個重大進步。漢字只有到了表意的階段,才能夠?qū)嶋H記錄語言,才算形成了初步的文字體系。但是,表意的方法還有很大限制。例如,可以畫出水流的樣子來表示“水”,而江、河、湖、海等,又怎么用字表示呢?這樣漢字就開始出現(xiàn)兩種造字模式:假借表意字符來表音的假借字和一半表意一半表音的形聲字。漢字從“表意”發(fā)展到了一定程度的“表音”。“假借”是漢字中較早出現(xiàn)的一種純粹表音的方式。甲骨文中就已經(jīng)有了不少的假借字。卜辭“其自東來雨”,這個句子中就有四個字是假借字。例如,“其”就是“箕”的初文,這里借為虛詞;“自”最早是“鼻子”的意思,這里借為介詞;“來”本義是“大麥”,這里借為動詞。有了同音假借的方法,就可以用較少的字記錄語言中較多的詞語,甲骨文中假借字較多,就是當(dāng)時字少的緣故。但是,假借必然會造成大量的同音字和多義字,于是漢字產(chǎn)生了一種一半符號表示意義、一半符號表示聲音的“形聲字”。例如,前面說的江、河、湖、海等各種水體,由于有了形聲字,表示它們的字的形符都是三點水,表示跟水有關(guān),但聲符不同,各自表示不同的水體。由于形聲字有區(qū)別同音字和多義字的作用,而且很容易造出來,因此數(shù)量越來越多,并部分取代了假借字和其他表形的字符,最終成為漢字的主體。漢字在歷史上對其他民族的文字也產(chǎn)生過重要影響。公元元年前后,漢字就開始向南傳播到越南,向東傳播到朝鮮,從朝鮮再傳播到日本。上述國家長期使用漢字記錄自己的語言,因而形成了“漢字文化圈”。在直接使用漢字的基礎(chǔ)上,不同民族根據(jù)自己語言的特點和漢字造字的原理,自行發(fā)展本民族的方塊字,或利用漢字部件來拼寫本民族語言。例如,朝鮮人借用漢字的筆畫創(chuàng)造出筆畫式的音素字母“諺文”,越南人以漢字為基礎(chǔ)創(chuàng)造出自己的拼音文字“字喃”,日本人則采用漢字的偏旁和草書創(chuàng)造出漢字式的音節(jié)字母“假名”,這些都是表音文字。3.2.2漢字的特點如果跟印歐語的文字比較,漢字最主要的特點可以概括為以下五個方面。1.漢語缺乏形態(tài)變化,漢字與之基本適應(yīng)印歐語有豐富的形態(tài)變化,如常常要在詞的前后加上詞綴,如名詞復(fù)數(shù)要加“-s”,動詞進行時要加“-ing”等,這種變化用表示音素的字母來記錄比較容易。反過來,漢語一個字始終表示一個語素(古代是詞),沒有詞形變化,所以漢字正好是符合這一特點的。我們可以假設(shè),如果漢語中也出現(xiàn)詞的前后加詞綴的形態(tài)變化,那么現(xiàn)在這種漢字形式就可能改變。例如,日語因為本身有一些詞形的變化,所以借用漢字之后又創(chuàng)造出假名字母來補充。2.每個漢字都有意義,是形、音、義的統(tǒng)一體印歐語的聲學(xué)單位(音素)、聽覺單位(音節(jié))和意義單位(詞)三者各自獨立,表音字符不聯(lián)系意義,因此比較適合采用意義和聲音分離的音素文字。相反,漢字的字不但有字形、讀音,還都有意義,形、音、義三者統(tǒng)一在一個漢字中,因此比較適合采用表意兼表音的意音文字。我們可以假設(shè),如果漢字字符都只表音而不表意,那么現(xiàn)在這種文字形式也就可能改變。例如,越南語只借用漢字來記錄語言中的音,而不聯(lián)系意義,所以后來變成了拼音文字。3.漢字字形不跟著讀音改變,具有超時間性和超空間性印歐語文字是音素(音位)文字,讀音變了,文字也必須跟著變。例如,現(xiàn)代德語和古代德語的差異巨大,同屬拉丁語系的法語、意大利語、西班牙語等,不同國家的人不經(jīng)過學(xué)習(xí)可能也看不懂對方的文字。對漢字來說,即使讀音改變了,字形和字義也基本保持不變。所以,從古到今,中國人讀四書五經(jīng),雖需要解釋,但不會感到有太大困難。從北往南,今天的山東人、浙江人和福建人互相說話可能聽不懂對方在說什么,可書信往來沒有問題。這都是因為,雖然漢語古今語音和方言語音不同,但漢字系統(tǒng)十分統(tǒng)一。我們可以假設(shè),如果漢字字符也跟著讀音變化,那么不但歷史上的文獻現(xiàn)在可能無人能懂,而且各種方言也就可能像古羅馬的拉丁語那樣,分化成不同的語言了。4.漢字雖是意音文字,但缺乏完備的表音系統(tǒng)印歐語文字是音素(音位)文字,而且字符隨著讀音改變,所以看到字母的組合就能大致拼出正確的讀音來。漢字雖然都有讀音,但很難通過字符準(zhǔn)確和統(tǒng)一地表示出來。象形字、指事字和會意字等本來就沒有專門表音的成分,看到字也無法知道音;就是有表音成分的形聲字,聲符也大多數(shù)不能提示正確的讀音。俗話說“認(rèn)字讀半邊”,實際上很不可靠。所以,有人認(rèn)為,如果要求漢字的字符都可以準(zhǔn)確表示語音,那么至少現(xiàn)在這套漢字字符體系是難以實現(xiàn)的。因此,需要漢語拼音這樣的附文字系統(tǒng)來加以輔助。5.漢字的字符數(shù)量繁多,字形結(jié)構(gòu)過于復(fù)雜對任何一種語言進行分析,其中包含的音素(音位)的數(shù)量總是有限的,而包含的音節(jié)的數(shù)量較多,包含的語素或詞語的數(shù)量就會更多。印歐語的字母記錄的是語言中的音素(音位),這樣字母數(shù)量也就很有限,如英語字母只有26個,西里爾字母只有33個,字母數(shù)量少,當(dāng)然字形就不會很復(fù)雜。漢字記錄的是漢語中的語素或詞,字符數(shù)量巨大。漢字的總數(shù)估計在5萬個以上,通用規(guī)范漢字有8105個。同時,漢字字符的結(jié)構(gòu)十分復(fù)雜,漢字的基礎(chǔ)部件就有560個,筆畫形式和組合方式多種多樣。所以,漢字難認(rèn)、難讀、難寫、難記,這就是所謂“四難”狀況,使?jié)h字的學(xué)習(xí)成本很大。3.3漢字的信息化3.3.1字符編碼自然語言的字符是通過編碼的形式進入計算機的。這里有幾個基本概念需要解釋。位(bit)是計算機存儲信息的最小單位,音譯比特,二進制的一個“0”或一個“1”叫一位。字節(jié)(byte)是一種計量單位,表示數(shù)據(jù)量多少,是計算機信息技術(shù)用于計量存儲容量的一種計量單位,8個二進制位組成1字節(jié)。在ASCII碼中,一個標(biāo)準(zhǔn)英文字母(不分大小寫)占1字節(jié)位置,一個標(biāo)準(zhǔn)漢字占2字節(jié)位置。字符指計算機中使用的文字和符號,如“1,2,3”“A,B,C”“~!·#¥%…*()+”等。ASCII碼的英文全稱是“AmericanStandardCodeforInformationInterchange”,中文譯為“美國信息交換標(biāo)準(zhǔn)碼”。ASCII碼無法表示非英語字符,因而美國國家標(biāo)準(zhǔn)學(xué)會(AmericanNationalStandardInstitite,ANSI)開發(fā)了ASCII擴展碼。其中一個英文字母(不分大小寫)占1字節(jié)的空間,一個中文漢字占2字節(jié)的空間。其他語言也有自己的雙字節(jié)編碼方式。3.3.2漢字編碼漢字編碼是漢字在計算機內(nèi)存中的存儲方案和規(guī)則。不同的編碼方式形成不同的字符集。自20世紀(jì)80年代開始,我國開始為漢字編碼工作制定國家標(biāo)準(zhǔn),并逐步與國際接軌。2005年發(fā)布的《信息技術(shù)中文編碼字符集》(GB18030—2005),以國家標(biāo)準(zhǔn)字符收集的漢字達70244個?,F(xiàn)行的10部國家標(biāo)準(zhǔn)和1部電子行業(yè)標(biāo)準(zhǔn)較好地解決了漢字在計算機中的存儲、交換和處理問題,可以滿足信息技術(shù)發(fā)展的要求。中文編碼國家標(biāo)準(zhǔn)與行業(yè)標(biāo)準(zhǔn)(截至2016年)。經(jīng)過近40年的發(fā)展,我國的中文編碼標(biāo)準(zhǔn)已實現(xiàn)國內(nèi)通用、國際接軌,并兼容少數(shù)民族文字,較好地滿足了社會需求。3.3.3漢字的字符集漢字編碼規(guī)范為解決中文進入計算機和互聯(lián)網(wǎng)這一輸入問題奠定了基礎(chǔ)。與其相對應(yīng),漢字字型規(guī)范,尤其面向信息化的點陣與矢量字型規(guī)范是實現(xiàn)虛擬空間中文信息輸出的基礎(chǔ)工作。在計算機圖形輸出中,一個具體字符的形狀稱為字形。具有同一設(shè)計的字形圖像的集合構(gòu)成了字型。在日常生活中,“字型”常與“字庫”混用。字型規(guī)范標(biāo)準(zhǔn)通常包括字符集標(biāo)準(zhǔn)、字庫格式、字形和字體設(shè)計方面的信息。字庫是漢字書寫文明在信息化時代的主要輸出形式。20世紀(jì)80年代,王選的激光照排技術(shù)使字體從鉛字時代進入計算機時代。字型標(biāo)準(zhǔn)所對應(yīng)的漢字編碼字符集決定了其涵蓋的字形范圍?,F(xiàn)行規(guī)范標(biāo)準(zhǔn)已對漢字編碼字符集(GB/T2312與GB18030)、CJK漢字編碼字符集、通用多八位編碼字符集(多文種平面)所包含的漢字制定了多字體、多尺寸的標(biāo)準(zhǔn)字型。我國現(xiàn)行編碼字符集已全部實現(xiàn)24×24點陣宋體字型標(biāo)準(zhǔn)化;與Unicode兼容的通用多八位編碼字符集在多個尺寸上對宋體和黑體進行了字型規(guī)范;社會生活中高頻使用的漢字編碼字符集基本集(GB/T2312)也已實現(xiàn)宋體、仿宋體、楷體、黑體四種基本印刷字體標(biāo)準(zhǔn)化。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解漢字和文字?jǐn)?shù)據(jù)。2.整個教學(xué)過程中,各教學(xué)點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章聚焦?jié)h字結(jié)構(gòu)演化、信息化編碼(區(qū)位碼/Unicode)及字符集應(yīng)用場景。指出漢字處理需平衡字形復(fù)雜性(如筆畫數(shù))與數(shù)字化效率,為詞法分析提供文字基礎(chǔ)?!稊?shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:詞法和詞義教學(xué)目的:知識目標(biāo):理解分詞、NER、詞性標(biāo)注技術(shù);掌握詞義結(jié)構(gòu)(本義/引申義)及聚合關(guān)系(同義/反義)。能力目標(biāo):能運用詞表、詞典資源解決語義歧義問題。素養(yǎng)目標(biāo):認(rèn)識詞匯資源建設(shè)中的語義標(biāo)注一致性原則。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:能運用詞表、詞典資源解決語義歧義問題。教學(xué)難點:難點:認(rèn)識詞匯資源建設(shè)中的語義標(biāo)注一致性原則。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題詞法和詞義課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入以搜索引擎分詞錯誤(如"蘋果手機"vs"吃蘋果")為引,揭示詞語切分與理解的復(fù)雜性。通過"網(wǎng)紅"等新詞產(chǎn)生案例,說明詞匯動態(tài)演變對NLP系統(tǒng)的挑戰(zhàn)。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式4.1詞與詞處理正如前面的定義,詞匯是一種語言或一個領(lǐng)域詞和固定語的總和,可以根據(jù)語言將其分為“漢語詞匯”“西班牙語詞匯”“斯瓦希里語詞匯”等,在一種語言內(nèi)部自然有“通用語詞匯”和“方言詞匯”、“書面語詞匯”和“口語詞匯”、“基本詞匯”和“一般詞匯”、“現(xiàn)代詞匯”和“古代詞匯”之分。詞匯所屬的領(lǐng)域可以是一個專業(yè)領(lǐng)域(如“汽車詞匯”“計算機詞匯”“文學(xué)詞匯”等)、某個人(如“魯迅詞匯”“郭沫若詞匯”“茅盾詞匯”等)或某部作品(如“詩經(jīng)詞匯”“毛選詞匯”“紅樓夢詞匯”等)。4.1.1分詞印歐語系單詞之間是以空格作為自然分界符的(這是中世紀(jì)甚至更晚出現(xiàn)的現(xiàn)象),而漢語的詞語之間沒有明顯的分隔標(biāo)記。因此,中文分詞是中文信息處理的一個重要任務(wù)。簡單地講,中文分詞就是利用計算機將待處理的文字串進行處理,輸出中文單詞和數(shù)字串等一系列分割好的字符串。這一步驟稱為分詞(wordsegmentation或tokenization)。例1展示了一個中文句子分詞前后的差異。當(dāng)然,該例句含有歧義,因而有兩種分詞結(jié)果。4.1.2命名實體識別顯然有些詞比其他詞更能幫助我們了解文本內(nèi)容,如人名和組織機構(gòu)名可以幫我們把握文本是關(guān)于“誰”的,地名可以讓我們快速定位事件發(fā)生的地點。在分詞的基礎(chǔ)上,把這些“實體”標(biāo)注出來就顯得格外重要。4.1.3詞性標(biāo)注命名實體識別這一工作,將詞分成了命名實體和非命名實體兩類。但是,在非命名實體中,詞匯仍有很大的差別,并且具有不同的功能。給定一個切好詞的句子,詞性標(biāo)注的目的是給每個詞賦予一個類別,這個類別稱為詞性標(biāo)記,如名詞、動詞、形容詞等。一般來說,屬于相同詞性的詞,在句法或語義中擔(dān)任類似的角色。4.2詞匯的結(jié)構(gòu)4.2.1詞匯的結(jié)構(gòu)單元1.語素2.詞3.固定短語4.2.2詞語的類型由一個語素構(gòu)成的詞,叫作單純詞。由兩個或兩個以上的語素構(gòu)成的詞,叫作合成詞。4.2.3特殊類型的詞1.命名實體命名實體是指文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名等。2.方言詞方言詞是指在某一地域方言中使用的詞語。方言詞有廣義和狹義之分。3.外來詞外來詞也叫“借詞”,指的是從外族語言里借來的詞。4.術(shù)語術(shù)語也稱為“行業(yè)語”,指在特定行業(yè)或領(lǐng)域內(nèi)使用的詞語。行業(yè)語是普通話的一部分,包括專業(yè)術(shù)語和行業(yè)用語。5.黑話6.縮略語縮略語是經(jīng)過壓縮和省略的詞語。為了稱說簡便,人們常把形式較長的名稱或習(xí)用的短語化簡,成為縮略語??s略語可分為以下兩類。4.3詞匯的語法功能:詞性詞性也稱為詞類,指以詞的特點作為分類的根據(jù)。詞類是詞的語法性質(zhì)的分類。相比印歐語,在形態(tài)標(biāo)記比較弱的漢語中,意義和功能起的輔助作用不可忽略。這也是造成漢語詞類劃分系統(tǒng)復(fù)雜(甚至混亂)的原因之一。1.詞的語法功能2.詞的形態(tài)3.詞的意義4.3.1實詞能夠獨立充當(dāng)句法成分的詞是實詞。根據(jù)能與哪些詞組合、怎么組合、組合以后形成怎樣的關(guān)系,可以將實詞劃分成不同的類別。實詞一般包括名詞、動詞、形容詞、區(qū)別詞、數(shù)詞、量詞、副詞、代詞、擬聲詞和嘆詞。4.3.2虛詞不能獨立充當(dāng)句法成分的詞,只有語法意義的詞是虛詞。1.介詞介詞依附在實詞或短語前面,共同構(gòu)成“介詞短語”,主要用于修飾、補充謂詞性詞語。介詞常常充當(dāng)語義成分(格)的標(biāo)記,標(biāo)明跟動作、性狀有關(guān)的時間、處所、方式、原因、目的、施事、受事、對象等。2.連詞3.助詞助詞的作用是附著在實詞、短語或句子后面表示結(jié)構(gòu)關(guān)系或動態(tài)等語法意義。助詞可以分為以下幾類:(1)結(jié)構(gòu)助詞。(2)動態(tài)助詞。(3)嘗試助詞。(4)時間助詞。(5)約數(shù)助詞。(6)比況助詞。(7)其他助詞。4.語氣詞語氣詞的作用在于表示語氣,主要用在句子的末尾,也可以用在句中主語、狀語的后面有停頓的地方。語氣詞本身念輕聲。4.4詞匯的語義語言蘊含的意義就是語義(semantic)。而語言中所講的意義,可以進一步理解為符號與可以運用于其上的對象之間的關(guān)系。4.4.1詞義的構(gòu)成詞語的意義,即詞義,表面上看很簡單,例如:“桌子”就是“一種家具,上有平面,下有支柱,可以在上面放東西或做事情”;“散步”就是“隨便走走”。但是,實際上這些意義之中還包含不同的構(gòu)成要素,需要加以區(qū)分。1.理性意義和非理性意義理性意義可以表達人們對主觀、客觀世界的事物和現(xiàn)象的認(rèn)識,與概念相關(guān)聯(lián);非理性意義表達的是人們的主觀情感、態(tài)度及語體風(fēng)格等,是附著在特定的理性意義之上的。2.語素義3.義項4.義素(1)確定對比的范圍。(2)比較詞義的異同。(3)整理和描寫義素。4.4.2詞義的聚合關(guān)系詞義具有一定的系統(tǒng)性,詞義之間也存在相互制約、相互規(guī)定的關(guān)系,由此可以建立起多義詞、同義詞、反義詞等不同的詞義聚合類別。此外,詞義的聚合還可以通過“語義場”來觀察和分析,語義場也是詞義系統(tǒng)性的體現(xiàn)。在語言知識工程中,與詞語相關(guān)的知識庫也參照語義場的理論進行構(gòu)建。1.單義詞和多義詞2.同義詞和反義詞3.語義場4.4.3詞典和詞語的釋義說到詞義,人們自然就會想到解釋詞義的詞典。人們在日常生活中能夠接觸到各種各樣的詞典,但詞典的類型不同,詞典對詞語的釋義方式也就多種多樣。1.詞典的類型2.詞典的釋義4.5詞語數(shù)據(jù)資4.5.1漢語詞表資源1.《現(xiàn)代漢語頻率詞典》2.《現(xiàn)代漢語常用詞詞頻詞典》3.《信息處理用現(xiàn)代漢語分詞詞表》4.《現(xiàn)代漢語語法信息詞典》北京大學(xué)俞士汶等編寫的《現(xiàn)代漢語語法信息詞典》是一部供計算機分析與生成漢語句子而使用的機器詞典。其收詞有以下原則:(1)規(guī)范原則。(2)高頻原則。(3)穩(wěn)定原則。(4)詞部件原則。(5)語法義項原則。(6)實用原則。5.停用詞表4.5.2漢語詞典資源詞典資源在自然處理和語言學(xué)研究中具有重要的用途,是自然語言處理系統(tǒng)賴以建立的重要基礎(chǔ)。下面對幾個具有代表性的詞匯知識庫進行簡要說明。1.《大詞林》3.FrameNet4.北京大學(xué)綜合型語言知識庫北京大學(xué)計算語言學(xué)研究所(ICL/PKU)俞士汶教授領(lǐng)導(dǎo)建立的綜合型語言知識庫(CLKB)涵蓋詞、詞組、句子、篇章各單位和詞法、句法、語義各層面,從漢語向多語言輻射,從通用領(lǐng)域深入專業(yè)領(lǐng)域。CLKB是目前國際上規(guī)模最大且獲得廣泛認(rèn)可的漢語語言知識資源,主要包括下列內(nèi)容。(1)現(xiàn)代漢語語法信息詞典,含8萬詞的360萬項語法屬性描述。(2)漢語短語結(jié)構(gòu)規(guī)則庫,含600多條語法規(guī)則。(3)現(xiàn)代漢語多級加工語料庫,實現(xiàn)詞語切分并標(biāo)注詞類的基本標(biāo)注語料庫,包含1.5億字,其中精加工的有5200萬字,標(biāo)注義項的有2800萬字。(4)多語言概念詞典,含10萬個以同義詞集表示的概念。(5)平行語料庫,含對譯的英漢句對100萬個。(6)多領(lǐng)域術(shù)語庫,有35萬個漢英對照術(shù)語。5.知網(wǎng)知網(wǎng)(HowNet)是機器翻譯專家董振東和董強經(jīng)過十多年的艱苦努力創(chuàng)建的語言知識庫,是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)定義了以下各種關(guān)系:(1)上下位關(guān)系(由概念的主要特征體現(xiàn));(2)同義關(guān)系;(3)反義關(guān)系;(4)對義關(guān)系;(5)部件-整體關(guān)系;(6)屬性-宿主關(guān)系;(7)材料-成品關(guān)系;(8)施事/經(jīng)驗者/關(guān)系主體-事件關(guān)系(如“醫(yī)生”“雇主”等);(9)受事/內(nèi)容/領(lǐng)屬物等-事件關(guān)系(如“患者”“雇員”等);(10)工具-事件關(guān)系(如“手表”“計算機”等);(11)場所-事件關(guān)系(如“銀行”“醫(yī)院”等);(12)時間-事件關(guān)系(如“假日”“孕期”等);(13)值-屬性關(guān)系(如“藍(lán)”“慢”等);(14)實體-值關(guān)系(如“矮子”“傻瓜”等);(15)事件-角色關(guān)系(如“購物”“盜墓”等);(16)相關(guān)關(guān)系(如“谷物”“煤田”等)。6.概念層次網(wǎng)絡(luò)4.5.3其他重要漢語詞匯語義資源1.現(xiàn)代漢語動詞大詞典2.同義詞詞林3.中文命題庫(1)動詞特有標(biāo)號角色—ArgN。(2)通用論元角色—ArgM。4.名詞化謂詞命題庫1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解詞法和詞義。2.整個教學(xué)過程中,各教學(xué)點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章系統(tǒng)講解詞匯處理技術(shù)(分詞/NER)、語法功能(實詞/虛詞)及語義資源(詞網(wǎng)/詞典)。強調(diào)詞法是句法分析的基礎(chǔ),需結(jié)合結(jié)構(gòu)規(guī)則與語義知識庫消解歧義?!稊?shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:句法和句義教學(xué)目的:知識目標(biāo):掌握句法分析(PSG/依存文法)、語義角色標(biāo)注、抽象語義表示(AMR)。能力目標(biāo):能對比不同句法表示法的優(yōu)劣,解析句子歧義成因。素養(yǎng)目標(biāo):理解樹庫構(gòu)建中語法理論的選擇依據(jù)。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:能對比不同句法表示法的優(yōu)劣,解析句子歧義成因。教學(xué)難點:難點:充分理解樹庫構(gòu)建中語法理論的選擇依據(jù)。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題句法和句義課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入借"雞不吃了"等歧義句分析,展示句法結(jié)構(gòu)對語義的決定作用。通過依存句法樹可視化案例,說明計算機如何解構(gòu)句子邏輯關(guān)系,引出形式化表示的必要性。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式5.1句與句處理句子是語言運用的基本單位,它由詞、詞組(短語)構(gòu)成,能表達一個完整的意思,如告訴別人一件事情,提出一個問題,表示要求或者制止,表示某種感慨,表示對一段話的延續(xù)或省略。在形式上,句子的結(jié)尾應(yīng)該用句號、問號、省略號或感嘆號等標(biāo)點符號標(biāo)記。在語言智能中,句子處理面臨的最重要的任務(wù)是句法分析和句義分析(也稱為語義分析)。5.1.1句法分析句法分析是對輸入的文本句子進行分析,以得到句子的句法結(jié)構(gòu)的處理過程。實際上,這一過程是對句子中詞語的句法功能進行標(biāo)記。對句法結(jié)構(gòu)進行分析,一方面是語言理解的自身需求,另一方面為其他自然語言處理任務(wù)提供支持,如對文檔信息進行精確表示。句義分析通常以句法分析的輸出結(jié)果作為輸入,以獲得更多的指示信息。5.1.2句義分析句義分析,或者說句子級語義分析,目的是在詞級語義分析的基礎(chǔ)上獲得整個句子的語義表示。它主要包含兩個任務(wù):淺層語義分析和深層語義分析。1.淺層語義分析2.深層語義分析5.2句子的結(jié)構(gòu)5.2.1句法成分句法成分,或者叫作語法成分,可以通俗地解釋為:句子內(nèi)部根據(jù)用法劃分出來的結(jié)構(gòu)。當(dāng)然,這個結(jié)構(gòu)表現(xiàn)在數(shù)據(jù)層面上,就是一個字符串(句子)的子串。分析語法或句法結(jié)構(gòu),就是對各種語法成分所起的作用及其關(guān)系進行考察。1.主語和謂語2.述語和賓語、補語3.定語和狀語4.特殊語法成分5.2.2句子的結(jié)構(gòu)類型1.單句和復(fù)句2.單句的結(jié)構(gòu)類型3.整句和零句4.倒裝句5.2.3句子的特殊類型1.主謂謂語句2.“把”字句3.“被”字句4.連謂句5.兼語句6.雙賓句7.存現(xiàn)句5.2.4句子的語氣類型句子都有語氣,語氣是說話人根據(jù)需要釆取的說話方式。句子根據(jù)語氣可以分為四種類型,即陳述句、疑問句、祈使句和感嘆句。這與句子有四種用途有關(guān)。一般來說,陳述句用平調(diào),平而略降,疑問句多數(shù)用升調(diào),祈使句和感嘆句用不同的降調(diào),祈使句的降調(diào)略為短促,感嘆句的降調(diào)略為舒緩而較長。一種句類可以使用不止一個語氣詞,也可以不用語氣詞。1.陳述句2.疑問句3.祈使句4.感嘆句5.3句法信息的表示形式5.3.1短語結(jié)構(gòu)文法短語結(jié)構(gòu)文法是美國語言學(xué)家喬姆斯基在20世紀(jì)50年代根據(jù)公理化方法提出的一種語言的形式化描述理論。圖5-3是對“大學(xué)學(xué)生喜歡流行歌曲”這句話的短語結(jié)構(gòu)分析。據(jù)此,我們用表格描繪短語結(jié)構(gòu)文法的特點,如表5-2所示。1.喬姆斯基層級2.生成和轉(zhuǎn)換5.3.2依存文法依存文法通過分析語言單位內(nèi)成分之間的依存關(guān)系解釋其文法結(jié)構(gòu),主張句子中核心動詞是支配其他成分的中心成分,而其本身不受其他任何成分的支配,所有受支配成分都以某種關(guān)系從屬于支配者。依存文法的結(jié)構(gòu)沒有非終節(jié)點,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個依存對,其中一個是核心詞,也叫支配詞,另一個是修飾詞,也叫從屬詞。依存關(guān)系用一個有向弧表示,叫作依存弧。依存弧的方向為由從屬詞指向支配詞。與短語結(jié)構(gòu)文法相比,依存文法沒有詞組這個層次,每一節(jié)點都與句子中的單詞相對應(yīng),它能直接處理句子中詞與詞之間的關(guān)系,而節(jié)點數(shù)目大大減少了,便于直接標(biāo)注詞性,具有簡明清晰的優(yōu)點。特別在語料庫文本的自動標(biāo)注中,依存文法使用起來比短語結(jié)構(gòu)文法方便。1.依存文法的條件(1)一個句子中只有一個成分是獨立的。(2)句子的其他成分都從屬于某一成分。(3)任何一個成分都不能依存于兩個或兩個以上的成分。(4)如果成分A直接從屬于成分B,而成分C在句子中位于成分A和成分B之間,那么,成分C或者從屬于成分A,或者從屬于成分B,或者從屬于成分A和成分B之間的某一成分。(5)中心成分左右兩邊的其他成分相互不發(fā)生關(guān)系。2.標(biāo)注關(guān)系5.4句子的語義句子的意義即“句義”,句義在語義中占有十分重要的地位。因為在實際的語言交際和語言信息處理中主要以句子為理解和處理的單位,所以句子可以被看作表達意義的基本單位,也是實現(xiàn)更復(fù)雜的語言交際的基礎(chǔ)。5.4.1句子的語義種類一個句子到底能表達多少種意義?除了句子本身所能表達的言內(nèi)之意(或叫“語段意義”),在不同的語言環(huán)境中結(jié)合人們不同的知識背景,句子還可以表達各種各樣的言外之意(或叫“語境意義”“語用意義”)。言外之意實際上也是要以言內(nèi)之意為基礎(chǔ)的。如果不討論言外之意,句子本身的意義可以依據(jù)不同的表達形式大致分為語匯意義、關(guān)系意義和語氣意義三種。1.句子的語匯意義2.句子的關(guān)系意義3.句子的語氣意義5.4.2句子的語義結(jié)構(gòu)在句子的語匯意義、關(guān)系意義和語氣意義中,語匯意義與詞語有關(guān),關(guān)系意義和語氣意義中的語法關(guān)系意義主要與語法結(jié)構(gòu)有關(guān),因此語義關(guān)系意義才是最主要的句義問題。語義關(guān)系意義涉及語義結(jié)構(gòu),既然是一種結(jié)構(gòu),就自然涉及結(jié)構(gòu)分析的問題。句子的語義結(jié)構(gòu)主要包括三個方面:一是論元結(jié)構(gòu),二是語義指向,三是語義特征。1.論元結(jié)構(gòu)2.語義指向3.語義特征5.4.3句子中的歧義前面說過,句子的意義可以分為三種,即語匯意義、關(guān)系意義和語氣意義。這三種意義可以在一個句子中同時存在,彼此之間并不沖突,而是分工合作,共同表達句子各方面的意義。1.歧義和籠統(tǒng)、模糊的關(guān)系歧義本質(zhì)是一種語義現(xiàn)象。歧義必須能夠產(chǎn)生顯著不同的理解,而與具體性、精確性沒有關(guān)系。2.產(chǎn)生歧義的原因歧義可以分為口頭歧義和書面歧義。3.消除歧義的方法5.4.4語義的表現(xiàn)形式:語義角色對語義角色進行識別和標(biāo)注是現(xiàn)在語義計算中最重要的環(huán)節(jié)。語義角色在前文已有涉及,在這里進行一些更詳細(xì)的梳理和補充。5.4.5語義的表現(xiàn)形式:語義依存語義依存分析(semanticdependencyparsing,SDP)就是一種深層的語義分析,是目前在自然語言處理中使用最為廣泛的語義表示形式之一。語義依存分析的標(biāo)注任務(wù)也十分常見。5.4.6語義的表現(xiàn)形式:抽象語義表示1.抽象語義表示簡介2.中文抽象語義表示5.4.7語義的表現(xiàn)形式:邏輯命題表示嚴(yán)格來說,這并不是一類在字符串上進行標(biāo)注來描述語義的方法。這更多的是對承載語義信息的詞、句子之間的關(guān)系進行判斷的任務(wù)。1.蘊涵2.預(yù)設(shè)5.5句級數(shù)據(jù)資源5.5.1樹庫資源隨著計算語言學(xué)的發(fā)展,人們逐漸認(rèn)識到基于規(guī)則的語言學(xué)研究方法的局限性。計算機的運算速度飛速發(fā)展,也使人們能夠方便地使用統(tǒng)計學(xué)方法從真實語料中獲取自然語言的數(shù)據(jù),因此語料庫方法越來越受到人們的重視。這些語料庫中的真實語料往往經(jīng)過不同層次的加工,包含各種各樣的語言信息,可以使獲取的語言規(guī)律更加客觀和準(zhǔn)確。樹庫(treebank)就是一種經(jīng)過了結(jié)構(gòu)標(biāo)注的語料庫。1.美國賓夕法尼亞大學(xué)漢語樹庫2.“中研院”漢語樹庫3.北京大學(xué)漢語樹庫4.清華大學(xué)漢語樹庫5.國家語委現(xiàn)代漢語樹庫6.其他小型樹庫5.5.2句級語義資源目前常見的漢語語義結(jié)構(gòu)標(biāo)注語料庫,由語義角色標(biāo)注語料庫、語義依存樹庫和抽象語義表示樹庫構(gòu)成。國際語義分析評測會議(SemEval)近年來連續(xù)發(fā)布了關(guān)于中文語義角色標(biāo)注和依存標(biāo)注的技術(shù)評測和相關(guān)資源。公開的平行語料資源還可以在語言資源聯(lián)盟和中國語言資源聯(lián)盟(CLDC)找到。5.5.3平行語料庫平行/對應(yīng)語料庫是由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語/多語語料庫,其對齊程度可有詞級、句級、段級和篇級幾種。所謂對齊程度,就是源語言和目標(biāo)語言之間是按照什么單位對應(yīng)的。例如,從源語言中文到目標(biāo)語言英文的詞級對齊語料,就是在語料中每個詞都標(biāo)明其對應(yīng)英文單詞。在各種平行語料庫中,最常見的是句級平行語料庫,它的內(nèi)容即平行句對。平行語料庫是機器翻譯研發(fā)的必備資源,其規(guī)模和質(zhì)量在很大程度上影響機器翻譯的性能。目前,主流的機器翻譯引擎對平行語料規(guī)模的需求都在千萬句對以上。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解句法和句義。2.整個教學(xué)過程中,各教學(xué)點可根據(jù)實際情況,進行拓展知識的講解。本章小結(jié):本章涵蓋句法結(jié)構(gòu)類型(主謂賓/存現(xiàn)句)、語義表示法(依存/AMR/邏輯命題)及樹庫資源。指出句義理解需融合結(jié)構(gòu)分析與語義推理,為篇章處理提供單元支撐?!稊?shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:篇章和篇章信息處理教學(xué)目的:知識目標(biāo):掌握修辭結(jié)構(gòu)理論(RST)、語體分類、篇章任務(wù)(摘要/信息抽?。?。能力目標(biāo):能分析篇章連貫機制(指代/話題鏈),應(yīng)用RST樹解構(gòu)文本邏輯。素養(yǎng)目標(biāo):認(rèn)識語料庫標(biāo)注中語境完整性的倫理要求。課型:新授課課時:本章安排8個課時。教學(xué)重點:重點:能分析篇章連貫機制(指代/話題鏈),應(yīng)用RST樹解構(gòu)文本邏輯。教學(xué)難點:難點:認(rèn)識語料庫標(biāo)注中語境完整性的倫理要求。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計:本課標(biāo)題篇章和篇章信息處理課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入以新聞自動摘要系統(tǒng)為切入點,探討篇章如何通過修辭結(jié)構(gòu)(如轉(zhuǎn)折/因果)傳遞完整意圖。對比公文與小說語體差異,說明體裁特征對信息處理的影響。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實例導(dǎo)入7.其他形式6.1對篇章的信息處理篇章不是句子的無序堆砌,而是有組織、有層次的整體。和句子相似,篇章具有要表達的意義、思想和意圖。思想和意圖常常體現(xiàn)為一個主題。句子圍繞這一主題實現(xiàn)有機的聯(lián)系。了解篇章的結(jié)構(gòu),可以幫助我們更好地理解篇章,更有效地組織句子,生成通順連貫的篇章。和詞法、句法的分析一樣,對篇章的分析和處理也不是為了篇章本身,而是某種智能應(yīng)用的中間步驟。語言智能中的很多任務(wù)都涉及篇章信息,比較有代表性的任務(wù)有文本分類、自動摘要和信息抽取等。6.1.1文本分類自動文本分類簡稱文本分類,是指計算機將一篇文章歸于預(yù)先給定的某一類或某幾類的過程。文本分類是用途廣泛的語言智能技術(shù)。例如,將一批沒有標(biāo)簽的新聞報道,分別分到“時政”“體育”“經(jīng)濟”“文藝”等類別中。將不同的專利申請書,按照專利分類體系打上標(biāo)簽也是一種文本分類。在篇章中發(fā)現(xiàn)主題,并找到表達篇章核心信息、主題的重要語句,顯然可以幫助未分類的篇章確定其類別。文本分類運用的領(lǐng)域非常廣泛,很多任務(wù)可以被視作文本分類。例如,作文自動批改也可以視作根據(jù)質(zhì)量進行分類的過程,不同的分?jǐn)?shù)或分?jǐn)?shù)段就是分類標(biāo)簽。6.1.2自動摘要自動摘要是利用計算機自動實現(xiàn)文本分析,并歸納其內(nèi)容摘要的技術(shù)。自動摘要可以幫助人們更加輕松地從海量文本中獲得關(guān)鍵信息,快速理解原文內(nèi)容。這在信息爆炸的今天具有特別重要的價值。自動摘要可以看作一個信息壓縮過程,將輸入的一篇或多篇文檔壓縮為一篇簡短的摘要。自動摘要涉及對輸入文檔的理解、要點的篩選,以及文摘合成三個主要步驟。這些步驟都離不開對篇章主題和主題展開方式的挖掘。6.1.3信息抽取信息抽取和自動摘要有著非常密切的聯(lián)系,尤其在傳統(tǒng)的信息抽取任務(wù)中,對主題的識別、重要句子和關(guān)鍵信息的識別十分重要。事件挖掘是文本信息抽取的一種高級應(yīng)用,即從文本中抽取較為完整的從屬于一個事件的各類信息,并識別從不同文本或文本集中抽取的信息是否從屬于一個事件。它在金融、公安、輿情監(jiān)測等領(lǐng)域具有重要價值。6.2修辭和語體篇章不是無序的句子的組合,句子之間相互搭配是要實現(xiàn)語義的有效表達。修辭是句子表達語義的重要方式,也是語體和體裁的重要體現(xiàn),后者則是語言適應(yīng)具體場景和功能而形成的聚合,語體和體裁主要在篇章一級有所體現(xiàn)。對語言智能而言,句子之間通過特定的結(jié)構(gòu)組合來實現(xiàn)有效的主題表達。這方面的研究和工程實踐還比較少,但隨著智能應(yīng)用的落地,日益引起學(xué)界和工業(yè)界重視。在對這種結(jié)構(gòu)的描述中,修辭結(jié)構(gòu)理論是較為成熟、具有較大影響的一種,本章將加以介紹。6.2.1修辭用作名詞的“修辭”有兩種含義:一是指客觀存在的修辭現(xiàn)象,如“修辭屬于言語現(xiàn)象”;二是指修辭知識或修辭學(xué),如“要學(xué)點修辭”“語法和修辭是兩門科學(xué)”。用作動詞的“修辭”則是指依據(jù)題旨情境運用特定手段,以加強語言表達效果的活動,如“要變不善修辭為長于修辭”。在通常情況下,人們總是把修辭理解為對語言的修飾和調(diào)整,即對語言進行綜合的藝術(shù)加工。在內(nèi)容和語境確定的情況下,修辭總是著力探討三個問題,即選用什么樣的語言材料、采取什么樣的修辭方式、追求什么樣的表達效果。要體現(xiàn)這三者之間的有機聯(lián)系,我們就不能不考慮調(diào)動的語言因素和非語言因素對采用的修辭方式是不是恰當(dāng),能不能產(chǎn)生鮮明的修辭效果。講修辭離不開語言材料、表達方式和表達效果,學(xué)修辭也必須以既定的內(nèi)容和語境為依托,從語言材料下手,看其采取的修辭方式是否恰當(dāng),看其產(chǎn)生的表達效果是否最理想或比較理想,這三者不匹配的情況時有出現(xiàn),這是語言使用者的能力問題,也可能是為了刻意追求某種效果,如幽默、詼諧。特定的內(nèi)容和語境決定了最佳表達形式只有一種,表達者必須有效地通過修辭活動,找到這種唯一的語言形式,才能產(chǎn)生最佳表達效果。修辭最佳效果的產(chǎn)生,得益于對語言近義形式的嚴(yán)格選擇和在比較中做出的精心調(diào)整。辭格也稱修辭格、修辭方式和修辭格式,是在語境里巧妙運用語言而構(gòu)成特有模式以提高表達效果的方法。辭格是人們在長期運用語言的過程中產(chǎn)生和發(fā)展起來的。辭格多種多樣,各有其特點和表達效果。不同的標(biāo)準(zhǔn)有不同的分法,從大類到小類,有同有異。陳望道先生的《修辭學(xué)發(fā)凡》將辭格分為4類38格。張弓的《漢語修辭學(xué)》將辭格分為3類24格。唐松波和黃建冠主編的《漢語修

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論