數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch03 漢字和文字?jǐn)?shù)據(jù)_第1頁(yè)
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch03 漢字和文字?jǐn)?shù)據(jù)_第2頁(yè)
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch03 漢字和文字?jǐn)?shù)據(jù)_第3頁(yè)
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch03 漢字和文字?jǐn)?shù)據(jù)_第4頁(yè)
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch03 漢字和文字?jǐn)?shù)據(jù)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:漢字和文字?jǐn)?shù)據(jù)教學(xué)目的:知識(shí)目標(biāo):掌握漢字結(jié)構(gòu)特點(diǎn)(象形/會(huì)意)、編碼標(biāo)準(zhǔn)(GB2312/Unicode)、字符集分類。能力目標(biāo):能對(duì)比漢字與拼音文字的信息化處理差異。素養(yǎng)目標(biāo):理解漢字規(guī)范化對(duì)文化傳承的重要性。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):能對(duì)比漢字與拼音文字的信息化處理差異。教學(xué)難點(diǎn):難點(diǎn):理解漢字規(guī)范化對(duì)文化傳承的重要性。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題漢字和文字?jǐn)?shù)據(jù)課次4授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排8學(xué)分共2分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入從手機(jī)漢字輸入法"拼形→選字"過程切入,追溯漢字從甲骨文到Unicode的演化史。通過字符亂碼案例,直觀展示編碼標(biāo)準(zhǔn)對(duì)信息存儲(chǔ)的核心意義,引出漢字信息化處理的獨(dú)特性。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式3.1漢字信息處理漢字信息處理是計(jì)算機(jī)直接對(duì)漢字信息進(jìn)行輸入、輸出和加工處理的技術(shù)。在計(jì)算機(jī)發(fā)展之初,由于歷史因素和技術(shù)因素,文字編碼僅考慮英文和部分最基本的計(jì)算機(jī)操作符號(hào)的需要。最早也是今天最通行的文字編碼方案美國(guó)信息交換標(biāo)準(zhǔn)代碼(AmericanStandardCodeforInformationInterchange,ASCII)將一個(gè)字符表示為不超過7個(gè)二進(jìn)制位,即一個(gè)0和1構(gòu)成的串,且長(zhǎng)度不超過7。顯然這種方式只能表示27=128個(gè)字符:英文大寫字母與小寫字母共52個(gè)字符,數(shù)字0~9,換行、回車等控制符,文頭、文尾等通信標(biāo)記符。英語之外的其他語言的文本顯然無法直接使用ASCII編碼進(jìn)入計(jì)算機(jī)。例如,法語字母上方有注音符號(hào),無法用ASCII編碼表示。而亞洲語言,尤其漢語有十萬以上的文字,無法使用這種編碼方式。僅為漢字編號(hào)就是不小的存儲(chǔ)和運(yùn)算開銷。因而在20世紀(jì)中葉,不少專家悲觀地表示漢字與計(jì)算機(jī)無緣。我們必須承認(rèn),漢字字種繁多,字形復(fù)雜,漢字的信息處理與通用的字母數(shù)字類信息處理有很大差異,突出表現(xiàn)在漢字輸入輸出技術(shù)和漢字處理系統(tǒng)的軟件方面。但是,漢字信息在信息結(jié)構(gòu)、信息交換、信息加工等方面與西文信息加工又存在共性。因此,漢字信息處理多采用與西文信息處理兼容的途徑,以便充分利用已有的計(jì)算機(jī)信息處理技術(shù)資源。同時(shí),漢字信息處理還包括研究適合漢字特點(diǎn)的操作系統(tǒng)和漢字計(jì)算機(jī)語言。3.2漢字的結(jié)構(gòu)3.2.1漢字的演化表意文字和表音文字是在世界文字中并存的、代表兩種發(fā)展趨勢(shì)的文字系統(tǒng),它們有各自的發(fā)展規(guī)律。大部分漢字既表意也表音,這使?jié)h字基本上能夠滿足漢語對(duì)文字的要求,而且使?jié)h字成為世界上一種獨(dú)特的文字體系。今天能看到的最可靠的、最早的文字資料是從公元前14世紀(jì)到公元前11世紀(jì)的商代后期的甲骨文和金文。甲骨文和金文都已經(jīng)是很成熟的文字了。從原始文字到成熟文字,無疑需要相當(dāng)長(zhǎng)的時(shí)間,我們可以設(shè)想漢字的出現(xiàn)應(yīng)該遠(yuǎn)遠(yuǎn)早于距今3400年左右的商代后期。漢字和其他的古老文字一樣,也是從圖畫和雕刻逐步演變過來的,甲骨文和金文的資料就可以證明。最初出現(xiàn)的漢字字符大多數(shù)是形象地刻畫事物的圖形,圖形分別有“象形”“指事”“會(huì)意”三種情況。漢字首先是從“象形”發(fā)展到“表意”的?!跋笮巍笔呛?jiǎn)化了的事物的圖形,這肯定是最早創(chuàng)造出來的漢字符號(hào)的形式。象形文字必須像事物之形。但客觀事物紛繁復(fù)雜,眾多的抽象事物畫不出具體形象,于是漢字發(fā)展出了另一種造字方法,就是“指事”。例如,“下”沒有具體形象,就在一條長(zhǎng)線的下面畫一條短線來表示,后來演化為現(xiàn)在的寫法。指事字已經(jīng)由單純象形過渡到突出表意。這讓漢字使用者可以在一個(gè)象形字上加上另外的象形字構(gòu)成一個(gè)新的字。這種把兩個(gè)或兩個(gè)以上象形字或指事字拼合在一起,并把它們的意義結(jié)合成一個(gè)新的意義的造字方法就是“會(huì)意”。例如,“休”由一個(gè)人字和一個(gè)木字組成,表示人靠在樹上休息。從單純象形到利用象形表意,這是漢字發(fā)展的一個(gè)重大進(jìn)步。漢字只有到了表意的階段,才能夠?qū)嶋H記錄語言,才算形成了初步的文字體系。但是,表意的方法還有很大限制。例如,可以畫出水流的樣子來表示“水”,而江、河、湖、海等,又怎么用字表示呢?這樣漢字就開始出現(xiàn)兩種造字模式:假借表意字符來表音的假借字和一半表意一半表音的形聲字。漢字從“表意”發(fā)展到了一定程度的“表音”。“假借”是漢字中較早出現(xiàn)的一種純粹表音的方式。甲骨文中就已經(jīng)有了不少的假借字。卜辭“其自東來雨”,這個(gè)句子中就有四個(gè)字是假借字。例如,“其”就是“箕”的初文,這里借為虛詞;“自”最早是“鼻子”的意思,這里借為介詞;“來”本義是“大麥”,這里借為動(dòng)詞。有了同音假借的方法,就可以用較少的字記錄語言中較多的詞語,甲骨文中假借字較多,就是當(dāng)時(shí)字少的緣故。但是,假借必然會(huì)造成大量的同音字和多義字,于是漢字產(chǎn)生了一種一半符號(hào)表示意義、一半符號(hào)表示聲音的“形聲字”。例如,前面說的江、河、湖、海等各種水體,由于有了形聲字,表示它們的字的形符都是三點(diǎn)水,表示跟水有關(guān),但聲符不同,各自表示不同的水體。由于形聲字有區(qū)別同音字和多義字的作用,而且很容易造出來,因此數(shù)量越來越多,并部分取代了假借字和其他表形的字符,最終成為漢字的主體。漢字在歷史上對(duì)其他民族的文字也產(chǎn)生過重要影響。公元元年前后,漢字就開始向南傳播到越南,向東傳播到朝鮮,從朝鮮再傳播到日本。上述國(guó)家長(zhǎng)期使用漢字記錄自己的語言,因而形成了“漢字文化圈”。在直接使用漢字的基礎(chǔ)上,不同民族根據(jù)自己語言的特點(diǎn)和漢字造字的原理,自行發(fā)展本民族的方塊字,或利用漢字部件來拼寫本民族語言。例如,朝鮮人借用漢字的筆畫創(chuàng)造出筆畫式的音素字母“諺文”,越南人以漢字為基礎(chǔ)創(chuàng)造出自己的拼音文字“字喃”,日本人則采用漢字的偏旁和草書創(chuàng)造出漢字式的音節(jié)字母“假名”,這些都是表音文字。3.2.2漢字的特點(diǎn)如果跟印歐語的文字比較,漢字最主要的特點(diǎn)可以概括為以下五個(gè)方面。1.漢語缺乏形態(tài)變化,漢字與之基本適應(yīng)印歐語有豐富的形態(tài)變化,如常常要在詞的前后加上詞綴,如名詞復(fù)數(shù)要加“-s”,動(dòng)詞進(jìn)行時(shí)要加“-ing”等,這種變化用表示音素的字母來記錄比較容易。反過來,漢語一個(gè)字始終表示一個(gè)語素(古代是詞),沒有詞形變化,所以漢字正好是符合這一特點(diǎn)的。我們可以假設(shè),如果漢語中也出現(xiàn)詞的前后加詞綴的形態(tài)變化,那么現(xiàn)在這種漢字形式就可能改變。例如,日語因?yàn)楸旧碛幸恍┰~形的變化,所以借用漢字之后又創(chuàng)造出假名字母來補(bǔ)充。2.每個(gè)漢字都有意義,是形、音、義的統(tǒng)一體印歐語的聲學(xué)單位(音素)、聽覺單位(音節(jié))和意義單位(詞)三者各自獨(dú)立,表音字符不聯(lián)系意義,因此比較適合采用意義和聲音分離的音素文字。相反,漢字的字不但有字形、讀音,還都有意義,形、音、義三者統(tǒng)一在一個(gè)漢字中,因此比較適合采用表意兼表音的意音文字。我們可以假設(shè),如果漢字字符都只表音而不表意,那么現(xiàn)在這種文字形式也就可能改變。例如,越南語只借用漢字來記錄語言中的音,而不聯(lián)系意義,所以后來變成了拼音文字。3.漢字字形不跟著讀音改變,具有超時(shí)間性和超空間性印歐語文字是音素(音位)文字,讀音變了,文字也必須跟著變。例如,現(xiàn)代德語和古代德語的差異巨大,同屬拉丁語系的法語、意大利語、西班牙語等,不同國(guó)家的人不經(jīng)過學(xué)習(xí)可能也看不懂對(duì)方的文字。對(duì)漢字來說,即使讀音改變了,字形和字義也基本保持不變。所以,從古到今,中國(guó)人讀四書五經(jīng),雖需要解釋,但不會(huì)感到有太大困難。從北往南,今天的山東人、浙江人和福建人互相說話可能聽不懂對(duì)方在說什么,可書信往來沒有問題。這都是因?yàn)椋m然漢語古今語音和方言語音不同,但漢字系統(tǒng)十分統(tǒng)一。我們可以假設(shè),如果漢字字符也跟著讀音變化,那么不但歷史上的文獻(xiàn)現(xiàn)在可能無人能懂,而且各種方言也就可能像古羅馬的拉丁語那樣,分化成不同的語言了。4.漢字雖是意音文字,但缺乏完備的表音系統(tǒng)印歐語文字是音素(音位)文字,而且字符隨著讀音改變,所以看到字母的組合就能大致拼出正確的讀音來。漢字雖然都有讀音,但很難通過字符準(zhǔn)確和統(tǒng)一地表示出來。象形字、指事字和會(huì)意字等本來就沒有專門表音的成分,看到字也無法知道音;就是有表音成分的形聲字,聲符也大多數(shù)不能提示正確的讀音。俗話說“認(rèn)字讀半邊”,實(shí)際上很不可靠。所以,有人認(rèn)為,如果要求漢字的字符都可以準(zhǔn)確表示語音,那么至少現(xiàn)在這套漢字字符體系是難以實(shí)現(xiàn)的。因此,需要漢語拼音這樣的附文字系統(tǒng)來加以輔助。5.漢字的字符數(shù)量繁多,字形結(jié)構(gòu)過于復(fù)雜對(duì)任何一種語言進(jìn)行分析,其中包含的音素(音位)的數(shù)量總是有限的,而包含的音節(jié)的數(shù)量較多,包含的語素或詞語的數(shù)量就會(huì)更多。印歐語的字母記錄的是語言中的音素(音位),這樣字母數(shù)量也就很有限,如英語字母只有26個(gè),西里爾字母只有33個(gè),字母數(shù)量少,當(dāng)然字形就不會(huì)很復(fù)雜。漢字記錄的是漢語中的語素或詞,字符數(shù)量巨大。漢字的總數(shù)估計(jì)在5萬個(gè)以上,通用規(guī)范漢字有8105個(gè)。同時(shí),漢字字符的結(jié)構(gòu)十分復(fù)雜,漢字的基礎(chǔ)部件就有560個(gè),筆畫形式和組合方式多種多樣。所以,漢字難認(rèn)、難讀、難寫、難記,這就是所謂“四難”狀況,使?jié)h字的學(xué)習(xí)成本很大。3.3漢字的信息化3.3.1字符編碼自然語言的字符是通過編碼的形式進(jìn)入計(jì)算機(jī)的。這里有幾個(gè)基本概念需要解釋。位(bit)是計(jì)算機(jī)存儲(chǔ)信息的最小單位,音譯比特,二進(jìn)制的一個(gè)“0”或一個(gè)“1”叫一位。字節(jié)(byte)是一種計(jì)量單位,表示數(shù)據(jù)量多少,是計(jì)算機(jī)信息技術(shù)用于計(jì)量存儲(chǔ)容量的一種計(jì)量單位,8個(gè)二進(jìn)制位組成1字節(jié)。在ASCII碼中,一個(gè)標(biāo)準(zhǔn)英文字母(不分大小寫)占1字節(jié)位置,一個(gè)標(biāo)準(zhǔn)漢字占2字節(jié)位置。字符指計(jì)算機(jī)中使用的文字和符號(hào),如“1,2,3”“A,B,C”“~!·#¥%…*()+”等。ASCII碼的英文全稱是“AmericanStandardCodeforInformationInterchange”,中文譯為“美國(guó)信息交換標(biāo)準(zhǔn)碼”。ASCII碼無法表示非英語字符,因而美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)(AmericanNationalStandardInstitite,ANSI)開發(fā)了ASCII擴(kuò)展碼。其中一個(gè)英文字母(不分大小寫)占1字節(jié)的空間,一個(gè)中文漢字占2字節(jié)的空間。其他語言也有自己的雙字節(jié)編碼方式。3.3.2漢字編碼漢字編碼是漢字在計(jì)算機(jī)內(nèi)存中的存儲(chǔ)方案和規(guī)則。不同的編碼方式形成不同的字符集。自20世紀(jì)80年代開始,我國(guó)開始為漢字編碼工作制定國(guó)家標(biāo)準(zhǔn),并逐步與國(guó)際接軌。2005年發(fā)布的《信息技術(shù)中文編碼字符集》(GB18030—2005),以國(guó)家標(biāo)準(zhǔn)字符收集的漢字達(dá)70244個(gè)。現(xiàn)行的10部國(guó)家標(biāo)準(zhǔn)和1部電子行業(yè)標(biāo)準(zhǔn)較好地解決了漢字在計(jì)算機(jī)中的存儲(chǔ)、交換和處理問題,可以滿足信息技術(shù)發(fā)展的要求。中文編碼國(guó)家標(biāo)準(zhǔn)與行業(yè)標(biāo)準(zhǔn)(截至2016年)。經(jīng)過近40年的發(fā)展,我國(guó)的中文編碼標(biāo)準(zhǔn)已實(shí)現(xiàn)國(guó)內(nèi)通用、國(guó)際接軌,并兼容少數(shù)民族文字,較好地滿足了社會(huì)需求。3.3.3漢字的字符集漢字編碼規(guī)范為解決中文進(jìn)入計(jì)算機(jī)和互聯(lián)網(wǎng)這一輸入問題奠定了基礎(chǔ)。與其相對(duì)應(yīng),漢字字型規(guī)范,尤其面向信息化的點(diǎn)陣與矢量字型規(guī)范是實(shí)現(xiàn)虛擬空間中文信息輸出的基礎(chǔ)工作。在計(jì)算機(jī)圖形輸出中,一個(gè)具體字符的形狀稱為字形。具有同一設(shè)計(jì)的字形圖像的集合構(gòu)成了字型。在日常生活中,“字型”常與“字庫(kù)”混用。字型規(guī)范標(biāo)準(zhǔn)通常包括字符集標(biāo)準(zhǔn)、字庫(kù)格式、字形和字體設(shè)計(jì)方面的信息。字庫(kù)是漢字書寫文明在信息化時(shí)代的主要輸出形式。20世紀(jì)80年代,王選的激光照排技術(shù)使字體從鉛字時(shí)代進(jìn)入計(jì)算機(jī)時(shí)代。字型標(biāo)準(zhǔn)所對(duì)應(yīng)的漢字編碼字符集決定了其涵蓋的字形范圍。現(xiàn)行規(guī)范標(biāo)準(zhǔn)已對(duì)漢字編碼字符集(GB/T2312與GB18030)、CJK漢字編碼字符集、通用多八位編碼字符集(多文種平面)所包含的漢字制定了多字體、多尺寸的標(biāo)準(zhǔn)字型。我國(guó)現(xiàn)行編碼字符集已全部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論