《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》 教案ch06 關(guān)系標(biāo)注實(shí)訓(xùn)_第1頁
《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》 教案ch06 關(guān)系標(biāo)注實(shí)訓(xùn)_第2頁
《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》 教案ch06 關(guān)系標(biāo)注實(shí)訓(xùn)_第3頁
《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》 教案ch06 關(guān)系標(biāo)注實(shí)訓(xùn)_第4頁
《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》 教案ch06 關(guān)系標(biāo)注實(shí)訓(xùn)_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》課程教案課題:關(guān)系標(biāo)注實(shí)訓(xùn)教學(xué)目的:識別實(shí)體間的邏輯關(guān)系類型(如抑制/促進(jìn));標(biāo)注生物文本中的復(fù)雜關(guān)系網(wǎng)絡(luò);構(gòu)建結(jié)構(gòu)化知識圖譜支持科研分析。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):標(biāo)注生物文本中的復(fù)雜關(guān)系網(wǎng)絡(luò)。教學(xué)難點(diǎn):難點(diǎn):構(gòu)建結(jié)構(gòu)化知識圖譜支持科研分析。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題關(guān)系標(biāo)注實(shí)訓(xùn)課次4授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(中級)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入藥物研發(fā)中"蛋白質(zhì)如何相互作用"?關(guān)系標(biāo)注揭示隱藏邏輯!本章以生物關(guān)系為例,學(xué)習(xí)實(shí)體間邏輯關(guān)聯(lián)的標(biāo)注方法,通過構(gòu)建知識圖譜,助力醫(yī)療AI發(fā)現(xiàn)潛在規(guī)律。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式6.1認(rèn)識關(guān)系標(biāo)注關(guān)系標(biāo)注是NLP(自然語言處理技術(shù))中一個(gè)較為常見的任務(wù),它常用于關(guān)系抽取技術(shù),也可稱之為關(guān)系抽取標(biāo)注。其主要目的是標(biāo)注句子中實(shí)體對之間所隱含的語義關(guān)系,即在實(shí)體識別的基礎(chǔ)上來確定文本中實(shí)體對之間的關(guān)系類別,并做成結(jié)構(gòu)化的數(shù)據(jù)。例如,郭子儀,字子儀,華州鄭縣人。從這句話中,我們可以判斷出人物郭子儀的出生地是華州鄭縣,因此可以標(biāo)注為“郭子儀(出生地)華州鄭縣”,這便是一條完整的關(guān)系。在關(guān)系標(biāo)注中,我們首先需要明確一個(gè)概念,三元組。三元組是知識圖譜中知識表示的基本單位。就關(guān)系標(biāo)注而言,一條關(guān)系便是一個(gè)三元組。三元組中包括三個(gè)要素,即頭實(shí)體、尾實(shí)體、關(guān)系,也有人稱為主體、客體、關(guān)系。例如在上一段的例子中,“郭子儀(出生地)華州鄭縣”便是一個(gè)三元組,其中“郭子儀”是頭實(shí)體,“華州鄭縣”是尾實(shí)體,“出生地”便是頭實(shí)體與尾實(shí)體之間的關(guān)系。當(dāng)然,三元組的呈現(xiàn)形式不僅僅是舉例的這一種,還可以有很多種形式,例如json格式。甚至是我們?nèi)粘J褂玫腅xcel表格中三個(gè)相關(guān)聯(lián)的字段也可以被視為一個(gè)三元組。此外,特別需要了解的是,關(guān)系的表示是有固定方向的。通常情況下,我們對于一個(gè)三元組的理解可以是“頭實(shí)體是尾實(shí)體的關(guān)系”,也可以理解為“頭實(shí)體的關(guān)系是尾實(shí)體”。例如,上文提到的三元組“郭子儀(出生地)華州鄭縣”的表示方向即為“頭實(shí)體郭子儀的出生地是尾實(shí)體?!痹趯?shí)際標(biāo)注過程中,要確保同一類關(guān)系用相同的方向來表示,從而確保數(shù)據(jù)表示的一致性,以免因此給模型訓(xùn)練帶來麻煩。6.2關(guān)系標(biāo)注應(yīng)用場景關(guān)系標(biāo)注的應(yīng)用場景比較廣泛,比較常見的有智慧金融、知識圖等。1.智慧金融2.智慧司法3.智慧醫(yī)療4.智能教育5.智能制造6.3生物關(guān)系標(biāo)注規(guī)范(一)任務(wù)目標(biāo)本次標(biāo)注的任務(wù)目標(biāo)為:依據(jù)所給文本的意思來分析文本中是否蘊(yùn)含指定的關(guān)系,并標(biāo)出關(guān)系所涉及的三元組,即頭實(shí)體、尾實(shí)體及兩實(shí)體之間的關(guān)系類別。實(shí)體是指實(shí)際存在的物體,在數(shù)據(jù)標(biāo)注中,實(shí)體必須是明確的、已經(jīng)存在的物體。(二)背景知識生物分類法:生物分類法是用生物分類學(xué)方法來對生物的物種分組和歸類的方法。如表6-1所示,名稱代表的范圍是從上到下、從左到右依次變小。其中同一層分級的亞類、下類的范圍比下一層級的一般類的范圍大。(三)基本標(biāo)注原則本次標(biāo)注任務(wù)應(yīng)該按照下列基本標(biāo)注原則來實(shí)施。(1)只能根據(jù)所給句子表達(dá)的信息來判斷給定實(shí)體對之間的關(guān)系,如果句子中沒有明確表達(dá),則不需要根據(jù)常識或背景去多加判斷,直接確認(rèn)提交即可。例如,黃花風(fēng)鈴木為巴西國花。不用標(biāo)注巴西為分布區(qū)域,但是只要說明了其在哪里被發(fā)現(xiàn)或是哪里特有的物種,就可以標(biāo)注。(2)在標(biāo)注過程中所標(biāo)注的實(shí)體必須是明確的,不能是泛指的。例如,“哺乳動物都是脊索動物門”。句子中沒有說明該哺乳動物是哪一個(gè)或哪一小類確定的動物,所以不需要標(biāo)注。例如,猴類、犬類、虎類等需要標(biāo)注,哺乳動物、卵生動物等不需要標(biāo)注。(3)未實(shí)際斷定的關(guān)系不需要標(biāo)注,如“據(jù)說”或“推測”出的結(jié)論。(4)如果有多個(gè)有范圍聯(lián)系的實(shí)體,則按照由大到小的順序出現(xiàn),需要整體標(biāo)注到范圍最小處,如“藍(lán)貓屬于哺乳綱貓科貓屬”。此時(shí)關(guān)系需要標(biāo)注,“藍(lán)貓”生物分類-分類“哺乳綱貓科貓屬”,“哺乳綱”生物分類包含“貓科”,“哺乳綱”生物分類包含“貓屬”,“貓科”生物分類包含“貓屬”。如果分開出現(xiàn)或有標(biāo)點(diǎn)符號隔開,則只選擇范圍最小的實(shí)體,如“家貓屬于哺乳綱、貓科”,此時(shí)關(guān)系只需要標(biāo)注“家貓”生物分類-分類“貓科”,“哺乳綱”生物分類包含“貓科”。(5)關(guān)于雜交標(biāo)簽,子標(biāo)簽范圍依次是雜交親本>雜交父本=雜交母本。在標(biāo)注時(shí),我們要注意當(dāng)3個(gè)要素同時(shí)出現(xiàn)時(shí),以雜交父本和雜交母本為主標(biāo)注,不用標(biāo)注雜交親本。其中需要分別標(biāo)注雜交父本及雜交母本。如“西門塔爾雜交牛的雜交親本是西門塔爾公牛和母黃牛?!睆奈谋究芍鏖T塔爾公牛是西門塔爾雜交牛的父系,也就是雜交父本,母黃牛是西門塔爾雜交牛的母系,也就是雜交母本,句中也出現(xiàn)了雜交親本,等于三個(gè)要素同時(shí)出現(xiàn),不標(biāo)注雜交親本的關(guān)系,只標(biāo)注“西門塔爾公牛雜交-雜交父本西門塔爾雜交牛”、“母黃牛雜交-雜交母本母黃?!眱蓚€(gè)關(guān)系。(四)具體說明(五)注意事項(xiàng)在任務(wù)實(shí)施中,需要注意以下事項(xiàng)。(1)如果文中說明是古文獻(xiàn)的分類方法,則不需要標(biāo)注。例如,“《說文解字》中記載:茱萸為茮(按:同“椒”)屬”,這里的茮屬不需要標(biāo)注。但是古老物種的現(xiàn)代分類方法需要標(biāo)注。例如,驢是6000年前古埃及人由非洲野驢(E.africanus)馴化而來的。這里的非洲野驢及學(xué)名都是現(xiàn)代說法。 (2)標(biāo)注時(shí),實(shí)體只標(biāo)注現(xiàn)實(shí)存在過的動植物;如出現(xiàn)“龍”則不標(biāo)注;出現(xiàn)“恐龍”則標(biāo)注。(3)如果題目中同時(shí)出現(xiàn)了古代地名和注釋的現(xiàn)代地名,則只需要標(biāo)注現(xiàn)代地名。例如,中國四川省萬縣(今重慶市萬州縣),只需要標(biāo)“重慶市萬州縣”。如果文本中出現(xiàn)多個(gè)分布區(qū)域但他們之間有大小關(guān)系,只需要標(biāo)注范圍最精確的一級,如遇到音譯地名如有注釋則標(biāo)注注釋。(4)在標(biāo)注時(shí)只需要標(biāo)注實(shí)體核心詞,不需要標(biāo)注不相干的其他詞。例如,貍花貓?jiān)a(chǎn)于中國地區(qū)。此處原產(chǎn)地應(yīng)為“中國”,不要標(biāo)注為“中國地區(qū)”。如果是中國大陸、黃河流域等,就需要整體標(biāo)注。(5)不需要標(biāo)注方位詞,如北方、華中、東北等,如果前面有確定的城市、國家限定,則標(biāo)注該城市、國家即可。如出現(xiàn)“西藏南部喜馬拉雅山”這種由大到小,但是中間夾雜方位詞的,需要整體標(biāo)注。(6)需要整體標(biāo)注“小狗”與“小花豹”等說法。如果文中同時(shí)出現(xiàn)同一物種的不同說法,如同時(shí)出現(xiàn)“大雁”與“大雁鳥”,則標(biāo)注描述最詳細(xì)的“大雁鳥”。(7)如果“瀕?!奔捌渌Wo(hù)等級在文中表達(dá)為“瀕危狀態(tài)”,則僅需要標(biāo)注“瀕?!弊謽印#?)法規(guī)、通知、名錄、論文等文章形式不算作相關(guān)作品,相關(guān)作品主要范圍為藝術(shù)文學(xué)、期刊類作品,不需要標(biāo)注書名號。(9)“原種角堇”中僅標(biāo)注角堇。(10)不要將學(xué)名及別名的第一層的括號標(biāo)注進(jìn)來,但可以標(biāo)準(zhǔn)學(xué)名本身自帶的標(biāo)點(diǎn)符號,如香堇菜(ViolaOdorataL.)可以標(biāo)注學(xué)名為“ViolaOdorataL.”。(11)別名只標(biāo)注中文別名。(12)如果語句中交代了該物種取自、栽種在哪個(gè)明確區(qū)域,則標(biāo)注該物種和區(qū)域?yàn)榉植紖^(qū)域關(guān)系,全球分布則標(biāo)注全球。說明哪個(gè)國家特有即可標(biāo)注原產(chǎn)地關(guān)系,注意“我國”不標(biāo)注。(13)當(dāng)文本中的某一實(shí)體多次出現(xiàn)時(shí),僅標(biāo)注第一次出現(xiàn)的。(14)當(dāng)出現(xiàn)××科××屬這樣的結(jié)構(gòu),默認(rèn)為文中交代了包含的關(guān)系,需要標(biāo)注。(15)對于雜交父本、雜交親本等,如果動植物名稱前有形狀限制(如“深紫色小花三色堇”),則需整體標(biāo)注。(16)如文本中,交代兩種生物名稱,未交代是否是生物范圍,按“生物分類—分類”標(biāo)注,標(biāo)注方向?yàn)?,小范圍—大范圍。例如,東北虎是虎的一員。標(biāo)注為,東北虎虎。(17)動物的停留地、棲息地通常被稱為動物的生境,生境是指動物在其中生活和繁殖的環(huán)境,包括它們的棲息地、活動范圍、覓食區(qū)域、隱蔽場所、繁殖區(qū)域等。因此,生境是動物分布區(qū)域的一個(gè)重要組成部分。動物的停留地、棲息地可以算作動物的分布區(qū)域。(六)系統(tǒng)使用1.進(jìn)入任務(wù)實(shí)施頁面(1)進(jìn)入實(shí)訓(xùn)練習(xí)頁面。當(dāng)前實(shí)訓(xùn)平臺已將該頁面設(shè)置為學(xué)員端默認(rèn)首頁,因此登錄系統(tǒng)后即可自動進(jìn)入實(shí)訓(xùn)練習(xí)頁面。(2)進(jìn)入任務(wù)列表頁面。進(jìn)入實(shí)訓(xùn)練習(xí)頁面后,單擊頁面上關(guān)系標(biāo)注模塊下的“進(jìn)入學(xué)習(xí)”鏈接,如圖6-7所示,進(jìn)入任務(wù)列表頁面。(3)進(jìn)入關(guān)系標(biāo)注實(shí)施頁面。在任務(wù)列表頁面單擊任意一個(gè)任務(wù)模塊下的“進(jìn)入學(xué)習(xí)”按鈕。2.標(biāo)注頁面操作詳解在本任務(wù)中,如果想要針對一個(gè)題完成標(biāo)注操作,則需要用到如下按鈕和步驟,按順序說明如下。(1)標(biāo)注任務(wù)領(lǐng)取。在本系統(tǒng)中,打開任務(wù)實(shí)施頁面后,會默認(rèn)加載第一條題目,因此不需要額外做任務(wù)領(lǐng)取操作。此時(shí),題目列表中的第一條記錄默認(rèn)呈現(xiàn)出選中狀態(tài)。(2)選擇實(shí)體。在文本展示區(qū),按住鼠標(biāo)左鍵拖曳選中的對應(yīng)實(shí)體,釋放鼠標(biāo)左鍵,在對應(yīng)實(shí)體上右擊,并在彈出的快捷列表中選擇“粘貼到實(shí)體值1”命令或“粘貼到實(shí)體值2”命令,在操作區(qū)的灰色框內(nèi)會顯示所選取的文本。重復(fù)操作會覆蓋上一次的結(jié)果。右擊選中的文本后,在彈出的列表中選擇相應(yīng)實(shí)體值,實(shí)體值框內(nèi)生成文本。(3)實(shí)體位置互換。如果實(shí)體值位置選反,則單擊“互換”按鈕調(diào)換位置。(4)選擇關(guān)系類型。在操作區(qū)的“關(guān)系下拉列表”中選擇對應(yīng)的關(guān)系類型。(5)確定或清空關(guān)系。選擇完實(shí)體和對應(yīng)的關(guān)系后,單擊“確定”按鈕。如果錯(cuò)誤比較多,則單(6)修改或刪除關(guān)系類型。如果出現(xiàn)錯(cuò)標(biāo)或由于其他原因需要修改/刪除單個(gè)關(guān)系類型,則可以在關(guān)系保存區(qū)的關(guān)系類型上右擊,在彈出的快捷菜單中選擇“刪除”命令或“修改”命令。選擇“修改”命令后,操作區(qū)會回到單擊“確定”按鈕前的狀態(tài)。(7)保存當(dāng)前標(biāo)注結(jié)果。單擊頁面下方的“保存”按鈕可以保存當(dāng)前標(biāo)注結(jié)果?!氨4妗卑粹o主要用于保存已經(jīng)標(biāo)注的結(jié)果,以確保標(biāo)注中的結(jié)果不會丟失。單擊“保存”按鈕后,該按鈕會變成橙色,提示保存成功。(8)提交當(dāng)前任務(wù)。單擊“提交”按鈕即可提交當(dāng)前任務(wù)。單擊“提交”按鈕后,會呈現(xiàn)出參考答案與作答結(jié)果對比頁面。明確給出錯(cuò)誤點(diǎn)提示,以供學(xué)習(xí)者對比參考。(9)切換到下一題。單擊“提交”按鈕后,單擊參考答案與作答結(jié)果對比頁面中的按鈕手動換到下一題。對于已提交的題目,不能再修改。(10)查看答

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論