《數(shù)據(jù)標(biāo)注實訓(xùn)(初級)》中職全套教學(xué)課件_第1頁
《數(shù)據(jù)標(biāo)注實訓(xùn)(初級)》中職全套教學(xué)課件_第2頁
《數(shù)據(jù)標(biāo)注實訓(xùn)(初級)》中職全套教學(xué)課件_第3頁
《數(shù)據(jù)標(biāo)注實訓(xùn)(初級)》中職全套教學(xué)課件_第4頁
《數(shù)據(jù)標(biāo)注實訓(xùn)(初級)》中職全套教學(xué)課件_第5頁
已閱讀5頁,還剩318頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一章數(shù)據(jù)標(biāo)注實訓(xùn)數(shù)據(jù)標(biāo)注概述【ch01】數(shù)據(jù)標(biāo)注概述【ch02】數(shù)據(jù)標(biāo)注實訓(xùn)平臺【ch03】文本標(biāo)注實訓(xùn)【ch04】語音標(biāo)注—語音切割轉(zhuǎn)寫【ch05】圖像標(biāo)注—2D拉框【ch06】全流程項目實訓(xùn)全套可編輯PPT課件

01什么是數(shù)據(jù)標(biāo)注什么是數(shù)據(jù)標(biāo)注人工智能訓(xùn)練的過程好比人類成長的認(rèn)知過程,人類從呱呱墜地開始即處于不斷的主動或被動學(xué)習(xí)和認(rèn)知中。當(dāng)我們出生的時候,對這個世界是一無所知的。在成長過程中,身邊人會不斷地告訴我們這是什么,就這樣隨著反復(fù)的學(xué)習(xí)和強(qiáng)化,我們開始有了認(rèn)知,開始會叫爸爸、媽媽,開始認(rèn)識顏色、小貓、小狗、汽車、飛機(jī),并隨著學(xué)習(xí)過程的深入變得更加聰明。本課件是可編輯的正常PPT課件什么是數(shù)據(jù)標(biāo)注機(jī)器學(xué)習(xí)的過程也是如此。例如,我們想讓機(jī)器來認(rèn)識汽車,應(yīng)該怎么辦呢?首先我們需要知道的是,機(jī)器本身并不具備如人類一樣的認(rèn)知和思考能力,因此當(dāng)我們把汽車圖片展示給它的時候,它顯然不知道這張圖片代表著什么。所以,我們要將機(jī)器當(dāng)成孩子,像教孩子一樣地告訴它什么樣的物體是汽車。我們首先會拿來各式各樣大量的汽車圖片,并在圖片上加標(biāo)記之后將這些圖片數(shù)據(jù)“喂”給計算機(jī),告訴它這是汽車,并讓它認(rèn)知不同顏色、形狀、大小以及不同品牌的汽車。在計算機(jī)了解了大量的汽車特征后,我們再隨機(jī)挑選一張汽車圖片,它就會識別出這是汽車,甚至在我們拿著一張別的汽車圖片來給它的時候,它也能認(rèn)出這是汽車。本課件是可編輯的正常PPT課件什么是數(shù)據(jù)標(biāo)注上述機(jī)器識別汽車的結(jié)果就是人工智能訓(xùn)練的結(jié)果,這一過程也是從人工到智能的過程。人工智能并不是與生俱來的,它是要靠人工去輔助智能來實現(xiàn)的,因此人工智能包括人工和智能兩部分。智能的核心主要是算法模型,而人工的核心則是數(shù)據(jù)標(biāo)注。算法模型經(jīng)過對大量帶標(biāo)數(shù)據(jù)的學(xué)習(xí)之后,便具備了舉一反三的認(rèn)知能力。相應(yīng)地,上述給汽車圖片添加標(biāo)記的過程就是數(shù)據(jù)標(biāo)注。本課件是可編輯的正常PPT課件什么是數(shù)據(jù)標(biāo)注如果要給數(shù)據(jù)標(biāo)注下個定義,那么數(shù)據(jù)標(biāo)注便可以從狹義和廣義兩個角度來理解。狹義的數(shù)據(jù)標(biāo)注是指隨人工智能崛起而產(chǎn)生的一種新興職業(yè),是專門為人工智能模型訓(xùn)練提供訓(xùn)練數(shù)據(jù)的服務(wù)。在此過程中,需要通過某些工具或手段人為地為圖片、視頻、語音和文本數(shù)據(jù)添加分類、畫框、注釋等,例如為圖片畫框、將語音轉(zhuǎn)成文本、給文本或圖片及語音等添加分類,這些標(biāo)記后的數(shù)據(jù)成果可用于算法模型訓(xùn)練,提高模型效果。訓(xùn)練好的算法模型可以運用到圖像識別、語音識別、自動駕駛等不同領(lǐng)域。本課件是可編輯的正常PPT課件什么是數(shù)據(jù)標(biāo)注如今,隨著產(chǎn)業(yè)發(fā)展,數(shù)據(jù)標(biāo)注已經(jīng)被賦予了更多使命,也逐漸包含了更廣泛的任務(wù)類型。廣義來講,數(shù)據(jù)標(biāo)注是指一切與數(shù)據(jù)加工有關(guān)的服務(wù),包括數(shù)據(jù)清洗、格式調(diào)整、識別、整理、形式轉(zhuǎn)換等。數(shù)據(jù)標(biāo)注的起源可以追溯到2007年,這一年斯坦福大學(xué)的李飛飛教授等人啟動了ImageNet項目。這是一個依靠亞馬遜勞務(wù)眾包平臺進(jìn)行圖片分類和標(biāo)注的項目,目的是積累更好的數(shù)據(jù)集為機(jī)器學(xué)習(xí)算法提供服務(wù)。自2010年起,ImageNet項目每年都會組織一次視覺識別挑戰(zhàn)賽。隨著歷年挑戰(zhàn)賽的舉辦,各參賽團(tuán)隊的分類錯誤率逐年下降,這也為數(shù)據(jù)標(biāo)注積累了大量的經(jīng)驗和人才。本課件是可編輯的正常PPT課件02數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面2020年2月,人力資源和社會保障部與國家市場監(jiān)督管理總局、國家統(tǒng)計局聯(lián)合發(fā)布《人力資源社會保障部辦公廳市場監(jiān)管總局辦公廳統(tǒng)計局辦公室關(guān)于發(fā)布智能制造工程技術(shù)人員等職業(yè)信息的通知》(人社廳發(fā)〔2020〕17號)(以下稱為“通知”),新增“人工智能訓(xùn)練師”這一職業(yè),將其職責(zé)描述為:標(biāo)注和加工圖片、文字、語音等業(yè)務(wù)的原始數(shù)據(jù)。分析提煉專業(yè)領(lǐng)域特征,訓(xùn)練和評測人工智能產(chǎn)品相關(guān)算法、功能和性能。設(shè)計人工智能產(chǎn)品的交互流程和應(yīng)用解決方案。監(jiān)控、分析、管理人工智能產(chǎn)品應(yīng)用數(shù)據(jù)。調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面通知明確規(guī)定,人工智能訓(xùn)練的職業(yè)工種包括但不限于:數(shù)據(jù)標(biāo)注員和人工智能算法測試員。自此,在人工智能行業(yè)默默付出了十幾年的標(biāo)注從業(yè)者們,有了一個統(tǒng)一的職業(yè)名稱—人工智能訓(xùn)練師,新增職業(yè)信息的通知如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面2017年7月,國務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,其中也做出了相應(yīng)規(guī)劃,預(yù)計到2025年,人工智能核心產(chǎn)業(yè)規(guī)模超過4000億元,同時提出要大力帶動數(shù)據(jù)標(biāo)注、電子等相關(guān)產(chǎn)業(yè)的發(fā)展。這也預(yù)示了數(shù)據(jù)標(biāo)注行業(yè)不斷發(fā)展的趨勢,這種巨大的投入和市場規(guī)模,帶來的必然是大量數(shù)據(jù)標(biāo)注人才的需求。本課件是可編輯的正常PPT課件據(jù)2020年艾瑞咨詢《中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報告》顯示,2019年,中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模達(dá)到30.9億元,預(yù)計到2025年,市場規(guī)模將突破100億元,年增長21.8%。其中,圖像類、語音類、自然語言處理(NaturalLanguageProcessing,NLP)類數(shù)據(jù)需求占比分別為49.7%、39.1%和11.2%。在2021年艾瑞咨詢的更新報告中顯示,2020年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模達(dá)到37億元,同時到2025年的預(yù)測市場規(guī)模為107億元,與之前報告的預(yù)測值相比增加了7億元。從2020年的需求分布來看,圖像類、語音類、自然語言處理類數(shù)據(jù)需求占比分別為45.3%、43.5%和11.2%。由此可以看出,圖像和語音標(biāo)注仍然占據(jù)大部分市場,2020年與2021年中國AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場規(guī)模預(yù)測對比如下圖所示。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求目前,各行各業(yè)對人工智能算法研發(fā)的投入都在增大,而監(jiān)督和半監(jiān)督的學(xué)習(xí)方式在達(dá)到強(qiáng)人工智能階段之前,將一直占據(jù)主流地位。從一定意義上也可以說,數(shù)據(jù)標(biāo)注在相當(dāng)長一段時間內(nèi)仍將是人工智能技術(shù)不可逾越的一個環(huán)節(jié)。而且,由于人工智能技術(shù)要迫切地在行業(yè)落地,其對于模型指標(biāo)增長的需求將迫使數(shù)據(jù)標(biāo)注的需求量倍增。從標(biāo)注任務(wù)的形式和難度來說,隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注已不再是最初的畫框打點那樣簡單,而是要滿足智能模型訓(xùn)練的更多需求。數(shù)據(jù)標(biāo)注從開始的簡易標(biāo)注,已經(jīng)開始向復(fù)雜、多樣化的標(biāo)注方向發(fā)展。以導(dǎo)航為例,過去的導(dǎo)航只是2D平面的形式,現(xiàn)在不僅有2D模式,還有空間上的3D導(dǎo)航模式。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求行業(yè)對數(shù)據(jù)標(biāo)注人員的要求也和過去有著很大的區(qū)別。相比以前門檻低、技術(shù)要求低、崗前培訓(xùn)的寬松要求,現(xiàn)階段對數(shù)據(jù)標(biāo)注人員開始有了專業(yè)、學(xué)歷和學(xué)習(xí)能力的要求。而且部分標(biāo)注項目對專業(yè)性有著相當(dāng)高的要求,例如醫(yī)療、金融等行業(yè)標(biāo)注項目。伴隨著市場需求的持續(xù)增長,數(shù)據(jù)標(biāo)注行業(yè)對從業(yè)人員有了更加細(xì)致地劃分,標(biāo)注專員、標(biāo)注組長等崗位開始為人們所熟知。由于行業(yè)應(yīng)用越來越深入,行業(yè)對于數(shù)據(jù)標(biāo)注人員的能力水平要求也越來越高,高級的數(shù)據(jù)標(biāo)注人員會逐漸向人工智能訓(xùn)練師的方向進(jìn)行轉(zhuǎn)型和發(fā)展。從行業(yè)內(nèi)需來看,近年來各行各業(yè)都逐漸有了標(biāo)注需求,數(shù)據(jù)標(biāo)注的工作量也隨之增大,行業(yè)內(nèi)越來越需要更高效、更完善的標(biāo)注工具來輔助數(shù)據(jù)標(biāo)注人員完成任務(wù)?,F(xiàn)如今市面上標(biāo)注工具和標(biāo)注平臺有很多,從任務(wù)實施角度來說,基本上也可滿足數(shù)據(jù)標(biāo)注工作的需求,但還需進(jìn)行規(guī)范化和專業(yè)化。本課件是可編輯的正常PPT課件163數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展起初,數(shù)據(jù)服務(wù)企業(yè)通常是利用網(wǎng)絡(luò)爬蟲等工具進(jìn)行數(shù)據(jù)采集,然后將數(shù)據(jù)封裝打包賣給其他企業(yè)。這一階段中,通用的數(shù)據(jù)產(chǎn)品基本能滿足客戶的大部分需求。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)需求也隨之轉(zhuǎn)向定制化。AI對數(shù)據(jù)的要求非常高,數(shù)據(jù)的精準(zhǔn)性會影響AI算法模型的運行及使用效果。從2016年起,一些AI數(shù)據(jù)標(biāo)注眾包服務(wù)平臺慢慢發(fā)展起來,其中具有代表性的就是亞馬遜勞務(wù)眾包平臺(AmazonMechanicalTurk,MTurk)。MTurk作為國外最大的勞務(wù)眾包平臺,每天都有大量的人員在線進(jìn)行數(shù)據(jù)采集和標(biāo)注工作。在中國,人工智能的發(fā)展起步較晚,大約在2017年進(jìn)入研究的爆發(fā)階段。大量的科技公司也開始研發(fā)各種各樣的移動App,利用AI技術(shù)來實現(xiàn)人機(jī)交互。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展隨著標(biāo)注需求日益凸顯,各大互聯(lián)網(wǎng)巨頭企業(yè)率先占領(lǐng)了國內(nèi)數(shù)據(jù)服務(wù)市場,紛紛建立標(biāo)注平臺、標(biāo)注基地。一時間,數(shù)據(jù)標(biāo)注行業(yè)宛如一夜春風(fēng)吹過,遍地開花。目前,隨著人工智能應(yīng)用的發(fā)展越來越成熟,其也反過來對數(shù)據(jù)標(biāo)注行業(yè)起到了更明顯的指導(dǎo)和促進(jìn)作用。目前,數(shù)據(jù)標(biāo)注市場上呈現(xiàn)出一種發(fā)展趨勢,即開發(fā)智能標(biāo)注產(chǎn)品,通過提供少量的人工標(biāo)注數(shù)據(jù)作為基礎(chǔ),由機(jī)器自動對待標(biāo)注數(shù)據(jù)進(jìn)行大規(guī)模標(biāo)注。但通過此方式得出的標(biāo)注結(jié)果依然是無法與人工標(biāo)注的質(zhì)量相比的,也無法用于高要求的訓(xùn)練任務(wù),但依然能夠在一定程度上輔助和加快數(shù)據(jù)標(biāo)注進(jìn)程。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,從事數(shù)據(jù)標(biāo)注服務(wù)的公司和人員數(shù)量都在大規(guī)模增長,數(shù)據(jù)需求大量呈現(xiàn),標(biāo)注也更加多樣化、復(fù)雜化和精細(xì)化,這給數(shù)據(jù)標(biāo)注行業(yè)帶來了極大的生機(jī)。但在行業(yè)向前發(fā)展的同時,也呈現(xiàn)出一些問題,例如,由于數(shù)據(jù)標(biāo)注人員水平參差不齊,眾包模式下的數(shù)據(jù)質(zhì)量良莠不一;整個數(shù)據(jù)標(biāo)注行業(yè)缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,行業(yè)發(fā)展沒有依據(jù);特別是強(qiáng)人工智能的發(fā)展趨勢和需求已對數(shù)據(jù)標(biāo)注這份工作提出了更高的要求,僅能簡單標(biāo)注的數(shù)據(jù)標(biāo)注人員已無法滿足人工智能的更高要求。目前,高素質(zhì)人才稀缺,供給側(cè)業(yè)務(wù)水平遠(yuǎn)遠(yuǎn)趕不上需求側(cè)的要求,導(dǎo)致大量的高標(biāo)準(zhǔn)標(biāo)注項目無法完成,數(shù)據(jù)標(biāo)注已經(jīng)到了必須向高精尖、專業(yè)化方向發(fā)展的階段,所以行業(yè)內(nèi)急需經(jīng)過專業(yè)培訓(xùn)和教育、具備職業(yè)素養(yǎng)的人才。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(1)眾包結(jié)構(gòu)眾包結(jié)構(gòu)是數(shù)據(jù)標(biāo)注市場上最早興起的一種結(jié)構(gòu),需求公司通過眾包平臺發(fā)布標(biāo)注需求,數(shù)量眾多的標(biāo)注志愿者或兼職人員在平臺上自由領(lǐng)取標(biāo)注任務(wù)。眾包結(jié)構(gòu)的優(yōu)點是充分利用了大量社會兼職人員的業(yè)余時間、最大限度地節(jié)省了公司在標(biāo)注成本上的損耗。但這種結(jié)構(gòu)也有著明顯的弊端,眾多分散的數(shù)據(jù)標(biāo)注人員共同實施同一個大型的標(biāo)注項目,由于人員能力和水平參差不齊,經(jīng)常需要進(jìn)行有效溝通,而由于人員龐雜和時空限制,這種有效溝通往往需要花費很大的力氣才能實現(xiàn),這對于質(zhì)量管理來說是極大的障礙;此外,由于眾包平臺上人員混雜,接觸數(shù)據(jù)的人員眾多,極不利于數(shù)據(jù)的安全保密;而當(dāng)需求方需要對標(biāo)注需求進(jìn)行調(diào)整時,眾包的兼職人員也很難及時地配合對完成任務(wù)進(jìn)行修改和調(diào)整。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(1)眾包結(jié)構(gòu)眾包結(jié)構(gòu)是數(shù)據(jù)標(biāo)注市場上最早興起的一種結(jié)構(gòu),需求公司通過眾包平臺發(fā)布標(biāo)注需求,數(shù)量眾多的標(biāo)注志愿者或兼職人員在平臺上自由領(lǐng)取標(biāo)注任務(wù)。眾包結(jié)構(gòu)的優(yōu)點是充分利用了大量社會兼職人員的業(yè)余時間、最大限度地節(jié)省了公司在標(biāo)注成本上的損耗。但這種結(jié)構(gòu)也有著明顯的弊端,眾多分散的數(shù)據(jù)標(biāo)注人員共同實施同一個大型的標(biāo)注項目,由于人員能力和水平參差不齊,經(jīng)常需要進(jìn)行有效溝通,而由于人員龐雜和時空限制,這種有效溝通往往需要花費很大的力氣才能實現(xiàn),這對于質(zhì)量管理來說是極大的障礙;此外,由于眾包平臺上人員混雜,接觸數(shù)據(jù)的人員眾多,極不利于數(shù)據(jù)的安全保密;而當(dāng)需求方需要對標(biāo)注需求進(jìn)行調(diào)整時,眾包的兼職人員也很難及時地配合對完成任務(wù)進(jìn)行修改和調(diào)整。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(1)眾包結(jié)構(gòu)一些眾包平臺已經(jīng)意識到這種局限性,開始通過各種方式對平臺上的數(shù)據(jù)標(biāo)注質(zhì)量進(jìn)行把控。例如,對標(biāo)注人員進(jìn)行測評和考核,設(shè)置專門的質(zhì)檢人員等,通過淘汰的方式提高平臺內(nèi)數(shù)據(jù)標(biāo)注人員的工作能力,這在一定意義上也可以被認(rèn)為是行業(yè)開始進(jìn)步的表現(xiàn)。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(2)工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注市場上的第二種市場結(jié)構(gòu)是工廠結(jié)構(gòu),需求方或服務(wù)方成立專門的數(shù)據(jù)標(biāo)注公司,擁有專職的數(shù)據(jù)標(biāo)注人員。相較于眾包結(jié)構(gòu),工廠結(jié)構(gòu)有著穩(wěn)定的、專業(yè)的數(shù)據(jù)標(biāo)注人員,針對項目能夠?qū)崿F(xiàn)有效地交流溝通,且溝通成本低;從標(biāo)注實施效果來看,工廠結(jié)構(gòu)由于人力穩(wěn)定,也更能夠保證進(jìn)度和質(zhì)量;從安全保密性上來看,工廠結(jié)構(gòu)的數(shù)據(jù)傳遞過程也都可追溯,減少了數(shù)據(jù)泄露的可能性。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(2)工廠結(jié)構(gòu)但工廠結(jié)構(gòu)同樣存在缺點,即全職人員成本高,如無長期穩(wěn)定的項目很難保證公司的可持續(xù)發(fā)展。這正是很多標(biāo)注公司主要接收長期的大型項目,而不愿意涉獵短期的小型項目的原因,因為短期的小型項目在初期的培訓(xùn)測試階段,成本極高,項目額度過小則無法覆蓋成本。當(dāng)然,市場上有些小型公司為了生存也會選擇接收短期的小型項目,但當(dāng)標(biāo)注量突然增大時,小公司的標(biāo)注能力又難以應(yīng)付,顯得捉襟見肘?,F(xiàn)階段工廠結(jié)構(gòu)兩極化現(xiàn)象十分嚴(yán)重,大規(guī)模的數(shù)據(jù)標(biāo)注團(tuán)隊的人數(shù)可能超過數(shù)千人小規(guī)模團(tuán)隊的人數(shù)甚至不到10人。目前,市場上大規(guī)模的專業(yè)數(shù)據(jù)標(biāo)注公司不在少數(shù)。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場結(jié)構(gòu)(3)眾包+工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注的市場結(jié)構(gòu)不僅僅是以上兩種,也有一些企業(yè)將眾包結(jié)構(gòu)和工廠結(jié)構(gòu)進(jìn)行融合,方便對不同規(guī)模的項目進(jìn)行靈活的部署。這就是眾包+工廠結(jié)構(gòu)的混合形式的市場結(jié)構(gòu),這種結(jié)構(gòu)的標(biāo)注服務(wù)公司通常不僅有屬于自己的全職及兼職標(biāo)注團(tuán)隊,同時還擁有眾包平臺。這種結(jié)構(gòu)在一定程度上控制了成本,也保證了標(biāo)注的質(zhì)量和進(jìn)度,但對于數(shù)據(jù)安全仍然是無法保證的。由此可見,在標(biāo)注市場中,無論采用哪種結(jié)構(gòu),都具有優(yōu)點和缺點,而眾包+工廠相結(jié)合的形式能否成為數(shù)據(jù)標(biāo)注行業(yè)在未來的主流形式,還需要市場的檢驗。但無論采用哪種形式,都要優(yōu)先確保標(biāo)注的準(zhǔn)確性、進(jìn)度及數(shù)據(jù)安全性。是否具備這三方面的能力也將是未來標(biāo)注服務(wù)企業(yè)在市場上能否具有競爭力并占據(jù)優(yōu)勢的關(guān)鍵。本課件是可編輯的正常PPT課件03數(shù)據(jù)標(biāo)注的應(yīng)用場景數(shù)據(jù)標(biāo)注的應(yīng)用場景01智能教育以教育陪伴機(jī)器人為例,這一產(chǎn)品讓很多兒童對學(xué)習(xí)產(chǎn)生了濃厚的興趣。孩子們通過與教育陪伴機(jī)器人的對話和互動,在不知不覺間就獲得了快樂和知識。在這背后,是數(shù)據(jù)標(biāo)注的功勞。教育陪伴機(jī)器人所具備的語音及對話功能是需要通過語音識別及語音合成技術(shù)來實現(xiàn)的,與之相對應(yīng)的標(biāo)注類型就是語音轉(zhuǎn)寫及TTS類標(biāo)注。不僅如此,很多機(jī)器人還能聽懂孩子的指令,如為孩子打開音樂、視頻等,這背后也涉及大量的自然語言理解任務(wù)。為了讓機(jī)器人能夠聽懂不同人用不同方式表達(dá)的指令,往往需要對喚醒指令做大量的泛化標(biāo)注,例如,將“打開音樂”泛化成“播放歌曲”等。這些功能都是通過使用數(shù)據(jù)標(biāo)注完成的數(shù)據(jù)對算法模型進(jìn)行訓(xùn)練,從而實現(xiàn)的。智能教育陪伴機(jī)器人應(yīng)用場景如圖所示?!盎ヂ?lián)網(wǎng)+”大潮過后,“智能+”的概念逐漸深入到各大領(lǐng)域,成為推動各行各業(yè)發(fā)展的新動能,也對人們的生產(chǎn)和生活方式產(chǎn)生了深遠(yuǎn)的影響。教育這一關(guān)乎“國計民生”的行業(yè)更是率先垂范,力求在各環(huán)節(jié)實現(xiàn)智能化。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景01智能教育比較常見的智能教育場景還有英語口語發(fā)音訓(xùn)練及自動化口語評測服務(wù),這些應(yīng)用或產(chǎn)品通過語音識別技術(shù)營造了沉浸式的學(xué)習(xí)環(huán)境,并通過人機(jī)對話的互動方式讓學(xué)習(xí)者實現(xiàn)了聽、說、讀、寫等方面的學(xué)習(xí)。英語口語發(fā)音訓(xùn)練應(yīng)用場景如圖所示。此外,在這些場景的實現(xiàn)過程中,會涉及更多的標(biāo)注內(nèi)容。例如,英語口語發(fā)音訓(xùn)練需要通過大量的語音標(biāo)注來實現(xiàn)聲紋識別功能。同時,課程內(nèi)容的管控需要大量的暴恐敏感信息過濾,招生營銷也需要完成大量的智能外呼、語音質(zhì)檢、人臉融合等標(biāo)注。總之,智能教育的應(yīng)用場景還有很多,而智能教學(xué)設(shè)計和數(shù)字平臺等也正在利用人工智能技術(shù)幫助更多的學(xué)生彌補(bǔ)短板。在人工智能和機(jī)器學(xué)習(xí)改變教育形勢的道路上,數(shù)據(jù)標(biāo)注及內(nèi)容審核將成為永遠(yuǎn)不可或缺的一環(huán)。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景02智慧醫(yī)療人工智能與醫(yī)療行業(yè)的結(jié)合主要體現(xiàn)在醫(yī)療影像診斷及遠(yuǎn)程問診方面。隨著醫(yī)療技術(shù)的發(fā)展,醫(yī)療影像已逐漸由輔助檢查手段發(fā)展成為重要的診查方式。傳統(tǒng)模式下,醫(yī)療影像主要是由醫(yī)生肉眼讀取并以此為依據(jù)進(jìn)行診斷的。但肉眼診查的模式速度緩慢且耗時長,而且這種診查模式完全依賴于醫(yī)生的個人經(jīng)驗和能力,對專業(yè)人才的需求量極大。AI圖像識別技術(shù)的出現(xiàn)可謂是為醫(yī)療診斷帶來了福音。通過圖像識別技術(shù),可以對影像進(jìn)行自動比對,可完成病灶的自動識別,從而更快地完成診斷。利用圖像自動識別技術(shù)能提高診斷效率,還體現(xiàn)在AI圖像識別的抗疲勞性能上。AI圖像識別技術(shù)主要靠機(jī)器完成,可24小時不間斷診斷,且每秒處理的圖像成千上萬張,甚至更快,這一點也能大大提高效率。與高效率相比,更有價值的是圖像自動識別技術(shù)還能發(fā)現(xiàn)肉眼看不到的病灶,能夠幫助疑似患者診斷,從而避免漏診狀況的發(fā)生并為患者贏得最佳治療時機(jī)。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景02智慧醫(yī)療圖像識別技術(shù)之所以能夠得到成功的應(yīng)用,其背后離不開數(shù)據(jù)標(biāo)注的支持。圖像識別技術(shù)能夠在醫(yī)療領(lǐng)域發(fā)揮作用主要依托于圖像識別算法模型。模型并非是天生就能夠?qū)崿F(xiàn)圖像識別的,而是要通過訓(xùn)練才能獲得這一能力,而訓(xùn)練模型所用的原材料是標(biāo)注后的數(shù)據(jù)。一個圖像識別模型的訓(xùn)練需要大量帶標(biāo)數(shù)據(jù)的支持,就醫(yī)療影像識別而言,病灶標(biāo)注、骨骼關(guān)鍵點標(biāo)注、器官標(biāo)注、細(xì)胞標(biāo)注等都是常見的標(biāo)注類型。醫(yī)療影像標(biāo)注應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景02智慧醫(yī)療智慧醫(yī)療的另一種成功應(yīng)用是遠(yuǎn)程問診。遠(yuǎn)程問診在醫(yī)學(xué)專家與患者之間建立起全新的聯(lián)系,能使患者得到及時、有效地治療,也避免了患者尋醫(yī)問藥時的勞苦奔波。在遠(yuǎn)程問診場景下,患者能通過問診App或智能客服完成自我診斷。輸入癥狀后,智能自診可對文本進(jìn)行語義理解和分析,從文本中抽取出關(guān)鍵信息并與數(shù)據(jù)庫進(jìn)行比對,從而實現(xiàn)病癥信息的精準(zhǔn)匹配,進(jìn)而給出診斷結(jié)果。此外,醫(yī)生在遠(yuǎn)程診斷時還可以通過語音識別技術(shù)將需要存檔的手寫病歷以語音方式輸入,系統(tǒng)會自動生成文字形式的病歷材料,可大幅減輕工作負(fù)擔(dān)。遠(yuǎn)程問診場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景02智慧醫(yī)療在線問診功能的實現(xiàn)同樣離不開數(shù)據(jù)標(biāo)注的支持。語音識別技術(shù)的實現(xiàn)需要語音模型去學(xué)習(xí)大量多樣化的語音轉(zhuǎn)寫數(shù)據(jù),因此需要做大量的語音轉(zhuǎn)寫標(biāo)注;智能客服的實現(xiàn)需要NLP技術(shù)的輔助,比如信息抽取、句法分析、語義消歧、命名實體識別等,需要靠大量的關(guān)鍵詞標(biāo)注、指代鏈標(biāo)注、句法標(biāo)注、實體標(biāo)注等任務(wù)的支持,正是這些結(jié)構(gòu)化數(shù)據(jù)為人工智能訓(xùn)練提供支持才使得患者能夠在線上實現(xiàn)簡單的自我診斷。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景02智慧醫(yī)療盡管人工智能技術(shù)落地醫(yī)療領(lǐng)域在很大程度上緩解了醫(yī)療過程中存在的弊端和限制,使得醫(yī)療體系整體運行更加有效。但需要明確的是,目前的人工智能技術(shù)在醫(yī)療領(lǐng)域更多的還是起輔助作用,尚無法取代醫(yī)生。隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,其所提供的數(shù)據(jù)集會越來越精準(zhǔn)和多樣化,所涉及的應(yīng)用模型也會更加精準(zhǔn)有效,相信智慧醫(yī)療在科技高速發(fā)展的新時代會穩(wěn)扎穩(wěn)打,發(fā)揮更加重要的作用。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景03智慧司法在司法處理過程中,智慧司法的場景隨處可見。例如,司法機(jī)器人,能夠幫助當(dāng)事人完成遠(yuǎn)程立案、訴訟咨詢和引導(dǎo)、“隔空”庭審、當(dāng)庭判決等工作;通過機(jī)器學(xué)習(xí)算法實現(xiàn)的犯罪預(yù)測和預(yù)警系統(tǒng),能夠預(yù)測犯罪發(fā)生區(qū)域,并分析犯罪高發(fā)地和高發(fā)群體,從而為司法辦案提供指向性,爭取時間,并在必要時輔助調(diào)配警力;人臉識別技術(shù),通過人臉關(guān)鍵特征分析能夠幫助比對并鎖定犯罪嫌疑人;人工智能測謊儀,通過人物表情形態(tài)、語調(diào)、心率、局部溫度等分析,能夠精準(zhǔn)判別犯罪嫌疑人是否在說謊,從而輔助司法審訊。在司法AI的輔助下,辦案證據(jù)得到了有效地校驗、把關(guān)、提示、監(jiān)督,更加經(jīng)得起法律檢驗,刑事辦案過程實現(xiàn)了全程可視、全程留痕、全程監(jiān)督,司法有失公正及冤假錯案情況得到有效的防范。人工智能測謊儀應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景03智慧司法智慧司法的實現(xiàn)同樣也有數(shù)據(jù)標(biāo)注的功勞。例如,司法機(jī)器人要想實現(xiàn)精準(zhǔn)解答就要先做到語義理解,所以分詞、實體、句法標(biāo)注是必不可少的步驟,此外實現(xiàn)實時對話和解答還需要構(gòu)建大量的對話數(shù)據(jù)集并給出大量的關(guān)鍵詞,這些都需要通過數(shù)據(jù)標(biāo)注來完成。再比如,人工智能要輔助量刑,首先需要實現(xiàn)對司法案件的結(jié)構(gòu)化處理,需要通過對類似案件事由、原因、判決結(jié)果、適用法條、爭議焦點等信息進(jìn)行結(jié)構(gòu)化提取,從而通過訓(xùn)練后的模型來實現(xiàn)輔助判決,給出最優(yōu)的判決建議。另外,人臉比對技術(shù)的實現(xiàn)也需要大量的人臉標(biāo)注,線上庭審及司法審訊等書面記錄的實現(xiàn)也離不開語音轉(zhuǎn)寫標(biāo)注的支持。以數(shù)據(jù)標(biāo)注為基礎(chǔ)的智慧司法極大地避免了因情感或個人意愿影響而導(dǎo)致的判決結(jié)果偏差,但從當(dāng)前落地情況來看,其在判決相關(guān)的法理與人情的平衡方面還有很大的優(yōu)化空間。盡管如此,智慧司法為司法辦案帶來的便利仍然是不容小覷的,相信隨著數(shù)據(jù)標(biāo)注越來越精準(zhǔn)、機(jī)器學(xué)習(xí)越來越全面,人工智能技術(shù)在司法領(lǐng)域的應(yīng)用會越來越廣泛,效果也會越來越好。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景04智慧金融如今金融行業(yè),在產(chǎn)品研發(fā)、內(nèi)部管控、金融客服等方面,每個環(huán)節(jié)都有人工智能技術(shù)落地的典型場景。首先是刷臉支付、指紋支付逐漸替代了傳統(tǒng)的密碼支付,極大地簡化了支付流程,并避免了密碼泄露等風(fēng)險;其次是依托于語音交互技術(shù)的語音客服,明顯地減少了銀行或金融機(jī)構(gòu)等在客戶服務(wù)方面的人力投入;此外,還有在線客服機(jī)器人,可讓用戶在幾秒鐘內(nèi)輕松了解業(yè)務(wù)辦理流程并預(yù)約辦理時間,這些都在有效降低金融機(jī)構(gòu)運營成本的同時提升了客戶體驗。指紋支付應(yīng)用場景如圖所示。隨著機(jī)器學(xué)習(xí)、圖像識別等技術(shù)的落地,人工智能與金融行業(yè)的結(jié)合變得越來越緊密。在金融領(lǐng)域,有一個詞叫作“智慧金融”。智慧金融就是人工智能賦能于金融行業(yè)的應(yīng)用表現(xiàn)。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景04智慧金融智慧金融除了能輔助優(yōu)化業(yè)務(wù)流程并提高效率,還能輔助解決金融風(fēng)險和安全監(jiān)管方面的很多問題。例如,智慧金融能夠在借貸方面對借款人員進(jìn)行人際關(guān)系圖譜整理及消費和逾期行為分析,分析借款人員的還款能力及逾期風(fēng)險,可最大限度減少壞賬的產(chǎn)生,為金融企業(yè)提供保障。再比如,在金融監(jiān)管中,往往需要做股權(quán)穿透,從而監(jiān)控企業(yè)的運營行為及運營風(fēng)險等。這些都需要通過實體關(guān)系的標(biāo)注來支持。所以,如果沒有數(shù)據(jù)標(biāo)注的保障,智慧金融的智能化就無法得到完美呈現(xiàn)。智慧金融人工智能技術(shù)得以突破,背后離不開數(shù)據(jù)標(biāo)注的有力支持。首先是計算機(jī)視覺技術(shù),主要應(yīng)用了2D拉框、關(guān)鍵點、OCR等標(biāo)注類型;其次是語音交互技術(shù),主要應(yīng)用語音轉(zhuǎn)寫標(biāo)注;再到自然語言處理技術(shù),通常應(yīng)用到實體、關(guān)系、分類、意圖等標(biāo)注。銀行卡賬號OCR轉(zhuǎn)寫應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景05智慧出行當(dāng)下比較流行且成熟的智慧出行場景當(dāng)屬自動駕駛,在車輛自動駕駛中,人們只需要告訴設(shè)備出發(fā)地與目的地,便可以在不需人工干預(yù)的條件下順利地到達(dá)目的地。自動駕駛能夠躲避行人且遵守交通標(biāo)識主要是依靠算法模型的訓(xùn)練。而自動駕駛的算法模型主要以有監(jiān)督的深度學(xué)習(xí)為主,因此在訓(xùn)練過程中,需要大量的帶標(biāo)數(shù)據(jù)對模型進(jìn)行訓(xùn)練和優(yōu)化。自動駕駛場景如圖所示。人類的出行,從依靠雙腳到借助機(jī)械車輪、電氣化的翅膀,再到如今,其效率已經(jīng)得到了本質(zhì)的提升,這也為人類節(jié)省了極大的時間和成本。然而,這些方式卻仍然離不開人的控制和參與,直到自動駕駛技術(shù)的出現(xiàn),才打破了這一僵局。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景05智慧出行自動駕駛標(biāo)注主要以圖片標(biāo)注為主,2D拉框、3D點云、語義分割等都是其中應(yīng)用非常多的標(biāo)注類型。2D拉框中,需要用矩形框畫出交通場景圖片中的人物、車輛、障礙物等;3D點云需要結(jié)合2D圖片從該圖片的點云圖中用立體框畫出車輛、行人、障礙物等的點云輪廓;語義分割則需要按照語義用自定義畫框?qū)煌▓鼍爸械膱D片進(jìn)行區(qū)分,區(qū)分出圖片中的行人、車輛、道路、標(biāo)識、樹木、建筑物等。自動駕駛場景中的語義分割標(biāo)注如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景06智能家居近年來,在智能化、自動化高新技術(shù)的驅(qū)動下,智能家居行業(yè)進(jìn)入飛速發(fā)展時期。智能家居是最貼近我們生活的人工智能。從智能門鎖到智能開關(guān),再到智能音箱、智能窗簾、智能電視機(jī)和掃地機(jī)器人,智能家居極大地提高了人們的幸福感。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景06智能家居下班后走進(jìn)家門,簡單的一句“我回來了”,一瞬間燈光打開、電視機(jī)打開、熱水器打開,生活變得更舒適而愜意。這些智能家居設(shè)備,不僅能聽懂主人的語音指令,而且即使是在主人用不同的方式去表達(dá)指令時,也能實現(xiàn)相應(yīng)的功能。智能掃地機(jī)器人應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景06智能家居智能家居之所以能夠聽懂多種表達(dá)形式的指令,一方面是因為其具備語音識別功能,另一方面是因為其具備了一定的自然語言理解能力。語音識別能力和自然語言理解能力都是算法模型經(jīng)過大規(guī)模訓(xùn)練的結(jié)果。語音識別模型訓(xùn)練所依賴的語音轉(zhuǎn)寫標(biāo)注,在此不做詳細(xì)說明。智能家居設(shè)備要學(xué)習(xí)獲得自然語言理解能力則通常要用到意圖標(biāo)注、喚醒詞泛化標(biāo)注、控制詞采集等。在標(biāo)注過程中,數(shù)據(jù)標(biāo)注人員會針對不同的功能采集不同的喚醒詞,并對喚醒詞進(jìn)行多種形式的表達(dá),再將標(biāo)注后的數(shù)據(jù)給模型訓(xùn)練,從而使模型學(xué)習(xí)獲得相應(yīng)的能力,如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景06智能家居原始喚醒詞打開窗簾泛化結(jié)果開啟窗簾把窗簾打開拉開窗簾窗簾拉開窗簾給我打開開窗簾本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景07智慧農(nóng)業(yè)農(nóng)業(yè)是人民的衣食之源,也是人類的生命之本,更是國家重要的經(jīng)濟(jì)命脈。我國素有農(nóng)業(yè)大國之稱,因此農(nóng)業(yè)的高效可持續(xù)生態(tài)發(fā)展無疑是極為關(guān)鍵的。近年來,人工智能的發(fā)展也大力推動了我國農(nóng)業(yè)的發(fā)展,讓農(nóng)業(yè)在人工智能時代煥發(fā)出勃勃生機(jī)。目前,智慧農(nóng)業(yè)的應(yīng)用場景已有很多。例如,用于農(nóng)林植物保護(hù),實現(xiàn)智慧農(nóng)業(yè)藥劑噴灑作業(yè)的植保無人機(jī);用于精細(xì)化種植的智能化溫室;用于農(nóng)田收割的智能收割機(jī);依托測土配方施肥的智能配肥機(jī)以及用于養(yǎng)殖的智能養(yǎng)殖場等。通過與人工智能技術(shù)的融合,農(nóng)業(yè)變得更加高效、智慧和精細(xì)化,實現(xiàn)了規(guī)模化、集約化和工廠化發(fā)展,對自然環(huán)境風(fēng)險的抵御能力有所提升,也為農(nóng)業(yè)新生態(tài)建設(shè)提供了助力。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景07智慧農(nóng)業(yè)依托精準(zhǔn)的數(shù)據(jù)標(biāo)注,智慧農(nóng)業(yè)實現(xiàn)了對農(nóng)作物的定位及成熟度和生長狀態(tài)的識別,從而在這些數(shù)據(jù)與生長環(huán)境和時間之間建立關(guān)聯(lián),進(jìn)而實現(xiàn)自動施肥、自動農(nóng)藥撒播等,大大減少了人力投入并減少了農(nóng)藥等資源的浪費。在實現(xiàn)智慧農(nóng)業(yè)后,原本需要上百人的數(shù)百畝大棚現(xiàn)如今僅需三五個人即可輕松搞定。智慧農(nóng)業(yè)應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景07智慧農(nóng)業(yè)在智慧農(nóng)業(yè)中,主要應(yīng)用的標(biāo)注類型包括多邊形標(biāo)注、語義分割、視頻標(biāo)注等。通過多邊形、語義分割等標(biāo)注可以獲得農(nóng)作物生長狀態(tài)、土壤條件、農(nóng)作物病蟲害、禾苗生長情況等數(shù)據(jù),這使得智慧農(nóng)業(yè)具備了信息獲取、管理、分析等能力,可實現(xiàn)自動灌溉、降溫、施肥等自動控制功能。特別是通過視頻標(biāo)注實現(xiàn)的實時監(jiān)控,使得無人機(jī)能夠直觀地觀察農(nóng)作物的生長狀態(tài)并判斷營養(yǎng)水平,從而可為農(nóng)業(yè)種植提供更加科學(xué)的理論依據(jù)。農(nóng)作物病蟲害標(biāo)注應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景08智能營銷互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)購已成為廣大用戶的主流購物方式。隨著網(wǎng)絡(luò)營銷概念的普及,多元化的營銷手段層出不窮。拋開商家的營銷套路不談,智能營銷是各大電商平臺最為精準(zhǔn)的定向營銷。相信很多人在個人賬號下的購物App上都經(jīng)常會發(fā)現(xiàn)這樣的現(xiàn)象,在瀏覽購物頁面并搜索某種產(chǎn)品后,無論是否達(dá)成訂單,只要再次打開該款購物軟件,首頁和搜索欄中便會自動推送這種產(chǎn)品或類似產(chǎn)品。這是購物App中的標(biāo)配功能,通常被稱為個性化推薦??赡苣銜X得這很貼心,其實在這貼心的推薦背后,是數(shù)據(jù)標(biāo)注的功勞。每個用戶的瀏覽行為都反映了該用戶的品位、愛好和購物習(xí)慣,通過對這些瀏覽記錄進(jìn)行分析能夠挖掘出用戶背后的潛在需求,從而將該用戶發(fā)展成為潛在客戶或有效客戶。智能營銷的相似推薦應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景09智能安防智能安防是得益于人工智能技術(shù)的又一成功應(yīng)用場景。隨著經(jīng)濟(jì)發(fā)展,人們對于安防的認(rèn)識越來越深,社會對于安防的要求也越來越高。如今的生活中,傳統(tǒng)的安防設(shè)備及人員已不能滿足安全需求,智能安防的出現(xiàn)則給社會治理帶來了便利。目前,市面上出現(xiàn)的智能安防設(shè)備比比皆是,比如智能攝像頭、智能門禁、智能貓眼等,智能門禁的應(yīng)用場景如圖所示。以現(xiàn)在使用廣泛的智能攝像頭為例,智能攝像頭區(qū)別于傳統(tǒng)攝像頭的是智能攝像頭不僅能夠拍攝畫面,還能對畫面中的內(nèi)容進(jìn)行識別和區(qū)分。比如,靜止的畫面中突然出現(xiàn)了動態(tài),或者畫面中出現(xiàn)了人物,智能攝像頭都會對這些內(nèi)容進(jìn)行標(biāo)識并向相關(guān)人員示警。要實現(xiàn)這些功能,當(dāng)然少不了數(shù)據(jù)標(biāo)注的功勞。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景09智能安防在智能安防領(lǐng)域,應(yīng)用較多的人工智能技術(shù)是語音識別和圖像識別。在智能安防的語音識別中,主要應(yīng)用的是語音轉(zhuǎn)寫標(biāo)注。語音轉(zhuǎn)寫標(biāo)注支持的語音識別技術(shù)使得語音通話和問詢的實時轉(zhuǎn)錄成為可能。這不僅節(jié)省了保安、記錄員等人力資源,還大幅提升了工作效率。就安防圖像識別而言,常見的標(biāo)注場景是目標(biāo)跟蹤、人臉打點、人體關(guān)鍵點、手勢標(biāo)注、人物特征標(biāo)注等。通過標(biāo)注人物的性別、年齡、膚色、指紋、表情、衣著等,為模型訓(xùn)練提供了海量數(shù)據(jù),從而幫助機(jī)器實現(xiàn)快速識別。盡管智能安防已經(jīng)得到了成功應(yīng)用,但總體來說,其尚處于起步階段,因此還有很長的路要走。同時,隨著智能化程度越來越高,其對數(shù)據(jù)標(biāo)注的需求量也會急劇擴(kuò)大,數(shù)據(jù)標(biāo)注也必然會成為智能安防高度智能化道路上的主要問題。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景10智能制造智能制造一詞已為人們所熟知,這一理念也已成為行業(yè)的熱點。然而,很多人尚未認(rèn)識到的是,數(shù)據(jù)標(biāo)注已成為傳統(tǒng)制造向智能化轉(zhuǎn)變的必要環(huán)節(jié)。智能制造有著許多應(yīng)用場景,例如智能研發(fā)和設(shè)計;智能采購、訂單等。在車間里,帶有視覺系統(tǒng)的機(jī)器人,能夠像人一樣選取合適的零件。工廠里,高度智能化的質(zhì)檢機(jī)器人能夠像“黑臉包公”一樣篩選出所有的瑕疵產(chǎn)品,將生產(chǎn)質(zhì)量控制得分毫不差。這不僅節(jié)省了人力,而且將生產(chǎn)效率提高了無數(shù)倍。智能質(zhì)檢機(jī)器人的應(yīng)用場景如圖所示。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景10智能制造試想,這些智能質(zhì)檢機(jī)器人是如何辨別產(chǎn)品缺陷的?其實,這種智能化的背后都是數(shù)據(jù)標(biāo)注支持的結(jié)果。智能質(zhì)檢機(jī)器人之所以能精準(zhǔn)辨別產(chǎn)品缺陷,依靠的是其自身所具備的視覺能力,而這種視覺能力需要精準(zhǔn)度極高的視覺系統(tǒng)來實現(xiàn)。通過采集一定數(shù)量的產(chǎn)品的各個角度的圖片,由標(biāo)注人員進(jìn)行畫框、語義分割等標(biāo)注,這些帶有標(biāo)注的圖片就能夠幫助智能質(zhì)檢機(jī)器人訓(xùn)練出一雙智慧的“眼睛”,從而精準(zhǔn)地檢測出缺陷目標(biāo)。這也是數(shù)據(jù)標(biāo)注賦能于智能制造的一種體現(xiàn)?,F(xiàn)如今,數(shù)據(jù)標(biāo)注賦能的智能技術(shù)已不僅僅應(yīng)用于質(zhì)量檢查環(huán)節(jié),在物料評級環(huán)節(jié)也常有應(yīng)用。例如,通過對廢料、雜物等進(jìn)行等級或某些特征的標(biāo)注,經(jīng)過訓(xùn)練后的模型可應(yīng)用于廢料二次回收定級的環(huán)節(jié),既節(jié)省了所需的人力資源,又提高了工作效率。更重要的是,這種智能化的檢測也減少了因個人情感或素質(zhì)差異而導(dǎo)致的偏差和浪費現(xiàn)象。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景11智慧物流隨著互聯(lián)網(wǎng)的發(fā)展,電商行業(yè)崛起,網(wǎng)購已經(jīng)成為我們生活中不可缺少的一部分。從日常的購物到每年的“雙11”“618”等活動,網(wǎng)購無處不在。網(wǎng)購之所以能夠普及,得益于物流系統(tǒng)的完善,而網(wǎng)購成交量日益增長,傳統(tǒng)的物流模式已明顯跟不上節(jié)奏。如果只靠增加人工的方式滿足物流的需求,那么投入的成本將會十分巨大,而智慧物流的出現(xiàn)恰好打破了這一尷尬局面。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景11智慧物流以物流過程中的分揀步驟為例,尋常的人工分揀耗時耗力。以人工智能為基礎(chǔ)的分揀機(jī)器人的出現(xiàn),卻使得這一操作變得簡單。智慧物流系統(tǒng)根據(jù)貨架位置及訂單優(yōu)先級,就近調(diào)配分揀機(jī)器人,可實現(xiàn)快速、準(zhǔn)確的分揀。智能分揀機(jī)器人的應(yīng)用場景如圖所示。目前,智能分揀機(jī)器人已被很多大型物流公司采用。既能節(jié)省人力、提高效率,還能在很大程度上避免人員砸傷等問題,使得物流作業(yè)更加安全。除分揀機(jī)器人外,很多大公司還推出了配送機(jī)器人,只要設(shè)置好配送路線,這些機(jī)器人就可以實現(xiàn)無人化物流配送。本課件是可編輯的正常PPT課件數(shù)據(jù)標(biāo)注的應(yīng)用場景11智慧物流在智慧物流的實現(xiàn)過程中,主要解決的是計算機(jī)視覺和語言理解的問題。因此2D拉框、語義分割、實體標(biāo)注、詞性標(biāo)注等都是常用的標(biāo)注任務(wù)類型。隨著數(shù)據(jù)標(biāo)注的不斷發(fā)展,相信會有更多的智慧物流應(yīng)用出現(xiàn)在我們的日常生活中。上述場景僅僅是數(shù)據(jù)標(biāo)注輔助下的一小部分人工智能應(yīng)用場景。實際得益于數(shù)據(jù)標(biāo)注的應(yīng)用場景還有很多,例如,智慧園區(qū)、智能城市等,這里不再詳細(xì)說明??傊?,隨著越來越多人工智能應(yīng)用場景的實現(xiàn)和推廣,人類的生活會發(fā)生巨大的變化,而數(shù)據(jù)標(biāo)注的重要性也會越來越凸顯。本課件是可編輯的正常PPT課件04常見標(biāo)注任務(wù)類型介紹常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注1分詞、詞性標(biāo)注分詞是自然語言處理的最基礎(chǔ)步驟,該項標(biāo)注任務(wù)主要涉及中文分詞和詞性標(biāo)注任務(wù)。中文分詞的應(yīng)用很廣泛,信息檢索、漢字的智能輸入、中外文對譯、中文校對、自動摘要、自動分類等很多領(lǐng)域都能用到中文分詞。詞性標(biāo)注是指為分詞后生成的每個單詞標(biāo)注一個正確的詞性,也就是確定每個詞是名詞、動詞、形容詞或其他詞性的過程。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注2依存句法標(biāo)注依存句法標(biāo)注最根本的目標(biāo)是針對給定句子,構(gòu)建一棵依存句法樹,捕捉句子內(nèi)部詞語之間的修飾或搭配關(guān)系,從而刻畫出句子的句法結(jié)構(gòu)。在依存句法標(biāo)注中,一般以句子中的“謂詞”為核心,從而認(rèn)為其他成分都是直接或間接與動詞產(chǎn)生聯(lián)系。同時,需要了解的是,這種關(guān)系并非對等的,它是有方向的,依存句法樹示例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注3實體標(biāo)注實體標(biāo)注通常用于命名實體識別(NamedEntityRecognition,NER)任務(wù)。NER是NLP中一項非?;A(chǔ)的任務(wù),信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等很多NLP任務(wù)都離不開NER,NER的準(zhǔn)確度也決定著這些任務(wù)的效果,所以實體標(biāo)注是文本標(biāo)注中最常見的任務(wù)類型。實體是一種概念,一般指的是文本中具有特定意義或指代性較強(qiáng)的名稱詞,通常包括人名、地名、組織機(jī)構(gòu)名、日期時間、專有名詞等。實體這個概念很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱為實體,本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注3實體標(biāo)注在標(biāo)注過程中,實體標(biāo)注通常會以加標(biāo)簽的形式來實現(xiàn),實體標(biāo)注樣例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注關(guān)系標(biāo)注與實體標(biāo)注一樣,也是NLP中一個較為常見的重要任務(wù),其主要目的是標(biāo)注句子中實體之間所隱含的語義關(guān)系,即在實體識別的基礎(chǔ)上來確定文本中實體間的關(guān)系類別,并做成結(jié)構(gòu)化的數(shù)據(jù)。例如,郭子儀,字子儀,華州鄭縣人。從這句話中,我們可以判斷出人物郭子儀的出生地是華州鄭縣,因此可以標(biāo)注為郭子儀(出生地)華州鄭縣,這便是一條完整的關(guān)系。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注需要注意的是,關(guān)系標(biāo)注是有方向的,一般的關(guān)系方向為頭實體指向尾實體,描述為頭實體的關(guān)系人是尾實體或尾實體是頭實體的關(guān)系人。例如:文火火這一輩子實屬不易,好不容易將兒子文子平拉扯大。本句中,通常會將關(guān)系描述為頭實體(文火火)的子女是尾實體(文子平)或尾實體(文子平)是頭實體(文火火)的子女。同時還需要注意的是,在關(guān)系標(biāo)注時,通常僅應(yīng)標(biāo)注那些就當(dāng)前來說實際存在的關(guān)系,否則便無實際意義。例如,原局長程度、準(zhǔn)局長趙東來,這兩種職務(wù)關(guān)系都不需要標(biāo)注。本課件是可編輯的正常PPT課件0常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注在關(guān)系標(biāo)注中,頭實體、尾實體及兩者之間的關(guān)系通常被合稱為三元組。例如,在圖中,每一條記錄都是一個三元組。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注5事件標(biāo)注事件標(biāo)注是文本標(biāo)注中最具挑戰(zhàn)性的任務(wù)。首先,我們需要理解什么是事件。事件作為信息的一種表現(xiàn)形式,是指特定的人、物在特定時間和特定地點相互作用的客觀事實。事件標(biāo)注的主要目的是從非結(jié)構(gòu)化文本中標(biāo)注出特定事件的基本信息,并以結(jié)構(gòu)化形式呈現(xiàn)。通常來說,在事件標(biāo)注中需要抽取的要素主要包括事件的主體、客體、時間、地點、原因、結(jié)果等。例如,人物A于2019年8月前往中國會見人物B。在本句中,是一個會見事件,主體為人物A,客體為人物B,時間是2019年8月,地點是中國。這就是事件標(biāo)注大體要完成的任務(wù)。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注5事件標(biāo)注需要注意的是,在事件標(biāo)注過程中,只需要標(biāo)注實際發(fā)生的事件,未來要發(fā)生的以及當(dāng)前已經(jīng)不存在的事件標(biāo)注出來都沒有實際意義。在實際標(biāo)注過程中,事件標(biāo)注在系統(tǒng)中的實現(xiàn)方式有很多種,可以采用加標(biāo)簽的方式;也可以采用信息抽取的方式;還可以采用連線的方式,如圖所示為通過加標(biāo)簽的方式實現(xiàn)事件標(biāo)注。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注6意圖標(biāo)注意圖標(biāo)注是對話、搜索引擎及機(jī)器人等任務(wù)中最常見的標(biāo)注需求。它主要是指判斷文本所表達(dá)的目的,辨別出說話者想做什么或想了解什么,在標(biāo)注過程中,一般是通過加標(biāo)簽的方式實現(xiàn)。例如,為什么我的紅包能領(lǐng)不能用?這句話所表達(dá)的意圖就是“詢問紅包不好用的原因”;或者,我想找個價位便宜的酒店,其所表達(dá)的意圖就是“告知酒店價位檔次”并“詢問酒店名稱”。在意圖標(biāo)注任務(wù)中,有些任務(wù)的意圖并不是唯一的,也可能存在多種意圖的情況。同時有些任務(wù)也需要針對這些意圖去填寫槽值,如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注7關(guān)鍵詞標(biāo)注關(guān)鍵詞標(biāo)注是新聞領(lǐng)域中最常用的標(biāo)注任務(wù),其主要用于新聞的個性化推薦。通過標(biāo)注出的關(guān)鍵詞,可有針對性地為讀者推薦其關(guān)注或感興趣的新聞。那么,到底什么是關(guān)鍵詞?關(guān)鍵詞實際上是指反映一篇文章或一段文字核心內(nèi)容或主旨的詞或短語,一般情況下,看了關(guān)鍵詞之后,讀者能大體了解該篇文章主要講述的內(nèi)容是什么。關(guān)鍵詞標(biāo)注屬于較大的任務(wù)類型,在其大類下,還會根據(jù)不同的出發(fā)點和需求衍生出不同的子任務(wù)類型。例如,若標(biāo)注的出發(fā)點僅是為了反映文章的主旨內(nèi)容提高檢索率,則會采用最傳統(tǒng)的關(guān)鍵詞標(biāo)注,這類標(biāo)注一般會選擇反映文章中心思想的內(nèi)容或高頻詞;但若要以讀者興趣為出發(fā)點來為讀者推薦合適的文章,則需要標(biāo)注興趣標(biāo)簽,此時便需要標(biāo)注與文章主旨相關(guān)的、可能引起讀者興趣的詞或短語。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注7關(guān)鍵詞標(biāo)注但無論是常規(guī)關(guān)鍵詞標(biāo)注還是興趣標(biāo)簽標(biāo)注,都需要遵循關(guān)鍵詞標(biāo)注的基本規(guī)則。以興趣為導(dǎo)向的關(guān)鍵詞標(biāo)注案例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注8分類標(biāo)注分類標(biāo)注是自然語言處理的一個基本任務(wù),是指試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。分類標(biāo)注應(yīng)用非常廣泛,例如,垃圾過濾、新聞分類、詞性標(biāo)注等。同時,它也是一個很廣泛的概念,例如,實體標(biāo)注、意圖標(biāo)注等,只要是針對某一條數(shù)據(jù)加標(biāo)簽的操作在一定意義上都可以算作是分類標(biāo)注。分類標(biāo)注可以是一個維度的,也可以是多個維度的,這主要取決于需求方的需求。多維度分類標(biāo)注的案例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注9問句復(fù)述問句復(fù)述又稱為泛化,一般情況下,這種任務(wù)可以分為正例泛化和負(fù)例泛化兩種情況。正例泛化是指用不同的形式來表達(dá)相同的語義,即一句話百樣說。問句復(fù)述是自然語言中極其常見的現(xiàn)象,其可將提出的復(fù)雜問句改寫成一系列與其語義相同但形式不同的問句,避免了用戶提問的不規(guī)范,可大大降低系統(tǒng)對問句的理解和處理難度,對于提升自動問答系統(tǒng)的效果有著重要意義。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注9問句復(fù)述負(fù)例泛化是指問句的表達(dá)方式與原始問句相似,但意義不同。例如,種子問題為“你吃飯了嗎?”正例泛化的結(jié)果可以說成“用餐了沒有?”,負(fù)例泛化的結(jié)果可以說成“你中午吃的什么?”,正例泛化及負(fù)例泛化更多案例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注問答標(biāo)注10所謂問答標(biāo)注,實際上是指從原始文本中抽取出問題和相對應(yīng)的答案。由于原始文本類型不同,問題和答案的標(biāo)注方式也會發(fā)生變化。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注問答標(biāo)注10例如,有些文本中只能找到答案,所以需要標(biāo)注師根據(jù)答案去生成問題,此為半抽取半生成的混合式問答標(biāo)注;還有些文本中能同時找到問題和答案,將其原樣抽出即可,此為完全抽取式的問答標(biāo)注。問答標(biāo)注案例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注對話語料構(gòu)建11在現(xiàn)實生活中,對話語料構(gòu)建是構(gòu)建智能對話系統(tǒng)的重要組成部分,其主要目的是根據(jù)規(guī)定的對話路徑、要求描述及知識庫等模擬真實的應(yīng)用場景,構(gòu)建真實的對話,并在構(gòu)建對話的過程中,針對每句對話所涉及的知識點進(jìn)行查找并關(guān)聯(lián)和回填槽值。從對話輪數(shù)的角度來說,對話語料的構(gòu)建可能是單輪的,也可能是多輪的。單輪對話就是指一問一答即結(jié)束的對話;多輪對話就是指所構(gòu)建的對話中包括多輪問答。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注對話語料構(gòu)建11從對話的領(lǐng)域來說,對話語料的構(gòu)建可能是單領(lǐng)域的,也可能是跨領(lǐng)域的。跨領(lǐng)域是指一個對話任務(wù)中包含多個領(lǐng)域的子任務(wù),例如,從旅游出行→餐館→酒店→交通等領(lǐng)域,多個領(lǐng)域的問答完成后,一個對話方可結(jié)束??珙I(lǐng)域多輪對話案例如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注知識圖譜驗證12知識圖譜驗證是知識圖譜構(gòu)建的一個重要環(huán)節(jié),它是對知識圖譜質(zhì)量的最終檢驗。知識圖譜的構(gòu)建并不是一個靜態(tài)的過程,當(dāng)向原有知識圖譜引入新知識時,需要先確定該條新知識是否正確,并判斷其與已有知識是否一致。如果新知識是正確的,就可將其融合到原有知識圖譜中;如果新舊知識間存在沖突,那么要對這些知識進(jìn)行審核和判斷,確定是原有知識錯誤,還是新的知識錯誤。在有了判定結(jié)果后,就要對錯誤的知識進(jìn)行補(bǔ)全、糾錯或更新,然后再融合到原有的知識圖譜中。知識圖譜驗證的任務(wù)較為復(fù)雜,其要考慮到原有知識圖譜及當(dāng)前知識的準(zhǔn)確性,還要兼顧新知識與原有知識圖譜的融合,并對新舊知識中相同的實體做對應(yīng)關(guān)聯(lián)處理。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹02語音標(biāo)注語音標(biāo)注中常見的任務(wù)類型之一,包括音頻切割和語音轉(zhuǎn)寫兩個步驟。音頻切割要求數(shù)據(jù)標(biāo)注人員將語音按照規(guī)定的時間間隔進(jìn)行分割,標(biāo)注過程中通過打點剪切的方式得以實現(xiàn);語音轉(zhuǎn)寫是指將音頻中的內(nèi)容轉(zhuǎn)寫成文字的過程,這一過程通常是以手動錄入的形式實施。語音切割轉(zhuǎn)寫標(biāo)注如圖所示。(1)語音切割轉(zhuǎn)寫本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹02語音標(biāo)注(2)語音校對語音校對是一種與語音切割轉(zhuǎn)寫類似的任務(wù),但其難度要低于語音切割轉(zhuǎn)寫。語音校對主要涉及的是語音轉(zhuǎn)文字方面的工作,是指針對原始的語音轉(zhuǎn)寫結(jié)果進(jìn)行檢查和修改。這些原始的語音轉(zhuǎn)寫結(jié)果一般為語音模型預(yù)處理的結(jié)果,這樣能夠使標(biāo)注的速度更快,同時也比語音切割轉(zhuǎn)寫任務(wù)要更容易一些。語音校對標(biāo)注如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹02語音標(biāo)注(3)拼音和停頓標(biāo)注拼音標(biāo)注屬于TTS(語音合成)類任務(wù)中最常見也是最難的任務(wù),主要目的是對照音頻和文本為文本添加拼音及聲調(diào)。該任務(wù)通?;陬A(yù)處理結(jié)果來實現(xiàn)的,主要是審核拼音拼寫及聲調(diào)是否準(zhǔn)確,確認(rèn)文本與音頻是否對應(yīng)及按照音頻的停頓時長、標(biāo)注長短停頓等。拼音和停頓標(biāo)注如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹02語音標(biāo)注(4)語音采集語音采集任務(wù)主要是指錄制語音,目的是為各類語音研究提供基礎(chǔ)資料。該任務(wù)通常會對環(huán)境等各方面因素有一定的要求。例如,要求錄音場景底噪、混響值、錄音人分貝等都要處于一定的范圍;有些任務(wù)需要有相應(yīng)的錄音設(shè)備;還有些任務(wù)需要在錄制語音的同時真人出鏡。為了使語音數(shù)據(jù)覆蓋更加全面,語音采集任務(wù)通常還會對錄制人的年齡群體及地區(qū)等有分布上的要求。語音采集任務(wù)的場景比較豐富,常見的有方言采集、檢喊票采集、生產(chǎn)車間語音采集、停車場語音采集、語音客服采集、酒店語音自助服務(wù)采集等。在做相應(yīng)的任務(wù)時,應(yīng)嚴(yán)格按照需求方的標(biāo)準(zhǔn)實施。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹02語音標(biāo)注(5)字幕時間戳校正字幕時間戳校正主要是針對視頻或音頻字幕的,不同于轉(zhuǎn)寫類任務(wù)。轉(zhuǎn)寫類任務(wù)主要是對音頻轉(zhuǎn)換的文字進(jìn)行審核和校改,而字幕時間戳校正任務(wù)不需要對文字進(jìn)行處理。字幕時間戳校正的主要任務(wù)是確認(rèn)音頻與文字內(nèi)容間的時間對應(yīng)問題,確保聲音和文字內(nèi)容同步展示。文本在屏幕上呈現(xiàn),當(dāng)聲音停止時,文字在屏幕上消失。所以在聽音過程中,發(fā)現(xiàn)某段音頻與文字不對應(yīng)或起止時間有偏差時,便需要做相應(yīng)的時間調(diào)整。字幕時間戳校正如圖所示。本課件是可編輯的正常PPT課件(1)拉框標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注拉框標(biāo)注是圖像標(biāo)注中常見的一種任務(wù)類型,主要是指用2D框、3D框、多邊形框等標(biāo)注出圖像中的指定目標(biāo)對象,2D拉框標(biāo)注如圖所示。通常來說,在拉框后還需要針對每個框加上類別標(biāo)簽。例如,用矩形框框選出圖片中的小孩,并加上顏色標(biāo)簽等。在標(biāo)注時,通常會有有效對象和無效對象之分,往往會將尺寸過小或遮擋過于嚴(yán)重的對象標(biāo)為無效對象。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(2)語義分割語義分割是計算機(jī)視覺中非常重要的標(biāo)注任務(wù),它實際上是從像素級別進(jìn)行圖像識別,也就是說,要針對圖像中的每個像素標(biāo)注出對象類別。這樣做的目的是預(yù)測圖像中每一個像素的類標(biāo)簽。在這一過程中,我們會將從視覺角度看起來不同類的部分按照語義分到不同的類別中,從而實現(xiàn)圖像的“語義理解”。例如,從圖中提取出所有的“羊”,或者將“羊”和“草地”區(qū)分開,不同的區(qū)域打上不同的顏色和標(biāo)簽。如圖所示,圖中為對車道、行人等進(jìn)行語義分割,分別將天空、車道、不同類型的車輛、行人、樹木等涂上不同的顏色。本課件是可編輯的正常PPT課件(3)關(guān)鍵點標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注關(guān)鍵點標(biāo)注是指在目標(biāo)對象的規(guī)定位置加上關(guān)鍵點,例如,在人臉圖片上用點標(biāo)注出眼角、鼻尖、嘴角等關(guān)鍵位置或在人體圖像上標(biāo)出骨骼或穴位的位置等,關(guān)鍵點標(biāo)注如圖所示。關(guān)鍵點標(biāo)注技術(shù)在人臉識別、情感分析、人臉追蹤、動作分類、行為識別等方面都有重要的作用。模型借助關(guān)鍵點標(biāo)注理解各個點在運動中的移動軌跡,從而實現(xiàn)更復(fù)雜的判斷。同時,需要注意的是,在打點過程中要保證點位的準(zhǔn)確性,當(dāng)有關(guān)鍵點位被遮蓋時,需要預(yù)估點的位置并清晰地表示出來。在標(biāo)注過程中,要嚴(yán)格遵循標(biāo)注規(guī)范,保證標(biāo)注的準(zhǔn)確性。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(4)3D點云標(biāo)注3D點云是一種非常適合3D場景理解的數(shù)據(jù),通常被認(rèn)為是表示三維世界的一種較好的方法。相對于真實的3D圖像,點云有著特有的深度表達(dá)優(yōu)勢。換言之,3D點云直接給出了物體長度、寬度和深度三個維度的數(shù)據(jù),而不需像真實3D圖像那樣,需要通過透視幾何來反推三維數(shù)據(jù)。3D點云數(shù)據(jù)可以清晰地表示所有的物體,小到幾毫米,大到幾十米甚至成百上千米。自動駕駛領(lǐng)域是目前其常用的領(lǐng)域。因此,在圖像標(biāo)注領(lǐng)域中,3D點云標(biāo)注也是非常重要的一種標(biāo)注類型。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(4)3D點云標(biāo)注在圖像標(biāo)注中,3D點云標(biāo)注是指從點云圖中找出目標(biāo)對象,并以立方體框的形式標(biāo)注出來,在自動駕駛場景中,需要標(biāo)注的對象通常包括車輛、行人、廣告標(biāo)志和數(shù)據(jù)等。需要注意的是,在點云標(biāo)注任務(wù)中,平面圖通常起到參考作用,為的是判斷目標(biāo)對象的位置以及方向等,3D點云標(biāo)注如圖所示。本課件是可編輯的正常PPT課件(5)線標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注線標(biāo)注通常用于自動駕駛應(yīng)用中的車道線標(biāo)注,有直線也有曲線。主要是對道路地面的標(biāo)線進(jìn)行標(biāo)注。與矩形框標(biāo)注不同,線標(biāo)注能夠更精確的表示線性對象的位置,不會包含過多的噪聲和空白,是介于多邊形與關(guān)鍵點標(biāo)注之間的一種標(biāo)注形式。車道線的標(biāo)注也并非完全的畫線操作,在實際標(biāo)注過程中,還會涉及車道線區(qū)域的標(biāo)注、分類及語義標(biāo)注等。車道線標(biāo)注如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(6)目標(biāo)跟蹤目標(biāo)跟蹤是計算機(jī)視覺中一個重要的研究方向。在軍事制導(dǎo)、視頻監(jiān)控、機(jī)器人視覺導(dǎo)航、人機(jī)交互,以及醫(yī)療診斷等許多方面有著非常廣泛的應(yīng)用前景。目標(biāo)跟蹤是從視頻數(shù)據(jù)中按幀捕捉某一對象,并進(jìn)行畫框標(biāo)注,目標(biāo)跟蹤標(biāo)注如圖所示。目標(biāo)跟蹤是一個極具挑戰(zhàn)性的任務(wù)。對于運動目標(biāo)而言,其運動的場景非常復(fù)雜并且經(jīng)常發(fā)生變化,或是目標(biāo)本身也會不斷發(fā)生變化,這些都無形中加大了目標(biāo)跟蹤任務(wù)的難度,數(shù)據(jù)標(biāo)注人員需要根據(jù)其他特征進(jìn)行腦補(bǔ)并找出對應(yīng)的目標(biāo),從而進(jìn)行標(biāo)注。本課件是可編輯的正常PPT課件(7)圖像分類常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注圖像分類是計算機(jī)視覺中較為簡單的任務(wù),主要是指針對給定圖像判斷出圖像或圖像中的對象所屬的類別。因此,該任務(wù)類型一般包括兩個維度的標(biāo)注:一種是標(biāo)注整個圖像場景的類別;另一種是標(biāo)注圖像中對象的類別。而從標(biāo)注層級來說,圖像分類可以是一級標(biāo)注也可以是多級標(biāo)注,所采用的方式一般都是系統(tǒng)加標(biāo)簽的方式,圖像分類標(biāo)注如圖所示。本課件是可編輯的正常PPT課件常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(8)OCR識別計算機(jī)文字識別,俗稱光學(xué)字符識別,它是利用光學(xué)技術(shù)和計算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計算機(jī)能夠接受、人又可以理解的格式。OCR技術(shù)是實現(xiàn)文字高速錄入的一項關(guān)鍵技術(shù)。在數(shù)據(jù)標(biāo)注領(lǐng)域,OCR識別常見的任務(wù)主要有發(fā)票文字識別、圖片文字識別等。在識別任務(wù)中,一般會借助專業(yè)的OCR識別軟件,再根據(jù)實際情況進(jìn)行校改,常見的OCR識別軟件有ABBYY等。在實際標(biāo)注過程中,很多公司也會針對這類任務(wù)開發(fā)自己的標(biāo)注工具,OCR識別標(biāo)注如圖所示。本課件是可編輯的正常PPT課件感謝觀看數(shù)據(jù)標(biāo)注實訓(xùn)第二章數(shù)據(jù)標(biāo)注實訓(xùn)數(shù)據(jù)標(biāo)注實訓(xùn)平臺01平臺基本功能介紹平臺基本功能介紹可對學(xué)員個人信息進(jìn)行編輯和設(shè)置,如圖所示。01學(xué)員端1個人中心本課件是可編輯的正常PPT課件平臺基本功能介紹01學(xué)員端2實訓(xùn)中心學(xué)員進(jìn)行數(shù)據(jù)標(biāo)注訓(xùn)練的入口,教師分配的所有實訓(xùn)任務(wù)均可通過單擊【進(jìn)入學(xué)習(xí)】按鈕進(jìn)入相應(yīng)頁面進(jìn)行學(xué)習(xí),如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹01學(xué)員端3學(xué)習(xí)引導(dǎo)對各任務(wù)類型頁面操作流程及步驟的分解演示,學(xué)員如果對操作有疑問,可通過單擊【學(xué)習(xí)引導(dǎo)】按鈕進(jìn)入相應(yīng)頁面進(jìn)行學(xué)習(xí),如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹01學(xué)員端4意見反饋對內(nèi)容意見、產(chǎn)品建議、技術(shù)問題、在線投訴等的反饋渠道,如圖2-5所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(1)修改密碼對個人登錄密碼進(jìn)行設(shè)置和修改,如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(2)平臺概況總覽對平臺總體使用情況的統(tǒng)計和展示,如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(3)班級管理此模塊主要用于創(chuàng)建、維護(hù)班級或分組信息,并進(jìn)行班內(nèi)成員的實操題目配置,如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(4)學(xué)員信息管理教師用來進(jìn)行本班學(xué)員信息的管理和維護(hù),如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(5)添加試卷可針對指定班級進(jìn)行試題的下發(fā)和分配,如圖所示。本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(6)創(chuàng)建標(biāo)注類型教師可為學(xué)員添加或創(chuàng)建新的標(biāo)注類型,創(chuàng)建新的標(biāo)注類型后,學(xué)員實操頁面會顯示該標(biāo)注類型,如圖所示。本課件是可編輯的正常PPT課件可針對某一標(biāo)簽類型添加或修改標(biāo)簽工具,如圖所示。平臺基本功能介紹02教師端(7)創(chuàng)建標(biāo)簽工具本課件是可編輯的正常PPT課件平臺基本功能介紹02教師端(8)創(chuàng)建試題可新增、修改、刪除試題,如圖所示。本課件是可編輯的正常PPT課件可將多個題目組合成一套試卷,如圖所示。平臺基本功能介紹02教師端(9)組卷管理本課件是可編輯的正常PPT課件02平臺支持標(biāo)注類型及操作頁面展示平臺支持標(biāo)注類型及操作頁面展示01實體標(biāo)注通過單擊標(biāo)簽的方式實現(xiàn),在頁面上可實現(xiàn)規(guī)范文件預(yù)覽、字體調(diào)整等,操作簡單方便、效率高,實體標(biāo)注如圖所示。本課件是可編輯的正常PPT課件平臺支持標(biāo)注類型及操作頁面展示02分類標(biāo)注通過加標(biāo)簽方式實現(xiàn),能支持針對圖片、文本的分類,支持多級標(biāo)簽、多維度標(biāo)簽、意圖填槽值等標(biāo)注,分類標(biāo)注如圖所示。本課件是可編輯的正常PPT課件平臺支持標(biāo)注類型及操作頁面展示03語音切割轉(zhuǎn)寫標(biāo)注通過打點剪切的方式實現(xiàn)切割功能,通過手動錄入方式實現(xiàn)文字轉(zhuǎn)寫功能,支持語音播放、文字編輯、加標(biāo)簽等,語音切割轉(zhuǎn)寫標(biāo)注如圖所示。本課件是可編輯的正常PPT課件平臺支持標(biāo)注類型及操作頁面展示042D拉框標(biāo)注通過鼠標(biāo)拖曳方式實現(xiàn)標(biāo)注,支持“十字線”輔助、標(biāo)簽隱藏、圖片拖動、撤銷操作等,2D拉框標(biāo)注如圖所示。本課件是可編輯的正常PPT課件感謝觀看數(shù)據(jù)標(biāo)注實訓(xùn)第三章數(shù)據(jù)標(biāo)注實訓(xùn)文本標(biāo)注實訓(xùn)01分類標(biāo)注分類標(biāo)注在NLP算法中,分類是指試圖推斷出給定數(shù)據(jù)(文本、語音、圖像)的標(biāo)簽或標(biāo)簽集合。當(dāng)然,這是從算法技術(shù)層面給出的定義,本節(jié)主要是參照上述定義從標(biāo)注層面做出理解。從標(biāo)注實施的角度來講,分類是根據(jù)給定數(shù)據(jù)(文本、語音、圖像)某一方面的特點或?qū)傩詠斫o數(shù)據(jù)歸類,判斷該條數(shù)據(jù)屬于哪個類別,并加上對應(yīng)的標(biāo)簽。分類標(biāo)注的任務(wù)范圍非常廣泛,意圖標(biāo)注及本節(jié)要學(xué)習(xí)的相關(guān)性標(biāo)注等都屬于這一范疇。01認(rèn)識分類標(biāo)注意圖標(biāo)注分類標(biāo)注本課件是可編輯的正常PPT課件分類標(biāo)注在分類標(biāo)注任務(wù)中,標(biāo)注的對象可以有多種,文本、圖像、語音都有可能,本任務(wù)的主要對象是網(wǎng)頁文本。就相關(guān)性標(biāo)注而言,在實際標(biāo)注過程中,通常會采用多遍標(biāo)注的方式。例如,標(biāo)注兩遍,對比后針對不同的標(biāo)注結(jié)果由第三人進(jìn)行質(zhì)檢,或直接標(biāo)注三遍,取兩個相同的結(jié)果等。本節(jié)對任務(wù)進(jìn)行了簡化,按照每個任務(wù)標(biāo)注一遍來進(jìn)行設(shè)計,重點幫助學(xué)習(xí)者初步理解任務(wù)。02分類標(biāo)注實訓(xùn)之相關(guān)性標(biāo)注本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范對所給關(guān)鍵詞或問題與頁面呈現(xiàn)答案之間進(jìn)行對比,確認(rèn)答案能否解答問題,解答的程度如何,并加上對應(yīng)的標(biāo)簽。本任務(wù)中標(biāo)簽共有四個層級,分別是完美解答、部分解答、部分涉及和無關(guān)解答。(1)任務(wù)目標(biāo)本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范①標(biāo)注時,應(yīng)全局查看,不可單純地以某一個詞為依據(jù),例如,對于關(guān)鍵詞“紅燒魚做法”,不能因為結(jié)果中體現(xiàn)了“魚”而判斷為“部分解答”。②針對每個關(guān)鍵詞給出的結(jié)果是否能完美地解答該關(guān)鍵詞的問題,應(yīng)參照對應(yīng)的意圖描述來判斷,而不可自行猜測。③標(biāo)注頁面上提供了結(jié)果的參考網(wǎng)址,當(dāng)頁面內(nèi)容亂碼或顯示不出來時,應(yīng)以網(wǎng)址內(nèi)的實際內(nèi)容為依據(jù)。(2)基本標(biāo)注原則本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(3)具體說明相關(guān)性類別具體說明完美解答答案內(nèi)容與關(guān)鍵詞非常相關(guān),可以完整地解答關(guān)鍵詞所表達(dá)的提問意圖,可以直接使用部分解答答案內(nèi)容與關(guān)鍵詞有相關(guān)之處,但所給出的答案結(jié)果明顯是不完整的部分涉及答案內(nèi)容僅僅提到了關(guān)鍵詞的意圖或僅做了討論,或者針對與問題主體相關(guān)的內(nèi)容進(jìn)行了解答,但并未給出任何有用的解答無關(guān)解答答案內(nèi)容跑題,與關(guān)鍵詞所表達(dá)的意圖完全沒有關(guān)系,也起不到任何參考作用本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范標(biāo)題即提問時所使用的關(guān)鍵詞。例如,當(dāng)使用關(guān)鍵詞“美容養(yǎng)生”提問時,可能是想要了解美容養(yǎng)生店鋪或了解美容養(yǎng)生小竅門等。描述主要是對關(guān)鍵詞意圖的解釋,明確告訴標(biāo)注者該關(guān)鍵詞到底是想要了解什么內(nèi)容。內(nèi)容來源即標(biāo)注內(nèi)容的來源鏈接,單擊進(jìn)入即可查看原始解答頁面。在出現(xiàn)顯示不全、亂碼或其他顯示錯誤的情況下,標(biāo)注者可單擊內(nèi)容來源進(jìn)入原始頁面,從而做出準(zhǔn)確判斷。①②③(3)具體說明本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(4)注意事項①所有標(biāo)注結(jié)果的判斷應(yīng)該按照標(biāo)注規(guī)范嚴(yán)格執(zhí)行,判斷標(biāo)準(zhǔn)應(yīng)保持一致不可出現(xiàn)偏差判斷的情況。②當(dāng)所給結(jié)果中僅粗略提到了相關(guān)的主題時,應(yīng)理解為答案中涉及這一議題,但未做出解答,因此判斷為部分涉及。③部分涉及與部分解答的區(qū)別在于,部分涉及僅僅涉及議題但并未給出有用的參考;而部分解答不僅涉及了議題,還給出了部分答案,但答案并不完整。本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實施頁面a.進(jìn)入實訓(xùn)中心頁面b.進(jìn)入任務(wù)實施頁面本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實施頁面a.進(jìn)入實訓(xùn)中心頁面b.進(jìn)入任務(wù)實施頁面本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實施頁面a.進(jìn)入實訓(xùn)中心頁面b.進(jìn)入任務(wù)實施頁面本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁面操作詳解a.標(biāo)注任務(wù)領(lǐng)取本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁面操作詳解b.選擇標(biāo)簽本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁面操作詳解c.保存d.提交本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁面操作詳解e.切換至下一題f.查看答案本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁面操作詳解g.查看標(biāo)注規(guī)范本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例1—【完美解答】本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例2—【部分解答】本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例3—【部分涉及】本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例4—【無關(guān)解答】本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項目案例分析案例1解析:案例1中標(biāo)題為“響水天氣預(yù)報”,根據(jù)意圖描述可以確定,這是針對響水近期天氣情況給出的結(jié)果,而圖中的結(jié)果完全能夠解答關(guān)鍵詞的提問,因此可以判斷為“完美解答”。本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項目案例分析案例2解析:案例2中標(biāo)題的意圖是“好用的護(hù)發(fā)產(chǎn)品”,而下方結(jié)果給出的是護(hù)膚知識,對于解答問題來說起不到任何幫助,因此應(yīng)判斷為“無關(guān)解答”。本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項目案例分析案例3解析:案例3中標(biāo)題的意圖是要查找“用白醋刷鞋的步驟及用量”,而下方結(jié)果中給出了白醋刷鞋的基本操作步驟,但并未給出明確的白醋用量,比如3滴、5滴等,而只說了“一些”,因此屬于給出了部分解答內(nèi)容,而并未完整解答問題,所以應(yīng)判斷為“部分解答”。本課件是可編輯的正常PPT課件分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項目案例分析案例4解析:案例4中標(biāo)題的意圖是“給寶寶打疫苗應(yīng)該去哪里”,而下方結(jié)果中給出的卻是打疫苗的注意事項,僅僅涉及了打疫苗的相關(guān)事項,但并未明確回答問題,屬于略有涉及主題,可判斷為【部分涉及】。本課件是可編輯的正常PPT課件02命名實體標(biāo)注命名實體標(biāo)注01認(rèn)識命名實體及實體標(biāo)注要解開實體標(biāo)注之謎,首先要了解什么是命名實體。事實上,命名實體指的是文本中具有特定意義或指代性強(qiáng)的專有名詞,例如,人名(王小花、李三毛)、地名(北京、上海)、組織機(jī)構(gòu)名(SAE)等。其中,“人名”“地名”“組織機(jī)構(gòu)名”屬于實體類別,而實體類別后括號內(nèi)的值“王小花”“北京”“SAE”等是被識別出來的具體實體詞。本課件是可編輯的正常PPT課件命名實體標(biāo)注01認(rèn)識命名實體及實體標(biāo)注當(dāng)然,在實際標(biāo)注工作中,實體類別并非只有這幾類,而每個標(biāo)注任務(wù)的實體類別也并不是固定的。例如,任務(wù)1可能需要標(biāo)注人名、地名、公司名,但任務(wù)2可能需要標(biāo)注部隊名、產(chǎn)品名、武器名等。所以,實體這個概念可以很廣泛,只要是符合業(yè)務(wù)需要的、具有特定意義的文本片段(專有名詞)都可以被稱為實體,例如,《西游記》(書名)、《八駿全圖》(畫作名)等。而每個任務(wù)需要標(biāo)注哪些實體類別主要是由兩個方面決定的:一是原始文本所屬領(lǐng)域不同,導(dǎo)致在確定實體類別時側(cè)重點不同;二是需求者的實際需求有差異。如前面所述的例子,任務(wù)1只需要標(biāo)注人名、地名等通用類別,很可能是因為原始文本本身并不是專業(yè)領(lǐng)域的文本;而任務(wù)2則很有可能是軍事領(lǐng)域的文本,所以才會要求標(biāo)注武器名等實體。而在針對某次標(biāo)注任務(wù)準(zhǔn)備原始數(shù)據(jù)時,需求者往往會按照真實需求去篩選文本,確保能夠得到更多想要的標(biāo)注結(jié)果。本課件是可編輯的正常PPT課件命名實體標(biāo)注01認(rèn)識命名實體及實體標(biāo)注盡管實體類別會因為文本領(lǐng)域不同而產(chǎn)生變化,但業(yè)內(nèi)人士仍然基于較長時期的應(yīng)用經(jīng)驗總結(jié)出了所有領(lǐng)域文本通用的實體類別,常見實體類別如表所示。實體英文名稱實體釋義舉例PERSON人名史密斯LOCATION地名北京DATE日期2020年6月20日TIME時間下午3﹕00MONEY金額¥2000PERCENT百分比3%POST職務(wù)總統(tǒng)、總理、副主任COUNTRY國家中國ORGANIZATION組織機(jī)構(gòu)北溝小學(xué)COMPANY公司遼寧盤石數(shù)據(jù)科技有限公司本課件是可編輯的正常PPT課件命名實體標(biāo)注01認(rèn)識命名實體及實體標(biāo)注表為行業(yè)內(nèi)10種通用的實體類別,也是實際實體標(biāo)注任務(wù)中常見的類別。通過表格中的例子,我們可以看出,這些例子都是有特指意義的,換言之,也就是看到這些例子之后,我們的腦海中能夠很直觀地反

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論