數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(初級(jí))課件全套 ch01 數(shù)據(jù)標(biāo)注概述 -ch06 全流程項(xiàng)目實(shí)訓(xùn)_第1頁(yè)
數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(初級(jí))課件全套 ch01 數(shù)據(jù)標(biāo)注概述 -ch06 全流程項(xiàng)目實(shí)訓(xùn)_第2頁(yè)
數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(初級(jí))課件全套 ch01 數(shù)據(jù)標(biāo)注概述 -ch06 全流程項(xiàng)目實(shí)訓(xùn)_第3頁(yè)
數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(初級(jí))課件全套 ch01 數(shù)據(jù)標(biāo)注概述 -ch06 全流程項(xiàng)目實(shí)訓(xùn)_第4頁(yè)
數(shù)據(jù)標(biāo)注實(shí)訓(xùn)(初級(jí))課件全套 ch01 數(shù)據(jù)標(biāo)注概述 -ch06 全流程項(xiàng)目實(shí)訓(xùn)_第5頁(yè)
已閱讀5頁(yè),還剩318頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章數(shù)據(jù)標(biāo)注實(shí)訓(xùn)數(shù)據(jù)標(biāo)注概述“數(shù)據(jù)標(biāo)注”人才培養(yǎng)系列叢書01什么是數(shù)據(jù)標(biāo)注什么是數(shù)據(jù)標(biāo)注人工智能訓(xùn)練的過(guò)程好比人類成長(zhǎng)的認(rèn)知過(guò)程,人類從呱呱墜地開始即處于不斷的主動(dòng)或被動(dòng)學(xué)習(xí)和認(rèn)知中。當(dāng)我們出生的時(shí)候,對(duì)這個(gè)世界是一無(wú)所知的。在成長(zhǎng)過(guò)程中,身邊人會(huì)不斷地告訴我們這是什么,就這樣隨著反復(fù)的學(xué)習(xí)和強(qiáng)化,我們開始有了認(rèn)知,開始會(huì)叫爸爸、媽媽,開始認(rèn)識(shí)顏色、小貓、小狗、汽車、飛機(jī),并隨著學(xué)習(xí)過(guò)程的深入變得更加聰明。什么是數(shù)據(jù)標(biāo)注機(jī)器學(xué)習(xí)的過(guò)程也是如此。例如,我們想讓機(jī)器來(lái)認(rèn)識(shí)汽車,應(yīng)該怎么辦呢?首先我們需要知道的是,機(jī)器本身并不具備如人類一樣的認(rèn)知和思考能力,因此當(dāng)我們把汽車圖片展示給它的時(shí)候,它顯然不知道這張圖片代表著什么。所以,我們要將機(jī)器當(dāng)成孩子,像教孩子一樣地告訴它什么樣的物體是汽車。我們首先會(huì)拿來(lái)各式各樣大量的汽車圖片,并在圖片上加標(biāo)記之后將這些圖片數(shù)據(jù)“喂”給計(jì)算機(jī),告訴它這是汽車,并讓它認(rèn)知不同顏色、形狀、大小以及不同品牌的汽車。在計(jì)算機(jī)了解了大量的汽車特征后,我們?cè)匐S機(jī)挑選一張汽車圖片,它就會(huì)識(shí)別出這是汽車,甚至在我們拿著一張別的汽車圖片來(lái)給它的時(shí)候,它也能認(rèn)出這是汽車。什么是數(shù)據(jù)標(biāo)注上述機(jī)器識(shí)別汽車的結(jié)果就是人工智能訓(xùn)練的結(jié)果,這一過(guò)程也是從人工到智能的過(guò)程。人工智能并不是與生俱來(lái)的,它是要靠人工去輔助智能來(lái)實(shí)現(xiàn)的,因此人工智能包括人工和智能兩部分。智能的核心主要是算法模型,而人工的核心則是數(shù)據(jù)標(biāo)注。算法模型經(jīng)過(guò)對(duì)大量帶標(biāo)數(shù)據(jù)的學(xué)習(xí)之后,便具備了舉一反三的認(rèn)知能力。相應(yīng)地,上述給汽車圖片添加標(biāo)記的過(guò)程就是數(shù)據(jù)標(biāo)注。什么是數(shù)據(jù)標(biāo)注如果要給數(shù)據(jù)標(biāo)注下個(gè)定義,那么數(shù)據(jù)標(biāo)注便可以從狹義和廣義兩個(gè)角度來(lái)理解。狹義的數(shù)據(jù)標(biāo)注是指隨人工智能崛起而產(chǎn)生的一種新興職業(yè),是專門為人工智能模型訓(xùn)練提供訓(xùn)練數(shù)據(jù)的服務(wù)。在此過(guò)程中,需要通過(guò)某些工具或手段人為地為圖片、視頻、語(yǔ)音和文本數(shù)據(jù)添加分類、畫框、注釋等,例如為圖片畫框、將語(yǔ)音轉(zhuǎn)成文本、給文本或圖片及語(yǔ)音等添加分類,這些標(biāo)記后的數(shù)據(jù)成果可用于算法模型訓(xùn)練,提高模型效果。訓(xùn)練好的算法模型可以運(yùn)用到圖像識(shí)別、語(yǔ)音識(shí)別、自動(dòng)駕駛等不同領(lǐng)域。什么是數(shù)據(jù)標(biāo)注如今,隨著產(chǎn)業(yè)發(fā)展,數(shù)據(jù)標(biāo)注已經(jīng)被賦予了更多使命,也逐漸包含了更廣泛的任務(wù)類型。廣義來(lái)講,數(shù)據(jù)標(biāo)注是指一切與數(shù)據(jù)加工有關(guān)的服務(wù),包括數(shù)據(jù)清洗、格式調(diào)整、識(shí)別、整理、形式轉(zhuǎn)換等。數(shù)據(jù)標(biāo)注的起源可以追溯到2007年,這一年斯坦福大學(xué)的李飛飛教授等人啟動(dòng)了ImageNet項(xiàng)目。這是一個(gè)依靠亞馬遜勞務(wù)眾包平臺(tái)進(jìn)行圖片分類和標(biāo)注的項(xiàng)目,目的是積累更好的數(shù)據(jù)集為機(jī)器學(xué)習(xí)算法提供服務(wù)。自2010年起,ImageNet項(xiàng)目每年都會(huì)組織一次視覺識(shí)別挑戰(zhàn)賽。隨著歷年挑戰(zhàn)賽的舉辦,各參賽團(tuán)隊(duì)的分類錯(cuò)誤率逐年下降,這也為數(shù)據(jù)標(biāo)注積累了大量的經(jīng)驗(yàn)和人才。02數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面2020年2月,人力資源和社會(huì)保障部與國(guó)家市場(chǎng)監(jiān)督管理總局、國(guó)家統(tǒng)計(jì)局聯(lián)合發(fā)布《人力資源社會(huì)保障部辦公廳市場(chǎng)監(jiān)管總局辦公廳統(tǒng)計(jì)局辦公室關(guān)于發(fā)布智能制造工程技術(shù)人員等職業(yè)信息的通知》(人社廳發(fā)〔2020〕17號(hào))(以下稱為“通知”),新增“人工智能訓(xùn)練師”這一職業(yè),將其職責(zé)描述為:標(biāo)注和加工圖片、文字、語(yǔ)音等業(yè)務(wù)的原始數(shù)據(jù)。分析提煉專業(yè)領(lǐng)域特征,訓(xùn)練和評(píng)測(cè)人工智能產(chǎn)品相關(guān)算法、功能和性能。設(shè)計(jì)人工智能產(chǎn)品的交互流程和應(yīng)用解決方案。監(jiān)控、分析、管理人工智能產(chǎn)品應(yīng)用數(shù)據(jù)。調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面通知明確規(guī)定,人工智能訓(xùn)練的職業(yè)工種包括但不限于:數(shù)據(jù)標(biāo)注員和人工智能算法測(cè)試員。自此,在人工智能行業(yè)默默付出了十幾年的標(biāo)注從業(yè)者們,有了一個(gè)統(tǒng)一的職業(yè)名稱—人工智能訓(xùn)練師,新增職業(yè)信息的通知如圖所示。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀01政策層面2017年7月,國(guó)務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,其中也做出了相應(yīng)規(guī)劃,預(yù)計(jì)到2025年,人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)4000億元,同時(shí)提出要大力帶動(dòng)數(shù)據(jù)標(biāo)注、電子等相關(guān)產(chǎn)業(yè)的發(fā)展。這也預(yù)示了數(shù)據(jù)標(biāo)注行業(yè)不斷發(fā)展的趨勢(shì),這種巨大的投入和市場(chǎng)規(guī)模,帶來(lái)的必然是大量數(shù)據(jù)標(biāo)注人才的需求。據(jù)2020年艾瑞咨詢《中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報(bào)告》顯示,2019年,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模達(dá)到30.9億元,預(yù)計(jì)到2025年,市場(chǎng)規(guī)模將突破100億元,年增長(zhǎng)21.8%。其中,圖像類、語(yǔ)音類、自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)類數(shù)據(jù)需求占比分別為49.7%、39.1%和11.2%。在2021年艾瑞咨詢的更新報(bào)告中顯示,2020年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模達(dá)到37億元,同時(shí)到2025年的預(yù)測(cè)市場(chǎng)規(guī)模為107億元,與之前報(bào)告的預(yù)測(cè)值相比增加了7億元。從2020年的需求分布來(lái)看,圖像類、語(yǔ)音類、自然語(yǔ)言處理類數(shù)據(jù)需求占比分別為45.3%、43.5%和11.2%。由此可以看出,圖像和語(yǔ)音標(biāo)注仍然占據(jù)大部分市場(chǎng),2020年與2021年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模預(yù)測(cè)對(duì)比如下圖所示。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求目前,各行各業(yè)對(duì)人工智能算法研發(fā)的投入都在增大,而監(jiān)督和半監(jiān)督的學(xué)習(xí)方式在達(dá)到強(qiáng)人工智能階段之前,將一直占據(jù)主流地位。從一定意義上也可以說(shuō),數(shù)據(jù)標(biāo)注在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)仍將是人工智能技術(shù)不可逾越的一個(gè)環(huán)節(jié)。而且,由于人工智能技術(shù)要迫切地在行業(yè)落地,其對(duì)于模型指標(biāo)增長(zhǎng)的需求將迫使數(shù)據(jù)標(biāo)注的需求量倍增。從標(biāo)注任務(wù)的形式和難度來(lái)說(shuō),隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注已不再是最初的畫框打點(diǎn)那樣簡(jiǎn)單,而是要滿足智能模型訓(xùn)練的更多需求。數(shù)據(jù)標(biāo)注從開始的簡(jiǎn)易標(biāo)注,已經(jīng)開始向復(fù)雜、多樣化的標(biāo)注方向發(fā)展。以導(dǎo)航為例,過(guò)去的導(dǎo)航只是2D平面的形式,現(xiàn)在不僅有2D模式,還有空間上的3D導(dǎo)航模式。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀02行業(yè)需求行業(yè)對(duì)數(shù)據(jù)標(biāo)注人員的要求也和過(guò)去有著很大的區(qū)別。相比以前門檻低、技術(shù)要求低、崗前培訓(xùn)的寬松要求,現(xiàn)階段對(duì)數(shù)據(jù)標(biāo)注人員開始有了專業(yè)、學(xué)歷和學(xué)習(xí)能力的要求。而且部分標(biāo)注項(xiàng)目對(duì)專業(yè)性有著相當(dāng)高的要求,例如醫(yī)療、金融等行業(yè)標(biāo)注項(xiàng)目。伴隨著市場(chǎng)需求的持續(xù)增長(zhǎng),數(shù)據(jù)標(biāo)注行業(yè)對(duì)從業(yè)人員有了更加細(xì)致地劃分,標(biāo)注專員、標(biāo)注組長(zhǎng)等崗位開始為人們所熟知。由于行業(yè)應(yīng)用越來(lái)越深入,行業(yè)對(duì)于數(shù)據(jù)標(biāo)注人員的能力水平要求也越來(lái)越高,高級(jí)的數(shù)據(jù)標(biāo)注人員會(huì)逐漸向人工智能訓(xùn)練師的方向進(jìn)行轉(zhuǎn)型和發(fā)展。從行業(yè)內(nèi)需來(lái)看,近年來(lái)各行各業(yè)都逐漸有了標(biāo)注需求,數(shù)據(jù)標(biāo)注的工作量也隨之增大,行業(yè)內(nèi)越來(lái)越需要更高效、更完善的標(biāo)注工具來(lái)輔助數(shù)據(jù)標(biāo)注人員完成任務(wù)。現(xiàn)如今市面上標(biāo)注工具和標(biāo)注平臺(tái)有很多,從任務(wù)實(shí)施角度來(lái)說(shuō),基本上也可滿足數(shù)據(jù)標(biāo)注工作的需求,但還需進(jìn)行規(guī)范化和專業(yè)化。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展起初,數(shù)據(jù)服務(wù)企業(yè)通常是利用網(wǎng)絡(luò)爬蟲等工具進(jìn)行數(shù)據(jù)采集,然后將數(shù)據(jù)封裝打包賣給其他企業(yè)。這一階段中,通用的數(shù)據(jù)產(chǎn)品基本能滿足客戶的大部分需求。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)需求也隨之轉(zhuǎn)向定制化。AI對(duì)數(shù)據(jù)的要求非常高,數(shù)據(jù)的精準(zhǔn)性會(huì)影響AI算法模型的運(yùn)行及使用效果。從2016年起,一些AI數(shù)據(jù)標(biāo)注眾包服務(wù)平臺(tái)慢慢發(fā)展起來(lái),其中具有代表性的就是亞馬遜勞務(wù)眾包平臺(tái)(AmazonMechanicalTurk,MTurk)。MTurk作為國(guó)外最大的勞務(wù)眾包平臺(tái),每天都有大量的人員在線進(jìn)行數(shù)據(jù)采集和標(biāo)注工作。在中國(guó),人工智能的發(fā)展起步較晚,大約在2017年進(jìn)入研究的爆發(fā)階段。大量的科技公司也開始研發(fā)各種各樣的移動(dòng)App,利用AI技術(shù)來(lái)實(shí)現(xiàn)人機(jī)交互。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展隨著標(biāo)注需求日益凸顯,各大互聯(lián)網(wǎng)巨頭企業(yè)率先占領(lǐng)了國(guó)內(nèi)數(shù)據(jù)服務(wù)市場(chǎng),紛紛建立標(biāo)注平臺(tái)、標(biāo)注基地。一時(shí)間,數(shù)據(jù)標(biāo)注行業(yè)宛如一夜春風(fēng)吹過(guò),遍地開花。目前,隨著人工智能應(yīng)用的發(fā)展越來(lái)越成熟,其也反過(guò)來(lái)對(duì)數(shù)據(jù)標(biāo)注行業(yè)起到了更明顯的指導(dǎo)和促進(jìn)作用。目前,數(shù)據(jù)標(biāo)注市場(chǎng)上呈現(xiàn)出一種發(fā)展趨勢(shì),即開發(fā)智能標(biāo)注產(chǎn)品,通過(guò)提供少量的人工標(biāo)注數(shù)據(jù)作為基礎(chǔ),由機(jī)器自動(dòng)對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行大規(guī)模標(biāo)注。但通過(guò)此方式得出的標(biāo)注結(jié)果依然是無(wú)法與人工標(biāo)注的質(zhì)量相比的,也無(wú)法用于高要求的訓(xùn)練任務(wù),但依然能夠在一定程度上輔助和加快數(shù)據(jù)標(biāo)注進(jìn)程。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀03行業(yè)發(fā)展隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,從事數(shù)據(jù)標(biāo)注服務(wù)的公司和人員數(shù)量都在大規(guī)模增長(zhǎng),數(shù)據(jù)需求大量呈現(xiàn),標(biāo)注也更加多樣化、復(fù)雜化和精細(xì)化,這給數(shù)據(jù)標(biāo)注行業(yè)帶來(lái)了極大的生機(jī)。但在行業(yè)向前發(fā)展的同時(shí),也呈現(xiàn)出一些問題,例如,由于數(shù)據(jù)標(biāo)注人員水平參差不齊,眾包模式下的數(shù)據(jù)質(zhì)量良莠不一;整個(gè)數(shù)據(jù)標(biāo)注行業(yè)缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,行業(yè)發(fā)展沒有依據(jù);特別是強(qiáng)人工智能的發(fā)展趨勢(shì)和需求已對(duì)數(shù)據(jù)標(biāo)注這份工作提出了更高的要求,僅能簡(jiǎn)單標(biāo)注的數(shù)據(jù)標(biāo)注人員已無(wú)法滿足人工智能的更高要求。目前,高素質(zhì)人才稀缺,供給側(cè)業(yè)務(wù)水平遠(yuǎn)遠(yuǎn)趕不上需求側(cè)的要求,導(dǎo)致大量的高標(biāo)準(zhǔn)標(biāo)注項(xiàng)目無(wú)法完成,數(shù)據(jù)標(biāo)注已經(jīng)到了必須向高精尖、專業(yè)化方向發(fā)展的階段,所以行業(yè)內(nèi)急需經(jīng)過(guò)專業(yè)培訓(xùn)和教育、具備職業(yè)素養(yǎng)的人才。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(1)眾包結(jié)構(gòu)眾包結(jié)構(gòu)是數(shù)據(jù)標(biāo)注市場(chǎng)上最早興起的一種結(jié)構(gòu),需求公司通過(guò)眾包平臺(tái)發(fā)布標(biāo)注需求,數(shù)量眾多的標(biāo)注志愿者或兼職人員在平臺(tái)上自由領(lǐng)取標(biāo)注任務(wù)。眾包結(jié)構(gòu)的優(yōu)點(diǎn)是充分利用了大量社會(huì)兼職人員的業(yè)余時(shí)間、最大限度地節(jié)省了公司在標(biāo)注成本上的損耗。但這種結(jié)構(gòu)也有著明顯的弊端,眾多分散的數(shù)據(jù)標(biāo)注人員共同實(shí)施同一個(gè)大型的標(biāo)注項(xiàng)目,由于人員能力和水平參差不齊,經(jīng)常需要進(jìn)行有效溝通,而由于人員龐雜和時(shí)空限制,這種有效溝通往往需要花費(fèi)很大的力氣才能實(shí)現(xiàn),這對(duì)于質(zhì)量管理來(lái)說(shuō)是極大的障礙;此外,由于眾包平臺(tái)上人員混雜,接觸數(shù)據(jù)的人員眾多,極不利于數(shù)據(jù)的安全保密;而當(dāng)需求方需要對(duì)標(biāo)注需求進(jìn)行調(diào)整時(shí),眾包的兼職人員也很難及時(shí)地配合對(duì)完成任務(wù)進(jìn)行修改和調(diào)整。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(1)眾包結(jié)構(gòu)眾包結(jié)構(gòu)是數(shù)據(jù)標(biāo)注市場(chǎng)上最早興起的一種結(jié)構(gòu),需求公司通過(guò)眾包平臺(tái)發(fā)布標(biāo)注需求,數(shù)量眾多的標(biāo)注志愿者或兼職人員在平臺(tái)上自由領(lǐng)取標(biāo)注任務(wù)。眾包結(jié)構(gòu)的優(yōu)點(diǎn)是充分利用了大量社會(huì)兼職人員的業(yè)余時(shí)間、最大限度地節(jié)省了公司在標(biāo)注成本上的損耗。但這種結(jié)構(gòu)也有著明顯的弊端,眾多分散的數(shù)據(jù)標(biāo)注人員共同實(shí)施同一個(gè)大型的標(biāo)注項(xiàng)目,由于人員能力和水平參差不齊,經(jīng)常需要進(jìn)行有效溝通,而由于人員龐雜和時(shí)空限制,這種有效溝通往往需要花費(fèi)很大的力氣才能實(shí)現(xiàn),這對(duì)于質(zhì)量管理來(lái)說(shuō)是極大的障礙;此外,由于眾包平臺(tái)上人員混雜,接觸數(shù)據(jù)的人員眾多,極不利于數(shù)據(jù)的安全保密;而當(dāng)需求方需要對(duì)標(biāo)注需求進(jìn)行調(diào)整時(shí),眾包的兼職人員也很難及時(shí)地配合對(duì)完成任務(wù)進(jìn)行修改和調(diào)整。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(1)眾包結(jié)構(gòu)一些眾包平臺(tái)已經(jīng)意識(shí)到這種局限性,開始通過(guò)各種方式對(duì)平臺(tái)上的數(shù)據(jù)標(biāo)注質(zhì)量進(jìn)行把控。例如,對(duì)標(biāo)注人員進(jìn)行測(cè)評(píng)和考核,設(shè)置專門的質(zhì)檢人員等,通過(guò)淘汰的方式提高平臺(tái)內(nèi)數(shù)據(jù)標(biāo)注人員的工作能力,這在一定意義上也可以被認(rèn)為是行業(yè)開始進(jìn)步的表現(xiàn)。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(2)工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注市場(chǎng)上的第二種市場(chǎng)結(jié)構(gòu)是工廠結(jié)構(gòu),需求方或服務(wù)方成立專門的數(shù)據(jù)標(biāo)注公司,擁有專職的數(shù)據(jù)標(biāo)注人員。相較于眾包結(jié)構(gòu),工廠結(jié)構(gòu)有著穩(wěn)定的、專業(yè)的數(shù)據(jù)標(biāo)注人員,針對(duì)項(xiàng)目能夠?qū)崿F(xiàn)有效地交流溝通,且溝通成本低;從標(biāo)注實(shí)施效果來(lái)看,工廠結(jié)構(gòu)由于人力穩(wěn)定,也更能夠保證進(jìn)度和質(zhì)量;從安全保密性上來(lái)看,工廠結(jié)構(gòu)的數(shù)據(jù)傳遞過(guò)程也都可追溯,減少了數(shù)據(jù)泄露的可能性。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(2)工廠結(jié)構(gòu)但工廠結(jié)構(gòu)同樣存在缺點(diǎn),即全職人員成本高,如無(wú)長(zhǎng)期穩(wěn)定的項(xiàng)目很難保證公司的可持續(xù)發(fā)展。這正是很多標(biāo)注公司主要接收長(zhǎng)期的大型項(xiàng)目,而不愿意涉獵短期的小型項(xiàng)目的原因,因?yàn)槎唐诘男⌒晚?xiàng)目在初期的培訓(xùn)測(cè)試階段,成本極高,項(xiàng)目額度過(guò)小則無(wú)法覆蓋成本。當(dāng)然,市場(chǎng)上有些小型公司為了生存也會(huì)選擇接收短期的小型項(xiàng)目,但當(dāng)標(biāo)注量突然增大時(shí),小公司的標(biāo)注能力又難以應(yīng)付,顯得捉襟見肘?,F(xiàn)階段工廠結(jié)構(gòu)兩極化現(xiàn)象十分嚴(yán)重,大規(guī)模的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的人數(shù)可能超過(guò)數(shù)千人小規(guī)模團(tuán)隊(duì)的人數(shù)甚至不到10人。目前,市場(chǎng)上大規(guī)模的專業(yè)數(shù)據(jù)標(biāo)注公司不在少數(shù)。數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀04市場(chǎng)結(jié)構(gòu)(3)眾包+工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注的市場(chǎng)結(jié)構(gòu)不僅僅是以上兩種,也有一些企業(yè)將眾包結(jié)構(gòu)和工廠結(jié)構(gòu)進(jìn)行融合,方便對(duì)不同規(guī)模的項(xiàng)目進(jìn)行靈活的部署。這就是眾包+工廠結(jié)構(gòu)的混合形式的市場(chǎng)結(jié)構(gòu),這種結(jié)構(gòu)的標(biāo)注服務(wù)公司通常不僅有屬于自己的全職及兼職標(biāo)注團(tuán)隊(duì),同時(shí)還擁有眾包平臺(tái)。這種結(jié)構(gòu)在一定程度上控制了成本,也保證了標(biāo)注的質(zhì)量和進(jìn)度,但對(duì)于數(shù)據(jù)安全仍然是無(wú)法保證的。由此可見,在標(biāo)注市場(chǎng)中,無(wú)論采用哪種結(jié)構(gòu),都具有優(yōu)點(diǎn)和缺點(diǎn),而眾包+工廠相結(jié)合的形式能否成為數(shù)據(jù)標(biāo)注行業(yè)在未來(lái)的主流形式,還需要市場(chǎng)的檢驗(yàn)。但無(wú)論采用哪種形式,都要優(yōu)先確保標(biāo)注的準(zhǔn)確性、進(jìn)度及數(shù)據(jù)安全性。是否具備這三方面的能力也將是未來(lái)標(biāo)注服務(wù)企業(yè)在市場(chǎng)上能否具有競(jìng)爭(zhēng)力并占據(jù)優(yōu)勢(shì)的關(guān)鍵。03數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景01智能教育以教育陪伴機(jī)器人為例,這一產(chǎn)品讓很多兒童對(duì)學(xué)習(xí)產(chǎn)生了濃厚的興趣。孩子們通過(guò)與教育陪伴機(jī)器人的對(duì)話和互動(dòng),在不知不覺間就獲得了快樂和知識(shí)。在這背后,是數(shù)據(jù)標(biāo)注的功勞。教育陪伴機(jī)器人所具備的語(yǔ)音及對(duì)話功能是需要通過(guò)語(yǔ)音識(shí)別及語(yǔ)音合成技術(shù)來(lái)實(shí)現(xiàn)的,與之相對(duì)應(yīng)的標(biāo)注類型就是語(yǔ)音轉(zhuǎn)寫及TTS類標(biāo)注。不僅如此,很多機(jī)器人還能聽懂孩子的指令,如為孩子打開音樂、視頻等,這背后也涉及大量的自然語(yǔ)言理解任務(wù)。為了讓機(jī)器人能夠聽懂不同人用不同方式表達(dá)的指令,往往需要對(duì)喚醒指令做大量的泛化標(biāo)注,例如,將“打開音樂”泛化成“播放歌曲”等。這些功能都是通過(guò)使用數(shù)據(jù)標(biāo)注完成的數(shù)據(jù)對(duì)算法模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)的。智能教育陪伴機(jī)器人應(yīng)用場(chǎng)景如圖所示?!盎ヂ?lián)網(wǎng)+”大潮過(guò)后,“智能+”的概念逐漸深入到各大領(lǐng)域,成為推動(dòng)各行各業(yè)發(fā)展的新動(dòng)能,也對(duì)人們的生產(chǎn)和生活方式產(chǎn)生了深遠(yuǎn)的影響。教育這一關(guān)乎“國(guó)計(jì)民生”的行業(yè)更是率先垂范,力求在各環(huán)節(jié)實(shí)現(xiàn)智能化。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景01智能教育比較常見的智能教育場(chǎng)景還有英語(yǔ)口語(yǔ)發(fā)音訓(xùn)練及自動(dòng)化口語(yǔ)評(píng)測(cè)服務(wù),這些應(yīng)用或產(chǎn)品通過(guò)語(yǔ)音識(shí)別技術(shù)營(yíng)造了沉浸式的學(xué)習(xí)環(huán)境,并通過(guò)人機(jī)對(duì)話的互動(dòng)方式讓學(xué)習(xí)者實(shí)現(xiàn)了聽、說(shuō)、讀、寫等方面的學(xué)習(xí)。英語(yǔ)口語(yǔ)發(fā)音訓(xùn)練應(yīng)用場(chǎng)景如圖所示。此外,在這些場(chǎng)景的實(shí)現(xiàn)過(guò)程中,會(huì)涉及更多的標(biāo)注內(nèi)容。例如,英語(yǔ)口語(yǔ)發(fā)音訓(xùn)練需要通過(guò)大量的語(yǔ)音標(biāo)注來(lái)實(shí)現(xiàn)聲紋識(shí)別功能。同時(shí),課程內(nèi)容的管控需要大量的暴恐敏感信息過(guò)濾,招生營(yíng)銷也需要完成大量的智能外呼、語(yǔ)音質(zhì)檢、人臉融合等標(biāo)注。總之,智能教育的應(yīng)用場(chǎng)景還有很多,而智能教學(xué)設(shè)計(jì)和數(shù)字平臺(tái)等也正在利用人工智能技術(shù)幫助更多的學(xué)生彌補(bǔ)短板。在人工智能和機(jī)器學(xué)習(xí)改變教育形勢(shì)的道路上,數(shù)據(jù)標(biāo)注及內(nèi)容審核將成為永遠(yuǎn)不可或缺的一環(huán)。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景02智慧醫(yī)療人工智能與醫(yī)療行業(yè)的結(jié)合主要體現(xiàn)在醫(yī)療影像診斷及遠(yuǎn)程問診方面。隨著醫(yī)療技術(shù)的發(fā)展,醫(yī)療影像已逐漸由輔助檢查手段發(fā)展成為重要的診查方式。傳統(tǒng)模式下,醫(yī)療影像主要是由醫(yī)生肉眼讀取并以此為依據(jù)進(jìn)行診斷的。但肉眼診查的模式速度緩慢且耗時(shí)長(zhǎng),而且這種診查模式完全依賴于醫(yī)生的個(gè)人經(jīng)驗(yàn)和能力,對(duì)專業(yè)人才的需求量極大。AI圖像識(shí)別技術(shù)的出現(xiàn)可謂是為醫(yī)療診斷帶來(lái)了福音。通過(guò)圖像識(shí)別技術(shù),可以對(duì)影像進(jìn)行自動(dòng)比對(duì),可完成病灶的自動(dòng)識(shí)別,從而更快地完成診斷。利用圖像自動(dòng)識(shí)別技術(shù)能提高診斷效率,還體現(xiàn)在AI圖像識(shí)別的抗疲勞性能上。AI圖像識(shí)別技術(shù)主要靠機(jī)器完成,可24小時(shí)不間斷診斷,且每秒處理的圖像成千上萬(wàn)張,甚至更快,這一點(diǎn)也能大大提高效率。與高效率相比,更有價(jià)值的是圖像自動(dòng)識(shí)別技術(shù)還能發(fā)現(xiàn)肉眼看不到的病灶,能夠幫助疑似患者診斷,從而避免漏診狀況的發(fā)生并為患者贏得最佳治療時(shí)機(jī)。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景02智慧醫(yī)療圖像識(shí)別技術(shù)之所以能夠得到成功的應(yīng)用,其背后離不開數(shù)據(jù)標(biāo)注的支持。圖像識(shí)別技術(shù)能夠在醫(yī)療領(lǐng)域發(fā)揮作用主要依托于圖像識(shí)別算法模型。模型并非是天生就能夠?qū)崿F(xiàn)圖像識(shí)別的,而是要通過(guò)訓(xùn)練才能獲得這一能力,而訓(xùn)練模型所用的原材料是標(biāo)注后的數(shù)據(jù)。一個(gè)圖像識(shí)別模型的訓(xùn)練需要大量帶標(biāo)數(shù)據(jù)的支持,就醫(yī)療影像識(shí)別而言,病灶標(biāo)注、骨骼關(guān)鍵點(diǎn)標(biāo)注、器官標(biāo)注、細(xì)胞標(biāo)注等都是常見的標(biāo)注類型。醫(yī)療影像標(biāo)注應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景02智慧醫(yī)療智慧醫(yī)療的另一種成功應(yīng)用是遠(yuǎn)程問診。遠(yuǎn)程問診在醫(yī)學(xué)專家與患者之間建立起全新的聯(lián)系,能使患者得到及時(shí)、有效地治療,也避免了患者尋醫(yī)問藥時(shí)的勞苦奔波。在遠(yuǎn)程問診場(chǎng)景下,患者能通過(guò)問診App或智能客服完成自我診斷。輸入癥狀后,智能自診可對(duì)文本進(jìn)行語(yǔ)義理解和分析,從文本中抽取出關(guān)鍵信息并與數(shù)據(jù)庫(kù)進(jìn)行比對(duì),從而實(shí)現(xiàn)病癥信息的精準(zhǔn)匹配,進(jìn)而給出診斷結(jié)果。此外,醫(yī)生在遠(yuǎn)程診斷時(shí)還可以通過(guò)語(yǔ)音識(shí)別技術(shù)將需要存檔的手寫病歷以語(yǔ)音方式輸入,系統(tǒng)會(huì)自動(dòng)生成文字形式的病歷材料,可大幅減輕工作負(fù)擔(dān)。遠(yuǎn)程問診場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景02智慧醫(yī)療在線問診功能的實(shí)現(xiàn)同樣離不開數(shù)據(jù)標(biāo)注的支持。語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn)需要語(yǔ)音模型去學(xué)習(xí)大量多樣化的語(yǔ)音轉(zhuǎn)寫數(shù)據(jù),因此需要做大量的語(yǔ)音轉(zhuǎn)寫標(biāo)注;智能客服的實(shí)現(xiàn)需要NLP技術(shù)的輔助,比如信息抽取、句法分析、語(yǔ)義消歧、命名實(shí)體識(shí)別等,需要靠大量的關(guān)鍵詞標(biāo)注、指代鏈標(biāo)注、句法標(biāo)注、實(shí)體標(biāo)注等任務(wù)的支持,正是這些結(jié)構(gòu)化數(shù)據(jù)為人工智能訓(xùn)練提供支持才使得患者能夠在線上實(shí)現(xiàn)簡(jiǎn)單的自我診斷。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景02智慧醫(yī)療盡管人工智能技術(shù)落地醫(yī)療領(lǐng)域在很大程度上緩解了醫(yī)療過(guò)程中存在的弊端和限制,使得醫(yī)療體系整體運(yùn)行更加有效。但需要明確的是,目前的人工智能技術(shù)在醫(yī)療領(lǐng)域更多的還是起輔助作用,尚無(wú)法取代醫(yī)生。隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,其所提供的數(shù)據(jù)集會(huì)越來(lái)越精準(zhǔn)和多樣化,所涉及的應(yīng)用模型也會(huì)更加精準(zhǔn)有效,相信智慧醫(yī)療在科技高速發(fā)展的新時(shí)代會(huì)穩(wěn)扎穩(wěn)打,發(fā)揮更加重要的作用。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景03智慧司法在司法處理過(guò)程中,智慧司法的場(chǎng)景隨處可見。例如,司法機(jī)器人,能夠幫助當(dāng)事人完成遠(yuǎn)程立案、訴訟咨詢和引導(dǎo)、“隔空”庭審、當(dāng)庭判決等工作;通過(guò)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的犯罪預(yù)測(cè)和預(yù)警系統(tǒng),能夠預(yù)測(cè)犯罪發(fā)生區(qū)域,并分析犯罪高發(fā)地和高發(fā)群體,從而為司法辦案提供指向性,爭(zhēng)取時(shí)間,并在必要時(shí)輔助調(diào)配警力;人臉識(shí)別技術(shù),通過(guò)人臉關(guān)鍵特征分析能夠幫助比對(duì)并鎖定犯罪嫌疑人;人工智能測(cè)謊儀,通過(guò)人物表情形態(tài)、語(yǔ)調(diào)、心率、局部溫度等分析,能夠精準(zhǔn)判別犯罪嫌疑人是否在說(shuō)謊,從而輔助司法審訊。在司法AI的輔助下,辦案證據(jù)得到了有效地校驗(yàn)、把關(guān)、提示、監(jiān)督,更加經(jīng)得起法律檢驗(yàn),刑事辦案過(guò)程實(shí)現(xiàn)了全程可視、全程留痕、全程監(jiān)督,司法有失公正及冤假錯(cuò)案情況得到有效的防范。人工智能測(cè)謊儀應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景03智慧司法智慧司法的實(shí)現(xiàn)同樣也有數(shù)據(jù)標(biāo)注的功勞。例如,司法機(jī)器人要想實(shí)現(xiàn)精準(zhǔn)解答就要先做到語(yǔ)義理解,所以分詞、實(shí)體、句法標(biāo)注是必不可少的步驟,此外實(shí)現(xiàn)實(shí)時(shí)對(duì)話和解答還需要構(gòu)建大量的對(duì)話數(shù)據(jù)集并給出大量的關(guān)鍵詞,這些都需要通過(guò)數(shù)據(jù)標(biāo)注來(lái)完成。再比如,人工智能要輔助量刑,首先需要實(shí)現(xiàn)對(duì)司法案件的結(jié)構(gòu)化處理,需要通過(guò)對(duì)類似案件事由、原因、判決結(jié)果、適用法條、爭(zhēng)議焦點(diǎn)等信息進(jìn)行結(jié)構(gòu)化提取,從而通過(guò)訓(xùn)練后的模型來(lái)實(shí)現(xiàn)輔助判決,給出最優(yōu)的判決建議。另外,人臉比對(duì)技術(shù)的實(shí)現(xiàn)也需要大量的人臉標(biāo)注,線上庭審及司法審訊等書面記錄的實(shí)現(xiàn)也離不開語(yǔ)音轉(zhuǎn)寫標(biāo)注的支持。以數(shù)據(jù)標(biāo)注為基礎(chǔ)的智慧司法極大地避免了因情感或個(gè)人意愿影響而導(dǎo)致的判決結(jié)果偏差,但從當(dāng)前落地情況來(lái)看,其在判決相關(guān)的法理與人情的平衡方面還有很大的優(yōu)化空間。盡管如此,智慧司法為司法辦案帶來(lái)的便利仍然是不容小覷的,相信隨著數(shù)據(jù)標(biāo)注越來(lái)越精準(zhǔn)、機(jī)器學(xué)習(xí)越來(lái)越全面,人工智能技術(shù)在司法領(lǐng)域的應(yīng)用會(huì)越來(lái)越廣泛,效果也會(huì)越來(lái)越好。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景04智慧金融如今金融行業(yè),在產(chǎn)品研發(fā)、內(nèi)部管控、金融客服等方面,每個(gè)環(huán)節(jié)都有人工智能技術(shù)落地的典型場(chǎng)景。首先是刷臉支付、指紋支付逐漸替代了傳統(tǒng)的密碼支付,極大地簡(jiǎn)化了支付流程,并避免了密碼泄露等風(fēng)險(xiǎn);其次是依托于語(yǔ)音交互技術(shù)的語(yǔ)音客服,明顯地減少了銀行或金融機(jī)構(gòu)等在客戶服務(wù)方面的人力投入;此外,還有在線客服機(jī)器人,可讓用戶在幾秒鐘內(nèi)輕松了解業(yè)務(wù)辦理流程并預(yù)約辦理時(shí)間,這些都在有效降低金融機(jī)構(gòu)運(yùn)營(yíng)成本的同時(shí)提升了客戶體驗(yàn)。指紋支付應(yīng)用場(chǎng)景如圖所示。隨著機(jī)器學(xué)習(xí)、圖像識(shí)別等技術(shù)的落地,人工智能與金融行業(yè)的結(jié)合變得越來(lái)越緊密。在金融領(lǐng)域,有一個(gè)詞叫作“智慧金融”。智慧金融就是人工智能賦能于金融行業(yè)的應(yīng)用表現(xiàn)。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景04智慧金融智慧金融除了能輔助優(yōu)化業(yè)務(wù)流程并提高效率,還能輔助解決金融風(fēng)險(xiǎn)和安全監(jiān)管方面的很多問題。例如,智慧金融能夠在借貸方面對(duì)借款人員進(jìn)行人際關(guān)系圖譜整理及消費(fèi)和逾期行為分析,分析借款人員的還款能力及逾期風(fēng)險(xiǎn),可最大限度減少壞賬的產(chǎn)生,為金融企業(yè)提供保障。再比如,在金融監(jiān)管中,往往需要做股權(quán)穿透,從而監(jiān)控企業(yè)的運(yùn)營(yíng)行為及運(yùn)營(yíng)風(fēng)險(xiǎn)等。這些都需要通過(guò)實(shí)體關(guān)系的標(biāo)注來(lái)支持。所以,如果沒有數(shù)據(jù)標(biāo)注的保障,智慧金融的智能化就無(wú)法得到完美呈現(xiàn)。智慧金融人工智能技術(shù)得以突破,背后離不開數(shù)據(jù)標(biāo)注的有力支持。首先是計(jì)算機(jī)視覺技術(shù),主要應(yīng)用了2D拉框、關(guān)鍵點(diǎn)、OCR等標(biāo)注類型;其次是語(yǔ)音交互技術(shù),主要應(yīng)用語(yǔ)音轉(zhuǎn)寫標(biāo)注;再到自然語(yǔ)言處理技術(shù),通常應(yīng)用到實(shí)體、關(guān)系、分類、意圖等標(biāo)注。銀行卡賬號(hào)OCR轉(zhuǎn)寫應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景05智慧出行當(dāng)下比較流行且成熟的智慧出行場(chǎng)景當(dāng)屬自動(dòng)駕駛,在車輛自動(dòng)駕駛中,人們只需要告訴設(shè)備出發(fā)地與目的地,便可以在不需人工干預(yù)的條件下順利地到達(dá)目的地。自動(dòng)駕駛能夠躲避行人且遵守交通標(biāo)識(shí)主要是依靠算法模型的訓(xùn)練。而自動(dòng)駕駛的算法模型主要以有監(jiān)督的深度學(xué)習(xí)為主,因此在訓(xùn)練過(guò)程中,需要大量的帶標(biāo)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和優(yōu)化。自動(dòng)駕駛場(chǎng)景如圖所示。人類的出行,從依靠雙腳到借助機(jī)械車輪、電氣化的翅膀,再到如今,其效率已經(jīng)得到了本質(zhì)的提升,這也為人類節(jié)省了極大的時(shí)間和成本。然而,這些方式卻仍然離不開人的控制和參與,直到自動(dòng)駕駛技術(shù)的出現(xiàn),才打破了這一僵局。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景05智慧出行自動(dòng)駕駛標(biāo)注主要以圖片標(biāo)注為主,2D拉框、3D點(diǎn)云、語(yǔ)義分割等都是其中應(yīng)用非常多的標(biāo)注類型。2D拉框中,需要用矩形框畫出交通場(chǎng)景圖片中的人物、車輛、障礙物等;3D點(diǎn)云需要結(jié)合2D圖片從該圖片的點(diǎn)云圖中用立體框畫出車輛、行人、障礙物等的點(diǎn)云輪廓;語(yǔ)義分割則需要按照語(yǔ)義用自定義畫框?qū)煌▓?chǎng)景中的圖片進(jìn)行區(qū)分,區(qū)分出圖片中的行人、車輛、道路、標(biāo)識(shí)、樹木、建筑物等。自動(dòng)駕駛場(chǎng)景中的語(yǔ)義分割標(biāo)注如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景06智能家居近年來(lái),在智能化、自動(dòng)化高新技術(shù)的驅(qū)動(dòng)下,智能家居行業(yè)進(jìn)入飛速發(fā)展時(shí)期。智能家居是最貼近我們生活的人工智能。從智能門鎖到智能開關(guān),再到智能音箱、智能窗簾、智能電視機(jī)和掃地機(jī)器人,智能家居極大地提高了人們的幸福感。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景06智能家居下班后走進(jìn)家門,簡(jiǎn)單的一句“我回來(lái)了”,一瞬間燈光打開、電視機(jī)打開、熱水器打開,生活變得更舒適而愜意。這些智能家居設(shè)備,不僅能聽懂主人的語(yǔ)音指令,而且即使是在主人用不同的方式去表達(dá)指令時(shí),也能實(shí)現(xiàn)相應(yīng)的功能。智能掃地機(jī)器人應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景06智能家居智能家居之所以能夠聽懂多種表達(dá)形式的指令,一方面是因?yàn)槠渚邆湔Z(yǔ)音識(shí)別功能,另一方面是因?yàn)槠渚邆淞艘欢ǖ淖匀徽Z(yǔ)言理解能力。語(yǔ)音識(shí)別能力和自然語(yǔ)言理解能力都是算法模型經(jīng)過(guò)大規(guī)模訓(xùn)練的結(jié)果。語(yǔ)音識(shí)別模型訓(xùn)練所依賴的語(yǔ)音轉(zhuǎn)寫標(biāo)注,在此不做詳細(xì)說(shuō)明。智能家居設(shè)備要學(xué)習(xí)獲得自然語(yǔ)言理解能力則通常要用到意圖標(biāo)注、喚醒詞泛化標(biāo)注、控制詞采集等。在標(biāo)注過(guò)程中,數(shù)據(jù)標(biāo)注人員會(huì)針對(duì)不同的功能采集不同的喚醒詞,并對(duì)喚醒詞進(jìn)行多種形式的表達(dá),再將標(biāo)注后的數(shù)據(jù)給模型訓(xùn)練,從而使模型學(xué)習(xí)獲得相應(yīng)的能力,如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景06智能家居原始喚醒詞打開窗簾泛化結(jié)果開啟窗簾把窗簾打開拉開窗簾窗簾拉開窗簾給我打開開窗簾數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景07智慧農(nóng)業(yè)農(nóng)業(yè)是人民的衣食之源,也是人類的生命之本,更是國(guó)家重要的經(jīng)濟(jì)命脈。我國(guó)素有農(nóng)業(yè)大國(guó)之稱,因此農(nóng)業(yè)的高效可持續(xù)生態(tài)發(fā)展無(wú)疑是極為關(guān)鍵的。近年來(lái),人工智能的發(fā)展也大力推動(dòng)了我國(guó)農(nóng)業(yè)的發(fā)展,讓農(nóng)業(yè)在人工智能時(shí)代煥發(fā)出勃勃生機(jī)。目前,智慧農(nóng)業(yè)的應(yīng)用場(chǎng)景已有很多。例如,用于農(nóng)林植物保護(hù),實(shí)現(xiàn)智慧農(nóng)業(yè)藥劑噴灑作業(yè)的植保無(wú)人機(jī);用于精細(xì)化種植的智能化溫室;用于農(nóng)田收割的智能收割機(jī);依托測(cè)土配方施肥的智能配肥機(jī)以及用于養(yǎng)殖的智能養(yǎng)殖場(chǎng)等。通過(guò)與人工智能技術(shù)的融合,農(nóng)業(yè)變得更加高效、智慧和精細(xì)化,實(shí)現(xiàn)了規(guī)?;⒓s化和工廠化發(fā)展,對(duì)自然環(huán)境風(fēng)險(xiǎn)的抵御能力有所提升,也為農(nóng)業(yè)新生態(tài)建設(shè)提供了助力。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景07智慧農(nóng)業(yè)依托精準(zhǔn)的數(shù)據(jù)標(biāo)注,智慧農(nóng)業(yè)實(shí)現(xiàn)了對(duì)農(nóng)作物的定位及成熟度和生長(zhǎng)狀態(tài)的識(shí)別,從而在這些數(shù)據(jù)與生長(zhǎng)環(huán)境和時(shí)間之間建立關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)自動(dòng)施肥、自動(dòng)農(nóng)藥撒播等,大大減少了人力投入并減少了農(nóng)藥等資源的浪費(fèi)。在實(shí)現(xiàn)智慧農(nóng)業(yè)后,原本需要上百人的數(shù)百畝大棚現(xiàn)如今僅需三五個(gè)人即可輕松搞定。智慧農(nóng)業(yè)應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景07智慧農(nóng)業(yè)在智慧農(nóng)業(yè)中,主要應(yīng)用的標(biāo)注類型包括多邊形標(biāo)注、語(yǔ)義分割、視頻標(biāo)注等。通過(guò)多邊形、語(yǔ)義分割等標(biāo)注可以獲得農(nóng)作物生長(zhǎng)狀態(tài)、土壤條件、農(nóng)作物病蟲害、禾苗生長(zhǎng)情況等數(shù)據(jù),這使得智慧農(nóng)業(yè)具備了信息獲取、管理、分析等能力,可實(shí)現(xiàn)自動(dòng)灌溉、降溫、施肥等自動(dòng)控制功能。特別是通過(guò)視頻標(biāo)注實(shí)現(xiàn)的實(shí)時(shí)監(jiān)控,使得無(wú)人機(jī)能夠直觀地觀察農(nóng)作物的生長(zhǎng)狀態(tài)并判斷營(yíng)養(yǎng)水平,從而可為農(nóng)業(yè)種植提供更加科學(xué)的理論依據(jù)。農(nóng)作物病蟲害標(biāo)注應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景08智能營(yíng)銷互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)購(gòu)已成為廣大用戶的主流購(gòu)物方式。隨著網(wǎng)絡(luò)營(yíng)銷概念的普及,多元化的營(yíng)銷手段層出不窮。拋開商家的營(yíng)銷套路不談,智能營(yíng)銷是各大電商平臺(tái)最為精準(zhǔn)的定向營(yíng)銷。相信很多人在個(gè)人賬號(hào)下的購(gòu)物App上都經(jīng)常會(huì)發(fā)現(xiàn)這樣的現(xiàn)象,在瀏覽購(gòu)物頁(yè)面并搜索某種產(chǎn)品后,無(wú)論是否達(dá)成訂單,只要再次打開該款購(gòu)物軟件,首頁(yè)和搜索欄中便會(huì)自動(dòng)推送這種產(chǎn)品或類似產(chǎn)品。這是購(gòu)物App中的標(biāo)配功能,通常被稱為個(gè)性化推薦??赡苣銜?huì)覺得這很貼心,其實(shí)在這貼心的推薦背后,是數(shù)據(jù)標(biāo)注的功勞。每個(gè)用戶的瀏覽行為都反映了該用戶的品位、愛好和購(gòu)物習(xí)慣,通過(guò)對(duì)這些瀏覽記錄進(jìn)行分析能夠挖掘出用戶背后的潛在需求,從而將該用戶發(fā)展成為潛在客戶或有效客戶。智能營(yíng)銷的相似推薦應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景09智能安防智能安防是得益于人工智能技術(shù)的又一成功應(yīng)用場(chǎng)景。隨著經(jīng)濟(jì)發(fā)展,人們對(duì)于安防的認(rèn)識(shí)越來(lái)越深,社會(huì)對(duì)于安防的要求也越來(lái)越高。如今的生活中,傳統(tǒng)的安防設(shè)備及人員已不能滿足安全需求,智能安防的出現(xiàn)則給社會(huì)治理帶來(lái)了便利。目前,市面上出現(xiàn)的智能安防設(shè)備比比皆是,比如智能攝像頭、智能門禁、智能貓眼等,智能門禁的應(yīng)用場(chǎng)景如圖所示。以現(xiàn)在使用廣泛的智能攝像頭為例,智能攝像頭區(qū)別于傳統(tǒng)攝像頭的是智能攝像頭不僅能夠拍攝畫面,還能對(duì)畫面中的內(nèi)容進(jìn)行識(shí)別和區(qū)分。比如,靜止的畫面中突然出現(xiàn)了動(dòng)態(tài),或者畫面中出現(xiàn)了人物,智能攝像頭都會(huì)對(duì)這些內(nèi)容進(jìn)行標(biāo)識(shí)并向相關(guān)人員示警。要實(shí)現(xiàn)這些功能,當(dāng)然少不了數(shù)據(jù)標(biāo)注的功勞。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景09智能安防在智能安防領(lǐng)域,應(yīng)用較多的人工智能技術(shù)是語(yǔ)音識(shí)別和圖像識(shí)別。在智能安防的語(yǔ)音識(shí)別中,主要應(yīng)用的是語(yǔ)音轉(zhuǎn)寫標(biāo)注。語(yǔ)音轉(zhuǎn)寫標(biāo)注支持的語(yǔ)音識(shí)別技術(shù)使得語(yǔ)音通話和問詢的實(shí)時(shí)轉(zhuǎn)錄成為可能。這不僅節(jié)省了保安、記錄員等人力資源,還大幅提升了工作效率。就安防圖像識(shí)別而言,常見的標(biāo)注場(chǎng)景是目標(biāo)跟蹤、人臉打點(diǎn)、人體關(guān)鍵點(diǎn)、手勢(shì)標(biāo)注、人物特征標(biāo)注等。通過(guò)標(biāo)注人物的性別、年齡、膚色、指紋、表情、衣著等,為模型訓(xùn)練提供了海量數(shù)據(jù),從而幫助機(jī)器實(shí)現(xiàn)快速識(shí)別。盡管智能安防已經(jīng)得到了成功應(yīng)用,但總體來(lái)說(shuō),其尚處于起步階段,因此還有很長(zhǎng)的路要走。同時(shí),隨著智能化程度越來(lái)越高,其對(duì)數(shù)據(jù)標(biāo)注的需求量也會(huì)急劇擴(kuò)大,數(shù)據(jù)標(biāo)注也必然會(huì)成為智能安防高度智能化道路上的主要問題。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景10智能制造智能制造一詞已為人們所熟知,這一理念也已成為行業(yè)的熱點(diǎn)。然而,很多人尚未認(rèn)識(shí)到的是,數(shù)據(jù)標(biāo)注已成為傳統(tǒng)制造向智能化轉(zhuǎn)變的必要環(huán)節(jié)。智能制造有著許多應(yīng)用場(chǎng)景,例如智能研發(fā)和設(shè)計(jì);智能采購(gòu)、訂單等。在車間里,帶有視覺系統(tǒng)的機(jī)器人,能夠像人一樣選取合適的零件。工廠里,高度智能化的質(zhì)檢機(jī)器人能夠像“黑臉包公”一樣篩選出所有的瑕疵產(chǎn)品,將生產(chǎn)質(zhì)量控制得分毫不差。這不僅節(jié)省了人力,而且將生產(chǎn)效率提高了無(wú)數(shù)倍。智能質(zhì)檢機(jī)器人的應(yīng)用場(chǎng)景如圖所示。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景10智能制造試想,這些智能質(zhì)檢機(jī)器人是如何辨別產(chǎn)品缺陷的?其實(shí),這種智能化的背后都是數(shù)據(jù)標(biāo)注支持的結(jié)果。智能質(zhì)檢機(jī)器人之所以能精準(zhǔn)辨別產(chǎn)品缺陷,依靠的是其自身所具備的視覺能力,而這種視覺能力需要精準(zhǔn)度極高的視覺系統(tǒng)來(lái)實(shí)現(xiàn)。通過(guò)采集一定數(shù)量的產(chǎn)品的各個(gè)角度的圖片,由標(biāo)注人員進(jìn)行畫框、語(yǔ)義分割等標(biāo)注,這些帶有標(biāo)注的圖片就能夠幫助智能質(zhì)檢機(jī)器人訓(xùn)練出一雙智慧的“眼睛”,從而精準(zhǔn)地檢測(cè)出缺陷目標(biāo)。這也是數(shù)據(jù)標(biāo)注賦能于智能制造的一種體現(xiàn)?,F(xiàn)如今,數(shù)據(jù)標(biāo)注賦能的智能技術(shù)已不僅僅應(yīng)用于質(zhì)量檢查環(huán)節(jié),在物料評(píng)級(jí)環(huán)節(jié)也常有應(yīng)用。例如,通過(guò)對(duì)廢料、雜物等進(jìn)行等級(jí)或某些特征的標(biāo)注,經(jīng)過(guò)訓(xùn)練后的模型可應(yīng)用于廢料二次回收定級(jí)的環(huán)節(jié),既節(jié)省了所需的人力資源,又提高了工作效率。更重要的是,這種智能化的檢測(cè)也減少了因個(gè)人情感或素質(zhì)差異而導(dǎo)致的偏差和浪費(fèi)現(xiàn)象。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景11智慧物流隨著互聯(lián)網(wǎng)的發(fā)展,電商行業(yè)崛起,網(wǎng)購(gòu)已經(jīng)成為我們生活中不可缺少的一部分。從日常的購(gòu)物到每年的“雙11”“618”等活動(dòng),網(wǎng)購(gòu)無(wú)處不在。網(wǎng)購(gòu)之所以能夠普及,得益于物流系統(tǒng)的完善,而網(wǎng)購(gòu)成交量日益增長(zhǎng),傳統(tǒng)的物流模式已明顯跟不上節(jié)奏。如果只靠增加人工的方式滿足物流的需求,那么投入的成本將會(huì)十分巨大,而智慧物流的出現(xiàn)恰好打破了這一尷尬局面。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景11智慧物流以物流過(guò)程中的分揀步驟為例,尋常的人工分揀耗時(shí)耗力。以人工智能為基礎(chǔ)的分揀機(jī)器人的出現(xiàn),卻使得這一操作變得簡(jiǎn)單。智慧物流系統(tǒng)根據(jù)貨架位置及訂單優(yōu)先級(jí),就近調(diào)配分揀機(jī)器人,可實(shí)現(xiàn)快速、準(zhǔn)確的分揀。智能分揀機(jī)器人的應(yīng)用場(chǎng)景如圖所示。目前,智能分揀機(jī)器人已被很多大型物流公司采用。既能節(jié)省人力、提高效率,還能在很大程度上避免人員砸傷等問題,使得物流作業(yè)更加安全。除分揀機(jī)器人外,很多大公司還推出了配送機(jī)器人,只要設(shè)置好配送路線,這些機(jī)器人就可以實(shí)現(xiàn)無(wú)人化物流配送。數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景11智慧物流在智慧物流的實(shí)現(xiàn)過(guò)程中,主要解決的是計(jì)算機(jī)視覺和語(yǔ)言理解的問題。因此2D拉框、語(yǔ)義分割、實(shí)體標(biāo)注、詞性標(biāo)注等都是常用的標(biāo)注任務(wù)類型。隨著數(shù)據(jù)標(biāo)注的不斷發(fā)展,相信會(huì)有更多的智慧物流應(yīng)用出現(xiàn)在我們的日常生活中。上述場(chǎng)景僅僅是數(shù)據(jù)標(biāo)注輔助下的一小部分人工智能應(yīng)用場(chǎng)景。實(shí)際得益于數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景還有很多,例如,智慧園區(qū)、智能城市等,這里不再詳細(xì)說(shuō)明。總之,隨著越來(lái)越多人工智能應(yīng)用場(chǎng)景的實(shí)現(xiàn)和推廣,人類的生活會(huì)發(fā)生巨大的變化,而數(shù)據(jù)標(biāo)注的重要性也會(huì)越來(lái)越凸顯。04常見標(biāo)注任務(wù)類型介紹常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注1分詞、詞性標(biāo)注分詞是自然語(yǔ)言處理的最基礎(chǔ)步驟,該項(xiàng)標(biāo)注任務(wù)主要涉及中文分詞和詞性標(biāo)注任務(wù)。中文分詞的應(yīng)用很廣泛,信息檢索、漢字的智能輸入、中外文對(duì)譯、中文校對(duì)、自動(dòng)摘要、自動(dòng)分類等很多領(lǐng)域都能用到中文分詞。詞性標(biāo)注是指為分詞后生成的每個(gè)單詞標(biāo)注一個(gè)正確的詞性,也就是確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過(guò)程。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注2依存句法標(biāo)注依存句法標(biāo)注最根本的目標(biāo)是針對(duì)給定句子,構(gòu)建一棵依存句法樹,捕捉句子內(nèi)部詞語(yǔ)之間的修飾或搭配關(guān)系,從而刻畫出句子的句法結(jié)構(gòu)。在依存句法標(biāo)注中,一般以句子中的“謂詞”為核心,從而認(rèn)為其他成分都是直接或間接與動(dòng)詞產(chǎn)生聯(lián)系。同時(shí),需要了解的是,這種關(guān)系并非對(duì)等的,它是有方向的,依存句法樹示例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注3實(shí)體標(biāo)注實(shí)體標(biāo)注通常用于命名實(shí)體識(shí)別(NamedEntityRecognition,NER)任務(wù)。NER是NLP中一項(xiàng)非?;A(chǔ)的任務(wù),信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等很多NLP任務(wù)都離不開NER,NER的準(zhǔn)確度也決定著這些任務(wù)的效果,所以實(shí)體標(biāo)注是文本標(biāo)注中最常見的任務(wù)類型。實(shí)體是一種概念,一般指的是文本中具有特定意義或指代性較強(qiáng)的名稱詞,通常包括人名、地名、組織機(jī)構(gòu)名、日期時(shí)間、專有名詞等。實(shí)體這個(gè)概念很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱為實(shí)體,常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注3實(shí)體標(biāo)注在標(biāo)注過(guò)程中,實(shí)體標(biāo)注通常會(huì)以加標(biāo)簽的形式來(lái)實(shí)現(xiàn),實(shí)體標(biāo)注樣例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注關(guān)系標(biāo)注與實(shí)體標(biāo)注一樣,也是NLP中一個(gè)較為常見的重要任務(wù),其主要目的是標(biāo)注句子中實(shí)體之間所隱含的語(yǔ)義關(guān)系,即在實(shí)體識(shí)別的基礎(chǔ)上來(lái)確定文本中實(shí)體間的關(guān)系類別,并做成結(jié)構(gòu)化的數(shù)據(jù)。例如,郭子儀,字子儀,華州鄭縣人。從這句話中,我們可以判斷出人物郭子儀的出生地是華州鄭縣,因此可以標(biāo)注為郭子儀(出生地)華州鄭縣,這便是一條完整的關(guān)系。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注需要注意的是,關(guān)系標(biāo)注是有方向的,一般的關(guān)系方向?yàn)轭^實(shí)體指向尾實(shí)體,描述為頭實(shí)體的關(guān)系人是尾實(shí)體或尾實(shí)體是頭實(shí)體的關(guān)系人。例如:文火火這一輩子實(shí)屬不易,好不容易將兒子文子平拉扯大。本句中,通常會(huì)將關(guān)系描述為頭實(shí)體(文火火)的子女是尾實(shí)體(文子平)或尾實(shí)體(文子平)是頭實(shí)體(文火火)的子女。同時(shí)還需要注意的是,在關(guān)系標(biāo)注時(shí),通常僅應(yīng)標(biāo)注那些就當(dāng)前來(lái)說(shuō)實(shí)際存在的關(guān)系,否則便無(wú)實(shí)際意義。例如,原局長(zhǎng)程度、準(zhǔn)局長(zhǎng)趙東來(lái),這兩種職務(wù)關(guān)系都不需要標(biāo)注。0常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注4關(guān)系標(biāo)注在關(guān)系標(biāo)注中,頭實(shí)體、尾實(shí)體及兩者之間的關(guān)系通常被合稱為三元組。例如,在圖中,每一條記錄都是一個(gè)三元組。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注5事件標(biāo)注事件標(biāo)注是文本標(biāo)注中最具挑戰(zhàn)性的任務(wù)。首先,我們需要理解什么是事件。事件作為信息的一種表現(xiàn)形式,是指特定的人、物在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí)。事件標(biāo)注的主要目的是從非結(jié)構(gòu)化文本中標(biāo)注出特定事件的基本信息,并以結(jié)構(gòu)化形式呈現(xiàn)。通常來(lái)說(shuō),在事件標(biāo)注中需要抽取的要素主要包括事件的主體、客體、時(shí)間、地點(diǎn)、原因、結(jié)果等。例如,人物A于2019年8月前往中國(guó)會(huì)見人物B。在本句中,是一個(gè)會(huì)見事件,主體為人物A,客體為人物B,時(shí)間是2019年8月,地點(diǎn)是中國(guó)。這就是事件標(biāo)注大體要完成的任務(wù)。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注5事件標(biāo)注需要注意的是,在事件標(biāo)注過(guò)程中,只需要標(biāo)注實(shí)際發(fā)生的事件,未來(lái)要發(fā)生的以及當(dāng)前已經(jīng)不存在的事件標(biāo)注出來(lái)都沒有實(shí)際意義。在實(shí)際標(biāo)注過(guò)程中,事件標(biāo)注在系統(tǒng)中的實(shí)現(xiàn)方式有很多種,可以采用加標(biāo)簽的方式;也可以采用信息抽取的方式;還可以采用連線的方式,如圖所示為通過(guò)加標(biāo)簽的方式實(shí)現(xiàn)事件標(biāo)注。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注6意圖標(biāo)注意圖標(biāo)注是對(duì)話、搜索引擎及機(jī)器人等任務(wù)中最常見的標(biāo)注需求。它主要是指判斷文本所表達(dá)的目的,辨別出說(shuō)話者想做什么或想了解什么,在標(biāo)注過(guò)程中,一般是通過(guò)加標(biāo)簽的方式實(shí)現(xiàn)。例如,為什么我的紅包能領(lǐng)不能用?這句話所表達(dá)的意圖就是“詢問紅包不好用的原因”;或者,我想找個(gè)價(jià)位便宜的酒店,其所表達(dá)的意圖就是“告知酒店價(jià)位檔次”并“詢問酒店名稱”。在意圖標(biāo)注任務(wù)中,有些任務(wù)的意圖并不是唯一的,也可能存在多種意圖的情況。同時(shí)有些任務(wù)也需要針對(duì)這些意圖去填寫槽值,如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注7關(guān)鍵詞標(biāo)注關(guān)鍵詞標(biāo)注是新聞?lì)I(lǐng)域中最常用的標(biāo)注任務(wù),其主要用于新聞的個(gè)性化推薦。通過(guò)標(biāo)注出的關(guān)鍵詞,可有針對(duì)性地為讀者推薦其關(guān)注或感興趣的新聞。那么,到底什么是關(guān)鍵詞?關(guān)鍵詞實(shí)際上是指反映一篇文章或一段文字核心內(nèi)容或主旨的詞或短語(yǔ),一般情況下,看了關(guān)鍵詞之后,讀者能大體了解該篇文章主要講述的內(nèi)容是什么。關(guān)鍵詞標(biāo)注屬于較大的任務(wù)類型,在其大類下,還會(huì)根據(jù)不同的出發(fā)點(diǎn)和需求衍生出不同的子任務(wù)類型。例如,若標(biāo)注的出發(fā)點(diǎn)僅是為了反映文章的主旨內(nèi)容提高檢索率,則會(huì)采用最傳統(tǒng)的關(guān)鍵詞標(biāo)注,這類標(biāo)注一般會(huì)選擇反映文章中心思想的內(nèi)容或高頻詞;但若要以讀者興趣為出發(fā)點(diǎn)來(lái)為讀者推薦合適的文章,則需要標(biāo)注興趣標(biāo)簽,此時(shí)便需要標(biāo)注與文章主旨相關(guān)的、可能引起讀者興趣的詞或短語(yǔ)。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注7關(guān)鍵詞標(biāo)注但無(wú)論是常規(guī)關(guān)鍵詞標(biāo)注還是興趣標(biāo)簽標(biāo)注,都需要遵循關(guān)鍵詞標(biāo)注的基本規(guī)則。以興趣為導(dǎo)向的關(guān)鍵詞標(biāo)注案例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注8分類標(biāo)注分類標(biāo)注是自然語(yǔ)言處理的一個(gè)基本任務(wù),是指試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。分類標(biāo)注應(yīng)用非常廣泛,例如,垃圾過(guò)濾、新聞分類、詞性標(biāo)注等。同時(shí),它也是一個(gè)很廣泛的概念,例如,實(shí)體標(biāo)注、意圖標(biāo)注等,只要是針對(duì)某一條數(shù)據(jù)加標(biāo)簽的操作在一定意義上都可以算作是分類標(biāo)注。分類標(biāo)注可以是一個(gè)維度的,也可以是多個(gè)維度的,這主要取決于需求方的需求。多維度分類標(biāo)注的案例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注9問句復(fù)述問句復(fù)述又稱為泛化,一般情況下,這種任務(wù)可以分為正例泛化和負(fù)例泛化兩種情況。正例泛化是指用不同的形式來(lái)表達(dá)相同的語(yǔ)義,即一句話百樣說(shuō)。問句復(fù)述是自然語(yǔ)言中極其常見的現(xiàn)象,其可將提出的復(fù)雜問句改寫成一系列與其語(yǔ)義相同但形式不同的問句,避免了用戶提問的不規(guī)范,可大大降低系統(tǒng)對(duì)問句的理解和處理難度,對(duì)于提升自動(dòng)問答系統(tǒng)的效果有著重要意義。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注9問句復(fù)述負(fù)例泛化是指問句的表達(dá)方式與原始問句相似,但意義不同。例如,種子問題為“你吃飯了嗎?”正例泛化的結(jié)果可以說(shuō)成“用餐了沒有?”,負(fù)例泛化的結(jié)果可以說(shuō)成“你中午吃的什么?”,正例泛化及負(fù)例泛化更多案例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注問答標(biāo)注10所謂問答標(biāo)注,實(shí)際上是指從原始文本中抽取出問題和相對(duì)應(yīng)的答案。由于原始文本類型不同,問題和答案的標(biāo)注方式也會(huì)發(fā)生變化。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注問答標(biāo)注10例如,有些文本中只能找到答案,所以需要標(biāo)注師根據(jù)答案去生成問題,此為半抽取半生成的混合式問答標(biāo)注;還有些文本中能同時(shí)找到問題和答案,將其原樣抽出即可,此為完全抽取式的問答標(biāo)注。問答標(biāo)注案例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注對(duì)話語(yǔ)料構(gòu)建11在現(xiàn)實(shí)生活中,對(duì)話語(yǔ)料構(gòu)建是構(gòu)建智能對(duì)話系統(tǒng)的重要組成部分,其主要目的是根據(jù)規(guī)定的對(duì)話路徑、要求描述及知識(shí)庫(kù)等模擬真實(shí)的應(yīng)用場(chǎng)景,構(gòu)建真實(shí)的對(duì)話,并在構(gòu)建對(duì)話的過(guò)程中,針對(duì)每句對(duì)話所涉及的知識(shí)點(diǎn)進(jìn)行查找并關(guān)聯(lián)和回填槽值。從對(duì)話輪數(shù)的角度來(lái)說(shuō),對(duì)話語(yǔ)料的構(gòu)建可能是單輪的,也可能是多輪的。單輪對(duì)話就是指一問一答即結(jié)束的對(duì)話;多輪對(duì)話就是指所構(gòu)建的對(duì)話中包括多輪問答。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注對(duì)話語(yǔ)料構(gòu)建11從對(duì)話的領(lǐng)域來(lái)說(shuō),對(duì)話語(yǔ)料的構(gòu)建可能是單領(lǐng)域的,也可能是跨領(lǐng)域的??珙I(lǐng)域是指一個(gè)對(duì)話任務(wù)中包含多個(gè)領(lǐng)域的子任務(wù),例如,從旅游出行→餐館→酒店→交通等領(lǐng)域,多個(gè)領(lǐng)域的問答完成后,一個(gè)對(duì)話方可結(jié)束。跨領(lǐng)域多輪對(duì)話案例如圖所示。常見標(biāo)注任務(wù)類型介紹01文本標(biāo)注知識(shí)圖譜驗(yàn)證12知識(shí)圖譜驗(yàn)證是知識(shí)圖譜構(gòu)建的一個(gè)重要環(huán)節(jié),它是對(duì)知識(shí)圖譜質(zhì)量的最終檢驗(yàn)。知識(shí)圖譜的構(gòu)建并不是一個(gè)靜態(tài)的過(guò)程,當(dāng)向原有知識(shí)圖譜引入新知識(shí)時(shí),需要先確定該條新知識(shí)是否正確,并判斷其與已有知識(shí)是否一致。如果新知識(shí)是正確的,就可將其融合到原有知識(shí)圖譜中;如果新舊知識(shí)間存在沖突,那么要對(duì)這些知識(shí)進(jìn)行審核和判斷,確定是原有知識(shí)錯(cuò)誤,還是新的知識(shí)錯(cuò)誤。在有了判定結(jié)果后,就要對(duì)錯(cuò)誤的知識(shí)進(jìn)行補(bǔ)全、糾錯(cuò)或更新,然后再融合到原有的知識(shí)圖譜中。知識(shí)圖譜驗(yàn)證的任務(wù)較為復(fù)雜,其要考慮到原有知識(shí)圖譜及當(dāng)前知識(shí)的準(zhǔn)確性,還要兼顧新知識(shí)與原有知識(shí)圖譜的融合,并對(duì)新舊知識(shí)中相同的實(shí)體做對(duì)應(yīng)關(guān)聯(lián)處理。常見標(biāo)注任務(wù)類型介紹02語(yǔ)音標(biāo)注語(yǔ)音標(biāo)注中常見的任務(wù)類型之一,包括音頻切割和語(yǔ)音轉(zhuǎn)寫兩個(gè)步驟。音頻切割要求數(shù)據(jù)標(biāo)注人員將語(yǔ)音按照規(guī)定的時(shí)間間隔進(jìn)行分割,標(biāo)注過(guò)程中通過(guò)打點(diǎn)剪切的方式得以實(shí)現(xiàn);語(yǔ)音轉(zhuǎn)寫是指將音頻中的內(nèi)容轉(zhuǎn)寫成文字的過(guò)程,這一過(guò)程通常是以手動(dòng)錄入的形式實(shí)施。語(yǔ)音切割轉(zhuǎn)寫標(biāo)注如圖所示。(1)語(yǔ)音切割轉(zhuǎn)寫常見標(biāo)注任務(wù)類型介紹02語(yǔ)音標(biāo)注(2)語(yǔ)音校對(duì)語(yǔ)音校對(duì)是一種與語(yǔ)音切割轉(zhuǎn)寫類似的任務(wù),但其難度要低于語(yǔ)音切割轉(zhuǎn)寫。語(yǔ)音校對(duì)主要涉及的是語(yǔ)音轉(zhuǎn)文字方面的工作,是指針對(duì)原始的語(yǔ)音轉(zhuǎn)寫結(jié)果進(jìn)行檢查和修改。這些原始的語(yǔ)音轉(zhuǎn)寫結(jié)果一般為語(yǔ)音模型預(yù)處理的結(jié)果,這樣能夠使標(biāo)注的速度更快,同時(shí)也比語(yǔ)音切割轉(zhuǎn)寫任務(wù)要更容易一些。語(yǔ)音校對(duì)標(biāo)注如圖所示。常見標(biāo)注任務(wù)類型介紹02語(yǔ)音標(biāo)注(3)拼音和停頓標(biāo)注拼音標(biāo)注屬于TTS(語(yǔ)音合成)類任務(wù)中最常見也是最難的任務(wù),主要目的是對(duì)照音頻和文本為文本添加拼音及聲調(diào)。該任務(wù)通常基于預(yù)處理結(jié)果來(lái)實(shí)現(xiàn)的,主要是審核拼音拼寫及聲調(diào)是否準(zhǔn)確,確認(rèn)文本與音頻是否對(duì)應(yīng)及按照音頻的停頓時(shí)長(zhǎng)、標(biāo)注長(zhǎng)短停頓等。拼音和停頓標(biāo)注如圖所示。常見標(biāo)注任務(wù)類型介紹02語(yǔ)音標(biāo)注(4)語(yǔ)音采集語(yǔ)音采集任務(wù)主要是指錄制語(yǔ)音,目的是為各類語(yǔ)音研究提供基礎(chǔ)資料。該任務(wù)通常會(huì)對(duì)環(huán)境等各方面因素有一定的要求。例如,要求錄音場(chǎng)景底噪、混響值、錄音人分貝等都要處于一定的范圍;有些任務(wù)需要有相應(yīng)的錄音設(shè)備;還有些任務(wù)需要在錄制語(yǔ)音的同時(shí)真人出鏡。為了使語(yǔ)音數(shù)據(jù)覆蓋更加全面,語(yǔ)音采集任務(wù)通常還會(huì)對(duì)錄制人的年齡群體及地區(qū)等有分布上的要求。語(yǔ)音采集任務(wù)的場(chǎng)景比較豐富,常見的有方言采集、檢喊票采集、生產(chǎn)車間語(yǔ)音采集、停車場(chǎng)語(yǔ)音采集、語(yǔ)音客服采集、酒店語(yǔ)音自助服務(wù)采集等。在做相應(yīng)的任務(wù)時(shí),應(yīng)嚴(yán)格按照需求方的標(biāo)準(zhǔn)實(shí)施。常見標(biāo)注任務(wù)類型介紹02語(yǔ)音標(biāo)注(5)字幕時(shí)間戳校正字幕時(shí)間戳校正主要是針對(duì)視頻或音頻字幕的,不同于轉(zhuǎn)寫類任務(wù)。轉(zhuǎn)寫類任務(wù)主要是對(duì)音頻轉(zhuǎn)換的文字進(jìn)行審核和校改,而字幕時(shí)間戳校正任務(wù)不需要對(duì)文字進(jìn)行處理。字幕時(shí)間戳校正的主要任務(wù)是確認(rèn)音頻與文字內(nèi)容間的時(shí)間對(duì)應(yīng)問題,確保聲音和文字內(nèi)容同步展示。文本在屏幕上呈現(xiàn),當(dāng)聲音停止時(shí),文字在屏幕上消失。所以在聽音過(guò)程中,發(fā)現(xiàn)某段音頻與文字不對(duì)應(yīng)或起止時(shí)間有偏差時(shí),便需要做相應(yīng)的時(shí)間調(diào)整。字幕時(shí)間戳校正如圖所示。(1)拉框標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注拉框標(biāo)注是圖像標(biāo)注中常見的一種任務(wù)類型,主要是指用2D框、3D框、多邊形框等標(biāo)注出圖像中的指定目標(biāo)對(duì)象,2D拉框標(biāo)注如圖所示。通常來(lái)說(shuō),在拉框后還需要針對(duì)每個(gè)框加上類別標(biāo)簽。例如,用矩形框框選出圖片中的小孩,并加上顏色標(biāo)簽等。在標(biāo)注時(shí),通常會(huì)有有效對(duì)象和無(wú)效對(duì)象之分,往往會(huì)將尺寸過(guò)小或遮擋過(guò)于嚴(yán)重的對(duì)象標(biāo)為無(wú)效對(duì)象。常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(2)語(yǔ)義分割語(yǔ)義分割是計(jì)算機(jī)視覺中非常重要的標(biāo)注任務(wù),它實(shí)際上是從像素級(jí)別進(jìn)行圖像識(shí)別,也就是說(shuō),要針對(duì)圖像中的每個(gè)像素標(biāo)注出對(duì)象類別。這樣做的目的是預(yù)測(cè)圖像中每一個(gè)像素的類標(biāo)簽。在這一過(guò)程中,我們會(huì)將從視覺角度看起來(lái)不同類的部分按照語(yǔ)義分到不同的類別中,從而實(shí)現(xiàn)圖像的“語(yǔ)義理解”。例如,從圖中提取出所有的“羊”,或者將“羊”和“草地”區(qū)分開,不同的區(qū)域打上不同的顏色和標(biāo)簽。如圖所示,圖中為對(duì)車道、行人等進(jìn)行語(yǔ)義分割,分別將天空、車道、不同類型的車輛、行人、樹木等涂上不同的顏色。(3)關(guān)鍵點(diǎn)標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注關(guān)鍵點(diǎn)標(biāo)注是指在目標(biāo)對(duì)象的規(guī)定位置加上關(guān)鍵點(diǎn),例如,在人臉圖片上用點(diǎn)標(biāo)注出眼角、鼻尖、嘴角等關(guān)鍵位置或在人體圖像上標(biāo)出骨骼或穴位的位置等,關(guān)鍵點(diǎn)標(biāo)注如圖所示。關(guān)鍵點(diǎn)標(biāo)注技術(shù)在人臉識(shí)別、情感分析、人臉追蹤、動(dòng)作分類、行為識(shí)別等方面都有重要的作用。模型借助關(guān)鍵點(diǎn)標(biāo)注理解各個(gè)點(diǎn)在運(yùn)動(dòng)中的移動(dòng)軌跡,從而實(shí)現(xiàn)更復(fù)雜的判斷。同時(shí),需要注意的是,在打點(diǎn)過(guò)程中要保證點(diǎn)位的準(zhǔn)確性,當(dāng)有關(guān)鍵點(diǎn)位被遮蓋時(shí),需要預(yù)估點(diǎn)的位置并清晰地表示出來(lái)。在標(biāo)注過(guò)程中,要嚴(yán)格遵循標(biāo)注規(guī)范,保證標(biāo)注的準(zhǔn)確性。常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(4)3D點(diǎn)云標(biāo)注3D點(diǎn)云是一種非常適合3D場(chǎng)景理解的數(shù)據(jù),通常被認(rèn)為是表示三維世界的一種較好的方法。相對(duì)于真實(shí)的3D圖像,點(diǎn)云有著特有的深度表達(dá)優(yōu)勢(shì)。換言之,3D點(diǎn)云直接給出了物體長(zhǎng)度、寬度和深度三個(gè)維度的數(shù)據(jù),而不需像真實(shí)3D圖像那樣,需要通過(guò)透視幾何來(lái)反推三維數(shù)據(jù)。3D點(diǎn)云數(shù)據(jù)可以清晰地表示所有的物體,小到幾毫米,大到幾十米甚至成百上千米。自動(dòng)駕駛領(lǐng)域是目前其常用的領(lǐng)域。因此,在圖像標(biāo)注領(lǐng)域中,3D點(diǎn)云標(biāo)注也是非常重要的一種標(biāo)注類型。常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(4)3D點(diǎn)云標(biāo)注在圖像標(biāo)注中,3D點(diǎn)云標(biāo)注是指從點(diǎn)云圖中找出目標(biāo)對(duì)象,并以立方體框的形式標(biāo)注出來(lái),在自動(dòng)駕駛場(chǎng)景中,需要標(biāo)注的對(duì)象通常包括車輛、行人、廣告標(biāo)志和數(shù)據(jù)等。需要注意的是,在點(diǎn)云標(biāo)注任務(wù)中,平面圖通常起到參考作用,為的是判斷目標(biāo)對(duì)象的位置以及方向等,3D點(diǎn)云標(biāo)注如圖所示。(5)線標(biāo)注常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注線標(biāo)注通常用于自動(dòng)駕駛應(yīng)用中的車道線標(biāo)注,有直線也有曲線。主要是對(duì)道路地面的標(biāo)線進(jìn)行標(biāo)注。與矩形框標(biāo)注不同,線標(biāo)注能夠更精確的表示線性對(duì)象的位置,不會(huì)包含過(guò)多的噪聲和空白,是介于多邊形與關(guān)鍵點(diǎn)標(biāo)注之間的一種標(biāo)注形式。車道線的標(biāo)注也并非完全的畫線操作,在實(shí)際標(biāo)注過(guò)程中,還會(huì)涉及車道線區(qū)域的標(biāo)注、分類及語(yǔ)義標(biāo)注等。車道線標(biāo)注如圖所示。常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(6)目標(biāo)跟蹤目標(biāo)跟蹤是計(jì)算機(jī)視覺中一個(gè)重要的研究方向。在軍事制導(dǎo)、視頻監(jiān)控、機(jī)器人視覺導(dǎo)航、人機(jī)交互,以及醫(yī)療診斷等許多方面有著非常廣泛的應(yīng)用前景。目標(biāo)跟蹤是從視頻數(shù)據(jù)中按幀捕捉某一對(duì)象,并進(jìn)行畫框標(biāo)注,目標(biāo)跟蹤標(biāo)注如圖所示。目標(biāo)跟蹤是一個(gè)極具挑戰(zhàn)性的任務(wù)。對(duì)于運(yùn)動(dòng)目標(biāo)而言,其運(yùn)動(dòng)的場(chǎng)景非常復(fù)雜并且經(jīng)常發(fā)生變化,或是目標(biāo)本身也會(huì)不斷發(fā)生變化,這些都無(wú)形中加大了目標(biāo)跟蹤任務(wù)的難度,數(shù)據(jù)標(biāo)注人員需要根據(jù)其他特征進(jìn)行腦補(bǔ)并找出對(duì)應(yīng)的目標(biāo),從而進(jìn)行標(biāo)注。(7)圖像分類常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注圖像分類是計(jì)算機(jī)視覺中較為簡(jiǎn)單的任務(wù),主要是指針對(duì)給定圖像判斷出圖像或圖像中的對(duì)象所屬的類別。因此,該任務(wù)類型一般包括兩個(gè)維度的標(biāo)注:一種是標(biāo)注整個(gè)圖像場(chǎng)景的類別;另一種是標(biāo)注圖像中對(duì)象的類別。而從標(biāo)注層級(jí)來(lái)說(shuō),圖像分類可以是一級(jí)標(biāo)注也可以是多級(jí)標(biāo)注,所采用的方式一般都是系統(tǒng)加標(biāo)簽的方式,圖像分類標(biāo)注如圖所示。常見標(biāo)注任務(wù)類型介紹03圖像標(biāo)注(8)OCR識(shí)別計(jì)算機(jī)文字識(shí)別,俗稱光學(xué)字符識(shí)別,它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來(lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的格式。OCR技術(shù)是實(shí)現(xiàn)文字高速錄入的一項(xiàng)關(guān)鍵技術(shù)。在數(shù)據(jù)標(biāo)注領(lǐng)域,OCR識(shí)別常見的任務(wù)主要有發(fā)票文字識(shí)別、圖片文字識(shí)別等。在識(shí)別任務(wù)中,一般會(huì)借助專業(yè)的OCR識(shí)別軟件,再根據(jù)實(shí)際情況進(jìn)行校改,常見的OCR識(shí)別軟件有ABBYY等。在實(shí)際標(biāo)注過(guò)程中,很多公司也會(huì)針對(duì)這類任務(wù)開發(fā)自己的標(biāo)注工具,OCR識(shí)別標(biāo)注如圖所示。感謝觀看數(shù)據(jù)標(biāo)注實(shí)訓(xùn)“數(shù)據(jù)標(biāo)注”人才培養(yǎng)系列叢書第二章數(shù)據(jù)標(biāo)注實(shí)訓(xùn)數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)“數(shù)據(jù)標(biāo)注”人才培養(yǎng)系列叢書01平臺(tái)基本功能介紹平臺(tái)基本功能介紹可對(duì)學(xué)員個(gè)人信息進(jìn)行編輯和設(shè)置,如圖所示。01學(xué)員端1個(gè)人中心平臺(tái)基本功能介紹01學(xué)員端2實(shí)訓(xùn)中心學(xué)員進(jìn)行數(shù)據(jù)標(biāo)注訓(xùn)練的入口,教師分配的所有實(shí)訓(xùn)任務(wù)均可通過(guò)單擊【進(jìn)入學(xué)習(xí)】按鈕進(jìn)入相應(yīng)頁(yè)面進(jìn)行學(xué)習(xí),如圖所示。平臺(tái)基本功能介紹01學(xué)員端3學(xué)習(xí)引導(dǎo)對(duì)各任務(wù)類型頁(yè)面操作流程及步驟的分解演示,學(xué)員如果對(duì)操作有疑問,可通過(guò)單擊【學(xué)習(xí)引導(dǎo)】按鈕進(jìn)入相應(yīng)頁(yè)面進(jìn)行學(xué)習(xí),如圖所示。平臺(tái)基本功能介紹01學(xué)員端4意見反饋對(duì)內(nèi)容意見、產(chǎn)品建議、技術(shù)問題、在線投訴等的反饋渠道,如圖2-5所示。平臺(tái)基本功能介紹02教師端(1)修改密碼對(duì)個(gè)人登錄密碼進(jìn)行設(shè)置和修改,如圖所示。平臺(tái)基本功能介紹02教師端(2)平臺(tái)概況總覽對(duì)平臺(tái)總體使用情況的統(tǒng)計(jì)和展示,如圖所示。平臺(tái)基本功能介紹02教師端(3)班級(jí)管理此模塊主要用于創(chuàng)建、維護(hù)班級(jí)或分組信息,并進(jìn)行班內(nèi)成員的實(shí)操題目配置,如圖所示。平臺(tái)基本功能介紹02教師端(4)學(xué)員信息管理教師用來(lái)進(jìn)行本班學(xué)員信息的管理和維護(hù),如圖所示。平臺(tái)基本功能介紹02教師端(5)添加試卷可針對(duì)指定班級(jí)進(jìn)行試題的下發(fā)和分配,如圖所示。平臺(tái)基本功能介紹02教師端(6)創(chuàng)建標(biāo)注類型教師可為學(xué)員添加或創(chuàng)建新的標(biāo)注類型,創(chuàng)建新的標(biāo)注類型后,學(xué)員實(shí)操頁(yè)面會(huì)顯示該標(biāo)注類型,如圖所示??舍槍?duì)某一標(biāo)簽類型添加或修改標(biāo)簽工具,如圖所示。平臺(tái)基本功能介紹02教師端(7)創(chuàng)建標(biāo)簽工具平臺(tái)基本功能介紹02教師端(8)創(chuàng)建試題可新增、修改、刪除試題,如圖所示??蓪⒍鄠€(gè)題目組合成一套試卷,如圖所示。平臺(tái)基本功能介紹02教師端(9)組卷管理02平臺(tái)支持標(biāo)注類型及操作頁(yè)面展示平臺(tái)支持標(biāo)注類型及操作頁(yè)面展示01實(shí)體標(biāo)注通過(guò)單擊標(biāo)簽的方式實(shí)現(xiàn),在頁(yè)面上可實(shí)現(xiàn)規(guī)范文件預(yù)覽、字體調(diào)整等,操作簡(jiǎn)單方便、效率高,實(shí)體標(biāo)注如圖所示。平臺(tái)支持標(biāo)注類型及操作頁(yè)面展示02分類標(biāo)注通過(guò)加標(biāo)簽方式實(shí)現(xiàn),能支持針對(duì)圖片、文本的分類,支持多級(jí)標(biāo)簽、多維度標(biāo)簽、意圖填槽值等標(biāo)注,分類標(biāo)注如圖所示。平臺(tái)支持標(biāo)注類型及操作頁(yè)面展示03語(yǔ)音切割轉(zhuǎn)寫標(biāo)注通過(guò)打點(diǎn)剪切的方式實(shí)現(xiàn)切割功能,通過(guò)手動(dòng)錄入方式實(shí)現(xiàn)文字轉(zhuǎn)寫功能,支持語(yǔ)音播放、文字編輯、加標(biāo)簽等,語(yǔ)音切割轉(zhuǎn)寫標(biāo)注如圖所示。平臺(tái)支持標(biāo)注類型及操作頁(yè)面展示042D拉框標(biāo)注通過(guò)鼠標(biāo)拖曳方式實(shí)現(xiàn)標(biāo)注,支持“十字線”輔助、標(biāo)簽隱藏、圖片拖動(dòng)、撤銷操作等,2D拉框標(biāo)注如圖所示。感謝觀看數(shù)據(jù)標(biāo)注實(shí)訓(xùn)“數(shù)據(jù)標(biāo)注”人才培養(yǎng)系列叢書第三章數(shù)據(jù)標(biāo)注實(shí)訓(xùn)文本標(biāo)注實(shí)訓(xùn)“數(shù)據(jù)標(biāo)注”人才培養(yǎng)系列叢書01分類標(biāo)注分類標(biāo)注在NLP算法中,分類是指試圖推斷出給定數(shù)據(jù)(文本、語(yǔ)音、圖像)的標(biāo)簽或標(biāo)簽集合。當(dāng)然,這是從算法技術(shù)層面給出的定義,本節(jié)主要是參照上述定義從標(biāo)注層面做出理解。從標(biāo)注實(shí)施的角度來(lái)講,分類是根據(jù)給定數(shù)據(jù)(文本、語(yǔ)音、圖像)某一方面的特點(diǎn)或?qū)傩詠?lái)給數(shù)據(jù)歸類,判斷該條數(shù)據(jù)屬于哪個(gè)類別,并加上對(duì)應(yīng)的標(biāo)簽。分類標(biāo)注的任務(wù)范圍非常廣泛,意圖標(biāo)注及本節(jié)要學(xué)習(xí)的相關(guān)性標(biāo)注等都屬于這一范疇。01認(rèn)識(shí)分類標(biāo)注意圖標(biāo)注分類標(biāo)注分類標(biāo)注在分類標(biāo)注任務(wù)中,標(biāo)注的對(duì)象可以有多種,文本、圖像、語(yǔ)音都有可能,本任務(wù)的主要對(duì)象是網(wǎng)頁(yè)文本。就相關(guān)性標(biāo)注而言,在實(shí)際標(biāo)注過(guò)程中,通常會(huì)采用多遍標(biāo)注的方式。例如,標(biāo)注兩遍,對(duì)比后針對(duì)不同的標(biāo)注結(jié)果由第三人進(jìn)行質(zhì)檢,或直接標(biāo)注三遍,取兩個(gè)相同的結(jié)果等。本節(jié)對(duì)任務(wù)進(jìn)行了簡(jiǎn)化,按照每個(gè)任務(wù)標(biāo)注一遍來(lái)進(jìn)行設(shè)計(jì),重點(diǎn)幫助學(xué)習(xí)者初步理解任務(wù)。02分類標(biāo)注實(shí)訓(xùn)之相關(guān)性標(biāo)注分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范對(duì)所給關(guān)鍵詞或問題與頁(yè)面呈現(xiàn)答案之間進(jìn)行對(duì)比,確認(rèn)答案能否解答問題,解答的程度如何,并加上對(duì)應(yīng)的標(biāo)簽。本任務(wù)中標(biāo)簽共有四個(gè)層級(jí),分別是完美解答、部分解答、部分涉及和無(wú)關(guān)解答。(1)任務(wù)目標(biāo)分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范①標(biāo)注時(shí),應(yīng)全局查看,不可單純地以某一個(gè)詞為依據(jù),例如,對(duì)于關(guān)鍵詞“紅燒魚做法”,不能因?yàn)榻Y(jié)果中體現(xiàn)了“魚”而判斷為“部分解答”。②針對(duì)每個(gè)關(guān)鍵詞給出的結(jié)果是否能完美地解答該關(guān)鍵詞的問題,應(yīng)參照對(duì)應(yīng)的意圖描述來(lái)判斷,而不可自行猜測(cè)。③標(biāo)注頁(yè)面上提供了結(jié)果的參考網(wǎng)址,當(dāng)頁(yè)面內(nèi)容亂碼或顯示不出來(lái)時(shí),應(yīng)以網(wǎng)址內(nèi)的實(shí)際內(nèi)容為依據(jù)。(2)基本標(biāo)注原則分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(3)具體說(shuō)明相關(guān)性類別具體說(shuō)明完美解答答案內(nèi)容與關(guān)鍵詞非常相關(guān),可以完整地解答關(guān)鍵詞所表達(dá)的提問意圖,可以直接使用部分解答答案內(nèi)容與關(guān)鍵詞有相關(guān)之處,但所給出的答案結(jié)果明顯是不完整的部分涉及答案內(nèi)容僅僅提到了關(guān)鍵詞的意圖或僅做了討論,或者針對(duì)與問題主體相關(guān)的內(nèi)容進(jìn)行了解答,但并未給出任何有用的解答無(wú)關(guān)解答答案內(nèi)容跑題,與關(guān)鍵詞所表達(dá)的意圖完全沒有關(guān)系,也起不到任何參考作用分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范標(biāo)題即提問時(shí)所使用的關(guān)鍵詞。例如,當(dāng)使用關(guān)鍵詞“美容養(yǎng)生”提問時(shí),可能是想要了解美容養(yǎng)生店鋪或了解美容養(yǎng)生小竅門等。描述主要是對(duì)關(guān)鍵詞意圖的解釋,明確告訴標(biāo)注者該關(guān)鍵詞到底是想要了解什么內(nèi)容。內(nèi)容來(lái)源即標(biāo)注內(nèi)容的來(lái)源鏈接,單擊進(jìn)入即可查看原始解答頁(yè)面。在出現(xiàn)顯示不全、亂碼或其他顯示錯(cuò)誤的情況下,標(biāo)注者可單擊內(nèi)容來(lái)源進(jìn)入原始頁(yè)面,從而做出準(zhǔn)確判斷。①②③(3)具體說(shuō)明分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(4)注意事項(xiàng)①所有標(biāo)注結(jié)果的判斷應(yīng)該按照標(biāo)注規(guī)范嚴(yán)格執(zhí)行,判斷標(biāo)準(zhǔn)應(yīng)保持一致不可出現(xiàn)偏差判斷的情況。②當(dāng)所給結(jié)果中僅粗略提到了相關(guān)的主題時(shí),應(yīng)理解為答案中涉及這一議題,但未做出解答,因此判斷為部分涉及。③部分涉及與部分解答的區(qū)別在于,部分涉及僅僅涉及議題但并未給出有用的參考;而部分解答不僅涉及了議題,還給出了部分答案,但答案并不完整。分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實(shí)施頁(yè)面a.進(jìn)入實(shí)訓(xùn)中心頁(yè)面b.進(jìn)入任務(wù)實(shí)施頁(yè)面分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實(shí)施頁(yè)面a.進(jìn)入實(shí)訓(xùn)中心頁(yè)面b.進(jìn)入任務(wù)實(shí)施頁(yè)面分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用①進(jìn)入任務(wù)實(shí)施頁(yè)面a.進(jìn)入實(shí)訓(xùn)中心頁(yè)面b.進(jìn)入任務(wù)實(shí)施頁(yè)面分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁(yè)面操作詳解a.標(biāo)注任務(wù)領(lǐng)取分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁(yè)面操作詳解b.選擇標(biāo)簽分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁(yè)面操作詳解c.保存d.提交分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁(yè)面操作詳解e.切換至下一題f.查看答案分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(5)系統(tǒng)使用②標(biāo)注頁(yè)面操作詳解g.查看標(biāo)注規(guī)范分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例1—【完美解答】分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例2—【部分解答】分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例3—【部分涉及】分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(6)標(biāo)注樣例標(biāo)注樣例4—【無(wú)關(guān)解答】分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項(xiàng)目案例分析案例1解析:案例1中標(biāo)題為“響水天氣預(yù)報(bào)”,根據(jù)意圖描述可以確定,這是針對(duì)響水近期天氣情況給出的結(jié)果,而圖中的結(jié)果完全能夠解答關(guān)鍵詞的提問,因此可以判斷為“完美解答”。分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項(xiàng)目案例分析案例2解析:案例2中標(biāo)題的意圖是“好用的護(hù)發(fā)產(chǎn)品”,而下方結(jié)果給出的是護(hù)膚知識(shí),對(duì)于解答問題來(lái)說(shuō)起不到任何幫助,因此應(yīng)判斷為“無(wú)關(guān)解答”。分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項(xiàng)目案例分析案例3解析:案例3中標(biāo)題的意圖是要查找“用白醋刷鞋的步驟及用量”,而下方結(jié)果中給出了白醋刷鞋的基本操作步驟,但并未給出明確的白醋用量,比如3滴、5滴等,而只說(shuō)了“一些”,因此屬于給出了部分解答內(nèi)容,而并未完整解答問題,所以應(yīng)判斷為“部分解答”。分類標(biāo)注03相關(guān)性標(biāo)注規(guī)范(7)項(xiàng)目案例分析案例4解析:案例4中標(biāo)題的意圖是“給寶寶打疫苗應(yīng)該去哪里”,而下方結(jié)果中給出的卻是打疫苗的注意事項(xiàng),僅僅涉及了打疫苗的相關(guān)事項(xiàng),但并未明確回答問題,屬于略有涉及主題,可判斷為【部分涉及】。02命名實(shí)體標(biāo)注命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注要解開實(shí)體標(biāo)注之謎,首先要了解什么是命名實(shí)體。事實(shí)上,命名實(shí)體指的是文本中具有特定意義或指代性強(qiáng)的專有名詞,例如,人名(王小花、李三毛)、地名(北京、上海)、組織機(jī)構(gòu)名(SAE)等。其中,“人名”“地名”“組織機(jī)構(gòu)名”屬于實(shí)體類別,而實(shí)體類別后括號(hào)內(nèi)的值“王小花”“北京”“SAE”等是被識(shí)別出來(lái)的具體實(shí)體詞。命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注當(dāng)然,在實(shí)際標(biāo)注工作中,實(shí)體類別并非只有這幾類,而每個(gè)標(biāo)注任務(wù)的實(shí)體類別也并不是固定的。例如,任務(wù)1可能需要標(biāo)注人名、地名、公司名,但任務(wù)2可能需要標(biāo)注部隊(duì)名、產(chǎn)品名、武器名等。所以,實(shí)體這個(gè)概念可以很廣泛,只要是符合業(yè)務(wù)需要的、具有特定意義的文本片段(專有名詞)都可以被稱為實(shí)體,例如,《西游記》(書名)、《八駿全圖》(畫作名)等。而每個(gè)任務(wù)需要標(biāo)注哪些實(shí)體類別主要是由兩個(gè)方面決定的:一是原始文本所屬領(lǐng)域不同,導(dǎo)致在確定實(shí)體類別時(shí)側(cè)重點(diǎn)不同;二是需求者的實(shí)際需求有差異。如前面所述的例子,任務(wù)1只需要標(biāo)注人名、地名等通用類別,很可能是因?yàn)樵嘉谋颈旧聿⒉皇菍I(yè)領(lǐng)域的文本;而任務(wù)2則很有可能是軍事領(lǐng)域的文本,所以才會(huì)要求標(biāo)注武器名等實(shí)體。而在針對(duì)某次標(biāo)注任務(wù)準(zhǔn)備原始數(shù)據(jù)時(shí),需求者往往會(huì)按照真實(shí)需求去篩選文本,確保能夠得到更多想要的標(biāo)注結(jié)果。命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注盡管實(shí)體類別會(huì)因?yàn)槲谋绢I(lǐng)域不同而產(chǎn)生變化,但業(yè)內(nèi)人士仍然基于較長(zhǎng)時(shí)期的應(yīng)用經(jīng)驗(yàn)總結(jié)出了所有領(lǐng)域文本通用的實(shí)體類別,常見實(shí)體類別如表所示。實(shí)體英文名稱實(shí)體釋義舉例PERSON人名史密斯LOCATION地名北京DATE日期2020年6月20日TIME時(shí)間下午3﹕00MONEY金額¥2000PERCENT百分比3%POST職務(wù)總統(tǒng)、總理、副主任COUNTRY國(guó)家中國(guó)ORGANIZATION組織機(jī)構(gòu)北溝小學(xué)COMPANY公司遼寧盤石數(shù)據(jù)科技有限公司命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注表為行業(yè)內(nèi)10種通用的實(shí)體類別,也是實(shí)際實(shí)體標(biāo)注任務(wù)中常見的類別。通過(guò)表格中的例子,我們可以看出,這些例子都是有特指意義的,換言之,也就是看到這些例子之后,我們的腦海中能夠很直觀地反映出這些例子說(shuō)的到底是誰(shuí),其所表達(dá)的層次是怎樣的。這種特指性也是命名實(shí)體的本質(zhì)所在,實(shí)體必須是具有指向性的特指詞,如果只是一個(gè)泛指詞,則失去命名實(shí)體的本質(zhì)意義,也就不能稱之為命名實(shí)體了。命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注由上述分析,我們得出一個(gè)結(jié)論,那就是:只有特指詞才能作為命名實(shí)體,所以在將一個(gè)詞標(biāo)為命名實(shí)體之前,首先要看這個(gè)詞是否有特指意義,如果沒有,則是泛指,這個(gè)詞也就不能標(biāo)為實(shí)體。以下面兩個(gè)目標(biāo)詞為例:目標(biāo)詞1:公司目標(biāo)詞2:天山數(shù)字娛樂有限公司在上述兩個(gè)詞中,目標(biāo)詞1只是泛指的公司,并沒有對(duì)應(yīng)到具體的某一個(gè),所以不能作為實(shí)體;目標(biāo)詞2是具體的公司名稱,看到這個(gè)詞我們就知道是具體的某個(gè)公司,所以可以作為實(shí)體,我們可以將其打上“公司名”標(biāo)簽。命名實(shí)體標(biāo)注01認(rèn)識(shí)命名實(shí)體及實(shí)體標(biāo)注目標(biāo)詞3:醫(yī)院目標(biāo)詞4:盛京醫(yī)院依然是同樣的道理,目標(biāo)詞3不能作為實(shí)體,目標(biāo)詞4可以作為實(shí)體。在了解命名實(shí)體的判斷依據(jù)之后,我們進(jìn)一步探討實(shí)體標(biāo)注。按照實(shí)施過(guò)程來(lái)定義,實(shí)體標(biāo)注是指從原始文本中找出所需類別的實(shí)體,并針對(duì)這些實(shí)體加上實(shí)體類別標(biāo)簽。例如,針對(duì)“盛京醫(yī)院”一詞,加上“組織機(jī)構(gòu)”的標(biāo)簽;針對(duì)“PAC-3MSE”一詞,加上“導(dǎo)彈名”標(biāo)簽等。這些只是簡(jiǎn)單的舉例,這里不再詳細(xì)說(shuō)明。需要了解的是,不同領(lǐng)域可能需要標(biāo)注不同的實(shí)體類別。例如,在醫(yī)藥領(lǐng)域,需要標(biāo)注藥品名、醫(yī)療器械型號(hào)等;在政治領(lǐng)域,可能需要標(biāo)注會(huì)議名稱、領(lǐng)導(dǎo)人名稱等;在法律領(lǐng)域,則需要標(biāo)注人名、罪名、被告人等。在本節(jié)實(shí)訓(xùn)中,我們主要以通用領(lǐng)域文本為載體進(jìn)行通用類別實(shí)體的標(biāo)注訓(xùn)練,希望初學(xué)者在熟練掌握實(shí)體標(biāo)注的精髓后,能夠做到舉一反三,對(duì)其他領(lǐng)域的實(shí)體標(biāo)注也能做到準(zhǔn)確理解。命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注1通用實(shí)體標(biāo)注規(guī)范本任務(wù)的主要目標(biāo)是:從所給的文本中找出命名實(shí)體,并給實(shí)體加上對(duì)應(yīng)的實(shí)體類別標(biāo)簽,實(shí)體標(biāo)注共有8類實(shí)體,包括COM(公司)、ORG(組織機(jī)構(gòu))、PER(人名)、LOC(地名)、DAY(日期)、TPT(時(shí)間點(diǎn))、POST(職務(wù))、MNY(貨幣額度)。(1)任務(wù)目標(biāo)命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注1通用實(shí)體標(biāo)注規(guī)范(1)不得有疏漏標(biāo)記,所選的實(shí)體詞不得出現(xiàn)多詞或漏詞現(xiàn)象,例如,在文本“千山有限公司于2018年……”中,不能出現(xiàn)“山有限公司”或“千山有限公司于”等類似的情況。(2)同屬于一個(gè)實(shí)體詞的所有文字,必須一次性同時(shí)選中,加上實(shí)體類別標(biāo)簽,不可為了方便而在已有標(biāo)記的基礎(chǔ)上單獨(dú)增補(bǔ)標(biāo)簽。(3)僅標(biāo)注明確特指項(xiàng),所有泛指項(xiàng)均不標(biāo)注。(2)基本標(biāo)注原則命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注2具體說(shuō)明COM:公司公司主要是指以經(jīng)商、提供服務(wù)等以盈利為目的的機(jī)構(gòu),例如××有限公司/有限責(zé)任公司/集團(tuán)/股份有限公司/交易所,具體類別定義如下:(1)

商業(yè)團(tuán)體(公司、企業(yè)、工廠):【盤石數(shù)據(jù)】【中國(guó)平安保險(xiǎn)股份有限公司】。(2)媒體:【央視】【人民日?qǐng)?bào)】。(3)娛樂:【迪士尼】。(4)酒吧、飯店:【嗨串店】。(1)命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注2具體說(shuō)明ORG:組織機(jī)構(gòu)一切屬于非公司的團(tuán)體、組織、政府都可以標(biāo)注為組織機(jī)構(gòu),包括組織和機(jī)構(gòu)兩種,例如××醫(yī)院、××救援隊(duì)等。具體規(guī)定如下:(1) 學(xué)校&科研院所:蘇州大學(xué)、中國(guó)科學(xué)院植物研究所。(2)國(guó)際組織:中國(guó)計(jì)算機(jī)學(xué)會(huì)、亞洲太平洋經(jīng)濟(jì)合作組織。(3)派別:少林派、田園派。(4)政府部門:中華人民共和國(guó)外交部。(2)命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注2具體說(shuō)明ORG:組織機(jī)構(gòu)(5) 政黨或黨派:中國(guó)共產(chǎn)黨。(6)宗教:佛教、伊斯蘭教、道教。(7) 娛樂:VE電子競(jìng)技俱樂部。(8) 體育比賽類:2008年北京奧運(yùn)會(huì)、NBA(美國(guó)職業(yè)籃球聯(lián)賽)、世錦賽。(9)虛構(gòu)的機(jī)構(gòu):S.H.I.E.L.D.。(10)其他:包括醫(yī)院等。(2)命名實(shí)體標(biāo)注02命名實(shí)體標(biāo)注實(shí)訓(xùn)之通用實(shí)體標(biāo)注2具體說(shuō)明PER:人名(1) 標(biāo)準(zhǔn)人名:【張小紅】,但如果只含姓,沒有名,則只標(biāo)注姓,例如,【張】【趙】大戰(zhàn)。(2)“姓名/姓/名+稱謂”或“稱謂+姓名/姓/名”組合形式,只標(biāo)姓氏,例如,【周】總、【王芳】經(jīng)理。(3)“姓名/姓/名+后綴”或“前綴+姓名/姓/名”組合形式,只標(biāo)姓氏,例如,【李】爺爺、【王】總、老【劉】。(4)外國(guó)人名

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論