




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)》課程教案課題:數(shù)據(jù)標(biāo)注概述教學(xué)目的:了解數(shù)據(jù)標(biāo)注的相關(guān)概念及行業(yè)現(xiàn)狀。掌握數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景。掌握常見標(biāo)注任務(wù)類型。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):了解數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景教學(xué)難點(diǎn):難點(diǎn):常見標(biāo)注任務(wù)類型教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題數(shù)據(jù)標(biāo)注概述課次8授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排16學(xué)分共4分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入近年來,隨著科技的高速發(fā)展與進(jìn)步,人工智能(ArtificialIntelligence,AI)技術(shù)研究與應(yīng)用日漸成熟。人工智能真正被世人所知還是在2016—2017年。2016和2017年,Google公司開發(fā)的AlphaGo圍棋機(jī)器人分別與世界冠軍李世石和柯潔對(duì)弈并取得勝利,這一結(jié)果震驚了世界。AlphaGo取得的勝利表明,通過深度學(xué)習(xí)實(shí)現(xiàn)的人工智能是有可能超越人類的,甚至可以說,這一超越在某些方面正在或已經(jīng)實(shí)現(xiàn)。此后,人工智能研究的熱潮高居不下,國(guó)內(nèi)人工智能研究的浪潮也因此被引爆。2020年,我國(guó)提出“加快新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度”的口號(hào)。人工智能被作為“新基建”七大領(lǐng)域之一,將為經(jīng)濟(jì)增長(zhǎng)提供新動(dòng)力。而數(shù)據(jù)標(biāo)注作為人工智能的基石也成為人工智能產(chǎn)業(yè)落地的關(guān)鍵因素,為“智慧應(yīng)用、萬物連接”落地打下堅(jiān)實(shí)基礎(chǔ)并發(fā)揮著重要作用。數(shù)據(jù)標(biāo)注為何在人工智能產(chǎn)業(yè)落地中占據(jù)如此重要的地位?簡(jiǎn)而言之,人工智能要解決的是機(jī)器學(xué)習(xí)的問題,其根本是模仿人類學(xué)習(xí),將人類學(xué)習(xí)的過程賦予機(jī)器,再通過機(jī)器學(xué)習(xí),讓機(jī)器能夠展現(xiàn)人類智慧,增強(qiáng)人類智能,這就需要對(duì)機(jī)器的算法模型進(jìn)行訓(xùn)練。在人工智能訓(xùn)練中,零亂不成體系的原始數(shù)據(jù)并不能直接為算法模型所識(shí)別和使用,而是需要經(jīng)過一定的處理和加工變成結(jié)構(gòu)化數(shù)據(jù)后才能為人工智能提供基礎(chǔ)支撐。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式1.1什么是數(shù)據(jù)標(biāo)注人工智能訓(xùn)練的過程好比人類成長(zhǎng)的認(rèn)知過程,人類從呱呱墜地開始即處于不斷的主動(dòng)或被動(dòng)學(xué)習(xí)和認(rèn)知中。當(dāng)我們出生的時(shí)候,對(duì)這個(gè)世界是一無所知的。在成長(zhǎng)過程中,身邊人會(huì)不斷地告訴我們這是什么,就這樣隨著反復(fù)的學(xué)習(xí)和強(qiáng)化,我們開始有了認(rèn)知,開始會(huì)叫爸爸、媽媽,開始認(rèn)識(shí)顏色、小貓、小狗、汽車、飛機(jī),并隨著學(xué)習(xí)過程的深入變得更加聰明。機(jī)器學(xué)習(xí)的過程也是如此。例如,我們想讓機(jī)器來認(rèn)識(shí)汽車,應(yīng)該怎么辦呢?首先我們需要知道的是,機(jī)器本身并不具備如人類一樣的認(rèn)知和思考能力,因此當(dāng)我們把汽車圖片展示給它的時(shí)候,它顯然不知道這張圖片代表著什么。所以,我們要將機(jī)器當(dāng)成孩子,像教孩子一樣地告訴它什么樣的物體是汽車。我們首先會(huì)拿來各式各樣大量的汽車圖片,并在圖片上加標(biāo)記之后將這些圖片數(shù)據(jù)“喂”給計(jì)算機(jī),告訴它這是汽車,并讓它認(rèn)知不同顏色、形狀、大小以及不同品牌的汽車。在計(jì)算機(jī)了解了大量的汽車特征后,我們?cè)匐S機(jī)挑選一張汽車圖片,它就會(huì)識(shí)別出這是汽車,甚至在我們拿著一張別的汽車圖片來給它的時(shí)候,它也能認(rèn)出這是汽車。上述機(jī)器識(shí)別汽車的結(jié)果就是人工智能訓(xùn)練的結(jié)果,這一過程也是從人工到智能的過程。人工智能并不是與生俱來的,它是要靠人工去輔助智能來實(shí)現(xiàn)的,因此人工智能包括人工和智能兩部分。智能的核心主要是算法模型,而人工的核心則是數(shù)據(jù)標(biāo)注。算法模型經(jīng)過對(duì)大量帶標(biāo)數(shù)據(jù)的學(xué)習(xí)之后,便具備了舉一反三的認(rèn)知能力。相應(yīng)地,上述給汽車圖片添加標(biāo)記的過程就是數(shù)據(jù)標(biāo)注。如果要給數(shù)據(jù)標(biāo)注下個(gè)定義,那么數(shù)據(jù)標(biāo)注便可以從狹義和廣義兩個(gè)角度來理解。狹義的數(shù)據(jù)標(biāo)注是指隨人工智能崛起而產(chǎn)生的一種新興職業(yè),是專門為人工智能模型訓(xùn)練提供訓(xùn)練數(shù)據(jù)的服務(wù)。在此過程中,需要通過某些工具或手段人為地為圖片、視頻、語音和文本數(shù)據(jù)添加分類、畫框、注釋等,例如為圖片畫框、將語音轉(zhuǎn)成文本、給文本或圖片及語音等添加分類,這些標(biāo)記后的數(shù)據(jù)成果可用于算法模型訓(xùn)練,提高模型效果。訓(xùn)練好的算法模型可以運(yùn)用到圖像識(shí)別、語音識(shí)別、自動(dòng)駕駛等不同領(lǐng)域。如今,隨著產(chǎn)業(yè)發(fā)展,數(shù)據(jù)標(biāo)注已經(jīng)被賦予了更多使命,也逐漸包含了更廣泛的任務(wù)類型。廣義來講,數(shù)據(jù)標(biāo)注是指一切與數(shù)據(jù)加工有關(guān)的服務(wù),包括數(shù)據(jù)清洗、格式調(diào)整、識(shí)別、整理、形式轉(zhuǎn)換等。數(shù)據(jù)標(biāo)注的起源可以追溯到2007年,這一年斯坦福大學(xué)的李飛飛教授等人啟動(dòng)了ImageNet項(xiàng)目。這是一個(gè)依靠亞馬遜勞務(wù)眾包平臺(tái)進(jìn)行圖片分類和標(biāo)注的項(xiàng)目,目的是積累更好的數(shù)據(jù)集為機(jī)器學(xué)習(xí)算法提供服務(wù)。自2010年起,ImageNet項(xiàng)目每年都會(huì)組織一次視覺識(shí)別挑戰(zhàn)賽。隨著歷年挑戰(zhàn)賽的舉辦,各參賽團(tuán)隊(duì)的分類錯(cuò)誤率逐年下降,這也為數(shù)據(jù)標(biāo)注積累了大量的經(jīng)驗(yàn)和人才。1.2數(shù)據(jù)標(biāo)注的行業(yè)現(xiàn)狀1.2.1政策層面2020年2月,人力資源和社會(huì)保障部與國(guó)家市場(chǎng)監(jiān)督管理總局、國(guó)家統(tǒng)計(jì)局聯(lián)合發(fā)布《人力資源社會(huì)保障部辦公廳市場(chǎng)監(jiān)管總局辦公廳統(tǒng)計(jì)局辦公室關(guān)于發(fā)布智能制造工程技術(shù)人員等職業(yè)信息的通知》(人社廳發(fā)〔2020〕17號(hào))(以下稱為“通知”),新增“人工智能訓(xùn)練師”這一職業(yè),將其職責(zé)描述為:?標(biāo)注和加工圖片、文字、語音等業(yè)務(wù)的原始數(shù)據(jù)。?分析提煉專業(yè)領(lǐng)域特征,訓(xùn)練和評(píng)測(cè)人工智能產(chǎn)品相關(guān)算法、功能和性能。?設(shè)計(jì)人工智能產(chǎn)品的交互流程和應(yīng)用解決方案。?監(jiān)控、分析、管理人工智能產(chǎn)品應(yīng)用數(shù)據(jù)。?調(diào)整、優(yōu)化人工智能產(chǎn)品參數(shù)和配置。通知明確規(guī)定,人工智能訓(xùn)練的職業(yè)工種包括但不限于:數(shù)據(jù)標(biāo)注員和人工智能算法測(cè)試員。自此,在人工智能行業(yè)默默付出了十幾年的標(biāo)注從業(yè)者們,有了一個(gè)統(tǒng)一的職業(yè)名稱—人工智能訓(xùn)練師,新增職業(yè)信息的通知如圖1-1所示。2017年7月,國(guó)務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,其中也做出了相應(yīng)規(guī)劃,預(yù)計(jì)到2025年,人工智能核心產(chǎn)業(yè)規(guī)模超過4000億元,同時(shí)提出要大力帶動(dòng)數(shù)據(jù)標(biāo)注、電子等相關(guān)產(chǎn)業(yè)的發(fā)展。這也預(yù)示了數(shù)據(jù)標(biāo)注行業(yè)不斷發(fā)展的趨勢(shì),這種巨大的投入和市場(chǎng)規(guī)模,帶來的必然是大量數(shù)據(jù)標(biāo)注人才的需求。1.2.2行業(yè)需求據(jù)2020年艾瑞咨詢《中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)發(fā)展報(bào)告》顯示,2019年,中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模達(dá)到30.9億元,預(yù)計(jì)到2025年,市場(chǎng)規(guī)模將突破100億元,年增長(zhǎng)21.8%。其中,圖像類、語音類、自然語言處理(NaturalLanguageProcessing,NLP)類數(shù)據(jù)需求占比分別為49.7%、39.1%和11.2%。在2021年艾瑞咨詢的更新報(bào)告中顯示,2020年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模達(dá)到37億元,同時(shí)到2025年的預(yù)測(cè)市場(chǎng)規(guī)模為107億元,與之前報(bào)告的預(yù)測(cè)值相比增加了7億元。從2020年的需求分布來看,圖像類、語音類、自然語言處理類數(shù)據(jù)需求占比分別為45.3%、43.5%和11.2%。由此可以看出,圖像和語音標(biāo)注仍然占據(jù)大部分市場(chǎng),2020年與2021年中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模預(yù)測(cè)對(duì)比如圖1-2所示。目前,各行各業(yè)對(duì)人工智能算法研發(fā)的投入都在增大,而監(jiān)督和半監(jiān)督的學(xué)習(xí)方式在達(dá)到強(qiáng)人工智能階段之前,將一直占據(jù)主流地位。從一定意義上也可以說,數(shù)據(jù)標(biāo)注在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)仍將是人工智能技術(shù)不可逾越的一個(gè)環(huán)節(jié)。而且,由于人工智能技術(shù)要迫切地在行業(yè)落地,其對(duì)于模型指標(biāo)增長(zhǎng)的需求將迫使數(shù)據(jù)標(biāo)注的需求量倍增。從標(biāo)注任務(wù)的形式和難度來說,隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注已不再是最初的畫框打點(diǎn)那樣簡(jiǎn)單,而是要滿足智能模型訓(xùn)練的更多需求。數(shù)據(jù)標(biāo)注從開始的簡(jiǎn)易標(biāo)注,已經(jīng)開始向復(fù)雜、多樣化的標(biāo)注方向發(fā)展。以導(dǎo)航為例,過去的導(dǎo)航只是2D平面的形式,現(xiàn)在不僅有2D模式,還有空間上的3D導(dǎo)航模式。行業(yè)對(duì)數(shù)據(jù)標(biāo)注人員的要求也和過去有著很大的區(qū)別。相比以前門檻低、技術(shù)要求低、崗前培訓(xùn)的寬松要求,現(xiàn)階段對(duì)數(shù)據(jù)標(biāo)注人員開始有了專業(yè)、學(xué)歷和學(xué)習(xí)能力的要求。而且部分標(biāo)注項(xiàng)目對(duì)專業(yè)性有著相當(dāng)高的要求,例如醫(yī)療、金融等行業(yè)標(biāo)注項(xiàng)目。伴隨著市場(chǎng)需求的持續(xù)增長(zhǎng),數(shù)據(jù)標(biāo)注行業(yè)對(duì)從業(yè)人員有了更加細(xì)致地劃分,標(biāo)注專員、標(biāo)注組長(zhǎng)等崗位開始為人們所熟知。由于行業(yè)應(yīng)用越來越深入,行業(yè)對(duì)于數(shù)據(jù)標(biāo)注人員的能力水平要求也越來越高,高級(jí)的數(shù)據(jù)標(biāo)注人員會(huì)逐漸向人工智能訓(xùn)練師的方向進(jìn)行轉(zhuǎn)型和發(fā)展。從行業(yè)內(nèi)需來看,近年來各行各業(yè)都逐漸有了標(biāo)注需求,數(shù)據(jù)標(biāo)注的工作量也隨之增大,行業(yè)內(nèi)越來越需要更高效、更完善的標(biāo)注工具來輔助數(shù)據(jù)標(biāo)注人員完成任務(wù)?,F(xiàn)如今市面上標(biāo)注工具和標(biāo)注平臺(tái)有很多,從任務(wù)實(shí)施角度來說,基本上也可滿足數(shù)據(jù)標(biāo)注工作的需求,但還需進(jìn)行規(guī)范化和專業(yè)化。1.2.3行業(yè)發(fā)展起初,數(shù)據(jù)服務(wù)企業(yè)通常是利用網(wǎng)絡(luò)爬蟲等工具進(jìn)行數(shù)據(jù)采集,然后將數(shù)據(jù)封裝打包賣給其他企業(yè)。這一階段中,通用的數(shù)據(jù)產(chǎn)品基本能滿足客戶的大部分需求。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)需求也隨之轉(zhuǎn)向定制化。AI對(duì)數(shù)據(jù)的要求非常高,數(shù)據(jù)的精準(zhǔn)性會(huì)影響AI算法模型的運(yùn)行及使用效果。從2016年起,一些AI數(shù)據(jù)標(biāo)注眾包服務(wù)平臺(tái)慢慢發(fā)展起來,其中具有代表性的就是亞馬遜勞務(wù)眾包平臺(tái)(AmazonMechanicalTurk,MTurk)。MTurk作為國(guó)外最大的勞務(wù)眾包平臺(tái),每天都有大量的人員在線進(jìn)行數(shù)據(jù)采集和標(biāo)注工作。在中國(guó),人工智能的發(fā)展起步較晚,大約在2017年進(jìn)入研究的爆發(fā)階段。大量的科技公司也開始研發(fā)各種各樣的移動(dòng)App,利用AI技術(shù)來實(shí)現(xiàn)人機(jī)交互。隨著標(biāo)注需求日益凸顯,各大互聯(lián)網(wǎng)巨頭企業(yè)率先占領(lǐng)了國(guó)內(nèi)數(shù)據(jù)服務(wù)市場(chǎng),紛紛建立標(biāo)注平臺(tái)、標(biāo)注基地。一時(shí)間,數(shù)據(jù)標(biāo)注行業(yè)宛如一夜春風(fēng)吹過,遍地開花。目前,隨著人工智能應(yīng)用的發(fā)展越來越成熟,其也反過來對(duì)數(shù)據(jù)標(biāo)注行業(yè)起到了更明顯的指導(dǎo)和促進(jìn)作用。目前,數(shù)據(jù)標(biāo)注市場(chǎng)上呈現(xiàn)出一種發(fā)展趨勢(shì),即開發(fā)智能標(biāo)注產(chǎn)品,通過提供少量的人工標(biāo)注數(shù)據(jù)作為基礎(chǔ),由機(jī)器自動(dòng)對(duì)待標(biāo)注數(shù)據(jù)進(jìn)行大規(guī)模標(biāo)注。但通過此方式得出的標(biāo)注結(jié)果依然是無法與人工標(biāo)注的質(zhì)量相比的,也無法用于高要求的訓(xùn)練任務(wù),但依然能夠在一定程度上輔助和加快數(shù)據(jù)標(biāo)注進(jìn)程。隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,從事數(shù)據(jù)標(biāo)注服務(wù)的公司和人員數(shù)量都在大規(guī)模增長(zhǎng),數(shù)據(jù)需求大量呈現(xiàn),標(biāo)注也更加多樣化、復(fù)雜化和精細(xì)化,這給數(shù)據(jù)標(biāo)注行業(yè)帶來了極大的生機(jī)。但在行業(yè)向前發(fā)展的同時(shí),也呈現(xiàn)出一些問題,例如,由于數(shù)據(jù)標(biāo)注人員水平參差不齊,眾包模式下的數(shù)據(jù)質(zhì)量良莠不一;整個(gè)數(shù)據(jù)標(biāo)注行業(yè)缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,行業(yè)發(fā)展沒有依據(jù);特別是強(qiáng)人工智能的發(fā)展趨勢(shì)和需求已對(duì)數(shù)據(jù)標(biāo)注這份工作提出了更高的要求,僅能簡(jiǎn)單標(biāo)注的數(shù)據(jù)標(biāo)注人員已無法滿足人工智能的更高要求。目前,高素質(zhì)人才稀缺,供給側(cè)業(yè)務(wù)水平遠(yuǎn)遠(yuǎn)趕不上需求側(cè)的要求,導(dǎo)致大量的高標(biāo)準(zhǔn)標(biāo)注項(xiàng)目無法完成,數(shù)據(jù)標(biāo)注已經(jīng)到了必須向高精尖、專業(yè)化方向發(fā)展的階段,所以行業(yè)內(nèi)急需經(jīng)過專業(yè)培訓(xùn)和教育、具備職業(yè)素養(yǎng)的人才。1.2.4市場(chǎng)結(jié)構(gòu)(一)眾包結(jié)構(gòu)眾包結(jié)構(gòu)是數(shù)據(jù)標(biāo)注市場(chǎng)上最早興起的一種結(jié)構(gòu),需求公司通過眾包平臺(tái)發(fā)布標(biāo)注需求,數(shù)量眾多的標(biāo)注志愿者或兼職人員在平臺(tái)上自由領(lǐng)取標(biāo)注任務(wù)。眾包結(jié)構(gòu)的優(yōu)點(diǎn)是充分利用了大量社會(huì)兼職人員的業(yè)余時(shí)間、最大限度地節(jié)省了公司在標(biāo)注成本上的損耗。但這種結(jié)構(gòu)也有著明顯的弊端,眾多分散的數(shù)據(jù)標(biāo)注人員共同實(shí)施同一個(gè)大型的標(biāo)注項(xiàng)目,由于人員能力和水平參差不齊,經(jīng)常需要進(jìn)行有效溝通,而由于人員龐雜和時(shí)空限制,這種有效溝通往往需要花費(fèi)很大的力氣才能實(shí)現(xiàn),這對(duì)于質(zhì)量管理來說是極大的障礙;此外,由于眾包平臺(tái)上人員混雜,接觸數(shù)據(jù)的人員眾多,極不利于數(shù)據(jù)的安全保密;而當(dāng)需求方需要對(duì)標(biāo)注需求進(jìn)行調(diào)整時(shí),眾包的兼職人員也很難及時(shí)地配合對(duì)完成任務(wù)進(jìn)行修改和調(diào)整。一些眾包平臺(tái)已經(jīng)意識(shí)到這種局限性,開始通過各種方式對(duì)平臺(tái)上的數(shù)據(jù)標(biāo)注質(zhì)量進(jìn)行把控。例如,對(duì)標(biāo)注人員進(jìn)行測(cè)評(píng)和考核,設(shè)置專門的質(zhì)檢人員等,通過淘汰的方式提高平臺(tái)內(nèi)數(shù)據(jù)標(biāo)注人員的工作能力,這在一定意義上也可以被認(rèn)為是行業(yè)開始進(jìn)步的表現(xiàn)。(二)工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注市場(chǎng)上的第二種市場(chǎng)結(jié)構(gòu)是工廠結(jié)構(gòu),需求方或服務(wù)方成立專門的數(shù)據(jù)標(biāo)注公司,擁有專職的數(shù)據(jù)標(biāo)注人員。相較于眾包結(jié)構(gòu),工廠結(jié)構(gòu)有著穩(wěn)定的、專業(yè)的數(shù)據(jù)標(biāo)注人員,針對(duì)項(xiàng)目能夠?qū)崿F(xiàn)有效地交流溝通,且溝通成本低;從標(biāo)注實(shí)施效果來看,工廠結(jié)構(gòu)由于人力穩(wěn)定,也更能夠保證進(jìn)度和質(zhì)量;從安全保密性上來看,工廠結(jié)構(gòu)的數(shù)據(jù)傳遞過程也都可追溯,減少了數(shù)據(jù)泄露的可能性。但工廠結(jié)構(gòu)同樣存在缺點(diǎn),即全職人員成本高,如無長(zhǎng)期穩(wěn)定的項(xiàng)目很難保證公司的可持續(xù)發(fā)展。這正是很多標(biāo)注公司主要接收長(zhǎng)期的大型項(xiàng)目,而不愿意涉獵短期的小型項(xiàng)目的原因,因?yàn)槎唐诘男⌒晚?xiàng)目在初期的培訓(xùn)測(cè)試階段,成本極高,項(xiàng)目額度過小則無法覆蓋成本。當(dāng)然,市場(chǎng)上有些小型公司為了生存也會(huì)選擇接收短期的小型項(xiàng)目,但當(dāng)標(biāo)注量突然增大時(shí),小公司的標(biāo)注能力又難以應(yīng)付,顯得捉襟見肘?,F(xiàn)階段工廠結(jié)構(gòu)兩極化現(xiàn)象十分嚴(yán)重,大規(guī)模的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的人數(shù)可能超過數(shù)千人,而小規(guī)模團(tuán)隊(duì)的人數(shù)甚至不到10人。目前,市場(chǎng)上大規(guī)模的專業(yè)數(shù)據(jù)標(biāo)注公司不在少數(shù)。(三)眾包+工廠結(jié)構(gòu)數(shù)據(jù)標(biāo)注的市場(chǎng)結(jié)構(gòu)不僅僅是以上兩種,也有一些企業(yè)將眾包結(jié)構(gòu)和工廠結(jié)構(gòu)進(jìn)行融合,方便對(duì)不同規(guī)模的項(xiàng)目進(jìn)行靈活的部署。這就是眾包+工廠結(jié)構(gòu)的混合形式的市場(chǎng)結(jié)構(gòu),這種結(jié)構(gòu)的標(biāo)注服務(wù)公司通常不僅有屬于自己的全職及兼職標(biāo)注團(tuán)隊(duì),同時(shí)還擁有眾包平臺(tái)。這種結(jié)構(gòu)在一定程度上控制了成本,也保證了標(biāo)注的質(zhì)量和進(jìn)度,但對(duì)于數(shù)據(jù)安全仍然是無法保證的。由此可見,在標(biāo)注市場(chǎng)中,無論采用哪種結(jié)構(gòu),都具有優(yōu)點(diǎn)和缺點(diǎn),而眾包+工廠相結(jié)合的形式能否成為數(shù)據(jù)標(biāo)注行業(yè)在未來的主流形式,還需要市場(chǎng)的檢驗(yàn)。但無論采用哪種形式,都要優(yōu)先確保標(biāo)注的準(zhǔn)確性、進(jìn)度及數(shù)據(jù)安全性。是否具備這三方面的能力也將是未來標(biāo)注服務(wù)企業(yè)在市場(chǎng)上能否具有競(jìng)爭(zhēng)力并占據(jù)優(yōu)勢(shì)的關(guān)鍵。1.3數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景1.3.1智能教育“互聯(lián)網(wǎng)+”大潮過后,“智能+”的概念逐漸深入到各大領(lǐng)域,成為推動(dòng)各行各業(yè)發(fā)展的新動(dòng)能,也對(duì)人們的生產(chǎn)和生活方式產(chǎn)生了深遠(yuǎn)的影響。教育這一關(guān)乎“國(guó)計(jì)民生”的行業(yè)更是率先垂范,力求在各環(huán)節(jié)實(shí)現(xiàn)智能化。現(xiàn)如今,各類智能教育產(chǎn)品不僅極大地緩解了家長(zhǎng)對(duì)于孩子學(xué)習(xí)輔導(dǎo)的壓力,也減輕了教育機(jī)構(gòu)在教學(xué)實(shí)施和管理方面的負(fù)擔(dān),讓教學(xué)過程更加可追溯可控。在智能教育的實(shí)現(xiàn)過程中,數(shù)據(jù)標(biāo)注可謂是起到了至關(guān)重要的作用。首先,以教育陪伴機(jī)器人為例,這一產(chǎn)品讓很多兒童對(duì)學(xué)習(xí)產(chǎn)生了濃厚的興趣。孩子們通過與教育陪伴機(jī)器人的對(duì)話和互動(dòng),在不知不覺間就獲得了快樂和知識(shí)。在這背后,是數(shù)據(jù)標(biāo)注的功勞。教育陪伴機(jī)器人所具備的語音及對(duì)話功能是需要通過語音識(shí)別及語音合成技術(shù)來實(shí)現(xiàn)的,與之相對(duì)應(yīng)的標(biāo)注類型就是語音轉(zhuǎn)寫及TTS類標(biāo)注。不僅如此,很多機(jī)器人還能聽懂孩子的指令,如為孩子打開音樂、視頻等,這背后也涉及大量的自然語言理解任務(wù)。為了讓機(jī)器人能夠聽懂不同人用不同方式表達(dá)的指令,往往需要對(duì)喚醒指令做大量的泛化標(biāo)注,例如,將“打開音樂”泛化成“播放歌曲”等。這些功能都是通過使用數(shù)據(jù)標(biāo)注完成的數(shù)據(jù)對(duì)算法模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)的。智能教育陪伴機(jī)器人應(yīng)用場(chǎng)景如圖1-3所示。比較常見的智能教育場(chǎng)景還有英語口語發(fā)音訓(xùn)練及自動(dòng)化口語評(píng)測(cè)服務(wù),這些應(yīng)用或產(chǎn)品通過語音識(shí)別技術(shù)營(yíng)造了沉浸式的學(xué)習(xí)環(huán)境,并通過人機(jī)對(duì)話的互動(dòng)方式讓學(xué)習(xí)者實(shí)現(xiàn)了聽、說、讀、寫等方面的學(xué)習(xí)。英語口語發(fā)音訓(xùn)練應(yīng)用場(chǎng)景如圖1-4所示。此外,在這些場(chǎng)景的實(shí)現(xiàn)過程中,會(huì)涉及更多的標(biāo)注內(nèi)容。例如,英語口語發(fā)音訓(xùn)練需要通過大量的語音標(biāo)注來實(shí)現(xiàn)聲紋識(shí)別功能。同時(shí),課程內(nèi)容的管控需要大量的暴恐敏感信息過濾,招生營(yíng)銷也需要完成大量的智能外呼、語音質(zhì)檢、人臉融合等標(biāo)注。總之,智能教育的應(yīng)用場(chǎng)景還有很多,而智能教學(xué)設(shè)計(jì)和數(shù)字平臺(tái)等也正在利用人工智能技術(shù)幫助更多的學(xué)生彌補(bǔ)短板。在人工智能和機(jī)器學(xué)習(xí)改變教育形勢(shì)的道路上,數(shù)據(jù)標(biāo)注及內(nèi)容審核將成為永遠(yuǎn)不可或缺的一環(huán)。1.3.2智慧醫(yī)療隨著經(jīng)濟(jì)發(fā)展和人民生活水平的提高,人們對(duì)醫(yī)療服務(wù)形式及時(shí)效性等方面的需求也更加多樣化。然而,多種復(fù)雜因素的影響致使醫(yī)療領(lǐng)域長(zhǎng)期面臨著資源不足、地區(qū)分布失衡、優(yōu)質(zhì)醫(yī)生短缺等問題。智慧醫(yī)療的出現(xiàn)恰好完美地解決了這一問題,人工智能輔助診斷、智能客服、智能自診等不僅有效地緩解了醫(yī)療資源短缺帶來的壓力,也提升了患者的就診體驗(yàn)。人工智能與醫(yī)療行業(yè)的結(jié)合主要體現(xiàn)在醫(yī)療影像診斷及遠(yuǎn)程問診方面。隨著醫(yī)療技術(shù)的發(fā)展,醫(yī)療影像已逐漸由輔助檢查手段發(fā)展成為重要的診查方式。傳統(tǒng)模式下,醫(yī)療影像主要是由醫(yī)生肉眼讀取并以此為依據(jù)進(jìn)行診斷的。但肉眼診查的模式速度緩慢且耗時(shí)長(zhǎng),而且這種診查模式完全依賴于醫(yī)生的個(gè)人經(jīng)驗(yàn)和能力,對(duì)專業(yè)人才的需求量極大。AI圖像識(shí)別技術(shù)的出現(xiàn)可謂是為醫(yī)療診斷帶來了福音。通過圖像識(shí)別技術(shù),可以對(duì)影像進(jìn)行自動(dòng)比對(duì),可完成病灶的自動(dòng)識(shí)別,從而更快地完成診斷。利用圖像自動(dòng)識(shí)別技術(shù)能提高診斷效率,還體現(xiàn)在AI圖像識(shí)別的抗疲勞性能上。AI圖像識(shí)別技術(shù)主要靠機(jī)器完成,可24小時(shí)不間斷診斷,且每秒處理的圖像成千上萬張,甚至更快,這一點(diǎn)也能大大提高效率。與高效率相比,更有價(jià)值的是圖像自動(dòng)識(shí)別技術(shù)還能發(fā)現(xiàn)肉眼看不到的病灶,能夠幫助疑似患者診斷,從而避免漏診狀況的發(fā)生并為患者贏得最佳治療時(shí)機(jī)。圖像識(shí)別技術(shù)之所以能夠得到成功的應(yīng)用,其背后離不開數(shù)據(jù)標(biāo)注的支持。圖像識(shí)別技術(shù)能夠在醫(yī)療領(lǐng)域發(fā)揮作用主要依托于圖像識(shí)別算法模型。模型并非是天生就能夠?qū)崿F(xiàn)圖像識(shí)別的,而是要通過訓(xùn)練才能獲得這一能力,而訓(xùn)練模型所用的原材料是標(biāo)注后的數(shù)據(jù)。一個(gè)圖像識(shí)別模型的訓(xùn)練需要大量帶標(biāo)數(shù)據(jù)的支持,就醫(yī)療影像識(shí)別而言,病灶標(biāo)注、骨骼關(guān)鍵點(diǎn)標(biāo)注、器官標(biāo)注、細(xì)胞標(biāo)注等都是常見的標(biāo)注類型。醫(yī)療影像標(biāo)注應(yīng)用場(chǎng)景如圖1-5所示。智慧醫(yī)療的另一種成功應(yīng)用是遠(yuǎn)程問診。遠(yuǎn)程問診在醫(yī)學(xué)專家與患者之間建立起全新的聯(lián)系,能使患者得到及時(shí)、有效地治療,也避免了患者尋醫(yī)問藥時(shí)的勞苦奔波。在遠(yuǎn)程問診場(chǎng)景下,患者能通過問診App或智能客服完成自我診斷。輸入癥狀后,智能自診可對(duì)文本進(jìn)行語義理解和分析,從文本中抽取出關(guān)鍵信息并與數(shù)據(jù)庫(kù)進(jìn)行比對(duì),從而實(shí)現(xiàn)病癥信息的精準(zhǔn)匹配,進(jìn)而給出診斷結(jié)果。此外,醫(yī)生在遠(yuǎn)程診斷時(shí)還可以通過語音識(shí)別技術(shù)將需要存檔的手寫病歷以語音方式輸入,系統(tǒng)會(huì)自動(dòng)生成文字形式的病歷材料,可大幅減輕工作負(fù)擔(dān)。遠(yuǎn)程問診場(chǎng)景如圖1-6所示。在線問診功能的實(shí)現(xiàn)同樣離不開數(shù)據(jù)標(biāo)注的支持。語音識(shí)別技術(shù)的實(shí)現(xiàn)需要語音模型去學(xué)習(xí)大量多樣化的語音轉(zhuǎn)寫數(shù)據(jù),因此需要做大量的語音轉(zhuǎn)寫標(biāo)注;智能客服的實(shí)現(xiàn)需要NLP技術(shù)的輔助,比如信息抽取、句法分析、語義消歧、命名實(shí)體識(shí)別等,需要靠大量的關(guān)鍵詞標(biāo)注、指代鏈標(biāo)注、句法標(biāo)注、實(shí)體標(biāo)注等任務(wù)的支持,正是這些結(jié)構(gòu)化數(shù)據(jù)為人工智能訓(xùn)練提供支持才使得患者能夠在線上實(shí)現(xiàn)簡(jiǎn)單的自我診斷。盡管人工智能技術(shù)落地醫(yī)療領(lǐng)域在很大程度上緩解了醫(yī)療過程中存在的弊端和限制,使得醫(yī)療體系整體運(yùn)行更加有效。但需要明確的是,目前的人工智能技術(shù)在醫(yī)療領(lǐng)域更多的還是起輔助作用,尚無法取代醫(yī)生。隨著數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,其所提供的數(shù)據(jù)集會(huì)越來越精準(zhǔn)和多樣化,所涉及的應(yīng)用模型也會(huì)更加精準(zhǔn)有效,相信智慧醫(yī)療在科技高速發(fā)展的新時(shí)代會(huì)穩(wěn)扎穩(wěn)打,發(fā)揮更加重要的作用。1.3.3智慧司法隨著人工智能技術(shù)越來越成熟,司法這一莊嚴(yán)的領(lǐng)域也開始了智能化之旅。從犯罪高發(fā)地預(yù)測(cè)到潛在罪犯預(yù)警、從協(xié)助審訊到司法量刑,人工智能技術(shù)可謂是在司法辦案全流程中大展拳腳。在司法處理過程中,智慧司法的場(chǎng)景隨處可見。例如,司法機(jī)器人,能夠幫助當(dāng)事人完成遠(yuǎn)程立案、訴訟咨詢和引導(dǎo)、“隔空”庭審、當(dāng)庭判決等工作;通過機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的犯罪預(yù)測(cè)和預(yù)警系統(tǒng),能夠預(yù)測(cè)犯罪發(fā)生區(qū)域,并分析犯罪高發(fā)地和高發(fā)群體,從而為司法辦案提供指向性,爭(zhēng)取時(shí)間,并在必要時(shí)輔助調(diào)配警力;人臉識(shí)別技術(shù),通過人臉關(guān)鍵特征分析能夠幫助比對(duì)并鎖定犯罪嫌疑人;人工智能測(cè)謊儀,通過人物表情形態(tài)、語調(diào)、心率、局部溫度等分析,能夠精準(zhǔn)判別犯罪嫌疑人是否在說謊,從而輔助司法審訊。在司法AI的輔助下,辦案證據(jù)得到了有效地校驗(yàn)、把關(guān)、提示、監(jiān)督,更加經(jīng)得起法律檢驗(yàn),刑事辦案過程實(shí)現(xiàn)了全程可視、全程留痕、全程監(jiān)督,司法有失公正及冤假錯(cuò)案情況得到有效的防范。人工智能測(cè)謊儀應(yīng)用場(chǎng)景如圖1-7所示。智慧司法的實(shí)現(xiàn)同樣也有數(shù)據(jù)標(biāo)注的功勞。例如,司法機(jī)器人要想實(shí)現(xiàn)精準(zhǔn)解答就要先做到語義理解,所以分詞、實(shí)體、句法標(biāo)注是必不可少的步驟,此外實(shí)現(xiàn)實(shí)時(shí)對(duì)話和解答還需要構(gòu)建大量的對(duì)話數(shù)據(jù)集并給出大量的關(guān)鍵詞,這些都需要通過數(shù)據(jù)標(biāo)注來完成。再比如,人工智能要輔助量刑,首先需要實(shí)現(xiàn)對(duì)司法案件的結(jié)構(gòu)化處理,需要通過對(duì)類似案件事由、原因、判決結(jié)果、適用法條、爭(zhēng)議焦點(diǎn)等信息進(jìn)行結(jié)構(gòu)化提取,從而通過訓(xùn)練后的模型來實(shí)現(xiàn)輔助判決,給出最優(yōu)的判決建議。另外,人臉比對(duì)技術(shù)的實(shí)現(xiàn)也需要大量的人臉標(biāo)注,線上庭審及司法審訊等書面記錄的實(shí)現(xiàn)也離不開語音轉(zhuǎn)寫標(biāo)注的支持。以數(shù)據(jù)標(biāo)注為基礎(chǔ)的智慧司法極大地避免了因情感或個(gè)人意愿影響而導(dǎo)致的判決結(jié)果偏差,但從當(dāng)前落地情況來看,其在判決相關(guān)的法理與人情的平衡方面還有很大的優(yōu)化空間。盡管如此,智慧司法為司法辦案帶來的便利仍然是不容小覷的,相信隨著數(shù)據(jù)標(biāo)注越來越精準(zhǔn)、機(jī)器學(xué)習(xí)越來越全面,人工智能技術(shù)在司法領(lǐng)域的應(yīng)用會(huì)越來越廣泛,效果也會(huì)越來越好。1.3.4智慧金融隨著機(jī)器學(xué)習(xí)、圖像識(shí)別等技術(shù)的落地,人工智能與金融行業(yè)的結(jié)合變得越來越緊密。在金融領(lǐng)域,有一個(gè)詞叫作“智慧金融”。智慧金融就是人工智能賦能于金融行業(yè)的應(yīng)用表現(xiàn)。如今金融行業(yè),在產(chǎn)品研發(fā)、內(nèi)部管控、金融客服等方面,每個(gè)環(huán)節(jié)都有人工智能技術(shù)落地的典型場(chǎng)景。首先是刷臉支付、指紋支付逐漸替代了傳統(tǒng)的密碼支付,極大地簡(jiǎn)化了支付流程,并避免了密碼泄露等風(fēng)險(xiǎn);其次是依托于語音交互技術(shù)的語音客服,明顯地減少了銀行或金融機(jī)構(gòu)等在客戶服務(wù)方面的人力投入;此外,還有在線客服機(jī)器人,可讓用戶在幾秒鐘內(nèi)輕松了解業(yè)務(wù)辦理流程并預(yù)約辦理時(shí)間,這些都在有效降低金融機(jī)構(gòu)運(yùn)營(yíng)成本的同時(shí)提升了客戶體驗(yàn)。指紋支付應(yīng)用場(chǎng)景如圖1-8所示。智慧金融人工智能技術(shù)得以突破,背后離不開數(shù)據(jù)標(biāo)注的有力支持。首先是計(jì)算機(jī)視覺技術(shù),主要應(yīng)用了2D拉框、關(guān)鍵點(diǎn)、OCR等標(biāo)注類型;其次是語音交互技術(shù),主要應(yīng)用語音轉(zhuǎn)寫標(biāo)注;再到自然語言處理技術(shù),通常應(yīng)用到實(shí)體、關(guān)系、分類、意圖等標(biāo)注。銀行卡賬號(hào)OCR轉(zhuǎn)寫應(yīng)用場(chǎng)景如圖1-9所示。智慧金融除了能輔助優(yōu)化業(yè)務(wù)流程并提高效率,還能輔助解決金融風(fēng)險(xiǎn)和安全監(jiān)管方面的很多問題。例如,智慧金融能夠在借貸方面對(duì)借款人員進(jìn)行人際關(guān)系圖譜整理及消費(fèi)和逾期行為分析,分析借款人員的還款能力及逾期風(fēng)險(xiǎn),可最大限度減少壞賬的產(chǎn)生,為金融企業(yè)提供保障。再比如,在金融監(jiān)管中,往往需要做股權(quán)穿透,從而監(jiān)控企業(yè)的運(yùn)營(yíng)行為及運(yùn)營(yíng)風(fēng)險(xiǎn)等。這些都需要通過實(shí)體關(guān)系的標(biāo)注來支持。所以,如果沒有數(shù)據(jù)標(biāo)注的保障,智慧金融的智能化就無法得到完美呈現(xiàn)。1.3.5智慧出行人類的出行,從依靠雙腳到借助機(jī)械車輪、電氣化的翅膀,再到如今,其效率已經(jīng)得到了本質(zhì)的提升,這也為人類節(jié)省了極大的時(shí)間和成本。然而,這些方式卻仍然離不開人的控制和參與,直到自動(dòng)駕駛技術(shù)的出現(xiàn),才打破了這一僵局。當(dāng)下比較流行且成熟的智慧出行場(chǎng)景當(dāng)屬自動(dòng)駕駛,在車輛自動(dòng)駕駛中,人們只需要告訴設(shè)備出發(fā)地與目的地,便可以在不需人工干預(yù)的條件下順利地到達(dá)目的地。那么自動(dòng)駕駛車輛是如何按照交通標(biāo)識(shí)行駛并識(shí)別和躲避行人及障礙物,從而安全到達(dá)目的地的呢?其實(shí),自動(dòng)駕駛能夠躲避行人且遵守交通標(biāo)識(shí)主要是依靠算法模型的訓(xùn)練。而自動(dòng)駕駛的算法模型主要以有監(jiān)督的深度學(xué)習(xí)為主,因此在訓(xùn)練過程中,需要大量的帶標(biāo)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和優(yōu)化。自動(dòng)駕駛場(chǎng)景如圖1-10所示。自動(dòng)駕駛標(biāo)注主要以圖片標(biāo)注為主,2D拉框、3D點(diǎn)云、語義分割等都是其中應(yīng)用非常多的標(biāo)注類型。在2D拉框中,需要用矩形框畫出交通場(chǎng)景圖片中的人物、車輛、障礙物等;3D點(diǎn)云需要結(jié)合2D圖片從該圖片的點(diǎn)云圖中用立體框畫出車輛、行人、障礙物等的點(diǎn)云輪廓;而語義分割則需要按照語義用自定義畫框?qū)煌▓?chǎng)景中的圖片進(jìn)行區(qū)分,區(qū)分出圖片中的行人、車輛、道路、標(biāo)識(shí)、樹木、建筑物等。自動(dòng)駕駛場(chǎng)景中的語義分割標(biāo)注如圖1-11所示。自動(dòng)駕駛可以說是最早讓數(shù)據(jù)標(biāo)注行業(yè)興起的領(lǐng)域。同時(shí),隨著技術(shù)成果越來越顯著,這一領(lǐng)域?qū)τ趫D片標(biāo)注的要求也顯得越來越苛刻。因此,數(shù)據(jù)標(biāo)注者在任務(wù)過程中也需要不斷地學(xué)習(xí)和成長(zhǎng),才能滿足越來越高的要求。1.3.6智能家居近年來,在智能化、自動(dòng)化高新技術(shù)的驅(qū)動(dòng)下,智能家居行業(yè)進(jìn)入飛速發(fā)展時(shí)期。智能家居是最貼近我們生活的人工智能。從智能門鎖到智能開關(guān),再到智能音箱、智能窗簾、智能電視機(jī)和掃地機(jī)器人,智能家居極大地提高了人們的幸福感。下班后走進(jìn)家門,簡(jiǎn)單的一句“我回來了”,一瞬間燈光打開、電視機(jī)打開、熱水器打開,生活變得更舒適而愜意。這些智能家居設(shè)備,不僅能聽懂主人的語音指令,而且即使是在主人用不同的方式去表達(dá)指令時(shí),也能實(shí)現(xiàn)相應(yīng)的功能。智能掃地機(jī)器人應(yīng)用場(chǎng)景如圖1-12所示。智能家居之所以能夠聽懂多種表達(dá)形式的指令,一方面是因?yàn)槠渚邆湔Z音識(shí)別功能,另一方面是因?yàn)槠渚邆淞艘欢ǖ淖匀徽Z言理解能力。語音識(shí)別能力和自然語言理解能力都是算法模型經(jīng)過大規(guī)模訓(xùn)練的結(jié)果。語音識(shí)別模型訓(xùn)練所依賴的語音轉(zhuǎn)寫標(biāo)注,在此不做詳細(xì)說明。智能家居設(shè)備要學(xué)習(xí)獲得自然語言理解能力則通常要用到意圖標(biāo)注、喚醒詞泛化標(biāo)注、控制詞采集等。在標(biāo)注過程中,數(shù)據(jù)標(biāo)注人員會(huì)針對(duì)不同的功能采集不同的喚醒詞,并對(duì)喚醒詞進(jìn)行多種形式的表達(dá),再將標(biāo)注后的數(shù)據(jù)給模型訓(xùn)練,從而使模型學(xué)習(xí)獲得相應(yīng)的能力,如圖1-13所示。隨著行業(yè)的發(fā)展,智能家居的控制功能更加完善,控制范圍也在不斷擴(kuò)大,大到可以涵蓋所有傳統(tǒng)的弱電行業(yè),發(fā)展前景十分廣闊。當(dāng)然,隨著應(yīng)用越來越多,智能家居在如何提高智能化、多場(chǎng)景融合化等方面所面臨的挑戰(zhàn)也會(huì)更大。值得一提的是,高度智能化的背后,一定需要更精準(zhǔn)、更大量的數(shù)據(jù)標(biāo)注。1.3.7智慧農(nóng)業(yè)農(nóng)業(yè)是人民的衣食之源,也是人類的生命之本,更是國(guó)家重要的經(jīng)濟(jì)命脈。我國(guó)素有農(nóng)業(yè)大國(guó)之稱,因此農(nóng)業(yè)的高效可持續(xù)生態(tài)發(fā)展無疑是極為關(guān)鍵的。近年來,人工智能的發(fā)展也大力推動(dòng)了我國(guó)農(nóng)業(yè)的發(fā)展,讓農(nóng)業(yè)在人工智能時(shí)代煥發(fā)出勃勃生機(jī)。目前,智慧農(nóng)業(yè)的應(yīng)用場(chǎng)景已有很多。例如,用于農(nóng)林植物保護(hù),實(shí)現(xiàn)智慧農(nóng)業(yè)藥劑噴灑作業(yè)的植保無人機(jī);用于精細(xì)化種植的智能化溫室;用于農(nóng)田收割的智能收割機(jī);依托測(cè)土配方施肥的智能配肥機(jī)以及用于養(yǎng)殖的智能養(yǎng)殖場(chǎng)等。通過與人工智能技術(shù)的融合,農(nóng)業(yè)變得更加高效、智慧和精細(xì)化,實(shí)現(xiàn)了規(guī)?;?、集約化和工廠化發(fā)展,對(duì)自然環(huán)境風(fēng)險(xiǎn)的抵御能力有所提升,也為農(nóng)業(yè)新生態(tài)建設(shè)提供了助力。依托精準(zhǔn)的數(shù)據(jù)標(biāo)注,智慧農(nóng)業(yè)實(shí)現(xiàn)了對(duì)農(nóng)作物的定位及成熟度和生長(zhǎng)狀態(tài)的識(shí)別,從而在這些數(shù)據(jù)與生長(zhǎng)環(huán)境和時(shí)間之間建立關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)自動(dòng)施肥、自動(dòng)農(nóng)藥撒播等,大大減少了人力投入并減少了農(nóng)藥等資源的浪費(fèi)。在實(shí)現(xiàn)智慧農(nóng)業(yè)后,原本需要上百人的數(shù)百畝大棚現(xiàn)如今僅需三五個(gè)人即可輕松搞定。智慧農(nóng)業(yè)應(yīng)用場(chǎng)景如圖1-14所示。在智慧農(nóng)業(yè)中,主要應(yīng)用的標(biāo)注類型包括多邊形標(biāo)注、語義分割、視頻標(biāo)注等。通過多邊形、語義分割等標(biāo)注可以獲得農(nóng)作物生長(zhǎng)狀態(tài)、土壤條件、農(nóng)作物病蟲害、禾苗生長(zhǎng)情況等數(shù)據(jù),這使得智慧農(nóng)業(yè)具備了信息獲取、管理、分析等能力,可實(shí)現(xiàn)自動(dòng)灌溉、降溫、施肥等自動(dòng)控制功能。特別是通過視頻標(biāo)注實(shí)現(xiàn)的實(shí)時(shí)監(jiān)控,使得無人機(jī)能夠直觀地觀察農(nóng)作物的生長(zhǎng)狀態(tài)并判斷營(yíng)養(yǎng)水平,從而可為農(nóng)業(yè)種植提供更加科學(xué)的理論依據(jù)。農(nóng)作物病蟲害標(biāo)注應(yīng)用場(chǎng)景如圖1-15所示。隨著人工智能技術(shù)的發(fā)展,智慧農(nóng)業(yè)在農(nóng)業(yè)經(jīng)濟(jì)建設(shè)和發(fā)展中必然會(huì)發(fā)揮更大的作用,但同樣也會(huì)面臨前所未有的挑戰(zhàn)。相信在高度智能化的未來,現(xiàn)代農(nóng)民和專家在線討論、農(nóng)技服務(wù)咨詢、農(nóng)產(chǎn)品銷售等面向三農(nóng)生態(tài)圈的社會(huì)化服務(wù)一定會(huì)讓現(xiàn)代農(nóng)業(yè)迎來更大的發(fā)展。1.3.8智能營(yíng)銷互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)購(gòu)已成為廣大用戶的主流購(gòu)物方式。隨著網(wǎng)絡(luò)營(yíng)銷概念的普及,多元化的營(yíng)銷手段層出不窮。拋開商家的營(yíng)銷套路不談,智能營(yíng)銷是各大電商平臺(tái)最為精準(zhǔn)的定向營(yíng)銷。相信很多人在個(gè)人賬號(hào)下的購(gòu)物App上都經(jīng)常會(huì)發(fā)現(xiàn)這樣的現(xiàn)象,在瀏覽購(gòu)物頁面并搜索某種產(chǎn)品后,無論是否達(dá)成訂單,只要再次打開該款購(gòu)物軟件,首頁和搜索欄中便會(huì)自動(dòng)推送這種產(chǎn)品或類似產(chǎn)品。這是購(gòu)物App中的標(biāo)配功能,通常被稱為個(gè)性化推薦。可能你會(huì)覺得這很貼心,其實(shí)在這貼心的推薦背后,是數(shù)據(jù)標(biāo)注的功勞。每個(gè)用戶的瀏覽行為都反映了該用戶的品位、愛好和購(gòu)物習(xí)慣,通過對(duì)這些瀏覽記錄進(jìn)行分析能夠挖掘出用戶背后的潛在需求,從而將該用戶發(fā)展成為潛在客戶或有效客戶。智能營(yíng)銷的相似推薦應(yīng)用場(chǎng)景如圖1-16所示。在個(gè)性化推薦場(chǎng)景中,最常涉及的標(biāo)注類型就是分類、意圖和關(guān)鍵詞標(biāo)注。在對(duì)數(shù)據(jù)做好分類并給出關(guān)鍵詞信息后,智能模型通過訓(xùn)練,可通過匹配方式將同類產(chǎn)品或相似產(chǎn)品進(jìn)行篩選,并呈現(xiàn)在用戶眼前,從而為用戶消費(fèi)提供方便。隨著智能營(yíng)銷的應(yīng)用越來越多,如今的智能營(yíng)銷場(chǎng)景已遠(yuǎn)遠(yuǎn)不止于此?;诖罅康臄?shù)據(jù)標(biāo)注實(shí)現(xiàn)的人工智能技術(shù),目前,市面上已出現(xiàn)很多智能營(yíng)銷、拓展客戶平臺(tái)。這些平臺(tái)能夠幫助了解目標(biāo)客戶群體,確定廣告投放的最佳時(shí)機(jī)和策略,采集大量潛在用戶的瀏覽記錄并做定向推送。這些都將成就以營(yíng)銷大數(shù)據(jù)為基礎(chǔ)的現(xiàn)代營(yíng)銷模式,為精準(zhǔn)營(yíng)銷帶來巨大的價(jià)值。1.3.9智能安防智能安防是得益于人工智能技術(shù)的又一成功應(yīng)用場(chǎng)景。隨著經(jīng)濟(jì)發(fā)展,人們對(duì)于安防的認(rèn)識(shí)越來越深,社會(huì)對(duì)于安防的要求也越來越高。如今的生活中,傳統(tǒng)的安防設(shè)備及人員已不能滿足安全需求,智能安防的出現(xiàn)則給社會(huì)治理帶來了便利。目前,市面上出現(xiàn)的智能安防設(shè)備比比皆是,比如智能攝像頭、智能門禁、智能貓眼等,智能門禁的應(yīng)用場(chǎng)景如圖1-17所示。以現(xiàn)在使用廣泛的智能攝像頭為例,智能攝像頭區(qū)別于傳統(tǒng)攝像頭的是智能攝像頭不僅能夠拍攝畫面,還能對(duì)畫面中的內(nèi)容進(jìn)行識(shí)別和區(qū)分。比如,靜止的畫面中突然出現(xiàn)了動(dòng)態(tài),或者畫面中出現(xiàn)了人物,智能攝像頭都會(huì)對(duì)這些內(nèi)容進(jìn)行標(biāo)識(shí)并向相關(guān)人員示警。要實(shí)現(xiàn)這些功能,當(dāng)然少不了數(shù)據(jù)標(biāo)注的功勞。在智能安防領(lǐng)域,應(yīng)用較多的人工智能技術(shù)是語音識(shí)別和圖像識(shí)別。在智能安防的語音識(shí)別中,主要應(yīng)用的是語音轉(zhuǎn)寫標(biāo)注。語音轉(zhuǎn)寫標(biāo)注支持的語音識(shí)別技術(shù)使得語音通話和問詢的實(shí)時(shí)轉(zhuǎn)錄成為可能。這不僅節(jié)省了保安、記錄員等人力資源,還大幅提升了工作效率。就安防圖像識(shí)別而言,常見的標(biāo)注場(chǎng)景是目標(biāo)跟蹤、人臉打點(diǎn)、人體關(guān)鍵點(diǎn)、手勢(shì)標(biāo)注、人物特征標(biāo)注等。通過標(biāo)注人物的性別、年齡、膚色、指紋、表情、衣著等,為模型訓(xùn)練提供了海量數(shù)據(jù),從而幫助機(jī)器實(shí)現(xiàn)快速識(shí)別。盡管智能安防已經(jīng)得到了成功應(yīng)用,但總體來說,其尚處于起步階段,因此還有很長(zhǎng)的路要走。同時(shí),隨著智能化程度越來越高,其對(duì)數(shù)據(jù)標(biāo)注的需求量也會(huì)急劇擴(kuò)大,數(shù)據(jù)標(biāo)注也必然會(huì)成為智能安防高度智能化道路上的主要問題。1.3.10智能制造智能制造一詞已為人們所熟知,這一理念也已成為行業(yè)的熱點(diǎn)。然而,很多人尚未認(rèn)識(shí)到的是,數(shù)據(jù)標(biāo)注已成為傳統(tǒng)制造向智能化轉(zhuǎn)變的必要環(huán)節(jié)。智能制造有著許多應(yīng)用場(chǎng)景,例如智能研發(fā)和設(shè)計(jì);智能采購(gòu)、訂單等。在車間里,帶有視覺系統(tǒng)的機(jī)器人,能夠像人一樣選取合適的零件。工廠里,高度智能化的質(zhì)檢機(jī)器人能夠像“黑臉包公”一樣篩選出所有的瑕疵產(chǎn)品,將生產(chǎn)質(zhì)量控制得分毫不差。這不僅節(jié)省了人力,而且將生產(chǎn)效率提高了無數(shù)倍。智能質(zhì)檢機(jī)器人的應(yīng)用場(chǎng)景如圖1-18所示。試想,這些智能質(zhì)檢機(jī)器人是如何辨別產(chǎn)品缺陷的?其實(shí),這種智能化的背后都是數(shù)據(jù)標(biāo)注支持的結(jié)果。智能質(zhì)檢機(jī)器人之所以能精準(zhǔn)辨別產(chǎn)品缺陷,依靠的是其自身所具備的視覺能力,而這種視覺能力需要精準(zhǔn)度極高的視覺系統(tǒng)來實(shí)現(xiàn)。通過采集一定數(shù)量的產(chǎn)品的各個(gè)角度的圖片,由標(biāo)注人員進(jìn)行畫框、語義分割等標(biāo)注,這些帶有標(biāo)注的圖片就能夠幫助智能質(zhì)檢機(jī)器人訓(xùn)練出一雙智慧的“眼睛”,從而精準(zhǔn)地檢測(cè)出缺陷目標(biāo)。這也是數(shù)據(jù)標(biāo)注賦能于智能制造的一種體現(xiàn)?,F(xiàn)如今,數(shù)據(jù)標(biāo)注賦能的智能技術(shù)已不僅僅應(yīng)用于質(zhì)量檢查環(huán)節(jié),在物料評(píng)級(jí)環(huán)節(jié)也常有應(yīng)用。例如,通過對(duì)廢料、雜物等進(jìn)行等級(jí)或某些特征的標(biāo)注,經(jīng)過訓(xùn)練后的模型可應(yīng)用于廢料二次回收定級(jí)的環(huán)節(jié),既節(jié)省了所需的人力資源,又提高了工作效率。更重要的是,這種智能化的檢測(cè)也減少了因個(gè)人情感或素質(zhì)差異而導(dǎo)致的偏差和浪費(fèi)現(xiàn)象。1.3.11智慧物流隨著互聯(lián)網(wǎng)的發(fā)展,電商行業(yè)崛起,網(wǎng)購(gòu)已經(jīng)成為我們生活中不可缺少的一部分。從日常的購(gòu)物到每年的“雙11”“618”等活動(dòng),網(wǎng)購(gòu)無處不在。網(wǎng)購(gòu)之所以能夠普及,得益于物流系統(tǒng)的完善,而網(wǎng)購(gòu)成交量日益增長(zhǎng),傳統(tǒng)的物流模式已明顯跟不上節(jié)奏。如果只靠增加人工的方式滿足物流的需求,那么投入的成本將會(huì)十分巨大,而智慧物流的出現(xiàn)恰好打破了這一尷尬局面。以物流過程中的分揀步驟為例,尋常的人工分揀耗時(shí)耗力。以人工智能為基礎(chǔ)的分揀機(jī)器人的出現(xiàn),卻使得這一操作變得簡(jiǎn)單。智慧物流系統(tǒng)根據(jù)貨架位置及訂單優(yōu)先級(jí),就近調(diào)配分揀機(jī)器人,可實(shí)現(xiàn)快速、準(zhǔn)確的分揀。智能分揀機(jī)器人的應(yīng)用場(chǎng)景如圖1-19所示。目前,智能分揀機(jī)器人已被很多大型物流公司采用。既能節(jié)省人力、提高效率,還能在很大程度上避免人員砸傷等問題,使得物流作業(yè)更加安全。除分揀機(jī)器人外,很多大公司還推出了配送機(jī)器人,只要設(shè)置好配送路線,這些機(jī)器人就可以實(shí)現(xiàn)無人化物流配送。在智慧物流的實(shí)現(xiàn)過程中,主要解決的是計(jì)算機(jī)視覺和語言理解的問題。因此2D拉框、語義分割、實(shí)體標(biāo)注、詞性標(biāo)注等都是常用的標(biāo)注任務(wù)類型。隨著數(shù)據(jù)標(biāo)注的不斷發(fā)展,相信會(huì)有更多的智慧物流應(yīng)用出現(xiàn)在我們的日常生活中。上述場(chǎng)景僅僅是數(shù)據(jù)標(biāo)注輔助下的一小部分人工智能應(yīng)用場(chǎng)景。實(shí)際得益于數(shù)據(jù)標(biāo)注的應(yīng)用場(chǎng)景還有很多,例如,智慧園區(qū)、智能城市等,這里不再詳細(xì)說明??傊?,隨著越來越多人工智能應(yīng)用場(chǎng)景的實(shí)現(xiàn)和推廣,人類的生活會(huì)發(fā)生巨大的變化,而數(shù)據(jù)標(biāo)注的重要性也會(huì)越來越凸顯。1.4常見標(biāo)注任務(wù)類型介紹1.4.1文本標(biāo)注(一)分詞、詞性標(biāo)注分詞是自然語言處理的最基礎(chǔ)步驟,該項(xiàng)標(biāo)注任務(wù)主要涉及中文分詞和詞性標(biāo)注任務(wù)。中文分詞的應(yīng)用很廣泛,信息檢索、漢字的智能輸入、中外文對(duì)譯、中文校對(duì)、自動(dòng)摘要、自動(dòng)分類等很多領(lǐng)域都能用到中文分詞。中文分詞是指對(duì)中文漢字進(jìn)行拆分,是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,如:我/愛/我的/祖國(guó)。分詞效果的好壞將會(huì)直接影響著句法樹等模型的效果。當(dāng)然,分詞也根據(jù)場(chǎng)景的變化而產(chǎn)生不同的需求。如“人民解放軍”一詞,在有些情況下需要拆分成“人民/解放軍”,在有些情況下則不需要去拆分。詞性標(biāo)注是指為分詞后生成的每個(gè)單詞標(biāo)注一個(gè)正確的詞性,也就是確定每個(gè)詞是名詞、動(dòng)詞、形容詞或其他詞性的過程。如,上面的例子:我/代詞 愛/動(dòng)詞 我的/代詞 祖國(guó)/名詞。在這個(gè)例子中,為了清晰地顯示詞性,我們未使用P、N、V等簡(jiǎn)寫,而是直接用了詞性的全稱。分詞詞性標(biāo)注任務(wù)實(shí)施頁面如圖1-20所示。(二)依存句法標(biāo)注依存句法標(biāo)注最根本的目標(biāo)是針對(duì)給定句子,構(gòu)建一棵依存句法樹,捕捉句子內(nèi)部詞語之間的修飾或搭配關(guān)系,從而刻畫出句子的句法結(jié)構(gòu)。在依存句法標(biāo)注中,一般以句子中的“謂詞”為核心,從而認(rèn)為其他成分都是直接或間接與動(dòng)詞產(chǎn)生聯(lián)系。同時(shí),需要了解的是,這種關(guān)系并非對(duì)等的,它是有方向的,依存句法樹示例如圖1-21所示。圖1-21給出了一個(gè)依存句法樹的示例。其中,$表示為節(jié)點(diǎn),我們將$指向的詞稱為句子的根節(jié)點(diǎn),即句子中最重要的詞。依存句法樹最基本的單元是依存弧,一條依存弧由三個(gè)元素構(gòu)成,一個(gè)是核心詞,通常就是句子的謂詞,也稱為父節(jié)點(diǎn);另一個(gè)是修飾詞,通常稱為子節(jié)點(diǎn),由句子中除謂詞外的其他成分充當(dāng);還有一個(gè)是關(guān)系類型,其通常表達(dá)的意思是“修飾詞是以何種句法角色跟核心詞發(fā)生聯(lián)系的”。例如,在圖1-21中,“我”是“愛”的主語,“媽媽”是“愛”的賓語,這兩種關(guān)系分別用兩條依存弧來表示。此外,還需要注意的是,依存弧的箭頭方向是按照需求方約定的,或是由父節(jié)點(diǎn)指向子節(jié)點(diǎn)或是由子節(jié)點(diǎn)指向父節(jié)點(diǎn),但要保證所有標(biāo)注方向是統(tǒng)一的,否則標(biāo)注的結(jié)果就會(huì)失去意義。(三)實(shí)體標(biāo)注實(shí)體標(biāo)注通常用于命名實(shí)體識(shí)別(NamedEntityRecognition,NER)任務(wù)。NER是NLP中一項(xiàng)非常基礎(chǔ)的任務(wù),信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等很多NLP任務(wù)都離不開NER,NER的準(zhǔn)確度也決定著這些任務(wù)的效果,所以實(shí)體標(biāo)注是文本標(biāo)注中最常見的任務(wù)類型。要理解實(shí)體標(biāo)注,首先要了解什么是實(shí)體。實(shí)體是一種概念,一般指的是文本中具有特定意義或指代性較強(qiáng)的名稱詞,通常包括人名、地名、組織機(jī)構(gòu)名、日期時(shí)間、專有名詞等。實(shí)體這個(gè)概念很廣,只要是業(yè)務(wù)需要的特殊文本片段都可以稱為實(shí)體,例如,電影名、書畫名等。特別需要注意的是,一般情況下,如不放寬標(biāo)準(zhǔn),必須是具有指向性的特指詞,也就是說,當(dāng)我們看到這個(gè)名詞之后能夠立刻反映出這個(gè)詞說的是什么、是誰。如果是一個(gè)泛指詞,則失去命名實(shí)體的本質(zhì)意義。在標(biāo)注過程中,實(shí)體標(biāo)注通常會(huì)以加標(biāo)簽的形式來實(shí)現(xiàn),實(shí)體標(biāo)注樣例如圖1-22所示。(四)關(guān)系標(biāo)注關(guān)系標(biāo)注與實(shí)體標(biāo)注一樣,也是NLP中一個(gè)較為常見的重要任務(wù),其主要目的是標(biāo)注句子中實(shí)體之間所隱含的語義關(guān)系,即在實(shí)體識(shí)別的基礎(chǔ)上來確定文本中實(shí)體間的關(guān)系類別,并做成結(jié)構(gòu)化的數(shù)據(jù)。例如,郭子儀,字子儀,華州鄭縣人。從這句話中,我們可以判斷出人物郭子儀的出生地是華州鄭縣,因此可以標(biāo)注為郭子儀(出生地)華州鄭縣,這便是一條完整的關(guān)系。需要注意的是,關(guān)系標(biāo)注是有方向的,一般的關(guān)系方向?yàn)轭^實(shí)體指向尾實(shí)體,描述為頭實(shí)體的關(guān)系人是尾實(shí)體或尾實(shí)體是頭實(shí)體的關(guān)系人。例如:文火火這一輩子實(shí)屬不易,好不容易將兒子文子平拉扯大。本句中,通常會(huì)將關(guān)系描述為頭實(shí)體(文火火)的子女是尾實(shí)體(文子平)或尾實(shí)體(文子平)是頭實(shí)體(文火火)的子女。同時(shí)還需要注意的是,在關(guān)系標(biāo)注時(shí),通常僅應(yīng)標(biāo)注那些就當(dāng)前來說實(shí)際存在的關(guān)系,否則便無實(shí)際意義。例如,原局長(zhǎng)程度、準(zhǔn)局長(zhǎng)趙東來,這兩種職務(wù)關(guān)系都不需要標(biāo)注。在關(guān)系標(biāo)注中,頭實(shí)體、尾實(shí)體及兩者之間的關(guān)系通常被合稱為三元組。例如,在圖1-23中,每一條記錄都是一個(gè)三元組。(五)事件標(biāo)注事件標(biāo)注是文本標(biāo)注中最具挑戰(zhàn)性的任務(wù)。首先,我們需要理解什么是事件。事件作為信息的一種表現(xiàn)形式,是指特定的人、物在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí)。事件標(biāo)注的主要目的是從非結(jié)構(gòu)化文本中標(biāo)注出特定事件的基本信息,并以結(jié)構(gòu)化形式呈現(xiàn)。通常來說,在事件標(biāo)注中需要抽取的要素主要包括事件的主體、客體、時(shí)間、地點(diǎn)、原因、結(jié)果等。例如,人物A于2019年8月前往中國(guó)會(huì)見人物B。在本句中,是一個(gè)會(huì)見事件,主體為人物A,客體為人物B,時(shí)間是2019年8月,地點(diǎn)是中國(guó)。這就是事件標(biāo)注大體要完成的任務(wù)。需要注意的是,在事件標(biāo)注過程中,只需要標(biāo)注實(shí)際發(fā)生的事件,未來要發(fā)生的以及當(dāng)前已經(jīng)不存在的事件標(biāo)注出來都沒有實(shí)際意義。在實(shí)際標(biāo)注過程中,事件標(biāo)注在系統(tǒng)中的實(shí)現(xiàn)方式有很多種,可以采用加標(biāo)簽的方式;也可以采用信息抽取的方式;還可以采用連線的方式,圖1-24所示為通過加標(biāo)簽的方式實(shí)現(xiàn)事件標(biāo)注。(六)意圖標(biāo)注意圖標(biāo)注是對(duì)話、搜索引擎及機(jī)器人等任務(wù)中最常見的標(biāo)注需求。它主要是指判斷文本所表達(dá)的目的,辨別出說話者想做什么或想了解什么,在標(biāo)注過程中,一般是通過加標(biāo)簽的方式實(shí)現(xiàn)。例如,為什么我的紅包能領(lǐng)不能用?這句話所表達(dá)的意圖就是“詢問紅包不好用的原因”;或者,我想找個(gè)價(jià)位便宜的酒店,其所表達(dá)的意圖就是“告知酒店價(jià)位檔次”并“詢問酒店名稱”。在意圖標(biāo)注任務(wù)中,有些任務(wù)的意圖并不是唯一的,也可能存在多種意圖的情況。同時(shí)有些任務(wù)也需要針對(duì)這些意圖去填寫槽值,如圖1-25所示。意圖標(biāo)注也會(huì)因?yàn)槭芤恍┮蛩赜绊懚鴮?dǎo)致難度增大。例如,用戶語言不規(guī)范、不標(biāo)準(zhǔn),表意出現(xiàn)多種意圖,意圖的表述強(qiáng)度不夠,意圖隨時(shí)間推移而發(fā)生變化等。在標(biāo)注過程中,需要針對(duì)這些可能性逐一做出規(guī)定,從而為標(biāo)注提供更清晰的方向。(七)關(guān)鍵詞標(biāo)注關(guān)鍵詞標(biāo)注是新聞?lì)I(lǐng)域中最常用的標(biāo)注任務(wù),其主要用于新聞的個(gè)性化推薦。通過標(biāo)注出的關(guān)鍵詞,可有針對(duì)性地為讀者推薦其關(guān)注或感興趣的新聞。那么,到底什么是關(guān)鍵詞?關(guān)鍵詞實(shí)際上是指反映一篇文章或一段文字核心內(nèi)容或主旨的詞或短語,一般情況下,看了關(guān)鍵詞之后,讀者能大體了解該篇文章主要講述的內(nèi)容是什么。關(guān)鍵詞標(biāo)注屬于較大的任務(wù)類型,在其大類下,還會(huì)根據(jù)不同的出發(fā)點(diǎn)和需求衍生出不同的子任務(wù)類型。例如,若標(biāo)注的出發(fā)點(diǎn)僅是為了反映文章的主旨內(nèi)容提高檢索率,則會(huì)采用最傳統(tǒng)的關(guān)鍵詞標(biāo)注,這類標(biāo)注一般會(huì)選擇反映文章中心思想的內(nèi)容或高頻詞;但若要以讀者興趣為出發(fā)點(diǎn)來為讀者推薦合適的文章,則需要標(biāo)注興趣標(biāo)簽,此時(shí)便需要標(biāo)注與文章主旨相關(guān)的、可能引起讀者興趣的詞或短語。但無論是常規(guī)關(guān)鍵詞標(biāo)注還是興趣標(biāo)簽標(biāo)注,都需要遵循關(guān)鍵詞標(biāo)注的基本規(guī)則。以興趣為導(dǎo)向的關(guān)鍵詞標(biāo)注案例如圖1-26所示。(八)分類標(biāo)注分類標(biāo)注是自然語言處理的一個(gè)基本任務(wù),是指試圖推斷出給定的文本(句子、文檔等)的標(biāo)簽或標(biāo)簽集合。分類標(biāo)注應(yīng)用非常廣泛,例如,垃圾過濾、新聞分類、詞性標(biāo)注等。同時(shí),它也是一個(gè)很廣泛的概念,例如,實(shí)體標(biāo)注、意圖標(biāo)注等,只要是針對(duì)某一條數(shù)據(jù)加標(biāo)簽的操作在一定意義上都可以算作是分類標(biāo)注。分類標(biāo)注可以是一個(gè)維度的,也可以是多個(gè)維度的,這主要取決于需求方的需求。多維度分類標(biāo)注的案例如圖1-27所示。(九)問句復(fù)述問句復(fù)述又稱為泛化,一般情況下,這種任務(wù)可以分為正例泛化和負(fù)例泛化兩種情況。正例泛化是指用不同的形式來表達(dá)相同的語義,即一句話百樣說。問句復(fù)述是自然語言中極其常見的現(xiàn)象,其可將提出的復(fù)雜問句改寫成一系列與其語義相同但形式不同的問句,避免了用戶提問的不規(guī)范,可大大降低系統(tǒng)對(duì)問句的理解和處理難度,對(duì)于提升自動(dòng)問答系統(tǒng)的效果有著重要意義。負(fù)例泛化是指問句的表達(dá)方式與原始問句相似,但意義不同。例如,種子問題為“你吃飯了嗎?”正例泛化的結(jié)果可以說成“用餐了沒有?”,負(fù)例泛化的結(jié)果可以說成“你中午吃的什么?”,正例泛化及負(fù)例泛化更多案例如圖1-28所示。(十)問答標(biāo)注所謂問答標(biāo)注,實(shí)際上是指從原始文本中抽取出問題和相對(duì)應(yīng)的答案。由于原始文本類型不同,問題和答案的標(biāo)注方式也會(huì)發(fā)生變化。例如,有些文本中只能找到答案,所以需要標(biāo)注師根據(jù)答案去生成問題,此為半抽取半生成的混合式問答標(biāo)注;還有些文本中能同時(shí)找到問題和答案,將其原樣抽出即可,此為完全抽取式的問答標(biāo)注。問答標(biāo)注案例如圖1-29所示。(十一)對(duì)話語料構(gòu)建在現(xiàn)實(shí)生活中,對(duì)話語料構(gòu)建是構(gòu)建智能對(duì)話系統(tǒng)的重要組成部分,其主要目的是根據(jù)規(guī)定的對(duì)話路徑、要求描述及知識(shí)庫(kù)等模擬真實(shí)的應(yīng)用場(chǎng)景,構(gòu)建真實(shí)的對(duì)話,并在構(gòu)建對(duì)話的過程中,針對(duì)每句對(duì)話所涉及的知識(shí)點(diǎn)進(jìn)行查找并關(guān)聯(lián)和回填槽值。從對(duì)話輪數(shù)的角度來說,對(duì)話語料的構(gòu)建可能是單輪的,也可能是多輪的。單輪對(duì)話就是指一問一答即結(jié)束的對(duì)話;多輪對(duì)話就是指所構(gòu)建的對(duì)話中包括多輪問答。從對(duì)話的領(lǐng)域來說,對(duì)話語料的構(gòu)建可能是單領(lǐng)域的,也可能是跨領(lǐng)域的??珙I(lǐng)域是指一個(gè)對(duì)話任務(wù)中包含多個(gè)領(lǐng)域的子任務(wù),例如,從旅游出行→餐館→酒店→交通等領(lǐng)域,多個(gè)領(lǐng)域的問答完成后,一個(gè)對(duì)話方可結(jié)束。跨領(lǐng)域多輪對(duì)話案例如圖1-30所示。(十二)知識(shí)圖譜驗(yàn)證知識(shí)圖譜驗(yàn)證是知識(shí)圖譜構(gòu)建的一個(gè)重要環(huán)節(jié),它是對(duì)知識(shí)圖譜質(zhì)量的最終檢驗(yàn)。知識(shí)圖譜的構(gòu)建并不是一個(gè)靜態(tài)的過程,當(dāng)向原有知識(shí)圖譜引入新知識(shí)時(shí),需要先確定該條新知識(shí)是否正確,并判斷其與已有知識(shí)是否一致。如果新知識(shí)是正確的,就可將其融合到原有知識(shí)圖譜中;如果新舊知識(shí)間存在沖突,那么要對(duì)這些知識(shí)進(jìn)行審核和判斷,確定是原有知識(shí)錯(cuò)誤,還是新的知識(shí)錯(cuò)誤。在有了判定結(jié)果后,就要對(duì)錯(cuò)誤的知識(shí)進(jìn)行補(bǔ)全、糾錯(cuò)或更新,然后再融合到原有的知識(shí)圖譜中。知識(shí)圖譜驗(yàn)證的任務(wù)較為復(fù)雜,其要考慮到原有知識(shí)圖譜及當(dāng)前知識(shí)的準(zhǔn)確性,還要兼顧新知識(shí)與原有知識(shí)圖譜的融合,并對(duì)新舊知識(shí)中相同的實(shí)體做對(duì)應(yīng)關(guān)聯(lián)處理。1.4.1語音標(biāo)注(一)語音切割轉(zhuǎn)寫語音切割轉(zhuǎn)寫是語音標(biāo)注中常見的任務(wù)類型之一,包括音頻切割和語音轉(zhuǎn)寫兩個(gè)步驟。音頻切割要求數(shù)據(jù)標(biāo)注人員將語音按照規(guī)定的時(shí)間間隔進(jìn)行分割,標(biāo)注過程中通過打點(diǎn)剪切的方式得以實(shí)現(xiàn);語音轉(zhuǎn)寫是指將音頻中的內(nèi)容轉(zhuǎn)寫成文字的過程,這一過程通常是以手動(dòng)錄入的形式實(shí)施。語音切割轉(zhuǎn)寫標(biāo)注如圖1-31所示。語音切割轉(zhuǎn)寫任務(wù)并非我們想象的那樣簡(jiǎn)單。在具體任務(wù)過程中,往往會(huì)存在很多細(xì)節(jié)的要求。例如:1)語音切割并非一次就能完成,它需要對(duì)音頻多次播放并反復(fù)打點(diǎn);2)在轉(zhuǎn)寫過程中,要完全還原語音音頻,音頻中的語氣詞和中間有明顯字音的口語詞、兒化音等都不得有遺漏,比如“大家注意啊,嗯我今天宣布……”,其中的語氣詞“啊”“嗯”等均需要進(jìn)行轉(zhuǎn)寫,同樣的詞還有“這個(gè)”“那個(gè)”“下面”“這里邊”等;3)語音內(nèi)容的轉(zhuǎn)寫一般只針對(duì)有效音頻,背景音等有可能被算作是無效音頻,此時(shí)無特殊要求則不需要轉(zhuǎn)寫。這只是其中的一小部分要求,隨著語音轉(zhuǎn)寫準(zhǔn)確度要求的提高,其中所涉及的細(xì)節(jié)問題也會(huì)越多,具體細(xì)節(jié)還需要數(shù)據(jù)標(biāo)注人員在標(biāo)注過程中用心體會(huì)。(二)語音校對(duì)語音校對(duì)是一種與語音切割轉(zhuǎn)寫類似的任務(wù),但其難度要低于語音切割轉(zhuǎn)寫。語音校對(duì)主要涉及的是語音轉(zhuǎn)文字方面的工作,是指針對(duì)原始的語音轉(zhuǎn)寫結(jié)果進(jìn)行檢查和修改。這些原始的語音轉(zhuǎn)寫結(jié)果一般為語音模型預(yù)處理的結(jié)果,這樣能夠使標(biāo)注的速度更快,同時(shí)也比語音切割轉(zhuǎn)寫任務(wù)要更容易一些。語音校對(duì)標(biāo)注如圖1-32所示。(三)拼音和停頓標(biāo)注拼音標(biāo)注屬于TTS(語音合成)類任務(wù)中最常見也是最難的任務(wù),主要目的是對(duì)照音頻和文本為文本添加拼音及聲調(diào)。該任務(wù)通?;陬A(yù)處理結(jié)果來實(shí)現(xiàn)的,主要是審核拼音拼寫及聲調(diào)是否準(zhǔn)確,確認(rèn)文本與音頻是否對(duì)應(yīng)及按照音頻的停頓時(shí)長(zhǎng)、標(biāo)注長(zhǎng)短停頓等。拼音和停頓標(biāo)注如圖1-33所示。做該類任務(wù)需要對(duì)停頓時(shí)長(zhǎng)有準(zhǔn)確地感知,對(duì)拼音的輕聲與兒化音及普通話的讀音有良好的語感,還需要對(duì)拼音聲調(diào)變化有較好的理解能力。但該任務(wù)在標(biāo)注過程中也并非沒有規(guī)律可循的,比如“的”字讀de時(shí),只能是輕聲,四聲聲調(diào)有明顯發(fā)力感等。在標(biāo)注時(shí),注意總結(jié)這些規(guī)律將有利于標(biāo)注效率和準(zhǔn)確率的提高,使標(biāo)注更加有針對(duì)性。(四)語音采集語音采集任務(wù)主要是指錄制語音,目的是為各類語音研究提供基礎(chǔ)資料。該任務(wù)通常會(huì)對(duì)環(huán)境等各方面因素有一定的要求。例如,要求錄音場(chǎng)景底噪、混響值、錄音人分貝等都要處于一定的范圍;有些任務(wù)需要有相應(yīng)的錄音設(shè)備;還有些任務(wù)需要在錄制語音的同時(shí)真人出鏡。為了使語音數(shù)據(jù)覆蓋更加全面,語音采集任務(wù)通常還會(huì)對(duì)錄制人的年齡群體及地區(qū)等有分布上的要求。語音采集任務(wù)的場(chǎng)景比較豐富,常見的有方言采集、檢喊票采集、生產(chǎn)車間語音采集、停車場(chǎng)語音采集、語音客服采集、酒店語音自助服務(wù)采集等。在做相應(yīng)的任務(wù)時(shí),應(yīng)嚴(yán)格按照需求方的標(biāo)準(zhǔn)實(shí)施。(五)字幕時(shí)間戳校正字幕時(shí)間戳校正主要是針對(duì)視頻或音頻字幕的,不同于轉(zhuǎn)寫類任務(wù)。轉(zhuǎn)寫類任務(wù)主要是對(duì)音頻轉(zhuǎn)換的文字進(jìn)行審核和校改,而字幕時(shí)間戳校正任務(wù)不需要對(duì)文字進(jìn)行處理。字幕時(shí)間戳校正的主要任務(wù)是確認(rèn)音頻與文字內(nèi)容間的時(shí)間對(duì)應(yīng)問題,確保聲音和文字內(nèi)容同步展示。換言之,就是確保當(dāng)聲音播放時(shí),文本在屏幕上呈現(xiàn),當(dāng)聲音停止時(shí),文字在屏幕上消失。所以在聽音過程中,發(fā)現(xiàn)某段音頻與文字不對(duì)應(yīng)或起止時(shí)間有偏差時(shí),便需要做相應(yīng)的時(shí)間調(diào)整。字幕時(shí)間戳校正如圖1-34所示。1.4.3圖像標(biāo)注文本、語音、圖像三類任務(wù)中,圖像標(biāo)注屬于最容易理解的類型,也是目前市面上標(biāo)注公司涉及最多的任務(wù)類型。從一定意義上來講,正是這個(gè)點(diǎn)點(diǎn)畫畫的工作為許多人提供了就業(yè)機(jī)會(huì),更帶動(dòng)了地區(qū)經(jīng)濟(jì)。在我們的印象中,圖像標(biāo)注任務(wù)基本上都是畫框打點(diǎn)一類的操作,可能不會(huì)涉及太多的任務(wù)類型,其實(shí)不然。雖然只是畫框打點(diǎn)的工作,但是這些點(diǎn)和框卻分屬于不同的任務(wù),并且在不同的任務(wù)類型中,對(duì)于點(diǎn)和框的要求也是不盡相同的。圖像標(biāo)注任務(wù)的類型也有很多,我們?cè)谶@里主要介紹8種,即拉框標(biāo)注、語義分割、關(guān)鍵點(diǎn)標(biāo)注、3D點(diǎn)云標(biāo)注、線標(biāo)注、目標(biāo)跟蹤、圖像分類、OCR識(shí)別,詳述如下。(一)拉框標(biāo)注拉框標(biāo)注是圖像標(biāo)注中常見的一種任務(wù)類型,主要是指用2D框、3D框、多邊形框等標(biāo)注出圖像中的指定目標(biāo)對(duì)象,2D拉框標(biāo)注如圖1-35所示。通常來說,在拉框后還需要針對(duì)每個(gè)框加上類別標(biāo)簽。例如,用矩形框框選出圖片中的小孩,并加上顏色標(biāo)簽等。在標(biāo)注時(shí),通常會(huì)有有效對(duì)象和無效對(duì)象之分,往往會(huì)將尺寸過小或遮擋過于嚴(yán)重的對(duì)象標(biāo)為無效對(duì)象。(二)語義分割語義分割是計(jì)算機(jī)視覺中非常重要的標(biāo)注任務(wù),它實(shí)際上是從像素級(jí)別進(jìn)行圖像識(shí)別,也就是說,要針對(duì)圖像中的每個(gè)像素標(biāo)注出對(duì)象類別。這樣做的目的是預(yù)測(cè)圖像中每一個(gè)像素的類標(biāo)簽。在這一過程中,我們會(huì)將從視覺角度看起來不同類的部分按照語義分到不同的類別中,從而實(shí)現(xiàn)圖像的“語義理解”。例如,從圖中提取出所有的“羊”,或者將“羊”和“草地”區(qū)分開,不同的區(qū)域打上不同的顏色和標(biāo)簽。如圖1-36所示,圖中為對(duì)車道、行人等進(jìn)行語義分割,分別將天空、車道、不同類型的車輛、行人、樹木等涂上不同的顏色。(三)關(guān)鍵點(diǎn)標(biāo)注關(guān)鍵點(diǎn)標(biāo)注是指在目標(biāo)對(duì)象的規(guī)定位置加上關(guān)鍵點(diǎn),例如,在人臉圖片上用點(diǎn)標(biāo)注出眼角、鼻尖、嘴角等關(guān)鍵位置或在人體圖像上標(biāo)出骨骼或穴位的位置等,關(guān)鍵點(diǎn)標(biāo)注如圖1-37所示。關(guān)鍵點(diǎn)標(biāo)注技術(shù)在人臉識(shí)別、情感分析、人臉追蹤、動(dòng)作分類、行為識(shí)別等方面都有重要的作用。模型借助關(guān)鍵點(diǎn)標(biāo)注理解各個(gè)點(diǎn)在運(yùn)動(dòng)中的移動(dòng)軌跡,從而實(shí)現(xiàn)更復(fù)雜的判斷。同時(shí),需要注意的是,在打點(diǎn)過程中要保證點(diǎn)位的準(zhǔn)確性,當(dāng)有關(guān)鍵點(diǎn)位被遮蓋時(shí),需要預(yù)估點(diǎn)的位置并清晰地表示出來。在標(biāo)注過程中,要嚴(yán)格遵循標(biāo)注規(guī)范,保證標(biāo)注的準(zhǔn)確性。(四)3D點(diǎn)云標(biāo)注3D點(diǎn)云是一種非常適合3D場(chǎng)景理解的數(shù)據(jù),通常被認(rèn)為是表示三維世界的一種較好的方法。相對(duì)于真實(shí)的3D圖像,點(diǎn)云有著特有的深度表達(dá)優(yōu)勢(shì)。換言之,3D點(diǎn)云直接給出了物體長(zhǎng)度、寬度和深度三個(gè)維度的數(shù)據(jù),而不需像真實(shí)3D圖像那樣,需要通過透視幾何來反推三維數(shù)據(jù)。3D點(diǎn)云數(shù)據(jù)可以清晰地表示所有的物體,小到幾毫米,大到幾十米甚至成百上千米。自動(dòng)駕駛領(lǐng)域是目前其常用的領(lǐng)域。因此,在圖像標(biāo)注領(lǐng)域中,3D點(diǎn)云標(biāo)注也是非常重要的一種標(biāo)注類型。在圖像標(biāo)注中,3D點(diǎn)云標(biāo)注是指從點(diǎn)云圖中找出目標(biāo)對(duì)象,并以立方體框的形式標(biāo)注出來,在自動(dòng)駕駛場(chǎng)景中,需要標(biāo)注的對(duì)象通常包括車輛、行人、廣告標(biāo)志和數(shù)據(jù)等。需要注意的是,在點(diǎn)云標(biāo)注任務(wù)中,平面圖通常起到參考作用,為的是判斷目標(biāo)對(duì)象的位置以及方向等,3D點(diǎn)云標(biāo)注如圖1-38所示。(五)線標(biāo)注線標(biāo)注通常用于自動(dòng)駕駛應(yīng)用中的車道線標(biāo)注,有直線也有曲線。主要是對(duì)道路地面的標(biāo)線進(jìn)行標(biāo)注。與矩形框標(biāo)注不同,線標(biāo)注能夠更精確的表示線性對(duì)象的位置,不會(huì)包含過多的噪聲和空白,是介于多邊形與關(guān)鍵點(diǎn)標(biāo)注之間的一種標(biāo)注形式。車道線的標(biāo)注也并非完全的畫線操作,在實(shí)際標(biāo)注過程中,還會(huì)涉及車道線區(qū)域的標(biāo)注、分類及語義標(biāo)注等。車道線標(biāo)注如圖1-39所示。(六)目標(biāo)跟蹤目標(biāo)跟蹤是計(jì)算機(jī)視覺中一個(gè)重要的研究方向。在軍事制導(dǎo)、視頻監(jiān)控、機(jī)器人視覺導(dǎo)航、人機(jī)交互,以及醫(yī)療診斷等許多方面有著非常廣泛的應(yīng)用前景。目標(biāo)跟蹤是從視頻數(shù)據(jù)中按幀捕捉某一對(duì)象,并進(jìn)行畫框標(biāo)注,目標(biāo)跟蹤標(biāo)注如圖1-40所示。目標(biāo)跟蹤是一個(gè)極具挑戰(zhàn)性的任務(wù)。對(duì)于運(yùn)動(dòng)目標(biāo)而言,其運(yùn)動(dòng)的場(chǎng)景非常復(fù)雜并且經(jīng)常發(fā)生變化,或是目標(biāo)本身也會(huì)不斷發(fā)生變化,這些都無形中加大了目標(biāo)跟蹤任務(wù)的難度,數(shù)據(jù)標(biāo)注人員需要根據(jù)其他特征進(jìn)行腦補(bǔ)并找出對(duì)應(yīng)的目標(biāo),從而進(jìn)行標(biāo)注。(七)圖像分類圖像分類是計(jì)算機(jī)視覺中較為簡(jiǎn)單的任務(wù),主要是指針對(duì)給定圖像判斷出圖像或圖像中的對(duì)象所屬的類別。因此,該任務(wù)類型一般包括兩個(gè)維度的標(biāo)注:一種是標(biāo)注整個(gè)圖像場(chǎng)景的類別;另一種是標(biāo)注圖像中對(duì)象的類別。而從標(biāo)注層級(jí)來說,圖像分類可以是一級(jí)標(biāo)注也可以是多級(jí)標(biāo)注,所采用的方式一般都是系統(tǒng)加標(biāo)簽的方式,圖像分類標(biāo)注如圖1-41所示。(八)OCR識(shí)別計(jì)算機(jī)文字識(shí)別,俗稱光學(xué)字符識(shí)別,它是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的格式。OCR技術(shù)是實(shí)現(xiàn)文字高速錄入的一項(xiàng)關(guān)鍵技術(shù)。在數(shù)據(jù)標(biāo)注領(lǐng)域,OCR識(shí)別常見的任務(wù)主要有發(fā)票文字識(shí)別、圖片文字識(shí)別等。在識(shí)別任務(wù)中,一般會(huì)借助專業(yè)的OCR識(shí)別軟件,再根據(jù)實(shí)際情況進(jìn)行校改,常見的OCR識(shí)別軟件有ABBYY等。在實(shí)際標(biāo)注過程中,很多公司也會(huì)針對(duì)這類任務(wù)開發(fā)自己的標(biāo)注工具,OCR識(shí)別標(biāo)注如圖1-42所示。1.5實(shí)訓(xùn)習(xí)題隨堂練習(xí):思考并回答下列問題。(1)什么是數(shù)據(jù)標(biāo)注?(2)數(shù)據(jù)標(biāo)注是如何起源的?(3)你能列舉出當(dāng)前市面上的人工智能應(yīng)用產(chǎn)品嗎?這些產(chǎn)品的哪些方面應(yīng)用了數(shù)據(jù)標(biāo)注?應(yīng)用的是哪種標(biāo)注類型?(4)圖像標(biāo)注的常見任務(wù)類型有哪些?(5)語音標(biāo)注的常見任務(wù)類型有哪些?(6)文本標(biāo)注的常見任務(wù)類型有哪些?(7)除本書中列出的應(yīng)用場(chǎng)景外,你還能說出其他的由數(shù)據(jù)標(biāo)注輔助的人工智能應(yīng)用場(chǎng)景嗎?1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解倉(cāng)儲(chǔ)中心規(guī)劃設(shè)計(jì)。2.整個(gè)教學(xué)過程中,各教學(xué)點(diǎn)可根據(jù)實(shí)際情況,進(jìn)行拓展知識(shí)的講解。本章小結(jié):通過本章的學(xué)習(xí),學(xué)生掌握了數(shù)據(jù)標(biāo)注關(guān)鍵知識(shí)。包括相關(guān)概念、行業(yè)現(xiàn)狀、應(yīng)用場(chǎng)景以及常見標(biāo)注任務(wù)類型,通過學(xué)習(xí)本章內(nèi)容學(xué)生能夠掌握數(shù)據(jù)標(biāo)注的基礎(chǔ)知識(shí),為后續(xù)的學(xué)習(xí)奠定良好基礎(chǔ)?!稊?shù)據(jù)標(biāo)注實(shí)訓(xùn)》課程教案課題:數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)教學(xué)目的:了解數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)基本功能。了解數(shù)據(jù)標(biāo)注平臺(tái)支持標(biāo)注類型及操作頁面。課型:新授課課時(shí):本章安排4個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):了解數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)基本功能教學(xué)難點(diǎn):難點(diǎn):了解數(shù)據(jù)標(biāo)注平臺(tái)支持標(biāo)注類型及操作頁面教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)課次2授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排4學(xué)分共1分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入標(biāo)注實(shí)訓(xùn)主要依托數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)進(jìn)行,該平臺(tái)是專門面向數(shù)據(jù)標(biāo)注實(shí)訓(xùn)打造的任務(wù)實(shí)踐平臺(tái)。平臺(tái)匯集并融合了教師管理、學(xué)員管理、學(xué)員實(shí)操、任務(wù)分配等多項(xiàng)功能,支持分類標(biāo)注、實(shí)體標(biāo)注、語音轉(zhuǎn)寫、2D拉框等多種類型標(biāo)注任務(wù)的實(shí)操練習(xí),針對(duì)每個(gè)任務(wù)類型提供海量實(shí)訓(xùn)題庫(kù),并支持答案自動(dòng)比對(duì)、評(píng)價(jià)和管理等功能,同時(shí)支持全流程項(xiàng)目創(chuàng)建和小規(guī)模標(biāo)注任務(wù)的實(shí)施。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式2.1平臺(tái)基本功能介紹數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)由學(xué)員端和教師端兩部分組成。學(xué)員端主要供學(xué)員進(jìn)行各級(jí)任務(wù)的實(shí)操練習(xí);教師端則主要對(duì)學(xué)員、題庫(kù)、班級(jí)和任務(wù)進(jìn)行管理操作。平臺(tái)需使用賬號(hào)、密碼登錄,數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)登錄頁面如圖2-1所示?,F(xiàn)對(duì)平臺(tái)各角色模塊對(duì)應(yīng)的基本功能介紹如下:(一)學(xué)員端本平臺(tái)學(xué)員端主要面向數(shù)據(jù)標(biāo)注學(xué)習(xí)者。其功能主要圍繞數(shù)據(jù)標(biāo)注實(shí)訓(xùn)進(jìn)行設(shè)計(jì),主要包括個(gè)人中心、實(shí)訓(xùn)中心、學(xué)習(xí)引導(dǎo)、意見反饋等。1.個(gè)人中心可對(duì)學(xué)員個(gè)人信息進(jìn)行編輯和設(shè)置,如圖2-2所示。2.實(shí)訓(xùn)中心學(xué)員進(jìn)行數(shù)據(jù)標(biāo)注訓(xùn)練的入口,教師分配的所有實(shí)訓(xùn)任務(wù)均可通過單擊【進(jìn)入學(xué)習(xí)】按鈕進(jìn)入相應(yīng)頁面進(jìn)行學(xué)習(xí),如圖2-3所示。3.學(xué)習(xí)引導(dǎo)對(duì)各任務(wù)類型頁面操作流程及步驟的分解演示,學(xué)員如果對(duì)操作有疑問,可通過單擊【學(xué)習(xí)引導(dǎo)】按鈕進(jìn)入相應(yīng)頁面進(jìn)行學(xué)習(xí),如圖2-4所示。4.意見反饋對(duì)內(nèi)容意見、產(chǎn)品建議、技術(shù)問題、在線投訴等的反饋渠道,如圖2-5所示。(二)教師端教師端主要包括修改密碼、平臺(tái)概況總覽、班級(jí)管理、學(xué)員信息管理、添加試卷、創(chuàng)建標(biāo)注類型、創(chuàng)建標(biāo)簽工具、創(chuàng)建試題、組卷管理等,管理員登錄頁面如圖2-6所示。1.修改密碼對(duì)個(gè)人登錄密碼進(jìn)行設(shè)置和修改,如圖2-7所示。2.平臺(tái)概況總覽對(duì)平臺(tái)總體使用情況的統(tǒng)計(jì)和展示,如圖2-8所示。3.班級(jí)管理此模塊主要用于創(chuàng)建、維護(hù)班級(jí)或分組信息,并進(jìn)行班內(nèi)成員的實(shí)操題目配置,如圖2-9所示。4.學(xué)員信息管理教師用來進(jìn)行本班學(xué)員信息的管理和維護(hù),如圖2-10所示。5.添加試卷可針對(duì)指定班級(jí)進(jìn)行試題的下發(fā)和分配,如圖2-11所示。6.創(chuàng)建標(biāo)注類型教師可為學(xué)員添加或創(chuàng)建新的標(biāo)注類型,創(chuàng)建新的標(biāo)注類型后,學(xué)員實(shí)操頁面會(huì)顯示該標(biāo)注類型,如圖2-12所示。7.創(chuàng)建標(biāo)簽工具可針對(duì)某一標(biāo)簽類型添加或修改標(biāo)簽工具,如圖2-13所示。8.創(chuàng)建試題可新增、修改、刪除試題,如圖2-14所示。9.組卷管理可將多個(gè)題目組合成一套試卷,如圖2-15所示。以上是對(duì)數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)基本功能的介紹,平臺(tái)目前針對(duì)初級(jí)標(biāo)注學(xué)習(xí)支持5種任務(wù)類型,共涉及4種標(biāo)注類型,分別介紹如下。2.2平臺(tái)支持標(biāo)注類型及操作頁面展示(一)實(shí)體標(biāo)注通過單擊標(biāo)簽的方式實(shí)現(xiàn),在頁面上可實(shí)現(xiàn)規(guī)范文件預(yù)覽、字體調(diào)整等,操作簡(jiǎn)單方便、效率高,實(shí)體標(biāo)注如圖2-16所示。(二)分類標(biāo)注通過加標(biāo)簽方式實(shí)現(xiàn),能支持針對(duì)圖片、文本的分類,支持多級(jí)標(biāo)簽、多維度標(biāo)簽、意圖填槽值等標(biāo)注,分類標(biāo)注如圖2-17所示。(三)語音切割轉(zhuǎn)寫標(biāo)注通過打點(diǎn)剪切的方式實(shí)現(xiàn)切割功能,通過手動(dòng)錄入方式實(shí)現(xiàn)文字轉(zhuǎn)寫功能,支持語音播放、文字編輯、加標(biāo)簽等,語音切割轉(zhuǎn)寫標(biāo)注如圖2-18所示。(四)2D拉框標(biāo)注通過鼠標(biāo)拖曳方式實(shí)現(xiàn)標(biāo)注,支持“十字線”輔助、標(biāo)簽隱藏、圖片拖動(dòng)、撤銷操作等,2D拉框標(biāo)注如圖2-19所示。上述是對(duì)數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)中基本功能及任務(wù)類型的介紹,接下來我們進(jìn)入標(biāo)注實(shí)訓(xùn)部分。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地了解倉(cāng)儲(chǔ)中心規(guī)劃設(shè)計(jì)。2.整個(gè)教學(xué)過程中,各教學(xué)點(diǎn)可根據(jù)實(shí)際情況,進(jìn)行拓展知識(shí)的講解。本章小結(jié):通過本章的學(xué)習(xí),學(xué)生了解了數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)的平臺(tái)基本功能及平臺(tái)支持標(biāo)注類型,熟悉平臺(tái)的操作頁面。通過學(xué)習(xí)本章內(nèi)容學(xué)生能夠掌握數(shù)據(jù)標(biāo)注實(shí)訓(xùn)平臺(tái)的基本知識(shí),為后續(xù)學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)?!稊?shù)據(jù)標(biāo)注實(shí)訓(xùn)》課程教案課題:文本標(biāo)注實(shí)訓(xùn)教學(xué)目的:了解文本標(biāo)注的兩種基本類型。通過實(shí)體案例掌握分類標(biāo)注和命名實(shí)體標(biāo)注的相關(guān)知識(shí)點(diǎn)。課型:新授課課時(shí):本章安排8個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):了解分類標(biāo)注和命名實(shí)體標(biāo)注教學(xué)難點(diǎn):難點(diǎn):掌握分類標(biāo)注的相關(guān)性標(biāo)注和命名實(shí)體標(biāo)注的通用實(shí)體標(biāo)注教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題文本標(biāo)注實(shí)訓(xùn)課次8授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排16學(xué)分共4分授課對(duì)象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注實(shí)訓(xùn)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入文本標(biāo)注的對(duì)象主要是自然語言。由于人類語言的多變性和多樣性,導(dǎo)致文本標(biāo)注成為數(shù)據(jù)標(biāo)注中難度最高的一種。在文本標(biāo)注的類別下,實(shí)際上可以細(xì)化為多種任務(wù)類型,對(duì)于這些任務(wù)類型,在前面我們已經(jīng)做了簡(jiǎn)單的介紹。為了讓學(xué)員能夠更快地了解,本章將以實(shí)訓(xùn)案例的方式對(duì)分類和命名實(shí)體兩種基本類型進(jìn)行介紹。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式3.1分類標(biāo)注3.1.1認(rèn)識(shí)分類標(biāo)注在NLP算法中,分類是指試圖推斷出給定數(shù)據(jù)(文本、語音、圖像)的標(biāo)簽或標(biāo)簽集合。當(dāng)然,這是從算法技術(shù)層面給出的定義,本節(jié)主要是參照上述定義從標(biāo)注層面做出理解。從標(biāo)注實(shí)施的角度來講,分類是根據(jù)給定數(shù)據(jù)(文本、語音、圖像)某一方面的特點(diǎn)或?qū)傩詠斫o數(shù)據(jù)歸類,判斷該條數(shù)據(jù)屬于哪個(gè)類別,并加上對(duì)應(yīng)的標(biāo)簽。分類標(biāo)注的任務(wù)范圍非常廣泛,意圖標(biāo)注及本節(jié)要學(xué)習(xí)的相關(guān)性標(biāo)注等都屬于這一范疇。由于在分類標(biāo)注中,這兩種任務(wù)較為常見,接下來我們對(duì)這兩個(gè)任務(wù)進(jìn)行簡(jiǎn)單的了解。首先是意圖標(biāo)注。意圖是一個(gè)抽象的概念,是指用戶說話的目的,即用戶想要表達(dá)什么、想做什么。例如,A說“請(qǐng)問盛京地鐵口怎么走”,其意圖為“詢問路線”;B說“我也是新來的,對(duì)這兒不熟”,其意圖為“告知A不清楚路線”。再比如,有這樣一句話,相信大家都很熟悉:“各位旅客請(qǐng)注意,17﹕10出發(fā),途經(jīng)沈陽,終到齊齊哈爾的T-××次列車馬上就要檢票了”,這是每次火車站檢票時(shí)都會(huì)播報(bào)的一句話。很明顯,這句話是在“告知”用戶信息,它告訴大家“列車車次—T-××”“出發(fā)時(shí)間—17﹕10”“經(jīng)停站—沈陽”“終點(diǎn)站—齊齊哈爾”。相應(yīng)地,在標(biāo)注意圖時(shí),就可能會(huì)將該句話的意圖標(biāo)注為“inform”(即告知,類似的還有“request”詢問、“Greeting”問候等),如果進(jìn)行多級(jí)意圖標(biāo)注,則需要標(biāo)注“inform—列車車次”“inform—出發(fā)時(shí)間”“inform—終點(diǎn)站”等。當(dāng)然,這只是一個(gè)簡(jiǎn)單的例子,目的是用直觀的方式讓學(xué)習(xí)者理解“意圖”這一概念。在實(shí)際任務(wù)中,意圖標(biāo)注并不僅僅是標(biāo)注說話者的目的和想法,也可能會(huì)從其他角度進(jìn)行標(biāo)注,例如,判斷兩句話是否同義等。同時(shí)需要了解的是,一句話中可能含有多個(gè)意圖,也可能有多級(jí)意圖,例如,“您好,能幫我推薦一家四星級(jí)酒店嗎?”,這句話中有三種意圖,意圖1(Greeting)、意圖2(inform—酒店—星級(jí))、意圖3(request—酒店—名稱),標(biāo)注時(shí),需要根據(jù)句義逐一解析。意圖標(biāo)注常常會(huì)受到用戶語言規(guī)范性、時(shí)效性等方面的影響。例如,在網(wǎng)頁檢索時(shí),對(duì)于“孩子頭疼”這一句話,由于語言表述過短,所以無法確定用戶到底是反映頭疼問題從而尋找解決方案,還是想詢問頭疼的原因、有沒有必要去醫(yī)院等。再比如,同樣的一個(gè)詞“蘋果”,在2007年之前,如果通過網(wǎng)頁搜索,給出的答案大多會(huì)是“什么樣的蘋果好吃”等關(guān)于蘋果這種水果的問題;現(xiàn)如今,隨著“蘋果”手機(jī)問世,再去網(wǎng)頁搜索“蘋果”這個(gè)關(guān)鍵詞,得到的結(jié)果基本是“蘋果手機(jī)”相關(guān)的內(nèi)容,這與時(shí)代演變是密切相關(guān)的。相關(guān)性標(biāo)注屬于分類標(biāo)注中占比較大的任務(wù)之一,其具體表現(xiàn)形式及任務(wù)目的也有多種。相關(guān)性標(biāo)注的任務(wù)主要是對(duì)所給的關(guān)鍵詞或問題與所給結(jié)果進(jìn)行對(duì)比,判斷兩者之間的匹配程度。相關(guān)性標(biāo)注還有另一種變體形式,即相似性標(biāo)注,主要是對(duì)所給的兩句話進(jìn)行對(duì)比,判斷是否同義或意圖是否相同??偨Y(jié)來說,就是看針對(duì)某個(gè)問題所給出的結(jié)果是否能夠清晰且完整地回答或解決該問題,或者看所給的兩種表達(dá)是否存在指定的某種類似特征。針對(duì)關(guān)鍵詞“糖醋魚的做法”,給出了如圖3-1和圖3-2所示的兩個(gè)結(jié)果。很明顯,圖3-1針對(duì)所提出的問題給出了非常完美的答案??梢哉f針對(duì)“糖醋魚的做法”這一關(guān)鍵詞,圖3-1所給出的結(jié)果是非常相關(guān)的。圖3-2雖然給出的也是關(guān)于魚的做法,但并非“糖醋魚的做法”,所以其沒辦法解決所提出的問題,而按照紅燒魚的做法做出來的菜也并非糖醋魚的味道,因此對(duì)問題起不到任何解答作用,可以將其判定為不相關(guān)。關(guān)于相關(guān)程度的具體判定標(biāo)準(zhǔn)會(huì)在相關(guān)性標(biāo)注的實(shí)操部分給出詳細(xì)講解。目前,常見的相關(guān)性標(biāo)注任務(wù)可以分為多個(gè)層級(jí)和多種判斷標(biāo)準(zhǔn),如三級(jí)相關(guān)性、四級(jí)相關(guān)性、五級(jí)相關(guān)性、七級(jí)相關(guān)性等,甚至更多。所謂“四級(jí)相關(guān)性”是指對(duì)相關(guān)程度的判定有4個(gè)等級(jí),代表4種不同的相關(guān)程度,具體的相關(guān)等級(jí)命名方式由需求方自行確定,例如,可以是一級(jí)相關(guān)、二級(jí)相關(guān)、三級(jí)相關(guān)、四級(jí)相關(guān),也可以是不相關(guān)、非常相關(guān)、主體相關(guān)、部分相關(guān),還可以是A、B、C、D等。相應(yīng)地,三級(jí)、五級(jí)、七級(jí)相關(guān)性是指對(duì)相關(guān)程度的判定分別有3個(gè)、5個(gè)和7個(gè)等級(jí)。當(dāng)然,其等級(jí)數(shù)并非固定的,而等級(jí)數(shù)越多則說明任務(wù)的判定標(biāo)準(zhǔn)就會(huì)越細(xì)致,給標(biāo)注帶來的難度也就越大。接下來,我們便以相關(guān)性標(biāo)注為例,詳細(xì)地體驗(yàn)和了解分類標(biāo)注任務(wù)。在進(jìn)一步學(xué)習(xí)之前,需要強(qiáng)調(diào)的是,相關(guān)性標(biāo)注只是分類標(biāo)注的一種,它不代表所有的分類標(biāo)注,同時(shí)由于不同的任務(wù)需求也會(huì)有變化,本章所使用的標(biāo)注說明并不代表所有的相關(guān)性標(biāo)注任務(wù)。為了還原真實(shí)任務(wù)場(chǎng)景且不觸碰數(shù)據(jù)安全底線,接下來的實(shí)訓(xùn)部分各個(gè)環(huán)節(jié)和具體要求均是按照之前已有經(jīng)驗(yàn)給出的場(chǎng)景模擬數(shù)據(jù)。3.1.2分類標(biāo)注實(shí)訓(xùn)之相關(guān)性標(biāo)注在分類標(biāo)注任務(wù)中,標(biāo)注的對(duì)象可以有多種,文本、圖像、語音都有可能,本任務(wù)的主要對(duì)象是網(wǎng)頁文本。就相關(guān)性標(biāo)注而言,在實(shí)際標(biāo)注過程中,通常會(huì)采用多遍標(biāo)注的方式。例如,標(biāo)注兩遍,對(duì)比后針對(duì)不同的標(biāo)注結(jié)果由第三人進(jìn)行質(zhì)檢,或直接標(biāo)注三遍,取兩個(gè)相同的結(jié)果等。本節(jié)對(duì)任務(wù)進(jìn)行了簡(jiǎn)化,按照每個(gè)任務(wù)標(biāo)注一遍來進(jìn)行設(shè)計(jì),重點(diǎn)幫助學(xué)習(xí)者初步理解任務(wù)。3.1.3相關(guān)性標(biāo)注規(guī)范(一)任務(wù)目標(biāo)本任務(wù)的主要目標(biāo)是:對(duì)所給關(guān)鍵詞或問題與頁面呈現(xiàn)答案之間進(jìn)行對(duì)比,確認(rèn)答案能否解答問題,解答的程度如何,并加上對(duì)應(yīng)的標(biāo)簽。本任務(wù)中標(biāo)簽共有四個(gè)層級(jí),分別是完美解答、部分解答、部分涉及和無關(guān)解答。(二)基本標(biāo)注原則標(biāo)注應(yīng)遵循下列三條基本原則:(1)標(biāo)注時(shí),應(yīng)全局查看,不可單純地以某一個(gè)詞為依據(jù),例如,對(duì)于關(guān)鍵詞“紅燒魚做法”,不能因?yàn)榻Y(jié)果中體現(xiàn)了“魚”而判斷為“部分解答”。(2)針對(duì)每個(gè)關(guān)鍵詞給出的結(jié)果是否能完美地解答該關(guān)鍵詞的問題,應(yīng)參照對(duì)應(yīng)的意圖描述來判斷,而不可自行猜測(cè)。(3)標(biāo)注頁面上提供了結(jié)果的參考網(wǎng)址,當(dāng)頁面內(nèi)容亂碼或顯示不出來時(shí),應(yīng)以網(wǎng)址內(nèi)的實(shí)際內(nèi)容為依據(jù)。(三)具體說明針對(duì)本標(biāo)注任務(wù)標(biāo)簽的具體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園消防知識(shí)培訓(xùn)課件活動(dòng)
- 網(wǎng)絡(luò)祭奠面試題及答案
- 依法行政考試試題及答案
- 占地面積試題及答案
- 平安產(chǎn)品面試題及答案
- java消息隊(duì)列面試題及答案
- 熟人看病面試題及答案
- 江蘇省素描試題及答案
- 傷口造口護(hù)理考核試題及答案
- 北京瓷器知識(shí)培訓(xùn)課件
- 考研保錄取合同
- CJ∕T 453-2014 地鐵隧道防淹門
- 2024輔警的勞動(dòng)合同
- 2025屆高考生物一輪總復(fù)習(xí)真題演練必修2第五單元遺傳的基本規(guī)律伴性遺傳與人類遺傳病第25講基因在染色體上及伴性遺傳
- 知識(shí)題庫(kù)-人社練兵比武競(jìng)賽測(cè)試題及答案(二)
- 2019譯林版高中英語全七冊(cè)單詞總表
- 《湖北省安全生產(chǎn)條例》考試復(fù)習(xí)題庫(kù)80題(含答案)
- 蔗糖羥基氧化鐵咀嚼片-臨床用藥解讀
- 讓守紀(jì)律講規(guī)矩成為一種習(xí)慣課件
- 電商運(yùn)營(yíng)專員勞動(dòng)合同
- 《翡翠講解新》課件
評(píng)論
0/150
提交評(píng)論