《數(shù)據(jù)標注實訓(高級)》中職全套教學課件_第1頁
《數(shù)據(jù)標注實訓(高級)》中職全套教學課件_第2頁
《數(shù)據(jù)標注實訓(高級)》中職全套教學課件_第3頁
《數(shù)據(jù)標注實訓(高級)》中職全套教學課件_第4頁
《數(shù)據(jù)標注實訓(高級)》中職全套教學課件_第5頁
已閱讀5頁,還剩205頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)處理技術基礎第一章數(shù)據(jù)標注實訓【ch01】數(shù)據(jù)處理技術基礎【ch02】項目管理進階【ch03】問句復述標注【ch04】3D點云標注【ch05】語音合成——拼音停頓標注【ch06】數(shù)據(jù)處理實戰(zhàn)全套可編輯PPT課件

本課件是可編輯的正常PPT課件01數(shù)據(jù)清洗PARTONE本課件是可編輯的正常PPT課件01不完整數(shù)據(jù)數(shù)據(jù)在采集或標注的過程中均會出現(xiàn)不同情況的數(shù)據(jù)缺失,這就是不完整數(shù)據(jù),其常見的處理方法包括以下兩種。(1)填補數(shù)據(jù):總體數(shù)據(jù)量不大,但缺失的數(shù)據(jù)很重要,需要重新填補數(shù)據(jù)。(2)刪除數(shù)據(jù):當遇到數(shù)據(jù)規(guī)模很大,數(shù)據(jù)缺失部分占比很小,或者缺失的數(shù)據(jù)無法填補等情況時,需要根據(jù)實際情況對缺失的數(shù)據(jù)進行整體刪除。需要注意的是,針對數(shù)據(jù)不完整問題,優(yōu)先考慮的是填補數(shù)據(jù),減少對采集數(shù)據(jù)量的影響。數(shù)據(jù)清洗的常見操作02噪聲數(shù)據(jù)噪聲數(shù)據(jù)常見于各種數(shù)據(jù)中,其對模型的影響要根據(jù)實際情況進行分析。在數(shù)據(jù)標注領域中,噪聲數(shù)據(jù)主要集中在異常值的處理中。異常值是指超過明確取值范圍的值。我們可以通過簡單的規(guī)則來檢查噪聲數(shù)據(jù),或者使用不同屬性間的約束、外部數(shù)據(jù)來檢查和清洗噪聲數(shù)據(jù)。本課件是可編輯的正常PPT課件01重復的數(shù)據(jù)在進行數(shù)據(jù)標注前,數(shù)據(jù)重復會產(chǎn)生重復的標注動作,造成標注資源的浪費。數(shù)據(jù)去重操作一般在其他數(shù)據(jù)清洗操作之后,原因在于清洗其他數(shù)據(jù)仍然會造成小概率出現(xiàn)重復數(shù)據(jù)的可能性。03格式不合規(guī)的數(shù)據(jù)項目需求格式與原始數(shù)據(jù)不一致,當出現(xiàn)偏差較大時也需要清洗數(shù)據(jù)。02錯誤數(shù)據(jù)一些數(shù)據(jù)自身存在客觀性錯誤,如錯別字、多余字符、知識性錯誤等。一般處理方式為更改其錯誤或刪除該條數(shù)據(jù)。數(shù)據(jù)清洗的常見操作本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解非結構化數(shù)據(jù)非結構化數(shù)據(jù)一般指不完整、不規(guī)則、沒有結構層級的數(shù)據(jù)。采集到的原始數(shù)據(jù)大多數(shù)為非結構化數(shù)據(jù)。與結構化數(shù)據(jù)相比,非結構化數(shù)據(jù)的來源非常廣泛,生產(chǎn)速度更快,因此其清洗更為困難。在數(shù)據(jù)標注領域中,非結構化數(shù)據(jù)常見于數(shù)據(jù)標注之前。通過對非結構化數(shù)據(jù)的標注,生產(chǎn)出包含原始數(shù)據(jù)信息及標注信息的結構化數(shù)據(jù)或半結構化數(shù)據(jù),以便在后續(xù)的數(shù)據(jù)分析及模型訓練時使用。常見的非結構化數(shù)據(jù)包括文本、圖片、音頻、視頻、網(wǎng)頁及各種傳感器數(shù)據(jù)等。本課件是可編輯的正常PPT課件1)文本數(shù)據(jù)清洗任何數(shù)據(jù)的清洗都要根據(jù)項目需求進行具體分析。如果是針對中文文本的自然語言處理項目,則要根據(jù)項目需求與數(shù)據(jù)量級,處理文本中出現(xiàn)的不相關英文字符、特殊符號及無意義的數(shù)值。圖1-2所示為未經(jīng)清洗的文本數(shù)據(jù)。數(shù)據(jù)清洗操作詳解本課件是可編輯的正常PPT課件在進行數(shù)據(jù)標注前,需要清洗與需求數(shù)據(jù)不相關的文本數(shù)據(jù),可以讓數(shù)據(jù)更整潔,使標注任務更明確。這里使用的工具是文本編輯器,還可以自行選擇軟件工具,這里不做更多介紹。那么如何對該文本數(shù)據(jù)進行清洗,這里介紹一種強大的文本處理方法——正則表達式。正則表達式是由普通字符和特殊字符(特殊字符也被稱為“元字符”)組成的。例如,a到z之間的字母、0到9之間的數(shù)字或任意漢字都被稱為“普通字符”。元字符具有特殊含義,用來表示一些特定的匹配規(guī)則。常見的元字符如表1-1所示。數(shù)據(jù)清洗操作詳解本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解本課件是可編輯的正常PPT課件表1-1中列舉了一些常見的元字符。要特別注意的是,“[abc]”主要強調(diào)的是“[]”,其中可以自行輸入想要匹配的字符,但是僅匹配其中的一個字符。例如,“[abc]”表示匹配a、b、c中的任意一個字母;“[a-z]”表示匹配任意小寫字母,“[A-Z]”表示匹配任意大寫字母,“[0-9]”表示匹配任意數(shù)字;“[^abc]”表示匹配除a、b、c外的任意字符?!癧\u4e00-\u9fa5]”表示中文全部范圍的Unicode編碼用來匹配任意漢字。除了表中的元字符,還有一些其他元字符,如換頁符、制表符等。普通字符與元字符能夠匹配任意的單一字符,但當某個字符重復出現(xiàn)多次或特定次數(shù)時,可以通過組合限定符進行匹配。數(shù)據(jù)清洗操作詳解本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解此外,還有分組、選擇及轉義。(1)分組是指用圓括號“()”把一個子模式括起來,表示這個子模式作為一個整體進行匹配。(2)選擇是指用豎線“|”把兩個子模式分開,表示匹配這兩個子模式中的任意一個。(3)轉義是指在一個特殊含義的字符前面加上反斜杠“\”,表示取消這個字符原本的含義,按照字面值進行匹配。下面用實例說明。利用正則表達式匹配書名,首先打開“查找與替換”對話框,選中“正則表達式”單選按鈕。這里通過字符《.*?》匹配了文本中的5個書名。其中,“.”為正則表達式的普通字符,表示匹配除換行符外的任何字符;“*”為正則表達式中的限定符,表示匹配零次或多次前面的子表達式;“?”也是正則表達式中的限定符,表示匹配零次或一次前面的子表達式,這樣就匹配了書名號中的任意字符,如圖1-3所示。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解如果去掉“?”限定符,則會匹配更多長度的字符,造成匹配不當,如圖1-4所示。同樣可以通過“查找與替換”對話框對文本進行清洗,如圖1-5所示,先通過“\r\n”匹配回車符和換行符,大部分工具都可以顯示回車符和換行符。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解如圖1-6所示,通過“&#[0-9]{5};”匹配文本中固定模式的字符,將其全部替換為空值。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解如圖1-7所示,特殊字符集網(wǎng)址等其他特殊字符均可通過匹配替換的方式清除,但是這里要注意的是數(shù)據(jù)清洗的成本。數(shù)據(jù)清洗不僅要考慮數(shù)據(jù)質量,也要考慮數(shù)據(jù)清洗的成本,對于圖1-6這種出現(xiàn)極少的情況可以選擇不清洗,在數(shù)據(jù)標注過程中手動刪除即可。數(shù)據(jù)清洗的方法靈活多樣,正則表達式的使用方法同樣靈活,這里無法詳細介紹正則表達式的全部內(nèi)容,僅展示正則表達式的強大效果。正則表達式支持諸多工具,用戶可以進行有效實踐,具體內(nèi)容還需要通過閱讀相關資料繼續(xù)深入了解。本課件是可編輯的正常PPT課件2)圖片、音頻、視頻等數(shù)據(jù)清洗針對圖片、音頻、視頻等非結構化數(shù)據(jù),常見的數(shù)據(jù)清洗操作為去重或去除固定條件下的內(nèi)容。重復數(shù)據(jù)會給標注任務帶來負擔,固定條件外的數(shù)據(jù)(如大小不足要求的數(shù)據(jù))同樣會造成標注資源的浪費。圖片、音頻、視頻等數(shù)據(jù)在計算機中是二進制編碼,可以通過腳本語言進行清洗操作。針對常見的數(shù)據(jù)去重等清洗操作,可以使用去重工具進行。這里使用的去重工具為DuplicateCleanerPro,如圖1-8所示。數(shù)據(jù)清洗操作詳解本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解通過設置搜索規(guī)則完成對重復圖片的搜索,如圖1-9、圖1-10所示,選擇要處理的文件,如圖1-11所示,最終完成對數(shù)據(jù)的清洗。類似的數(shù)據(jù)清洗工具還有很多,用戶可以根據(jù)實際情況選擇使用。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解2.結構化數(shù)據(jù)結構化數(shù)據(jù)也被稱為“行數(shù)據(jù)”,即以二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù)。與非結構化數(shù)據(jù)相比,結構化數(shù)據(jù)更易于查看與搜索,但是也有更嚴格的數(shù)據(jù)格式要求。因此,對二維表的數(shù)據(jù)清洗更為復雜,如圖1-13(a)所示,這里使用Excel進行數(shù)據(jù)清洗,Excel適用于小規(guī)模數(shù)據(jù)、數(shù)據(jù)屬性較多的情況;還可以使用腳本語言等進行更為精細的處理,最終達到如圖1-13(b)所示的效果,具體操作方法不再詳述。本課件是可編輯的正常PPT課件02數(shù)據(jù)安全PARTTWO本課件是可編輯的正常PPT課件數(shù)據(jù)安全的概念數(shù)據(jù)安全是指通過采取必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。目前,隨著信息技術的飛速發(fā)展,對數(shù)據(jù)的要求及數(shù)據(jù)的價值都在逐漸增加。因此,保障信息資產(chǎn)將會變得愈發(fā)重要。一個完善的數(shù)據(jù)安全體系本身就具有寶貴的價值,不但可以降低數(shù)據(jù)安全風險,還可以提升產(chǎn)品的競爭優(yōu)勢。數(shù)據(jù)具有多樣性,不同數(shù)據(jù)的保密要求及實施辦法也不盡相同。從數(shù)據(jù)安全角度考慮,這里將數(shù)據(jù)分為以下幾類。(1)個人及企業(yè)數(shù)據(jù):如個人隱私、肖像及企業(yè)財務敏感數(shù)據(jù)等。(2)業(yè)務數(shù)據(jù):單位從事各項業(yè)務產(chǎn)生的有價值的數(shù)據(jù)。(3)重要數(shù)據(jù):涉及公共生命安全、國家安全的機密數(shù)據(jù)。這里僅按照數(shù)據(jù)安全受限的等級進行一個簡要分類,其保密等級要根據(jù)業(yè)務需求進行具體劃分。數(shù)據(jù)安全流程包括安全策略的規(guī)劃、構建與執(zhí)行,為訪問數(shù)據(jù)提供身份驗證、授權等操作,以及對過程的監(jiān)管與治理等。目前尚且無法對所有的隱私和保密要求提出一套通用的數(shù)據(jù)安全實施辦法。本課件是可編輯的正常PPT課件010302業(yè)務需求數(shù)據(jù)標注領域中涉及的數(shù)據(jù)眾多,其中不乏一些隱私或機密數(shù)據(jù)。針對不同的標注項目,要全面分析對數(shù)據(jù)安全的業(yè)務需求。通過對業(yè)務需求的分析及工作流程,針對可能出現(xiàn)的安全風險環(huán)節(jié)提出安全保證措施。監(jiān)管需求在考慮業(yè)務需求的同時,還要實時關注政府的監(jiān)管需求。明確政府制定的法律法規(guī),完善業(yè)務需求之外的安全控制。監(jiān)管需求適用于任何數(shù)據(jù),可以在業(yè)務需求之前完善。評估當前風險在明確各個項目安全需求的同時,還要評估當前風險,不同的安全需求可能需要不同的保護措施。也就是要評估現(xiàn)有的安全保護措施能否支持當前項目的安全需求,并以此進行改進,降低安全風險。數(shù)據(jù)安全措施的制定流程1.分析數(shù)據(jù)安全需求本課件是可編輯的正常PPT課件010302制定數(shù)據(jù)安全制度在制定數(shù)據(jù)安全制度時要基于業(yè)務規(guī)范和法律法規(guī)要求,如因未遵守公司制度導致數(shù)據(jù)泄露可能要承擔相應的法律責任。常見的數(shù)據(jù)安全制度包括簽訂保密協(xié)議、數(shù)據(jù)存儲介質的管理等。細化數(shù)據(jù)保密等級根據(jù)業(yè)務需求和監(jiān)管需求對保密等級提出分級方案,一般可以細化為從外部公開到絕密的一系列保密等級。數(shù)據(jù)標注領域中的數(shù)據(jù)來源廣泛,提出一個簡單明確的分級方案尤為重要。需要注意的是,數(shù)據(jù)聚合會導致數(shù)據(jù)敏感性的變化,因此要明確數(shù)據(jù)聚合帶來的保密等級影響。定義角色權限數(shù)據(jù)訪問權限要根據(jù)角色進行定義,如用戶、管理員或數(shù)據(jù)專員等。數(shù)據(jù)標注領域涉及的角色會比其他領域涉及的角色更多,因此要根據(jù)不同角色進行細化的權限分配。此外,還要額外考慮信任環(huán)境,因為信任環(huán)境會發(fā)生變化數(shù)據(jù)安全措施的制定流程2.制定數(shù)據(jù)安全標準本課件是可編輯的正常PPT課件0102密級的分配與管理根據(jù)保密等級分級方案,對角色進行密級分配。要考慮角色權限變更或角色終止訪問權限、監(jiān)控權限級別等方面;還要根據(jù)密級等級對數(shù)據(jù)進行分類,針對安全漏洞的檢測及如何處理檢測到的數(shù)據(jù)泄露做好管控。數(shù)據(jù)安全制度的實施在制定完數(shù)據(jù)安全制度后,要根據(jù)數(shù)據(jù)安全制度,追蹤整個數(shù)據(jù)安全流程,衡量其中管理法規(guī)是否符合規(guī)定,當發(fā)現(xiàn)潛在不符合規(guī)定的問題時要及時上報并妥善修正。在發(fā)布新的管理法規(guī)或現(xiàn)有管理法規(guī)變更后,要對數(shù)據(jù)安全流程進行重新評估。數(shù)據(jù)安全措施的制定流程3.實施數(shù)據(jù)安全管控本課件是可編輯的正常PPT課件1.系統(tǒng)手段在數(shù)據(jù)標注領域中,標注系統(tǒng)是在線管理角色的主要方式,包括對角色進行有效的密級分配、訪問控制及監(jiān)控異常日志等。系統(tǒng)管理一般由專業(yè)人員進行構建及監(jiān)控,需要確保系統(tǒng)不會出現(xiàn)安全漏洞,包括及時檢測并修復出現(xiàn)的安全漏洞,通常采用的手段為構建防火墻或安裝入侵監(jiān)測軟件。2.數(shù)據(jù)手段在數(shù)據(jù)標注領域中,數(shù)據(jù)的移動過程有很多,如任務試標、任務派發(fā)及質檢打回等。根據(jù)項目需求,也并非都是在線任務,離線任務占比也相對較高。通過對敏感信息脫敏與數(shù)據(jù)加密,可以有效地降低數(shù)據(jù)移動過程中的安全風險。常用的數(shù)據(jù)手段如下。保證數(shù)據(jù)安全的手段本課件是可編輯的正常PPT課件01數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指在保證數(shù)據(jù)原有特征及與其他數(shù)據(jù)關聯(lián)性的原則下,對數(shù)據(jù)中的姓名、電話及身份證號等敏感信息,通過掩碼、刪除、替換等方法進行變更,從而在隱去敏感信息的同時不會影響數(shù)據(jù)的測試及應用。03數(shù)字水印數(shù)字水印是指在音頻、視頻或圖片數(shù)據(jù)這類的噪聲耐受信號中隱蔽地嵌入包含版權、標識及身份等信息的特殊標記,通常用于數(shù)據(jù)源追蹤、版權保護及篡改檢測等。02數(shù)據(jù)加密數(shù)據(jù)加密是指通過特定的密鑰及算法將數(shù)據(jù)轉換為復雜代碼以保障數(shù)據(jù)安全。與數(shù)據(jù)脫敏相比,數(shù)據(jù)加密會失去數(shù)據(jù)的原有特征,需要通過密鑰及算法進行解密才可以使用。此外,數(shù)據(jù)脫敏還會更改原始數(shù)據(jù),其過程一般不可逆,而數(shù)據(jù)加密、解密過程通常是可逆過程。常用的加密方法如下。保證數(shù)據(jù)安全的手段本課件是可編輯的正常PPT課件1)設備管理筆記本電腦、移動硬盤、平板電腦及智能手機等移動設備由于人為原因可

能會造成數(shù)據(jù)丟失、被盜及黑客入侵等情況,極大地提高了數(shù)據(jù)安全風險;因此要盡可能使用移動設備遠程連接數(shù)據(jù)源,數(shù)據(jù)要盡可能存儲在安全的環(huán)境中,并且要對移動設備中的重要數(shù)據(jù)進行及時清理。此外,安裝安全軟件和加密軟件,對重要數(shù)據(jù)進行加密可以有效防止黑客攻擊造成的數(shù)據(jù)泄露。保證數(shù)據(jù)安全的手段3.管理手段本課件是可編輯的正常PPT課件保證數(shù)據(jù)安全的手段3.管理手段本課件是可編輯的正常PPT課件2)人員管理幾乎不可能保證數(shù)據(jù)的絕對安全,但是如果具有較強的數(shù)據(jù)安全意識并且結合安全管理手段,就可以極大限度地降低數(shù)據(jù)安全風險。因此增強數(shù)據(jù)安全意識是人員管理的首要工作。用戶可以通過線上測試、線下培訓及經(jīng)驗分享等方式增強數(shù)據(jù)安全意識,并且要求具有持續(xù)性;此外,還要強調(diào)安全法規(guī)要求及事故復盤等操作。數(shù)據(jù)安全管理的成功取決于管理的主動性及協(xié)同合作能力。根據(jù)安全需求的動態(tài)變化,各部門要相互協(xié)調(diào),能夠做到能及時應對,主動發(fā)現(xiàn)各個階段潛在的安全漏洞并及時修正。此外,還要明確界定角色和職責,應該仔細監(jiān)管各環(huán)節(jié)中的數(shù)據(jù),確保在出現(xiàn)問題時能夠準確定位。保證數(shù)據(jù)安全的手段3.管理手段3)流程管理本課件是可編輯的正常PPT課件感謝觀看數(shù)據(jù)標注實訓高等院校公共課系列精品教材本課件是可編輯的正常PPT課件項目管理進階第二章數(shù)據(jù)標注實訓高等院校公共課系列精品教材本課件是可編輯的正常PPT課件01項目規(guī)劃設計PARTONE本課件是可編輯的正常PPT課件何為項目規(guī)劃對于項目規(guī)劃來說,項目是落腳點,也是基礎。關于項目的概念,不同的人會有不同的理解。在美國項目管理協(xié)會出版的《項目管理知識體系指南》一書中,對于“項目”一詞有這樣一條定義,即項目是為創(chuàng)造獨特的產(chǎn)品、服務或成果而進行的體系化的工作。在這一定義中,“體系化”一詞尤其值得注意。體系就是一個龐大的系統(tǒng),這個系統(tǒng)中包含了一些小的系統(tǒng),并各自形成具有某種功能的結構。與人體相似,人體有消化系統(tǒng)、呼吸系統(tǒng)等,而消化系統(tǒng)和呼吸系統(tǒng)又都有各自的身體器官。體系化是項目最突出的特征,在項目體系中會涉及一系列工作,如項目預算、組織人員、調(diào)配資源、監(jiān)督管理等。此外,項目還有一個最基本的特征,即以實現(xiàn)特定目標為目的。因此,也可以說,項目是為了實現(xiàn)特定目標而開展的一系列工作任務。我們可以將游戲公司研發(fā)或運營一款游戲看作一個項目,可以將企業(yè)策劃的一次產(chǎn)品展銷活動看作一個項目,還可以將本書中提到的每一次標注服務都看作一個項目。本課件是可編輯的正常PPT課件何為項目規(guī)劃項目規(guī)劃可以理解為項目設計,是指從實際情況出發(fā)進行思考和謀劃,實現(xiàn)項目目標所必需的各種活動和工作成果。完美的項目規(guī)劃是項目成功落地的前提,它可以從宏觀角度對項目所涉及的要素和活動進行部署,為項目開展提供依據(jù),從而有效地減少因情況突變帶來的不利影響,并且可以對項目資源進行評估和調(diào)配,力求以最低成本實現(xiàn)項目目標。最重要的是,項目規(guī)劃能夠提前確定項目目標,為所有與項目相關的人員指明共同努力的方向,從而保質、保量地完成項目。本課件是可編輯的正常PPT課件2.規(guī)劃準備階段規(guī)劃準備階段的主要工作為項目背景分析與項目需求分析。從字面意義來理解,項目背景就是項目背后的情況。4.規(guī)劃收尾階段規(guī)劃收尾階段主要是指各管理部門或領導對項目規(guī)劃進行審核,規(guī)劃編制人員或部門對項目規(guī)劃進行更新和調(diào)整,直至形成最終版項目規(guī)劃。1.規(guī)劃啟動階段規(guī)劃啟動階段相當于項目規(guī)劃工作啟動前的一個啟動儀式。在規(guī)劃啟動階段會通過啟動會等形式針對項目規(guī)劃進行消息同步,對項目規(guī)劃的目的、背景、要求進行充分討論,并初步確定項目規(guī)劃的內(nèi)容及參與人員。3.規(guī)劃編制階段規(guī)劃編制階段是項目規(guī)劃的主要環(huán)節(jié),項目規(guī)劃的大部分工作都需要在這一階段完成。項目規(guī)劃的流程本課件是可編輯的正常PPT課件01項目目標項目目標是指項目要達到怎樣的總體目標、預計要支出多少成本完成項目目標、項目目標是否要分階段實現(xiàn)及每個階段的目標是什么。項目目標的確定有助于統(tǒng)一項目相關人員方向,也為項目后續(xù)的分解和設置提供了依據(jù)。03項目規(guī)則項目規(guī)則是指項目實施過程中必須遵守的規(guī)則。該規(guī)則可以是整體的運行規(guī)則,也可以是系列活動的內(nèi)部操作規(guī)范。項目規(guī)則是對項目需求的最直接體現(xiàn),也是確保實現(xiàn)項目目標的法寶,更是判斷參與者操作是否準確的有效依據(jù)。02項目范圍項目范圍是指項目實施所涉及的范圍是怎樣的。項目范圍包括可參與的人員范圍、項目可用的原始材料范圍及項目活動范圍。項目相關人員通過項目范圍的界定能夠了解滿足什么條件的人可以參與項目,也可以了解哪些原始材料能夠加入項目中。項目規(guī)劃的內(nèi)容本課件是可編輯的正常PPT課件04行動方向行動方向是指基于對項目目標的理解提出可行的行動建議。這些建議一般是基于既有事實或案例給出的,包括建議的行動起點、建議的落實方式、建議的行動步驟或流程等。行動方向能夠幫助項目相關人員及時鎖定有效的行動方式,縮短調(diào)研、討論等所消耗的時間,從而快速制定行動方案。06時間節(jié)點時間節(jié)點是指完成項目各階段目標的規(guī)定時間期限。在項目規(guī)劃過程中,目標完成的時間節(jié)點能夠使項目相關人員的內(nèi)心產(chǎn)生明確的時間概念和緊迫感,這樣既有助于項目推進,又能為項目進度的安排提供參考。05衡量指標衡量指標是指項目各階段目標所對應的結果或指標要求,如合格率、準確率、通過率、購買人數(shù)等。項目在每個階段都應該有明確且可衡量的考核指標,這樣不僅有利于項目管理者進行監(jiān)督、評價和考核,還有利于他們直觀地了解項目目標的實現(xiàn)進度,從而為后續(xù)項目設置做準備。項目規(guī)劃的內(nèi)容本課件是可編輯的正常PPT課件2)定位提出發(fā)起標注項目規(guī)劃的原因,即說明標注項目要解決哪些難題,其應用場景是怎樣的。4)定綱根據(jù)當前場景及情況進行分析,確定項目規(guī)劃需要做哪些工作,重點工作有哪些。1)動員向項目規(guī)劃的相關人員宣告規(guī)劃工作啟動。3)定調(diào)初步確定項目規(guī)劃基本原則的動作,包括規(guī)模、成本、目標等。例如,質量、價格、數(shù)據(jù)量等優(yōu)先級別的確定或團隊可承擔多大規(guī)模的成本等。標注項目規(guī)劃1.規(guī)劃啟動階段本課件是可編輯的正常PPT課件5)定責確定參與項目規(guī)劃的人員及每個人的職責。例如,小張負責收集資料、小李負責撰寫文件、小趙負責需求分析等。6)定時根據(jù)規(guī)劃內(nèi)容商討項目規(guī)劃進度,如第一周完成調(diào)研、第二周完成目標規(guī)劃,以此類推。標注項目規(guī)劃1.規(guī)劃啟動階段本課件是可編輯的正常PPT課件010302調(diào)研對標注項目所涉及的問題及應用場景、目前的研究情況、技術問題、行業(yè)普遍做法等進行資料搜集和整理,從而確定標注項目當前可用的參考資料及資源,為下一步需求分析做準備。需求分析根據(jù)標注項目應用場景、問題及可用資源進行綜合分析,得出標注項目具體的需求。數(shù)據(jù)模擬根據(jù)初步的需求分析,對標注項目所涉及的關鍵問題逐一進行確認。標注項目規(guī)劃2.規(guī)劃準備階段本課件是可編輯的正常PPT課件1)標注目標規(guī)劃根據(jù)準備階段的數(shù)據(jù)模擬情況制定標注項目的具體目標。一是標注數(shù)據(jù)量二是帶標數(shù)據(jù)應用效果2)項目范圍規(guī)劃標注項目各項活動所涉及的范圍。3)標注體系規(guī)劃標注體系簡單來說就是標注過程中所采用的知識體系。4)標注方式規(guī)劃標注活動的主要實施方式,人工參與程度。任務重復方式。標注實現(xiàn)手段。標注流程規(guī)劃評估手段規(guī)劃。標注周期規(guī)劃。標注項目規(guī)劃3.規(guī)劃編制階段本課件是可編輯的正常PPT課件4.規(guī)劃收尾階段通過對初始規(guī)劃內(nèi)容的校驗和修改,項目的整體規(guī)劃已相對完整,與規(guī)劃相關的各項文件也已經(jīng)基本完成,此時可以說項目的規(guī)劃編制階段已經(jīng)結束。在規(guī)劃編制階段完成后,已形成的規(guī)劃成果還需要經(jīng)過相關負責人審批,以證明項目規(guī)劃已經(jīng)完備,項目也具備了落地的基本條件,從而為后續(xù)的項目動員和實施提供指南。項目規(guī)劃是一個需要規(guī)劃者極度靈活的過程,并且各項規(guī)劃工作并沒有絕對的標準,唯一可以遵循的原則就是著眼于自身資源、項目目標等情況靈活設計。因此,在對標注項目進行規(guī)劃時,我們要做到充分了解自己并發(fā)揮自身優(yōu)勢,時刻關注項目實施過程,以項目目標為導向,盡量規(guī)避風險,從而使標注項目過程更加順暢。標注項目規(guī)劃本課件是可編輯的正常PPT課件02PARTTWO標注項目需求分析本課件是可編輯的正常PPT課件眾所周知,需求分析是為了分析并得出需求。需求是一個常被掛在嘴邊的詞,這個詞在不同的語境下也會有不同的含義。在經(jīng)濟學領域中,需求是指在一定的時期,在每個價格水平下,消費者愿意并且能夠購買的商品數(shù)量;在軟件開發(fā)領域中,需求是指系統(tǒng)初始并不具備客戶需要的內(nèi)容。IEEE軟件工程標準從軟件工程的角度給出了需求的3方面定義??蛻艚鉀Q問題或達到目標所需的條件或權能。系統(tǒng)或系統(tǒng)部件要滿足合同、標準、規(guī)范或其他正式規(guī)定文檔所需的條件或權能。一種反映上述條件或權能的文檔說明。這些理解都從不同角度體現(xiàn)了需求的本質。需求本課件是可編輯的正常PPT課件首先,需求源于需要,此為動機。其次,需求著眼于客戶,即以客戶為中心。再次,需求的核心是提出要求,即客戶提出希望可以達到的標準。最后,需求會以不同的形式來呈現(xiàn)。例如,在炎熱的夏天,需求可能是一瓶冰水;在喧鬧的都市生活中,需求可能是少有的寧靜片刻;而在本書中,需求則是一次完美的標注服務。

正因為每個領域對于需求的理解各不相同,所以生硬地套用任何一個領域中的需求定義都是沒有意義的。如果非要給出一個普適的概念,則大致可以基于以上分析給出這樣一個定義,即需求是因客戶需要而產(chǎn)生的各種要求和標準。本書中的標注需求與這一概念相似,是指為了解決客戶的某些應用問題而產(chǎn)生的數(shù)據(jù)標注要求和標準。由于所處領域不同,人們對于需求的分類方式也不同,各領域也有自己的需求分類方式。例如,在軟件開發(fā)領域中,需求可以分為功能性需求和非功能性需求;按照需求層次分類,需求還包括業(yè)務需求、客戶需求和系統(tǒng)需求。在經(jīng)濟學領域中,需求可以按照顯露程度分為顯性需求和隱性需求。需求的分類依據(jù)還有很多,對于標注服務來說,需求可以按照規(guī)模大小分為大型需求和小型需求;按照緊急程度可以分為緊急需求和非緊急需求;按照重要性可以分為重要需求和非重要需求;按照需求來源可以分為內(nèi)部需求和外部需求等。需求本課件是可編輯的正常PPT課件需求分析這個詞是每個行業(yè)都會經(jīng)常出現(xiàn)的詞。需求分析主要是指理解客戶需求,實施的工作和標準與客戶達成一致,并形成規(guī)則說明或需求文檔的過程。它是項目實施過程中非常重要的一項工作,因為需求分析是整個項目的指南針,關于項目實施過程中的所有決策都是基于需求分析進行的。有利的需求分析不僅能夠有效地避免項目修改和返工,還能夠體現(xiàn)團隊的專業(yè)性和價值,從而促進項目合作。對于需求分析,曾有文章這樣描述:項目需求就像神秘人一樣,不知道是什么、不知道從哪兒來、不知道想干啥,弄清項目需求簡直像一場讀心術。這句話雖然很幽默,卻將需求分析所涉及的幾個關鍵問題展現(xiàn)得淋漓盡致。從描述中,我們可以總結出幾個關于需求分析的關鍵要點。需求分析本課件是可編輯的正常PPT課件項目需求很神秘,需要分析者深入挖掘并使其可見,保證需求完整準確是需求分析的根本價值所在。需求分析要知道需求是什么,需要分析者具備專業(yè)知識,能夠充分理解業(yè)務背景及邏輯是做好需求分析的基礎。需求分析要了解需求從哪里來,需要了解需求提出背后的原因,以客戶為中心并關注需求背后是需求分析的基本原則和前提,也是需求分析的出發(fā)點。需求分析要弄清楚需要做什么,需要明確滿足需求的具體任務和做法,這是需求分析的基本標準和最終目的。對于需求分析,值得強調(diào)的是,了解需求來源極其重要。一般來說,需求來源可以指需求的表面來源,即需求由誰提出或通過何種途徑獲取。通常,需求的表面來源大概有以下4種??蛻?,即項目的服務對象。對于大部分項目來說,客戶是需求的主要來源,所以與客戶溝通是確定需求的最有效方式。市場,即市場調(diào)研。市場調(diào)研有多種方式,可以是基本的信息檢索,也可以是試用或問卷調(diào)查等。市場調(diào)研往往是需求分析的必要步驟,能夠為需求分析提供參考依據(jù)和方向。競品,即競品分析,是指對同類項目或案例進行研究,從中找出契合之處,從而發(fā)現(xiàn)項目的突破口與待改進之處。需求分析本課件是可編輯的正常PPT課件內(nèi)部,即團隊內(nèi)部。團隊內(nèi)部提出的需求主要是基于已有經(jīng)驗所做的補充或基于專業(yè)背景知識提出的一些參考建議,是為了更全面地考慮項目需求及具體情況,為客戶最終確定需求提供參考。在需求分析中,了解需求的表面來源主要是為深挖項目需求提供基礎的。事實上,需求來源還有更深層的含義,即需求是怎么來的,也就是為什么要提出這樣的需求,我們可以稱為“深層來源”要知道,任何需求的提出都有其背后的道理,要么是為了擺脫某些因素造成的影響或約束,要么是為了解決某一個問題。前者的影響因素通常包括項目預算、人員等客觀條件限制,后者的問題主要來源于特定的應用場景。在需求分析的過程中,只有了解了這些,才能真正做到以客戶為中心,從而捕捉到準確的客戶需求。需求分析是一個比較復雜的過程,不同領域對流程的界定也不盡相同,大致可以分為以下4個階段。需求分析本課件是可編輯的正常PPT課件2.分析與綜合階段分析與綜合階段包括兩部分,一部分是需求拆解和分析,即結合行業(yè)經(jīng)驗和應用場景等既有信息,通過反推等方式對需求進行剖析,并對現(xiàn)有經(jīng)驗和可用信息進行分析,從而得出項目的細化需求點。4.需求驗證階段需求驗證階段主要的工作是驗證,即根據(jù)整理出來的需求文檔對需求進行評估和驗證,從而確定需求的適用性和有效性,為后續(xù)項目實施做準備。1.問題識別階段問題識別階段的工作主要有兩方面:一方面是與需求方進行對接。另一方面,問題識別階段還需要針對初步需求進行必要的市場調(diào)研。3.需求梳理階段需求梳理階段也被稱為“規(guī)格說明書制定階段”,主要工作是對需求進行整理和記錄,從而形成項目需求文檔或說明書。需求分析本課件是可編輯的正常PPT課件對于標注項目來說,需求分析是一項重要的工作,也是一項難度很大的工作。因為要想做好標注項目的需求分析,需要同時具備以下3方面條件。首先,標注項目需求分析要建立在對結果數(shù)據(jù)的應用場景有深刻了解的基礎上。這里的結果數(shù)據(jù)是指標注結果。結果數(shù)據(jù)的應用場景是指最終的標注結果應用在什么領域,用來解決什么樣的實際問題。因為需求方對于需求的表述難免出現(xiàn)偏差或遺漏,特別是在需求模糊時,需求分析要做“剝洋蔥”,要根據(jù)實際問題將需求層層剝離出來。因此,了解應用場景是深刻理解標注項目需求的前提,也是與需求方達成共識的關鍵一步。標注項目需求分析詳解對于標注項目來說,做好需求分析并非易事,因為這個過程會涉及諸多分析。從實現(xiàn)的目的來說,做好一個標注項目的需求分析至少要弄清以下問題。標注任務類型。標注規(guī)則體系。標注需求量。標注節(jié)奏。結果數(shù)據(jù)形式。本課件是可編輯的正常PPT課件標注項目需求分析詳解數(shù)據(jù)安全是指通過采取必要措施,確保數(shù)據(jù)處于有效保護和合法利用的狀態(tài),以及具備保障持續(xù)安全狀態(tài)的能力。目前,隨著信息技術的飛速發(fā)展,對數(shù)據(jù)的要求及數(shù)據(jù)的價值都在逐漸增加。因此,保障信息資產(chǎn)將會變得愈發(fā)重要。一個完善的數(shù)據(jù)安全體系本身就具有寶貴的價值,不但可以降低數(shù)據(jù)安全風險,還可以提升產(chǎn)品的競爭優(yōu)勢。數(shù)據(jù)具有多樣性,不同數(shù)據(jù)的保密要求及實施辦法也不盡相同。從數(shù)據(jù)安全角度考慮,這里將數(shù)據(jù)分為以下幾類。(1)個人及企業(yè)數(shù)據(jù):如個人隱私、肖像及企業(yè)財務敏感數(shù)據(jù)等。(2)業(yè)務數(shù)據(jù):單位從事各項業(yè)務產(chǎn)生的有價值的數(shù)據(jù)。(3)重要數(shù)據(jù):涉及公共生命安全、國家安全的機密數(shù)據(jù)。這里僅按照數(shù)據(jù)安全受限的等級進行一個簡要分類,其保密等級要根據(jù)業(yè)務需求進行具體劃分。數(shù)據(jù)安全流程包括安全策略的規(guī)劃、構建與執(zhí)行,為訪問數(shù)據(jù)提供身份驗證、授權等操作,以及對過程的監(jiān)管與治理等。目前尚且無法對所有的隱私和保密要求提出一套通用的數(shù)據(jù)安全實施辦法。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解1.初步需求對接初步需求對接是指與需求方進行的首次需求對接。初步需求對接的目的是確定標注項目的基本情況,識別標注項目要解決的核心應用問題,從而為項目評估及后續(xù)工作的開展做準備。在初步需求對接時,一般重點關注以下幾個問題。(1)標注項目的基本情況如何?例如,預期標注需求量、項目預算、預計周期、人員要求等。(2)標注項目的應用場景是怎樣的?(3)標注項目已有的基礎和背景如何?即任務類型是否已確定,是否已有待驗證的標注規(guī)則體系,該標注項目之前做過哪些嘗試,實施情況如何等。(4)目前,標注項目重點關注的問題是什么?需要如何配合?(5)對于標注項目實施經(jīng)驗來說,標注項目設置可能會存在某些問題,對于這些問題是否已有考慮?以上列出的問題是在做具體需求分析之前必須明確的問題,這幾個問題直接決定了后續(xù)需求分析的工作量、工作方式和流程。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解2.調(diào)研分析調(diào)研分析是指根據(jù)獲取的信息,以核心場景問題為焦點,通過各種方式獲取同類場景或項目已有做法的信息,并對其進行分析總結,從而為整理并確定項目需求提供依據(jù)。在調(diào)研分析階段,獲取信息的途徑有很多,比較容易實現(xiàn)的途徑有以下兩種。(1)網(wǎng)絡檢索。網(wǎng)絡檢索是調(diào)研分析常用的方式,在很多情況下,網(wǎng)絡中的權威文獻等能為調(diào)研者提供很多有價值的信息。(2)專家咨詢。專家咨詢是指針對領域難點征求專家意見。它是針對領域問題尋找解決方案和建議的最佳方式。除了通過上述途徑,我們還可以通過調(diào)查問卷、實地考察等方式獲取大量的有效信息,在需求分析過程中,可視具體情況使用。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解3.需求拆解分析標注項目的需求分析過程也是對根本問題進行逐步反推和拆解分析的過程。對于標注項目來說,其反推和拆解的順序大致為應用領域→應用場景→需要解決的問題→標注任務類型→標注規(guī)則體系。在對需求進行拆解后,還需要根據(jù)已有信息進行綜合分析。在分析過程中,可能包括以下參考信息。(1)已有項目案例。已有項目案例一般能為標注項目需求分析提供意想不到的靈感。(2)專家意見和行業(yè)標準。制定標注規(guī)則體系要以適用行業(yè)標準為前提,因此要高度重視專家意見和行業(yè)標準。(3)標注經(jīng)驗。標注規(guī)則體系的制定,特別是各個知識點及知識體系規(guī)模的定義,除了要參考行業(yè)標準,還要考慮標注項目實施的可行性。(4)需求方的想法。標注項目需求分析最終要滿足需求方的要求,因此應該將需求方的想法放在首位。在進行需求分析時,應該充分考慮需求方的現(xiàn)實問題,并深入體會真實需求,從而確保需求分析的準確性和實用性。本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解4.需求文檔整理需求文檔整理主要是指對需求分析過程中形成的結論和結果進行歸納整理,從而將標注項目需求完整準確地落到紙面上。對于標注項目來說,需要整理的需求文檔主要有以下3個。(1)基本需求文檔?;拘枨笪臋n主要記錄標注項目的基本事實要求,內(nèi)容包括但不限于標注項目背景、標注任務類型、標注人員要求、預定標注工期、標注項目實施的基本節(jié)奏、標注量、標注實施方式、標注系統(tǒng)需求等。(2)標注規(guī)則體系文檔。標注規(guī)則體系文檔是需求文檔的核心部分,主要記錄了標注項目所依據(jù)的知識體系及對體系中具體事項的說明,在標注項目中通常被稱為“標注規(guī)范”。其中,要明確的事項包括標注任務目標、標注范圍、標注原則、標注體系、注意事項等。(3)結果格式文檔。結果格式文檔主要記錄最終提交結果數(shù)據(jù)的格式,相當于給出了最終結果數(shù)據(jù)的格式模板。由于不同的標注項目之間會有差別,需求文檔也會隨之發(fā)生變化,因此需求文檔的數(shù)量也是可以靈活掌握的。例如,對于小型項目來說,需求文檔可能只有一個,而對于大型復雜項目來說,需求文檔的數(shù)量也可能會有所增加。具體選用多少個需求文檔,以能夠準確表達項目需求為準本課件是可編輯的正常PPT課件數(shù)據(jù)清洗操作詳解5.需求驗證標注項目同時涉及需求方的需求、專業(yè)知識和標注經(jīng)驗3方面的融合,因此,進行需求驗證和完善是繞不開的一環(huán)。對于標注項目來說,需求驗證主要是通過項目模擬的方式進行的,以便在實施過程中及時發(fā)現(xiàn)需求分析中存在的漏洞和問題。在需求驗證過程中,需要驗證以下內(nèi)容。(1)標注規(guī)則體系。(2)標注工期。(3)標注效果。6.需求最終確認需求最終確認是指標注項目相關各方對終版需求進行確認并備案的過程。這個過程完成即可表示標注項目需求已符合需求方要求,不會再出現(xiàn)大幅度的修改,隨后可以開始標注項目的實施。需求最終確認是標注項目各方最終統(tǒng)一思想的過程,也是對標注項目各方高度負責的做法。因為一旦涉及需求變更,就表示標注項目各方都需要有額外的投入。當然,從以客戶為中心的角度來說,需求最終確認已結束并不能代表標注項目需求不能進行修改,當涉及需求修改時,標注項目各方應該友好協(xié)商,共同確定各方可接受的修改方案。1)標注項目需求分析的痛點2)標注項目需求分析的注意事項本課件是可編輯的正常PPT課件03PARTTHREE標注流程設計本課件是可編輯的正常PPT課件標注流程1.基本項目流程基本項目流程是指標注項目從獲取原始數(shù)據(jù)開始到標注結束所經(jīng)歷的關鍵環(huán)節(jié)。行業(yè)內(nèi)普遍認為,數(shù)據(jù)標注有以下4個基本流程。(1)數(shù)據(jù)采集。對于數(shù)據(jù)標注來說,用于標注的數(shù)據(jù)通常被稱為“原始數(shù)據(jù)”,這些原始數(shù)據(jù)相當于標注的原材料,而數(shù)據(jù)采集就是為數(shù)據(jù)標注提供原材料的過程。數(shù)據(jù)采集環(huán)節(jié)要在數(shù)據(jù)標注之前完成,通過多樣化的方式和手段采集足夠多的原始數(shù)據(jù)。在數(shù)據(jù)采集過程中,獲取原始數(shù)據(jù)的途徑可以有多種,常見的有網(wǎng)絡爬取、人工生成及通過特定途徑購買。獲取的原始數(shù)據(jù)形式也是多種多樣的,如圖片、視頻、語音、文本等。本課件是可編輯的正常PPT課件標注流程(2)數(shù)據(jù)清洗。數(shù)據(jù)清洗是指對采集后的原始數(shù)據(jù)進行校驗和篩選,以便將“臟數(shù)據(jù)”去除清洗,讓數(shù)據(jù)變得整潔可用,從而從源頭上確保數(shù)據(jù)標注過程順利有效。一般來說,在對標注數(shù)據(jù)進行數(shù)據(jù)清洗時,需要關注以下“臟數(shù)據(jù)”。不完整數(shù)據(jù),如有些值丟失或有遺漏。錯誤數(shù)據(jù),如錯別字、知識性錯誤、多余字符等。重復或多余的數(shù)據(jù),避免反復標注,做無用功。噪聲數(shù)據(jù),不適合標注或標注后無意義的數(shù)據(jù)。矛盾數(shù)據(jù),描述同一問題的多條數(shù)據(jù)之間彼此矛盾,需要驗證后保留正確數(shù)據(jù)或全部去除。格式不合規(guī)的數(shù)據(jù),當數(shù)據(jù)格式與要求格式偏差較大時將無法修正,需要清洗。數(shù)據(jù)清洗不僅能讓標注項目進行得更加順利,也能直接影響標注結果的最終效果。沒有前期的數(shù)據(jù)清洗,后續(xù)的標注、訓練等工作都將無從下手,即使強行進行,也得不到準確的標注結果。本課件是可編輯的正常PPT課件標注流程(3)數(shù)據(jù)標注。對于標注項目來說,數(shù)據(jù)標注是核心環(huán)節(jié)。針對原始數(shù)據(jù)進行的所有加工和標注工作都將在此階段進行。數(shù)據(jù)標注環(huán)節(jié)并非想象那樣只有數(shù)據(jù)標注這一項工作要做,也會涉及標注項目實施前后的諸多環(huán)節(jié),如需求理解、培訓、標注等,這里不再詳述。(4)數(shù)據(jù)質檢。數(shù)據(jù)質檢是保證標注準確率的重要環(huán)節(jié),因為人工標注無法保證完全準確,只有最終通過質檢環(huán)節(jié)的數(shù)據(jù)才能在一定意義上被稱為“可靠數(shù)據(jù)”。在實際標注項目中,數(shù)據(jù)質檢的工作性質可以依據(jù)標注實施過程及主體的變化而發(fā)生變化。具體來說,當需求方與實施方為同一主體時,數(shù)據(jù)質檢的工作性質更傾向于標注質量的保證,但當需求方與實施方為不同的主體時,數(shù)據(jù)質檢的工作性質更傾向于標注結果數(shù)據(jù)的審核或驗收。因此,數(shù)據(jù)質檢環(huán)節(jié)具體如何實施,還需要結合現(xiàn)實情況來定。本課件是可編輯的正常PPT課件數(shù)據(jù)安全的概念2.標注實施流程標注實施流程是指從實施方接收到標注項目需求開始到標注項目結束為止,這段時期內(nèi)的一系列活動。嚴格來說,該流程是對基本項目流程中數(shù)據(jù)標注環(huán)節(jié)的細化,是標注項目中最核心的流程,對保證標注項目的效果起著決定性作用。具體來說,標注實施流程中可能會涉及以下環(huán)節(jié)。(1)需求對接。需求對接是指在需求方將需求給到實施方之后,實施方與需求方之間針對需求進行溝通確認的過程。在此過程中,實施方需要做兩件事情。研究并理解需求,對不清晰之處進行確認,從而對齊標注的原則和標準。在理解需求的過程中對需求進行驗證,及時發(fā)現(xiàn)需求中的矛盾點、不足等,確保需求可支撐標注過程。本課件是可編輯的正常PPT課件數(shù)據(jù)安全的概念(2)標準樣例制作。在需求確認完成后,需要針對標注活動制定標準樣例。制作標準樣例的目的有兩點:一是為標注提供可視化的參考標準,使標注人員更好地理解需求和任務目標;二是通過實際樣例來確定實施方與需求方是否對需求理解一致,且標注結果滿足需求方的要求。標準樣例的格式并無限制,一般以需求方的要求為準。(3)標注實施準備。當需求確定及樣例制作完成后就可以進一步開展標注活動。在標注環(huán)節(jié)開始之前,需要針對標注實施做一些準備活動,包括但不限于原始數(shù)據(jù)分析、數(shù)據(jù)處理、系統(tǒng)準備、項目工具及人員配置、培訓測試文件及視頻準備、標注行動方案制定等。(4)標注實施。標注實施的起點是準備工作結束,終點是所有數(shù)據(jù)標注完成。所有的標注結果產(chǎn)出都集中在這一環(huán)節(jié),但該環(huán)節(jié)并非只有標注這項工作要做,還涉及很多其他工作。例如,標注人員培訓、規(guī)范確認及更新、標注人員管理、結果反饋、流程完善等。這些工作都是標注實施過程中必須做的工作,也是標注流程設計中必須予以考慮的因素。本課件是可編輯的正常PPT課件數(shù)據(jù)安全的概念(5)質檢實施。質檢實施是指在數(shù)據(jù)標注完成后,由質檢人員對初始標注結果進行檢查、反饋、修改的過程。與標注實施環(huán)節(jié)一樣,質檢實施環(huán)節(jié)除了需要完成質檢,也有一系列工作需要完成。(6)結果反饋。結果反饋是標注實施和質檢實施過程中的一個伴隨過程,是指在標注并質檢完成一部分任務后,先將部分結果交給需求方進行確認,以確保標注結果滿足要求,并及時發(fā)現(xiàn)標注結果中的不足予以改進。(7)結果交付。結果交付是指將標注結果提交給需求方進行檢查、驗收的過程。一般在結果交付時可能會涉及兩件事:一是結果格式處理,二是結果提交。(8)收尾環(huán)節(jié)。收尾環(huán)節(jié)是指在標注結果交付完成后,對標注過程中的未盡事宜進行處理的過程。一般收尾環(huán)節(jié)的工作涉及結果驗收配合、數(shù)據(jù)結果完善、過程數(shù)據(jù)整理等。本課件是可編輯的正常PPT課件0103021.標注流程設計要將項目特點作為第一考慮因素項目特點是指項目所涉及的要素呈現(xiàn)出來的規(guī)律或特性。對于標注項目來說,影響其流程設計的元素有很多,如標注需求、原始數(shù)據(jù)、項目目標等。2.標注流程設計要充分結合標注工具現(xiàn)狀隨著行業(yè)發(fā)展,標注工具已經(jīng)成為標注項目實施過程中必備的元素。將工具的作用發(fā)揮到極致是標注流程設計的基本要求。3.標注流程設計要與實施組織條件相匹配實施組織條件是指實施方所具備的資源條件,如人員條件、系統(tǒng)條件、技術條件等。標注流程設計與實施組織條件相匹配是指標注流程設計要依據(jù)實際資源條件進行,不可過于保守,也不可過于冒進。標注流程設計原則本課件是可編輯的正常PPT課件4.標注流程設計要考慮風險預防和異常處理完美的標注項目流程不僅能夠確保在正常狀態(tài)下按時保質地完成標注項目,還要能在異常情況下確保萬無一失。5.標注流程設計要以目標為導向,主脈絡要清晰標注流程涉及很多環(huán)節(jié),并且每個環(huán)節(jié)還會涉及多個子流程,所以其子流程也會比較復雜。6.標注流程設計要充分考慮管理的有效性和可行性設計標注流程的目的是便于統(tǒng)一管理,從而使標注項目順利進行,因此標注流程設計最重要的是要考慮每個環(huán)節(jié)對于項目管理的有效性。7.標注流程設計要靈活,注意留出可調(diào)整空間任何標注項目都不可能依靠一個一成不變的流程順利完成,在實施過程中偶爾會有一些不符合預期之處。標注流程設計原則本課件是可編輯的正常PPT課件1.數(shù)據(jù)采集數(shù)據(jù)采集的目的是為后續(xù)的數(shù)據(jù)標注提供原材料,所以數(shù)據(jù)采集的質量和進度也決定了標注過程的執(zhí)行難度及標注結果的豐滿度。數(shù)據(jù)采集環(huán)節(jié)的設計需要重點考慮以下問題。(1)數(shù)據(jù)采集的范圍,采集哪個領域及什么內(nèi)容范圍的數(shù)據(jù)?(2)數(shù)據(jù)采集的方式,是人工采集還是傳感器采集,是系統(tǒng)日志采集還是網(wǎng)絡爬蟲采集?(3)數(shù)據(jù)采集的來源,從哪些人、哪些設備或系統(tǒng)及哪些網(wǎng)站采集數(shù)據(jù)?(4)數(shù)據(jù)采集的數(shù)量,采集多大量級的數(shù)據(jù)才能滿足標注需求?(5)數(shù)據(jù)的存儲方式,采集的數(shù)據(jù)以什么方式存儲,存儲到哪里?厘清了上述問題,才可以開始實施數(shù)據(jù)采集,同時基于以上關注的問題,我們也可以推斷出數(shù)據(jù)采集的基本流程,即采集需求分析→尋源→采集軟硬件條件準備→采集→數(shù)據(jù)整理→數(shù)據(jù)存儲。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件2.數(shù)據(jù)清洗數(shù)據(jù)清洗是對標注數(shù)據(jù)進行凈化處理的過程,是確保標注活動順利進行的前提。數(shù)據(jù)清洗環(huán)節(jié)需要重點關注的問題如下。(1)數(shù)據(jù)中需要清洗的“污點”都有哪些?(2)數(shù)據(jù)清洗的策略,是使用人工清洗還是使用程序自動清洗,是根據(jù)概率統(tǒng)計檢測修改還是利用相關算法檢測修改?各類“污點”的清洗順序及側重點是怎樣的?是否需要使用多種方式混合清洗?(3)“臟數(shù)據(jù)”的標準,即什么程度的數(shù)據(jù)“污點”需要清洗,什么程度的數(shù)據(jù)“污點”是可以接受的?(4)數(shù)據(jù)“污點”由誰來修正,是使用人工修正還是使用程序修正?哪些“污點”必須使用人工修正?(5)清洗后的數(shù)據(jù)以什么方式存儲,存儲在哪里?基于以上分析可知,數(shù)據(jù)清洗的基本流程為數(shù)據(jù)“污點”分析→清洗策略制定→清洗標準制定→篩選數(shù)據(jù)“污點”→數(shù)據(jù)“污點”修正→干凈數(shù)據(jù)整合及存儲。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件3.需求對接驗證數(shù)據(jù)清洗是對標注數(shù)據(jù)進行凈化處理的過程,是確保標注活動順利進行的前提。數(shù)據(jù)清洗環(huán)節(jié)需要重點關注的問題如下。(1)數(shù)據(jù)中需要清洗的“污點”都有哪些?(2)數(shù)據(jù)清洗的策略,是使用人工清洗還是使用程序自動清洗,是根據(jù)概率統(tǒng)計檢測修改還是利用相關算法檢測修改?各類“污點”的清洗順序及側重點是怎樣的?是否需要使用多種方式混合清洗?(3)“臟數(shù)據(jù)”的標準,即什么程度的數(shù)據(jù)“污點”需要清洗,什么程度的數(shù)據(jù)“污點”是可以接受的?(4)數(shù)據(jù)“污點”由誰來修正,是使用人工修正還是使用程序修正?哪些“污點”必須使用人工修正?(5)清洗后的數(shù)據(jù)以什么方式存儲,存儲在哪里?基于以上分析可知,數(shù)據(jù)清洗的基本流程為數(shù)據(jù)“污點”分析→清洗策略制定→清洗標準制定→篩選數(shù)據(jù)“污點”→數(shù)據(jù)“污點”修正→干凈數(shù)據(jù)整合及存儲。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件4.標注準備標注準備階段的目的是給標注實施提供必要的條件。該過程并無明顯的哪項工作在先的說法,如人員條件具備可同步進行。在標注準備階段,需要關注以下準備工作。(1)材料準備,標注項目實施需要準備哪些材料?由誰來準備?時間節(jié)點是怎樣的?材料準備的要求是怎樣的?(2)人員準備,標注項目實施需要哪些人員?人員來源于哪里?對人員有什么要求?需要多少人?(3)系統(tǒng)準備,采用什么樣的標注系統(tǒng)?系統(tǒng)詳細配置如何?系統(tǒng)中還有哪些功能可以為標注實施提供方便?(4)數(shù)據(jù)準備,數(shù)據(jù)處理成何種格式?需要對數(shù)據(jù)做哪些分析和處理?需要注意的是,需求方與實施方在標注準備環(huán)節(jié)中工作量的多少取決于雙方是否為同一主體。一般來說,如果需求方與實施方不是同一主體,則需求方對標注準備環(huán)節(jié)的工作投入遠低于實施方。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件5.標注實施標注實施是整個標注項目的核心環(huán)節(jié),也是檢驗整個標注流程設計是否成功的重要步驟。由于標注環(huán)節(jié)與質檢環(huán)節(jié)在很多情況下是相伴進行且頻繁聯(lián)動的,因此,我們將標注環(huán)節(jié)和質檢環(huán)節(jié)均納入標注實施環(huán)節(jié)。在標注實施環(huán)節(jié)的設計中,需要重點關注以下問題。(1)人員培訓測試方式,人員培訓測試通過何種方式進行,是使用系統(tǒng)測試還是使用人工測試?(2)人員培訓測試的策略,培訓測試按照怎樣的原則進行?是否需要重新學習?重新學習的觸發(fā)條件是什么?重新學習的流程是怎樣的?通過測試的標準是怎樣的?(3)基本指標要求,對標注環(huán)節(jié)和質檢環(huán)節(jié)的任務量及質量有什么指標要求?(4)過程控制,標注過程中需要加入哪些過程管理手段?(5)規(guī)范變更管理,當標注規(guī)范變更時如何進行培訓和管理?(6)質檢人員的選用,質檢人員的選用方式是怎樣的?標注人員與質檢人員之間的配比是怎樣的?

(7)環(huán)節(jié)聯(lián)動,標注環(huán)節(jié)如何與質檢、審核、反饋、培訓等環(huán)節(jié)聯(lián)動?(8)人員淘汰機制,標注人員和質檢人員達到什么程度會被淘汰?人員淘汰后的人力補給如何進行?標注實施環(huán)節(jié)的設計是整個標注流程中最難的部分,因為在實施過程中會涉及標注、質檢、審核、培訓、淘汰等多個環(huán)節(jié)異常情況的處理和反復循環(huán)??梢哉f,數(shù)據(jù)標注是一個反反復復的過程,其原因也就在此。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件6.結果反饋結果反饋是指在部分標注結果實施完成后,將其反饋給需求方,從而進一步確認標注質量。在結果反饋環(huán)節(jié)設計中,主要考慮以下幾點內(nèi)容。(1)反饋節(jié)奏,結果反饋的頻率是怎樣的?何時反饋第一批結果數(shù)據(jù)?(2)反饋流程,反饋確認的流程是怎樣的?(3)后續(xù)培訓,反饋環(huán)節(jié)結束后項目人員的培訓如何進行?(4)結果優(yōu)化,是否需要根據(jù)新的標準重新優(yōu)化結果?如何優(yōu)化結果?結果反饋環(huán)節(jié)也是一個循環(huán)往復的反饋確認過程,其流程圖如圖2-5所示。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件

7.收尾階段收尾階段是指在整個項目的標注結果提交后,針對項目的后續(xù)整理和配合等工作。收尾階段針對各個環(huán)節(jié)進行設計的關注點如下。(1)結果驗收,需要準備哪些驗收材料?驗收流程如何?驗收過程中是否存在問題?如果需要修改標注結果,則該如何實施?(2)項目整理,需要整理哪些過程數(shù)據(jù)及材料?整理材料的人員分工原則是怎樣的?對于整理的材料有哪些要求?(3)項目復盤,項目實施有哪些優(yōu)缺點?項目過程中發(fā)現(xiàn)了哪些可改進點?項目在人員、成本等方面的執(zhí)行情況如何?(4)數(shù)據(jù)銷毀,是否需要數(shù)據(jù)銷毀?數(shù)據(jù)何時銷毀?由誰進行數(shù)據(jù)銷毀?需要注意的是,收尾階段的工作流程對于操作順序沒有絕對要求。實施方根據(jù)實際情況整理即可。標注流程中常見環(huán)節(jié)關注點及其設計本課件是可編輯的正常PPT課件01模型輔助模型輔助是指先利用模型來實現(xiàn)自動標注,再由標注人員在模型運行結果的基礎上進行查漏補缺。一般來說,有效的模型確實能夠解決大部分標注問題,從而大幅度提高標注的效率和質量實現(xiàn),也能明顯節(jié)約標注的人工成本。03埋雷埋雷是標注項目管理中的常用手段,主要能在標注系統(tǒng)中發(fā)揮作用。在對應的標注項目中配置預先標注好的地雷文件,以此來檢驗標注人員的標注狀態(tài)、標注質量等。02數(shù)據(jù)預處理數(shù)據(jù)預處理是從數(shù)據(jù)處理層面對標注實施的另一種輔助,其原理與模型輔助類似,目的也是減少數(shù)據(jù)標注中的人工工作量,提高標注質量和一致性。標注流程中的“技術賦能”操作本課件是可編輯的正常PPT課件1.標注流程中的環(huán)節(jié)越多證明流程越完善很多設計者認為,標注流程是一個復雜的過程,要想考慮周到就必須設計很多環(huán)節(jié),否則便無法詳細地展示自己的設計。殊不知,流程設計完善不等于環(huán)節(jié)多。好的標注流程會讓人感覺“設計剛好簡潔,我剛好能理解”,這種“一切剛剛好”的狀態(tài)才是標注流程設計的最高境界。2.標注流程中設計的所有環(huán)節(jié)都必須照做不誤很多人認為,標注流程的目的是給標注實施起到指導作用,所以標注人員要對標注流程中設計的環(huán)節(jié)必須照做不誤。這種生搬硬套的做法是不可取的。因為標注流程設計即使再完美,也難免會出現(xiàn)瑕疵。在了解某一環(huán)節(jié)存在缺陷的情況下,應該給予標注人員一定的靈活度,允許其根據(jù)實際情況對標注流程做出取舍或補充。標注流程設計中的誤區(qū)本課件是可編輯的正常PPT課件3.標注流程設計已經(jīng)成熟,無限復制即可在標注流程設計者行列中,不乏經(jīng)驗豐富者。也許設計過很多標注流程,因此在設計過程中常會步入經(jīng)驗至上的誤區(qū),經(jīng)常認為即有的標注流程設計是成熟的流程,適用于所有項目,無限復制即可。在標注流程設計中能夠穩(wěn)定且不隨項目特點變化的環(huán)節(jié)只是一部分,而其他部分需要根據(jù)項目特點進行靈活調(diào)整。4.標注流程設計已確定,按照步驟實施完成項目即可交付這是設計者對標注流程設計的錯誤定義,也是對標注流程設計理解不透徹的表現(xiàn)。標注流程設計是為了使標注順利完成,好的流程也能起到?jīng)Q定性作用,但要建立在落實到位的基礎上。確保標注流程有效一方面在于設計,另一方面在于落實到位。在標注流程的落實過程中,同樣需要對落實情況進行跟蹤,只有確保落實到位,才能順利交付項目。標注流程設計中的誤區(qū)本課件是可編輯的正常PPT課件04PARTFOUR標注規(guī)范設計本課件是可編輯的正常PPT課件1.標注規(guī)范是綱,是標注活動的根本依據(jù)眾所周知,標注規(guī)范的核心作用是對標注任務的做法進行說明,因此它是標注活動的基本綱領和行動依據(jù),對標注項目的實施具有指導作用。有了標注規(guī)范,標注行動才有方向,實施方才能知道如何標注。此外,只有按照標注規(guī)范實施標注后,得出的標注結果對解決相關的問題才有意義,如果不按照標注規(guī)范實施,得到再多的數(shù)據(jù)也只是一堆毫無意義的數(shù)據(jù)。標注規(guī)范除了具有指導作用,也具有一定的約束作用。它為參與標注任務的標注人員提供了統(tǒng)一的標準,從而確保所有標注人員按照統(tǒng)一的標準進行標注,以此保證由不同標注人員實施的結果也能達到一致效果。為什么要設計標注規(guī)范2.標注規(guī)范是確保標注活動一致的重要手段本課件是可編輯的正常PPT課件3.標注規(guī)范是衡量標注結果是否符合要求的準繩標注規(guī)范的另一個作用是構成供需雙方統(tǒng)一需求及標注標準的依據(jù)。標注規(guī)范中對每個知識點的標注說明都是經(jīng)過供需雙方統(tǒng)一認可的,無論是在實施方內(nèi)審還是在需求方驗收時,都需要以標注規(guī)范為依據(jù)來判斷結果是否符合要求或是否存在需求變更。因此,標注規(guī)范的準繩作用是不容忽視的。除了標注規(guī)范本身,設計標注規(guī)范這項工作本身也意義重大。換句話說,對標注規(guī)范進行設計也是有意義的,這種意義可以從實施方、需求方兩個角度來理解。首先,從實施方角度來理解。其次,從需求方角度來理解。為什么要設計標注規(guī)范本課件是可編輯的正常PPT課件010302內(nèi)容要具有實用性標注規(guī)范內(nèi)容的實用性體現(xiàn)在兩方面:一方面是標注規(guī)范所使用的標注知識體系對解決實際問題是有效的,這種有效性可以通過實際應用得到驗證;另一方面是標注規(guī)范中的內(nèi)容設置能夠為標注項目提供明確全面的參考,從而確保標注項目順利實施。語言要通俗易懂在標注項目中,標注規(guī)范的設計者與實施方通常不是同一人,因此在需求理解過程中必然會出現(xiàn)因知識背景不同而導致的理解差異。知識體系要符合常識和科學規(guī)律任何問題的解決都要依據(jù)事物的客觀發(fā)展規(guī)律及科學知識來進行,數(shù)據(jù)標注也不例外。標注規(guī)范設計原則本課件是可編輯的正常PPT課件0405結構邏輯要清晰,突出重點這里的結構主要是指標注規(guī)范中各部分內(nèi)容的排列次序及重要程度。在標注規(guī)范中,各部分內(nèi)容并不是隨意排列的。每個人在理解一件事的過程中,其思維都具有一定的邏輯規(guī)律,因此標注規(guī)范的內(nèi)容排列也要遵循這個規(guī)律。處理原則要統(tǒng)一明確一個標注人員真正理解標注任務最直接的表現(xiàn)就是能夠根據(jù)標注知識點總結出任務的基本處理原則,此時,標注人員與需求方之間才能針對某一標注問題的處理達成一致意見。所以,在設計標注規(guī)范的過程中,給出明確統(tǒng)一的處理原則往往能夠縮短標注理解的介入期并加快標注的進程。標注規(guī)范設計原則本課件是可編輯的正常PPT課件1.標注規(guī)范內(nèi)容設計標注規(guī)范內(nèi)容可以分為兩類:一類是必備內(nèi)容,標注規(guī)范中必須設置的內(nèi)容;另一類是可選內(nèi)容,根據(jù)實際情況有選擇性地設置內(nèi)容。一般來說,要想將某個標注任務講清楚,標注規(guī)范中至少應包括以下幾項內(nèi)容。(1)標注任務背景,標注任務的用途,標注任務要重點解決什么樣的問題。(2)標注目標,標注任務需要標注人員做哪些事情,哪些需要標注,哪些不需要標注。(3)基本原則,標注任務要遵循的整體原則及沖突情況下的優(yōu)先級順序。(4)知識體系,對標注規(guī)則的詳細解說及知識點解讀。(5)注意事項,在標注任務過程中需要特別注意的要點。這些要點可以是總結出來的易錯點,也可以是特殊案例,還可以是對主要規(guī)則的補充或校正的關鍵點。(6)標注系統(tǒng)操作說明,對標注任務所依賴的標注系統(tǒng)的使用說明。標注規(guī)范的設計本課件是可編輯的正常PPT課件1.標注規(guī)范內(nèi)容設計(7)標注結果樣例,其目的是給標注人員提供參考,使標注人員能夠直觀地看到什么樣的結果是合格的標注結果。除了上述必備的內(nèi)容,在標注規(guī)范中還可以有選擇性地設置以下內(nèi)容。(1)背景知識,是指與標注知識體系相關的專業(yè)知識,如什么是實體等。(2)修訂記錄,對當前標注規(guī)范歷史版本的修訂記錄,通常說明每次都更新了哪些內(nèi)容。(3)混淆點解析,對標注人員在標注過程中容易混淆的點進行辨析,以幫助他們分清相似情況的區(qū)別,從而避免產(chǎn)生混淆。以上為標注規(guī)范中的常見內(nèi)容,這些內(nèi)容基本能夠涵蓋標注活動中可能出現(xiàn)的情況。在實際制定標注規(guī)范的過程中,可以根據(jù)實際標注任務情況及標注人員情況對內(nèi)容進行排序和增、刪、改,從而使標注規(guī)范更適用于標注任務。標注規(guī)范的設計本課件是可編輯的正常PPT課件2.標注規(guī)范用語設計標注規(guī)范用語設計主要是對標注規(guī)范中的表述和用詞進行控制,從而確保標注規(guī)范便于理解。在標注規(guī)范行文中,應該注意以下設計。(1)語言風格。標注規(guī)范的語言表述要簡練,用盡量簡短的語言告訴標注人員需要做什么,怎么做,避免長篇大論,晦澀難懂。(2)用詞習慣。在標注規(guī)范行文中,要盡量使用與標注人員文化素質相匹配的詞語,避免過多地使用專業(yè)術語,因為標注人員在很多情況下并不一定具備相應領域的專業(yè)知識,過多的專業(yè)術語可能會造成標注人員的理解障礙。如果必須使用專業(yè)術語,則建議在相應專業(yè)術語的后面添加注釋。標注規(guī)范的設計本課件是可編輯的正常PPT課件3.知識體系設計這里的知識體系是指標注項目所依賴的核心標注規(guī)則。知識體系的設計是一項很難的工作。因為每個標注任務所涉及的領域不同,需要設計者具備的專業(yè)背景知識也不同。(1)需要確定標注任務所屬的專業(yè)領域和應用背景。確定專業(yè)領域和應用背景是設計知識體系的第一步,它相當于給知識體系設計指明了方向。只有先了解了領域和應用背景,才能以這些為基礎將知識點逐層剝離出來。(2)需要基于專業(yè)領域和應用背景將知識點逐層剝離。對專業(yè)領域和應用背景進行剖析的過程并不是隨便可以完成的,需要精通領域應用知識的專家介入。這樣一方面可以保證知識體系的準確性,另一方面也能確保知識體系的實用性。至于專家的具體介入方式,可以依據(jù)具體情況而定。(3)需要做好知識體系的整理工作。在將知識點剝離出來后,需要按照劃分的體系進行整理,從而使其形成體系化的知識。(4)需要做好知識驗證和修改更新工作。標注任務中的知識體系并不是整理完成即可,還需要通過標注和應用過程進行驗證,并對存在的缺陷和不足進行修改,直至確認該知識體系適用為止。標注規(guī)范的設計本課件是可編輯的正常PPT課件4.標注規(guī)范結構設計標注規(guī)范結構設計是指標注規(guī)范中內(nèi)容順序及標注規(guī)范脈絡的設計。標注規(guī)范結構設計主要是遵循標注任務的邏輯順序。在通常情況下,標注任務的邏輯順序如下。第1,標注任務是什么。即需要做什么。第2,標注任務背后的原因或背景。即為什么要做這個標注任務。第3,標注任務做法。即標注任務怎么做。第4,標注任務所依賴的工具和實施過程是怎樣的。第5,整體處理原則。即標注任務沖突的整體處理原則和優(yōu)先順序。第6,標注任務實施過程中的注意事項。即什么情況會導致錯誤。第7,標注任務合格的標準。即標注任務做成什么樣是符合要求的?;谝陨线壿嬳樞颍梢钥偨Y出的標注規(guī)范結構設計的邏輯順序為標注目標→標注任務背景→知識體系→標注系統(tǒng)操作說明→基本原則→注意事項→標注樣例。需要注意的是,該脈絡結構為標注規(guī)范的常見結構,在實際標注任務過程中,也可以隨著內(nèi)容模塊的增減及目標對象的思維習慣而改變。標注規(guī)范的設計本課件是可編輯的正常PPT課件

5.標注規(guī)范處理原則設計標注規(guī)范處理原則設計是指確定標注任務的整體處理原則,即確定標注中各種情況下的取舍原則或標注考慮的優(yōu)先順序等。標注規(guī)范處理原則的確定可能與以下因素有關。(1)實際應用問題解決過程中的側重點。在實際應用過程中,如果某方面呈現(xiàn)出的性能較弱,則可能在標注過程中重點強調(diào)或優(yōu)先考慮。例如,設置標簽優(yōu)先級、優(yōu)先保證多樣性或要求將所有指代還原等。(2)結果數(shù)據(jù)的長遠應用。有些標注項目并非專門針對某一個標注任務而設計,標注出來的結果數(shù)據(jù)也可能會供后續(xù)使用。此時,通常會設置非常細致的標注原則,以備后續(xù)擴充數(shù)據(jù)使用。(3)標注成本。有些標注項目從0開始標注成本極高,但如果使用現(xiàn)有可用數(shù)據(jù)進行篩選并結合小幅度修改,則可以大幅度降低標注成本,所以此時通常會設定篩選大于修改的原則。影響處理原則的因素還有很多,在實際標注任務中,可以依據(jù)標注項目本身的側重點和其他特點設計不同的處理原則。此外,標注規(guī)范中需要設計的方面也不僅有這些,我們需要在實際過程中不斷分析和發(fā)現(xiàn),從而使標注規(guī)范設計更加合理、完善。標注規(guī)范的設計本課件是可編輯的正常PPT課件01設計標注規(guī)范只需設計知識體系標注行業(yè)的很多人都會將標注規(guī)范等同于標注知識體系。但實際上,這兩者并不相同,主要在于兩者側重點不同。03標注規(guī)范設計得越復雜,證明標注規(guī)范越全面標注規(guī)范設計的全面性固然重要,但是也要考慮受眾程度及各部分內(nèi)容的必要性。02標注規(guī)范在整個標注過程中是一勞永逸的標注規(guī)范的重點是體現(xiàn)標注任務需求,因此會隨著標注任務不同時期的需求定義變化而變化。標注規(guī)范設計應該是一個動態(tài)變化的過程,并非一成不變。標注規(guī)范設計中的誤區(qū)本課件是可編輯的正常PPT課件05PARTFIVE標注系統(tǒng)設計本課件是可編輯的正常PPT課件為什么要設計標注系統(tǒng)1.為標注工作提供直觀的實施界面第2章隨著行業(yè)的發(fā)展,現(xiàn)如今的數(shù)據(jù)標注無論是從要求上還是從難度上都已經(jīng)遠超最初的標準。如此高質量、高要求的標注任務沒有標注系統(tǒng)的支持是無法完成的。標注系統(tǒng)對于標注任務來說,最直接的作用就是為標注工作提供了直觀可視的實施界面,同時通過標注系統(tǒng)替代一部分人工勞動,從操作層面降低標注的難度,使高標準、高難度、操作煩瑣的標注任務實施成為可能。2.便于標注項目實施過程的管理、記錄和監(jiān)控標注系統(tǒng)中的各項數(shù)據(jù)的統(tǒng)計功能能夠使管理者及時管理、記錄和監(jiān)控標注項目的實施進度、質量、異常等情況,從而便于管理者根據(jù)實際情況對標注項目所涉及的人員、工具、數(shù)據(jù)等因素進行及時增、刪、改、啟用、禁用等操作,同時減少了管理者在管理、記錄和監(jiān)控方面的投入。本課件是可編輯的正常PPT課件為什么要設計標注系統(tǒng)3.有效提高標注效率對于標注任務來說,標注系統(tǒng)起到的不僅是降低標注項目難度的作用,還有簡化操作、智能標注等作用,這些都能從根本上減少標注中的人工操作強度,從而極大地提高標注效率,降低標注成本。4.切實保證數(shù)據(jù)安全標注系統(tǒng)中的數(shù)據(jù)管理權限設置相當于對數(shù)據(jù)的入口和出口進行了統(tǒng)一,這樣能夠有效地避免數(shù)據(jù)外流,從而保證數(shù)據(jù)安全。5.有利于保證標注質量和一致性標注系統(tǒng)對標注質量和一致性的保證主要包括兩方面:一方面是完善的流程設計;另一方面是技術手段的加持。6.提高標注項目溝通效率、降低溝通成本標注系統(tǒng)中的消息通知、反饋、批注等功能的精心設計不僅能夠將需要告知標注人員的事項及時地傳達給標注人員,還能夠保證傳達效果。本課件是可編輯的正常PPT課件

1.靈活性原則靈活性原則是指標注系統(tǒng)設計要在合理的情況下盡量減少對用戶的限制,讓用戶在標注系統(tǒng)中能實現(xiàn)多元化的操作。對于標注系統(tǒng)來說,設計的靈活性主要體現(xiàn)在以下幾點。(1)功能配置靈活。標注系統(tǒng)中的菜單、按鈕、標注工具等功能能讓用戶根據(jù)自身喜好或項目情況等進行靈活設置和控制。(2)用戶操作靈活。對同一功能或界面的控制允許用戶通過多種途徑或方式實現(xiàn)。例如,在與某一功能相關聯(lián)的界面提供快捷入口。(3)管理操作靈活。標注系統(tǒng)對用戶角色、權限、人員配置、項目設置、異常處理等的管理操作非常靈活,能夠根據(jù)實際需要進行靈活設置。標注系統(tǒng)設計原則本課件是可編輯的正常PPT課件標注系統(tǒng)設計原則2.一致性原則

一致性原則是指標注系統(tǒng)中對界面、流程、邏輯等設計要保持一致。標注系統(tǒng)的一致性主要體現(xiàn)在以下幾點。(1)界面設置一致。標注系統(tǒng)中各界面的風格、色彩、同類用途界面的基本功能、圖標位置等設置要保持一致,只有界面設置一致才能讓整個標注系統(tǒng)形成一個整體。(2)任務流轉一致。標注系統(tǒng)針對所有任務要有統(tǒng)一的流轉規(guī)則和流程,對異常情況的處理也要有統(tǒng)一的處理機制和規(guī)則。任務流轉一致是保證標注實施流程形成良性循環(huán)的前提。(3)操作邏輯一致。標注系統(tǒng)對同一功能的操作順序及實現(xiàn)方式要保持一致。例如,對于標注系統(tǒng)中所有多級標簽的選擇,可以全部采用級聯(lián)方式,也可以全部不采用級聯(lián)方式。需要注意的是,不可以采用部分級聯(lián)、部分不級聯(lián)的方式。本課件是可編輯的正常PPT課件3.容錯性原則允許用戶在使用標注系統(tǒng)的過程中誤操作并使其擁有更正的機會。容錯是標注系統(tǒng)設計的最基本要求。標注系統(tǒng)設計的容錯性主要體現(xiàn)在以下幾點。(1)動作可逆性。在用戶出現(xiàn)錯誤操作時允許進行撤銷、回退、修改等操作。(2)留存歷史操作。當用戶有流程未走完的操作時,幫助保存歷史操作記錄,以便在用戶重新進入后能夠找到該操作任務,從而進一步完成編輯操作。(3)錯誤操作提示。當用戶進行刪除、退出等可能造成不可逆后果的操作時,標注系統(tǒng)給予必要的提示,從而提醒用戶使其有補救的機會。標注系統(tǒng)設計原則本課件是可編輯的正常PPT課件標注系統(tǒng)設計原則4.易用性原則易用比較容易理解,是指標注系統(tǒng)使用起來方便。標注系統(tǒng)的易用性主要體現(xiàn)在以下幾點。(1)符合操作習慣。標注系統(tǒng)的操作順序及功能設置要符合用戶的正常操作習慣。以標注任務實施頁面為例,用戶的操作習慣通常是從上到下、從左到右的。(2)操作界面設置簡潔。操作界面不花哨,主要功能排列有序且重點突出,能讓用戶很容易地找到所需要的功能。(3)減少操作頻率。標注系統(tǒng)設計要盡量減少用戶的手動操作頻率,因為對于標注任務來說,標注人員每節(jié)省一步操作不僅能提高工作效率和產(chǎn)能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論