




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能的人工部分—數(shù)據(jù)標注當今社會人工智能領域蓬勃發(fā)展,各領域都在追求智能化,耳熟能詳?shù)挠兄悄荞{駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學習,大量學習已知樣本,有了預測能力之后再預測未知樣本,以達到智能化的效果,機器學習可分為監(jiān)督學習和無監(jiān)督學習,無監(jiān)督學習的效果是不可控的,常常被用來做探索性的實驗。在實際應用中,通常是有監(jiān)督學習,有監(jiān)督學習就需要做數(shù)據(jù)標注,所以智能的前提是人工,因為智能結果的輸出是多次人工樣本的輸入,可以說人工的數(shù)據(jù)標注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。一、數(shù)據(jù)標注的分類數(shù)據(jù)標注從難易程度方面可劃分為常識性標注與專業(yè)性標注。例如,地圖識別領域的標注多為常識性標注,標注道路、路牌、地圖等數(shù)據(jù),語音識別標注也多為常識性標注。做該類型標注工作難點在于需要大量標注訓練樣本,因為應用場景多樣且復雜,對標注員無專業(yè)技能要求,主要是認真負責,任務完成效率快、質量高的即為好的標注員。醫(yī)療診斷領域標注多為專業(yè)性標注,因為病種、癥狀的分類與標注需要有醫(yī)療專業(yè)知識的人才能做,招聘領域標注也屬于專業(yè)性標注,因為標注員需要熟知招聘業(yè)務、各崗位所需的知識技能,還需了解HR招人時的關注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標注工作需要有招聘領域專業(yè)知識的標注員,或者稱為標注專家,標注工作的難點比較多,例如選撥培養(yǎng)合適的標注員、標注規(guī)則的界定、標注質量的控制等多方面。數(shù)據(jù)標注從標注目的方面可劃分為評估型標注與樣本型標注。評估型標注一般是為了評估模型的準確率,發(fā)現(xiàn)一些Badcase樣例,然后優(yōu)化算法模型,該類型標注工作為了節(jié)約標注資源可控制標注數(shù)量,一般情況下標注千量級的數(shù)據(jù),樣本具有統(tǒng)計意義即可,標注完成后需要統(tǒng)計正確率,以及錯誤樣例,該類型標注的重點是錯誤樣例的原因總結,分析每個Badcase出現(xiàn)的原因,并將原因歸納為不同的分類,有了原因分析方便算法同學分類型分批次的優(yōu)化模型。樣本型標注即為模型提供前期的訓練樣本,作為機器學習的輸入,該類型標注工作需要標注大量數(shù)據(jù),一般情況下需要標注萬量級的數(shù)據(jù)。為了樣本的均衡性,標注樣本多是隨機抽取的,這樣做的優(yōu)點是可在一定程度上避免樣本偏差,但缺點是要標注大量數(shù)據(jù)。如果是文本型樣本,有時可借助算法抽取一些高頻、高質量樣本進行標注,這樣可一定程度上減少標注工作量,但可能存在樣本偏差。總之樣本型標注是個苦力活,業(yè)界有句話這么說的:如果你和一個人有仇,那么勸他去干標注吧。數(shù)據(jù)標注從標注對象方面可劃分為文本標注、圖像標注、語言標注、視頻標注,從標注方式方面可劃分為分類標注、標框標注、描點標注,這些標注分類基本都屬于標注形式的差異,沒有較強的專業(yè)度,所以不做較多講述了。二、數(shù)據(jù)標注規(guī)則的制定常識性標注的規(guī)則比較簡單,標注一部分樣本即可總結出較通用的規(guī)則,但專業(yè)性標注的規(guī)則比較復雜,制定專業(yè)的標注規(guī)則需要遵循以下三原則:多維分析與綜合分析相結合,因子權重影響因素場景化,問題類型標簽化、結構化。以下是招聘領域簡歷與職位匹配度標注規(guī)則的指導思想,具體細節(jié)規(guī)則會在《數(shù)據(jù)標注(下)》中闡述。該標注規(guī)則比較符合標注規(guī)則制定的三原則。第一,多維分析與綜合分析相結合。簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經歷或專業(yè)要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結果。當然簡歷與職位的匹配標注也不可能一上來就能給出綜合的評分,不能純感性的告訴標注員:你覺得是簡歷與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然后參考每個因子的評分結果,最終再進行綜合分析給出評分結果。第二,因子權重影響因素場景化。前面有提到簡歷與職位匹配度評估需要給每個因子打分,那每個因子打分結束后怎么給出綜合評分呢,給每個因為賦予權重嗎?然后按權重計算總分?答案是否定的,我們要結合具體場景把所有因子進行歸類分析,比如設定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結合場景進行歸類分析是十分必要的。第三,問題類型標簽化、結構化。標注結果一般情況下會以分數(shù)的形式展示,ABCD,或者0123,然后一組數(shù)據(jù)沒有得到滿分是因為什么呢?哪里不匹配呢?所以前期制定標注規(guī)則時一定要把原因分析考慮進去,列出所有不匹配的原因,形成結構化的原因標簽,有利于最終分析Badcase的分類與占比,然后算法或者策略團隊在優(yōu)化時可以優(yōu)先解決占比高或影響惡劣的case。數(shù)據(jù)標注是一項看似簡單實際卻十分復雜的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025(抵押)反擔保合同
- 2025杭州市家具買賣合同范本
- 梧州網簽合同范本
- 建筑施工合同范本詳解
- 店鋪臨時聘用合同范本
- 委托培訓員工合同范本
- 國家設計服務合同范本
- 包裝資料銷毀合同范本
- 旅社整體出租合同范本
- 購房帶裝修 合同范本
- 高速天橋拆除方案(3篇)
- 第1課 鴉片戰(zhàn)爭 課件 歷史統(tǒng)編版2024八年級上冊
- 2025年中國冷鏈物流行業(yè)投資前景分析、未來發(fā)展趨勢研究報告(智研咨詢發(fā)布)
- 2025合作合同范本下載
- 手外傷急救診療流程標準化
- 農村土地托管培訓課件
- 老年??谱o士學習培訓匯報
- 基孔肯雅熱防控培訓課件
- 公司崗位補助管理辦法
- 游戲與兒童發(fā)展課件
- 捐贈助學活動方案
評論
0/150
提交評論