自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范_第1頁(yè)
自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范_第2頁(yè)
自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范_第3頁(yè)
自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范_第4頁(yè)
自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Q/LB.□XXXXX-XXXX目次TOC\o"1-1"\h\t"標(biāo)準(zhǔn)文件_一級(jí)條標(biāo)題,2,標(biāo)準(zhǔn)文件_附錄一級(jí)條標(biāo)題,2,"前言 III引言 IV1范圍 12規(guī)范性引用文件 13術(shù)語(yǔ)和定義 14符號(hào)和縮略語(yǔ) 25自然語(yǔ)言處理系統(tǒng)的基本框架 36自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)指標(biāo) 36.1概述 36.2功能有效性 46.3性能 66.4兼容性 66.5可維護(hù)性 66.6可遷移性 76.7數(shù)據(jù)集的質(zhì)量 76.8對(duì)抗性樣本的影響 76.9魯棒性 76.10可解釋性 86.11安全性 87自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)流程 87.1確定系統(tǒng)質(zhì)量目標(biāo) 97.2構(gòu)建測(cè)試數(shù)據(jù)集 97.3構(gòu)建測(cè)試環(huán)境 97.4選擇測(cè)試指標(biāo) 97.5開(kāi)展測(cè)試活動(dòng) 97.6統(tǒng)計(jì)、匯總并分析測(cè)試結(jié)果 98自然語(yǔ)言處理系統(tǒng)測(cè)試方法 98.1準(zhǔn)備測(cè)試數(shù)據(jù)集 98.2功能有效性 108.3性能 108.4兼容性 118.5可維護(hù)性 118.6可遷移性 118.7數(shù)據(jù)集的質(zhì)量 128.8對(duì)抗性樣本的影響 128.9魯棒性 128.10可解釋性 138.11安全性 13附錄A(規(guī)范性)自然語(yǔ)言處理系統(tǒng)功能有效性評(píng)估指標(biāo)計(jì)算方法 15A.1自然語(yǔ)言理解功能有效性評(píng)估指標(biāo)計(jì)算方法 15A.2自然語(yǔ)言生成功能有效性評(píng)估指標(biāo)計(jì)算方法 16附錄B(資料性)數(shù)據(jù)集 18附錄C(資料性)自然語(yǔ)言處理系統(tǒng)評(píng)價(jià)規(guī)范 1參考文獻(xiàn) 1前言本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件由上海市人工智能技術(shù)協(xié)會(huì)提出。本文件由上海市人工智能技術(shù)協(xié)會(huì)歸口。本文件起草單位:本文件主要起草人:引言自然語(yǔ)言處理是人工智能的一個(gè)重要研究方向,融合計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、數(shù)學(xué)于一體,主要研究如何實(shí)現(xiàn)人與計(jì)算機(jī)之間通過(guò)自然語(yǔ)言進(jìn)行溝通。智能客服、知識(shí)圖譜、搜索引擎等領(lǐng)域都需要通過(guò)自然語(yǔ)言處理從文本中提取并處理信息。根據(jù)解決的問(wèn)題,自然語(yǔ)言處理可分為文本分類(lèi)、機(jī)器翻譯、文本摘要等。近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,端到端的自然語(yǔ)言處理已經(jīng)成為人工智能領(lǐng)域重要的技術(shù),在各個(gè)行業(yè)發(fā)展迅速。然而,業(yè)界缺乏對(duì)自然語(yǔ)言處理系統(tǒng)的可靠性、安全性、可解釋性等的系統(tǒng)性測(cè)評(píng)規(guī)范,一定程度上影響著自然語(yǔ)言處理系統(tǒng)的廣泛應(yīng)用和技術(shù)發(fā)展。而國(guó)內(nèi)外標(biāo)準(zhǔn)大多聚焦自然語(yǔ)言處理的某一個(gè)細(xì)分領(lǐng)域,而從整體上描述自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)的標(biāo)準(zhǔn)化工作尚未展開(kāi)。本文件針對(duì)自然語(yǔ)言處理系統(tǒng)產(chǎn)品化的趨勢(shì),制定自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范,從功能有效性、語(yǔ)言理解能力、語(yǔ)義表達(dá)能力、性能、兼容性、可維護(hù)性、可遷移性、數(shù)據(jù)質(zhì)量、對(duì)抗樣本、魯棒性、可解釋性、安全性等方面對(duì)自然語(yǔ)言處理系統(tǒng)的測(cè)評(píng)指標(biāo)進(jìn)行研究,規(guī)定自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)指標(biāo)及測(cè)評(píng)流程,期望能夠提升自然語(yǔ)言處理系統(tǒng)質(zhì)量和服務(wù)質(zhì)量,填補(bǔ)我國(guó)在自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)標(biāo)準(zhǔn)化規(guī)范化建設(shè)的空白,助力自然語(yǔ)言處理技術(shù)創(chuàng)新,營(yíng)造公平開(kāi)放的自然語(yǔ)言處理產(chǎn)業(yè)生態(tài)。自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)規(guī)范范圍本文件規(guī)定了自然語(yǔ)言處理系統(tǒng)的基本框架、測(cè)評(píng)指標(biāo)體系、測(cè)評(píng)流程、測(cè)試方法,提供了自然語(yǔ)言處理系統(tǒng)的評(píng)價(jià)規(guī)范。本文件適用于自然語(yǔ)言處理系統(tǒng)的設(shè)計(jì)、研發(fā)、測(cè)試、應(yīng)用與維護(hù)。規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T25000.10-2016系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)第10部分:系統(tǒng)與軟件質(zhì)量模型GB/T41867-2022信息技術(shù)人工智能術(shù)語(yǔ)ISO22300:2021安全與恢復(fù)力術(shù)語(yǔ)(Securityandresilience–Vocabulary)T/CESA1026-2018人工智能深度學(xué)習(xí)算法評(píng)估規(guī)范術(shù)語(yǔ)和定義GB/T41867、ISO17100、ISO22300界定的以及下列術(shù)語(yǔ)和定義適用于本文件。自然語(yǔ)言處理系統(tǒng)Naturallanguageprocessingsystem基于自然語(yǔ)言理解和自然語(yǔ)言生成的信息處理系統(tǒng)。自然語(yǔ)言理解Naturallanguageunderstanding從已傳入其中的自然語(yǔ)言文本中提取信息,并輸出對(duì)給定文本及其表示的描述。[來(lái)源:GB/T41867-2022,3.3.15,有修改]注:從引用源中去除了從語(yǔ)音中提取信息的要求。自然語(yǔ)言生成Naturallanguagegeneration輸出端為自然語(yǔ)言的任務(wù)。[來(lái)源:GB/T41867-2022,3.3.17,有修改]注:從引用源中去除了輸入端的要求。人工智能計(jì)算基礎(chǔ)設(shè)施Artificialintelligenceportfolio一種組成人工智能應(yīng)用解決方案,幫助用戶(hù)實(shí)現(xiàn)不同規(guī)模的業(yè)務(wù)邏輯的軟硬件包。[來(lái)源:GB/T41867-2022,3.1.7,有修改]注:引用源中文術(shù)語(yǔ)為“人工智能設(shè)施包”。機(jī)器翻譯Machinetranslation使用計(jì)算機(jī)系統(tǒng)將文本從一種自然語(yǔ)言自動(dòng)翻譯為另一種自然語(yǔ)言。[來(lái)源:ISO17100:2015,2.2.2,有修改]注:從引用源中去除了翻譯語(yǔ)音的要求。錯(cuò)誤接受率Falseacceptancerate接受不該接受的樣本的比率。[來(lái)源:ISO22300:2021,3.91]錯(cuò)誤拒絕率Falserejectionrate拒絕不該拒絕的樣本的比率。[來(lái)源:ISO22300:2021,3.92]不變性測(cè)試Invariancetest對(duì)原始輸入文本數(shù)據(jù)作不改變?cè)獾臄_動(dòng),觀察系統(tǒng)在擾動(dòng)前后的輸出改變是否在可接受范圍內(nèi)。方向期望測(cè)試Directionalexpectationtest對(duì)原始輸入文本數(shù)據(jù)作向指定方向變化的擾動(dòng),觀察系統(tǒng)輸出是否按期望的方向變化??山忉屝訣xplainability系統(tǒng)以人能理解的方式,表達(dá)影響其(執(zhí)行)結(jié)果的重要因素的能力。[來(lái)源:GB/T41867-2022,3.4.3]自解釋Self-explaining系統(tǒng)同時(shí)輸出決策與對(duì)該決策的解釋。符號(hào)和縮略語(yǔ)下列縮略語(yǔ)適用于本文件。ARM:高級(jí)精簡(jiǎn)指令集機(jī)器(AdvancedRISCMachine)ASIC:專(zhuān)用集成電路(ApplicationSpecificIntegratedCircuit)AUC:曲線(xiàn)下面積(AreaUnderCurve)BLEU:雙語(yǔ)評(píng)估(BiLingualEvaluationUnderstudy)CPU:中央處理器(CentralProcessingUnit)EM:精確匹配度(ExactMatch)FN:假陰(FalseNegative)FP:假陽(yáng)(FalsePositive)GPU:圖形處理器(GraphicProcessingUnit)JSA:聯(lián)合狀態(tài)準(zhǔn)確率(JointStateAccuracy)LCS:最長(zhǎng)公共子序列(LongestCommonSubsequence)MAP:平均準(zhǔn)確率(MeanAveragePrecision)MIPS:無(wú)內(nèi)部互鎖流水級(jí)的微處理器(MicroprocessorwithoutInterlockedPipedStagesarchitecture)MRR:平均倒數(shù)排名(MeanReciprocalRank)n-gram:N元語(yǔ)法(特殊情況:N為1、2、3時(shí),分別為unigram、bigram、trigram)ROC:受試者操作特性曲線(xiàn)(ReceiverOperatingCharacteristic)ROUGE:基于召回率的摘要評(píng)估(Recall-OrientedUnderstudyforGistingEvaluation)TFR:任務(wù)完成率(Taskfinishrate)TP:真陽(yáng)(TruePositive)TN:真陰(TrueNegative)WER:詞錯(cuò)率(WordErrorRate)自然語(yǔ)言處理系統(tǒng)的基本框架本文件所述的自然語(yǔ)言處理系統(tǒng),包括人工智能計(jì)算基礎(chǔ)設(shè)施、預(yù)處理模塊、算法模型及輸入與輸出。自然語(yǔ)言處理系統(tǒng)的基本框架如圖1所示,其中輸入包括文本輸入,預(yù)處理模塊將文本轉(zhuǎn)換為模型可接受的形式,算法模型由訓(xùn)練數(shù)據(jù)訓(xùn)練后所得,算法模型加載在人工智能計(jì)算基礎(chǔ)設(shè)施上進(jìn)行推理和輸出,輸出包括判別輸出或生成輸出。自然語(yǔ)言處理系統(tǒng)基本框架自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)指標(biāo)概述本文件給出了一套自然語(yǔ)言處理系統(tǒng)的測(cè)評(píng)指標(biāo)體系,如表1所示,包含10個(gè)一級(jí)指標(biāo)和34個(gè)二級(jí)指標(biāo)。在實(shí)施測(cè)評(píng)過(guò)程中,應(yīng)根據(jù)系統(tǒng)的質(zhì)量目標(biāo)選取相應(yīng)指標(biāo)。表1自然語(yǔ)言處理系統(tǒng)測(cè)試指標(biāo)體系一級(jí)指標(biāo)二級(jí)指標(biāo)功能有效性自然語(yǔ)言理解任務(wù)的測(cè)評(píng)指標(biāo)自然語(yǔ)言生成任務(wù)的測(cè)評(píng)指標(biāo)性能推理效率系統(tǒng)運(yùn)行占用的人工智能計(jì)算基礎(chǔ)設(shè)施系統(tǒng)資源模型壓縮性能業(yè)務(wù)吞吐量詞匯表大小兼容性系統(tǒng)對(duì)不同結(jié)構(gòu)化程度文本的兼容性系統(tǒng)對(duì)人工智能計(jì)算基礎(chǔ)設(shè)施的兼容性系統(tǒng)對(duì)其他軟件的兼容性系統(tǒng)對(duì)字符編碼的兼容性表1自然語(yǔ)言處理系統(tǒng)測(cè)試指標(biāo)體系(續(xù))可維護(hù)性模型的迭代更新頻率模型迭代的質(zhì)量變化系統(tǒng)的可恢復(fù)性基本維護(hù)功能可遷移性系統(tǒng)對(duì)人工智能計(jì)算基礎(chǔ)設(shè)施硬件設(shè)備的可遷移性系統(tǒng)中模型、算法對(duì)人工智能框架的可遷移性數(shù)據(jù)集的質(zhì)量數(shù)據(jù)集規(guī)模數(shù)據(jù)集語(yǔ)言完整性數(shù)據(jù)集標(biāo)注質(zhì)量數(shù)據(jù)集均衡性數(shù)據(jù)集多樣性對(duì)抗性樣本的影響對(duì)抗性樣本生成測(cè)試對(duì)抗性樣本的物理可行性系統(tǒng)對(duì)對(duì)抗性樣本的防御性魯棒性干擾數(shù)據(jù)對(duì)系統(tǒng)的影響數(shù)據(jù)集分布對(duì)系統(tǒng)的影響業(yè)務(wù)不相關(guān)數(shù)據(jù)對(duì)系統(tǒng)的影響可解釋性系統(tǒng)決策原因可被理解的程度安全性信息安全機(jī)密性隱私性輸入防御倫理符合性功能有效性概述用戶(hù)可以根據(jù)實(shí)際的應(yīng)用場(chǎng)景選擇相關(guān)的基本指標(biāo),用于評(píng)估自然語(yǔ)言處理系統(tǒng)實(shí)現(xiàn)的功能是否滿(mǎn)足要求。根據(jù)自然語(yǔ)言處理系統(tǒng)的任務(wù)不同,可以分為自然語(yǔ)言理解與自然語(yǔ)言生成,自然語(yǔ)言理解是對(duì)輸入的文本進(jìn)行分類(lèi)與判斷,包括話(huà)題分類(lèi)、情感分析、關(guān)系抽取等,自然語(yǔ)言生成是讓機(jī)器生成文本,本標(biāo)準(zhǔn)評(píng)測(cè)的自然語(yǔ)言生成任務(wù)包括機(jī)器翻譯、自動(dòng)摘要、機(jī)器問(wèn)答等文本到文本的任務(wù),不包括文本到圖像、圖像到文本等跨模態(tài)生成任務(wù)。表2自然語(yǔ)言處理系統(tǒng)測(cè)試參照表任務(wù)分類(lèi)編號(hào)應(yīng)用場(chǎng)景測(cè)試集來(lái)源測(cè)評(píng)指標(biāo)自然語(yǔ)言理解1話(huà)題分類(lèi)THUCNewsRAFT混淆矩陣

準(zhǔn)確率

精確率召回率

真陰率

錯(cuò)誤接受率

錯(cuò)誤拒絕率

F1測(cè)度

微平均、宏平均

ROC曲線(xiàn)

AUC2情感分析ChnSentiCorpSST-23關(guān)系抽取Chinese-Literature-NER-RE-DatasetDocRED4事件抽取Title2EventACE20055命名實(shí)體識(shí)別WeiboNER

CoNLL2003SharedTask6閱讀理解C3RACE表2自然語(yǔ)言處理系統(tǒng)測(cè)試參照表(續(xù))自然語(yǔ)言生成1機(jī)器翻譯TheMultitargetTEDTalksTaskBLEUROUGEWEREM2自動(dòng)摘要LCSTSCNN/DailyMailBLEUROUGEWER3機(jī)器問(wèn)答CMRC2018TruthfulQAmAPROUGEF1自然語(yǔ)言理解任務(wù)話(huà)題分類(lèi)話(huà)題分類(lèi)是對(duì)于給定的文本,依據(jù)預(yù)先設(shè)定的分類(lèi)體系檢測(cè)出文本所屬類(lèi)別。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.1。情感分析情感分析旨在分析出文本整體的情感傾向或文本中不同個(gè)體的情感傾向。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.1。關(guān)系抽取關(guān)系抽取是為了識(shí)別出文本實(shí)體中的目標(biāo)關(guān)系,是構(gòu)建知識(shí)圖譜的重要技術(shù)環(huán)節(jié)。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.1。事件抽取事件抽取是為了識(shí)別文本中的事件及相關(guān)的論元。事件一般由觸發(fā)詞觸發(fā),由若干論元描述該事件。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.1。命名實(shí)體識(shí)別 命名實(shí)體識(shí)別是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專(zhuān)有名詞等,以及時(shí)間、數(shù)量、貨幣、比例數(shù)值等文字。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.1。閱讀理解閱讀理解是指讓計(jì)算機(jī)自動(dòng)理解和回答關(guān)于文本的問(wèn)題,回答一般是標(biāo)出給定文本指定位置的詞作為答案或是從若干選項(xiàng)中選則正確答案。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.2。自然語(yǔ)言生成任務(wù)機(jī)器翻譯機(jī)器翻譯是利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言)轉(zhuǎn)換為另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的過(guò)程。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.2。自動(dòng)摘要自動(dòng)摘要是指給出一段文本,從中提取出要點(diǎn),然后再形成一段概括性的文本。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.2。機(jī)器問(wèn)答問(wèn)答型對(duì)話(huà)需要準(zhǔn)確地回答用戶(hù)的問(wèn)題,滿(mǎn)足用戶(hù)需求。主要為一問(wèn)一答的形式,機(jī)器人對(duì)用戶(hù)提出的問(wèn)題進(jìn)行解析,在知識(shí)庫(kù)已有的內(nèi)容或用戶(hù)給出的信息中查找并返回正確答案。使用的測(cè)試數(shù)據(jù)集及測(cè)評(píng)指標(biāo)見(jiàn)表2,相關(guān)功能有效性評(píng)估指標(biāo)計(jì)算方法見(jiàn)附錄A.2。性能用戶(hù)可以根據(jù)實(shí)際的應(yīng)用場(chǎng)景選擇相關(guān)的基本指標(biāo),用于評(píng)估自然語(yǔ)言處理系統(tǒng)的性能是否滿(mǎn)足要求,應(yīng)包括但不限于下列內(nèi)容:推理效率:1)對(duì)于本地計(jì)算環(huán)境下,對(duì)于給定的數(shù)據(jù)集,自然語(yǔ)言處理系統(tǒng)對(duì)給定的n個(gè)數(shù)據(jù)樣本進(jìn)行推斷并獲得結(jié)果的時(shí)間開(kāi)銷(xiāo)等指標(biāo);2)對(duì)于云計(jì)算環(huán)境下,應(yīng)記錄包括自然語(yǔ)言處理系統(tǒng)本身的推斷時(shí)間以及執(zhí)行推理所消耗的資源調(diào)度、網(wǎng)絡(luò)延遲等額外時(shí)間開(kāi)銷(xiāo)、P95、P99、P100(n個(gè)請(qǐng)求響應(yīng)時(shí)間按從小到大排序,第95百分位、第99百分位或最長(zhǎng)的響應(yīng)時(shí)間)等指標(biāo);模型運(yùn)行占用的人工智能計(jì)算基礎(chǔ)設(shè)施系統(tǒng)資源:包括模型運(yùn)行時(shí)占用的系統(tǒng)CPU、GPU、內(nèi)存、顯存;模型壓縮性能:針對(duì)不同的壓縮比例(如90%,80%,70%,60%),比較模型在不同壓縮比條件下與壓縮前的預(yù)測(cè)性能差;業(yè)務(wù)吞吐量:?jiǎn)挝粫r(shí)間內(nèi)系統(tǒng)處理的文本數(shù)據(jù)量;詞匯表大小:自然語(yǔ)言處理系統(tǒng)詞匯表中不同語(yǔ)種的詞匯、字符的數(shù)量和占比;語(yǔ)義表達(dá)能力:自然語(yǔ)言處理系統(tǒng)的輸出形式、基于字/詞的完整性、多語(yǔ)言支持程度。兼容性用于評(píng)估自然語(yǔ)言處理系統(tǒng)對(duì)不同文本格式的兼容性,應(yīng)包括下列內(nèi)容:模型對(duì)不同結(jié)構(gòu)化程度文本的兼容性:評(píng)估自然語(yǔ)言處理系統(tǒng)能否根據(jù)用戶(hù)需求處理不同格式的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化自然語(yǔ)言文本;自然語(yǔ)言處理系統(tǒng)對(duì)操作系統(tǒng)的兼容性:評(píng)估自然語(yǔ)言處理系統(tǒng)能否根據(jù)用戶(hù)需求兼容不同的操作系統(tǒng),或兼容同一類(lèi)型操作系統(tǒng)的不同版本;自然語(yǔ)言處理系統(tǒng)對(duì)其他軟件的兼容性:評(píng)估自然語(yǔ)言處理系統(tǒng)能夠根據(jù)客戶(hù)需求兼容同一計(jì)算機(jī)系統(tǒng)下其他軟件;自然語(yǔ)言處理系統(tǒng)對(duì)不同字符編碼的兼容性:評(píng)估自然語(yǔ)言處理系統(tǒng)能否處理不同字符編碼的輸入??删S護(hù)性用于評(píng)估自然語(yǔ)言處理系統(tǒng)能夠被運(yùn)維人員修改的有效性和效率以及自身的可恢復(fù)性,應(yīng)包括下列內(nèi)容:模型的迭代更新頻率:評(píng)估模型迭代更新的時(shí)間周期及模型訓(xùn)練時(shí)間;模型迭代的質(zhì)量變化:評(píng)估模型迭代后其功能有效性、性能、魯棒性等的變化趨勢(shì);模型的可恢復(fù)性:評(píng)估模型在自然語(yǔ)言處理系統(tǒng)發(fā)生故障時(shí),恢復(fù)功能所需要的時(shí)間;自然語(yǔ)言處理系統(tǒng)宜支持系統(tǒng)配置、監(jiān)控告警、日志等基本維護(hù)功能??蛇w移性用于評(píng)估自然語(yǔ)言處理系統(tǒng)能夠從一種運(yùn)行環(huán)境遷移到另一種運(yùn)行環(huán)境的有效性和效率,應(yīng)包括下列內(nèi)容:系統(tǒng)對(duì)人工智能計(jì)算基礎(chǔ)設(shè)施硬件設(shè)備的可遷移性:評(píng)估自然語(yǔ)言處理系統(tǒng)是否擁有跨硬件架構(gòu)的遷移能力,包括以下內(nèi)容:模型是否支持在基于至少2種或多種架構(gòu)處理器的設(shè)備上運(yùn)行,且運(yùn)行效果保持一致,如X86、X86-64、ARM、MIPS等;模型是否支持在設(shè)備上進(jìn)行在線(xiàn)或離線(xiàn)方式進(jìn)行移植;系統(tǒng)中模型、算法對(duì)人工智能框架的可遷移性:評(píng)估自然語(yǔ)言處理系統(tǒng)是否擁有跨人工智能框架之間的遷移能力,即是否支持在至少2種或多種人工智能框架之間相互轉(zhuǎn)換,且運(yùn)行效果保持一致,如Tensorflow,PyTorch,PaddlePaddle等。數(shù)據(jù)集的質(zhì)量評(píng)估訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集的質(zhì)量,應(yīng)包括下列內(nèi)容:數(shù)據(jù)集規(guī)模:通常用樣本數(shù)量來(lái)衡量;數(shù)據(jù)集語(yǔ)言完整性:數(shù)據(jù)集應(yīng)不包含拼寫(xiě)錯(cuò)誤、亂碼,語(yǔ)句應(yīng)通順;數(shù)據(jù)集標(biāo)注質(zhì)量:指數(shù)據(jù)集標(biāo)注信息是否準(zhǔn)確、完備并符合要求;數(shù)據(jù)集均衡性:指數(shù)據(jù)集包含的各種類(lèi)別的樣本數(shù)量分布的偏差程度;數(shù)據(jù)集多樣性:指數(shù)據(jù)集包括不同句子長(zhǎng)短、時(shí)態(tài)表示、主謂關(guān)系等情形的多樣性。對(duì)抗性樣本的影響評(píng)估對(duì)抗性樣本對(duì)自然語(yǔ)言處理系統(tǒng)的影響,應(yīng)包括下列內(nèi)容:對(duì)抗性樣本生成測(cè)試:用不同尺度生成對(duì)抗樣本,評(píng)估系統(tǒng)的脆弱性。生成方法包括:句子尺度方式生成的樣本:利用對(duì)句子進(jìn)行修改的方式生成對(duì)抗性樣本;詞語(yǔ)尺度生成的樣本:利用對(duì)詞語(yǔ)進(jìn)行修改的方式生成對(duì)抗性樣本;字符尺度生成的樣本:利用對(duì)字符進(jìn)行修改的方式生成對(duì)抗性樣本;不同尺度生成的對(duì)抗性樣本:利用以上多種尺度結(jié)合的方式生成對(duì)抗性樣本;對(duì)抗性樣本的物理可行性:評(píng)估生成的對(duì)抗性樣本在現(xiàn)實(shí)中的可實(shí)現(xiàn)性,能否通過(guò)相關(guān)算法生成對(duì)人類(lèi)來(lái)說(shuō)語(yǔ)句通順、難以辨別的對(duì)抗性樣本;系統(tǒng)對(duì)對(duì)抗性樣本的防御性,包括:評(píng)估系統(tǒng)是否進(jìn)行過(guò)對(duì)抗訓(xùn)練;系統(tǒng)防御對(duì)抗性樣本的成功率:統(tǒng)計(jì)一定數(shù)量對(duì)抗性樣本對(duì)系統(tǒng)攻擊的失敗率。魯棒性評(píng)估實(shí)際運(yùn)行數(shù)據(jù)對(duì)系統(tǒng)的影響,應(yīng)包括下列內(nèi)容:干擾數(shù)據(jù)對(duì)系統(tǒng)的影響:評(píng)估異常的輸入數(shù)據(jù)對(duì)系統(tǒng)準(zhǔn)確率的影響,應(yīng)包括但不限于:不流暢的文字或語(yǔ)句、有間斷的文字或語(yǔ)句、含義正確但表達(dá)方式不常見(jiàn)的文字或語(yǔ)句、標(biāo)點(diǎn)符號(hào)不符合規(guī)范的文字或語(yǔ)句。評(píng)估異常輸入數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率、精確率、召回率、真負(fù)率、F1測(cè)度等指標(biāo);數(shù)據(jù)集分布對(duì)系統(tǒng)的影響:統(tǒng)計(jì)真實(shí)環(huán)境下輸入數(shù)據(jù)集的正負(fù)例分布或各類(lèi)別樣本分布,評(píng)估不同數(shù)據(jù)集分布情況下系統(tǒng)預(yù)測(cè)的準(zhǔn)確率、精確率、召回率、真負(fù)率、F1測(cè)度等指標(biāo);業(yè)務(wù)不相關(guān)數(shù)據(jù)對(duì)系統(tǒng)的影響:當(dāng)輸入數(shù)據(jù)并非系統(tǒng)業(yè)務(wù)相關(guān)數(shù)據(jù)(比如當(dāng)前系統(tǒng)處理語(yǔ)言以外的其他語(yǔ)種),評(píng)估系統(tǒng)能否對(duì)其作合適的處理(比如返回?zé)o法翻譯或語(yǔ)種異常的提示);語(yǔ)言理解能力:對(duì)原始輸入數(shù)據(jù)作一定程度的擾動(dòng),擾動(dòng)后仍為流暢且語(yǔ)義明確的自然語(yǔ)言,評(píng)估系統(tǒng)能否識(shí)別出擾動(dòng)前后的數(shù)據(jù)中的語(yǔ)義差別??山忉屝栽u(píng)估人類(lèi)能夠理解自然語(yǔ)言處理系統(tǒng)的輸出決策原因的程度。根據(jù)人類(lèi)能夠理解系統(tǒng)決策原因的程度,將自然語(yǔ)言處理系統(tǒng)的可解釋性分為強(qiáng)、中、弱三個(gè)級(jí)別:可解釋性(強(qiáng)):可通過(guò)數(shù)學(xué)證明來(lái)充分說(shuō)明模型做出決策的原因,并給出推理和決策的路徑;可解釋性(中):可在模型中融入知識(shí),利用結(jié)構(gòu)信息、描述文本、自解釋等方法輔助推理并給出過(guò)程;可解釋性(弱):采用可解釋技術(shù),可通過(guò)自然語(yǔ)言處理系統(tǒng)的輸入輸出、系統(tǒng)中的部分參數(shù)值(如自注意力參數(shù))、提取的特征值或這些數(shù)值的可視化來(lái)說(shuō)明系統(tǒng)做出決策的原因。安全性自然語(yǔ)言處理系統(tǒng)的安全性應(yīng)符合以下要求:GB/T25000.10-2016中規(guī)定的軟件系統(tǒng)的信息安全性要求;機(jī)密性:模型機(jī)密性:通過(guò)對(duì)被測(cè)系統(tǒng)的持續(xù)訪問(wèn)推測(cè)出自然語(yǔ)言處理模型的參數(shù),與原模型的相似度;數(shù)據(jù)機(jī)密性:能否通過(guò)成員推理等方式,獲取訓(xùn)練數(shù)據(jù)中包含的敏感信息;隱私性:訓(xùn)練數(shù)據(jù)中脫敏數(shù)據(jù)占比;系統(tǒng)預(yù)測(cè)結(jié)果中含個(gè)人信息數(shù)量和種類(lèi);系統(tǒng)的單位時(shí)間最大查詢(xún)次數(shù)上限;系統(tǒng)模型訓(xùn)練時(shí)有無(wú)應(yīng)用隱私技術(shù),如差分隱私等。輸入防御:系統(tǒng)具備對(duì)惡意輸入樣本的檢測(cè)機(jī)制和防御性預(yù)處理;倫理符合性:系統(tǒng)對(duì)輸入中包含的不同國(guó)家、地區(qū)、性別、種族是否公平對(duì)待;系統(tǒng)是否會(huì)在沒(méi)有誘導(dǎo)的情況下主動(dòng)輸出可能違反法律法規(guī)的內(nèi)容;系統(tǒng)是否會(huì)產(chǎn)生幻覺(jué)輸出,即誤導(dǎo)性的事實(shí)描述內(nèi)容。自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)流程自然語(yǔ)言處理系統(tǒng)的測(cè)評(píng)流程如圖2所示。自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)流程確定系統(tǒng)質(zhì)量目標(biāo)應(yīng)運(yùn)用以下步驟確定自然語(yǔ)言處理系統(tǒng)的質(zhì)量目標(biāo):場(chǎng)景分析應(yīng)分析自然語(yǔ)言處理系統(tǒng)的應(yīng)用場(chǎng)景、任務(wù)目標(biāo)、運(yùn)行環(huán)境與運(yùn)行模式,既要考慮軟件系統(tǒng)正確使用的情況,也要考慮可預(yù)見(jiàn)的不正確使用的情況。新增任務(wù)目標(biāo)用戶(hù)需求(業(yè)務(wù)需求)及其對(duì)應(yīng)的數(shù)據(jù)來(lái)源。風(fēng)險(xiǎn)分析與評(píng)估應(yīng)根據(jù)自然語(yǔ)言處理系統(tǒng)的不同應(yīng)用場(chǎng)景,開(kāi)展有關(guān)自然語(yǔ)言處理系統(tǒng)失效的風(fēng)險(xiǎn)識(shí)別。識(shí)別風(fēng)險(xiǎn)的后果,如對(duì)環(huán)境或人員是否有傷害、需要完成的任務(wù)是否有影響等。針對(duì)每一個(gè)風(fēng)險(xiǎn),應(yīng)基于損害的嚴(yán)重程度來(lái)預(yù)估風(fēng)險(xiǎn)的嚴(yán)重性等級(jí)。風(fēng)險(xiǎn)嚴(yán)重性等級(jí)的評(píng)估可以基于對(duì)多個(gè)場(chǎng)景的綜合性考慮,同時(shí)風(fēng)險(xiǎn)嚴(yán)重性等級(jí)的確定應(yīng)基于場(chǎng)景中有代表性的個(gè)體樣本。確定各指標(biāo)要求根據(jù)風(fēng)險(xiǎn)嚴(yán)重性等級(jí)和系統(tǒng)的應(yīng)用場(chǎng)景,以任務(wù)目標(biāo)導(dǎo)向確定自然語(yǔ)言處理系統(tǒng)的質(zhì)量目標(biāo),包括系統(tǒng)功能、性能、兼容性、可維護(hù)性、可遷移性、可解釋性等的要求。構(gòu)建測(cè)試數(shù)據(jù)集按照實(shí)際業(yè)務(wù)的情況,參考表2列出所需測(cè)評(píng)系統(tǒng)運(yùn)行的典型場(chǎng)景與常用數(shù)據(jù)集,以此為基礎(chǔ),收集代表實(shí)際業(yè)務(wù)應(yīng)用場(chǎng)景的數(shù)據(jù),設(shè)定樣本類(lèi)型與級(jí)別,構(gòu)建覆蓋多種自然語(yǔ)言文本的測(cè)試數(shù)據(jù)集用以開(kāi)展測(cè)試。構(gòu)建測(cè)試環(huán)境根據(jù)自然語(yǔ)言處理系統(tǒng)測(cè)評(píng)運(yùn)行的實(shí)際場(chǎng)景和需要的人工智能計(jì)算基礎(chǔ)設(shè)施,構(gòu)建出軟硬件環(huán)境用于測(cè)試。如無(wú)法構(gòu)建出相同的測(cè)試環(huán)境,需要進(jìn)一步分析由于測(cè)試環(huán)境與使用環(huán)境不一致所帶來(lái)對(duì)測(cè)試結(jié)果的影響。選擇測(cè)試指標(biāo)根據(jù)制定的系統(tǒng)質(zhì)量目標(biāo),從表2中選擇相關(guān)測(cè)評(píng)指標(biāo),記錄被測(cè)系統(tǒng)對(duì)所選數(shù)據(jù)集和所選指標(biāo)的計(jì)算結(jié)果,根據(jù)所選任務(wù)難度或參考相關(guān)基準(zhǔn)制定通過(guò)準(zhǔn)則,測(cè)試結(jié)果用于對(duì)系統(tǒng)的評(píng)價(jià)提供依據(jù)。開(kāi)展測(cè)試活動(dòng)在構(gòu)建的測(cè)試環(huán)境下,利用已經(jīng)構(gòu)建的測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試。即將測(cè)試數(shù)據(jù)集依次輸入被測(cè)系統(tǒng),并按照被測(cè)系統(tǒng)的正確方法使用數(shù)據(jù)。統(tǒng)計(jì)、匯總并分析測(cè)試結(jié)果根據(jù)選擇的測(cè)試指標(biāo),收集相應(yīng)的測(cè)試結(jié)果數(shù)據(jù),對(duì)于需要計(jì)算的指標(biāo)根據(jù)公式計(jì)算。根據(jù)制定的系統(tǒng)質(zhì)量目標(biāo),參考第8章評(píng)價(jià)指南,對(duì)測(cè)試結(jié)果進(jìn)行匯總、分析,綜合評(píng)估系統(tǒng)是否符合質(zhì)量目標(biāo)。自然語(yǔ)言處理系統(tǒng)測(cè)試方法準(zhǔn)備測(cè)試數(shù)據(jù)集在對(duì)測(cè)評(píng)指標(biāo)開(kāi)展測(cè)試活動(dòng)之前,需要先獲取測(cè)試數(shù)據(jù)集,對(duì)測(cè)試數(shù)據(jù)集的要求包括但不限于:數(shù)據(jù)集中包含經(jīng)過(guò)處理的從互聯(lián)網(wǎng)爬取或是人工構(gòu)建的自然語(yǔ)言文本;數(shù)據(jù)集中包含所需格式的自然語(yǔ)言文本;數(shù)據(jù)集中包含指定類(lèi)別的樣本,且標(biāo)注正確;對(duì)數(shù)據(jù)集中樣本作一定擾動(dòng),以提升測(cè)試數(shù)據(jù)集質(zhì)量;數(shù)據(jù)集中樣本分布均衡,且與真實(shí)業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)分布一致;數(shù)據(jù)集中包含已知干擾樣本、對(duì)抗性樣本或業(yè)務(wù)不相關(guān)樣本等異常樣本。部分公開(kāi)數(shù)據(jù)集見(jiàn)附錄B,若采用自建或其它測(cè)試數(shù)據(jù)集,則需將公開(kāi)數(shù)據(jù)集上主流的基準(zhǔn)模型在測(cè)試數(shù)據(jù)集上進(jìn)行測(cè)試,以供對(duì)比。功能有效性自然語(yǔ)言理解任務(wù)自然語(yǔ)言理解任務(wù)測(cè)試方法如下:根據(jù)第7章及表2確定自然語(yǔ)言理解應(yīng)用場(chǎng)景及對(duì)應(yīng)的測(cè)評(píng)數(shù)據(jù)集、測(cè)評(píng)指標(biāo);將測(cè)評(píng)數(shù)據(jù)集輸入被測(cè)系統(tǒng);記錄系統(tǒng)輸出及計(jì)算測(cè)評(píng)指標(biāo)所需要的各項(xiàng)中間指標(biāo);計(jì)算并得到最終測(cè)評(píng)指標(biāo),檢查指標(biāo)值是否符合要求。自然語(yǔ)言生成任務(wù)若可根據(jù)第7章及表2確定可計(jì)算的自然語(yǔ)言生成任務(wù)測(cè)評(píng)指標(biāo),則按照以下方法測(cè)評(píng):根據(jù)第7章及表2的流程確定自然語(yǔ)言生成應(yīng)用場(chǎng)景及對(duì)應(yīng)的測(cè)評(píng)數(shù)據(jù)集、測(cè)評(píng)指標(biāo);將測(cè)評(píng)數(shù)據(jù)集輸入被測(cè)系統(tǒng);記錄系統(tǒng)輸出及計(jì)算測(cè)評(píng)指標(biāo)所需要的各項(xiàng)中間指標(biāo);計(jì)算并得到最終測(cè)評(píng)指標(biāo),檢查指標(biāo)值是否符合要求;若無(wú)法根據(jù)第7章及表2確定可計(jì)算的自然語(yǔ)言生成任務(wù)測(cè)評(píng)指標(biāo),則按照以下方法測(cè)評(píng):根據(jù)第7章及表2的流程確定自然語(yǔ)言生成應(yīng)用場(chǎng)景及對(duì)應(yīng)的測(cè)評(píng)數(shù)據(jù)集;將測(cè)評(píng)數(shù)據(jù)集輸入被測(cè)系統(tǒng);記錄系統(tǒng)輸出;由人類(lèi)專(zhuān)家評(píng)估系統(tǒng)輸出是否通過(guò)測(cè)試,并統(tǒng)計(jì)測(cè)評(píng)數(shù)據(jù)集的通過(guò)率是否滿(mǎn)足要求。性能自然語(yǔ)言處理系統(tǒng)的性能測(cè)試方法見(jiàn)表3。表3自然語(yǔ)言處理系統(tǒng)性能測(cè)試方法指標(biāo)測(cè)試方法推理效率收集n條(n≥1000)自然語(yǔ)言處理系統(tǒng)能夠處理的數(shù)據(jù)或直接采用功能有效性測(cè)試數(shù)據(jù);將數(shù)據(jù)輸入被測(cè)系統(tǒng),記錄系統(tǒng)對(duì)每一條數(shù)據(jù)進(jìn)行推理所需的時(shí)間;計(jì)算系統(tǒng)處理全部數(shù)據(jù)消耗時(shí)間T、業(yè)務(wù)吞吐量n/T,檢查是否符合測(cè)試要求;若在云計(jì)算環(huán)境下,記錄執(zhí)行推理所需的資源調(diào)度、網(wǎng)絡(luò)延遲等額外時(shí)間開(kāi)銷(xiāo)tc,檢查是否符合測(cè)試要求;將云計(jì)算環(huán)境下全部推理時(shí)間從小到大排列,檢查第95百分位的推理時(shí)間P95、第99百分位的推理時(shí)間P99、耗時(shí)最長(zhǎng)的推理時(shí)間P100是否符合測(cè)試要求。資源占用記錄系統(tǒng)推理過(guò)程中的CPU、GPU使用狀況,內(nèi)存、顯存占用率,檢查是否符合測(cè)試要求。模型壓縮性能收集n條(n≥1000)自然語(yǔ)言處理系統(tǒng)能夠處理的數(shù)據(jù)或直接采用功能有效性測(cè)試數(shù)據(jù);為系統(tǒng)配置不同壓縮比例的m個(gè)模型;將數(shù)據(jù)輸入被測(cè)系統(tǒng),記錄系統(tǒng)的預(yù)測(cè)功能有效性指標(biāo);對(duì)比系統(tǒng)中模型在不同壓縮比例下的性能損失情況,檢查是否符合測(cè)試要求。表3自然語(yǔ)言處理系統(tǒng)性能測(cè)試方法(續(xù))詞匯表大小查看模型詞匯表,統(tǒng)計(jì)其中不同語(yǔ)種的詞匯、字符的數(shù)量和占比,檢查是否符合測(cè)試要求。語(yǔ)義表達(dá)能力查看自然語(yǔ)言處理系統(tǒng)輸出形式(判別式或生成式);查看自然語(yǔ)言處理系統(tǒng)的詞匯表,檢查其中字、詞的數(shù)量和占比,檢查其支持多少種語(yǔ)言。兼容性自然語(yǔ)言處理系統(tǒng)的兼容性測(cè)試方法見(jiàn)表4,評(píng)價(jià)規(guī)范見(jiàn)附錄C。表4自然語(yǔ)言處理系統(tǒng)兼容性測(cè)試方法指標(biāo)測(cè)試方法不同結(jié)構(gòu)化程度文本兼容性準(zhǔn)備結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化自然語(yǔ)言數(shù)據(jù);將數(shù)據(jù)輸入自然語(yǔ)言處理系統(tǒng)中,檢查系統(tǒng)是否能正確處理數(shù)據(jù)。操作系統(tǒng)兼容性準(zhǔn)備包含不同操作系統(tǒng)或同類(lèi)操作系統(tǒng)不同版本的人工智能計(jì)算基礎(chǔ)設(shè)施;在不同人工智能計(jì)算基礎(chǔ)設(shè)施上運(yùn)行自然語(yǔ)言處理系統(tǒng),檢查是否均能正確運(yùn)行。軟件兼容性在系統(tǒng)中安裝若干其他常用軟件,與自然語(yǔ)言處理系統(tǒng)共同運(yùn)行,檢查哪些軟件運(yùn)行時(shí)會(huì)出現(xiàn)運(yùn)行異常的情況;字符編碼兼容性準(zhǔn)備n種不同字符編碼的數(shù)據(jù)(n≥2);將數(shù)據(jù)輸入自然語(yǔ)言處理系統(tǒng)中,檢查系統(tǒng)能是否能正確處理??删S護(hù)性自然語(yǔ)言處理系統(tǒng)的可維護(hù)性測(cè)試方法見(jiàn)表5。表5自然語(yǔ)言處理系統(tǒng)可維護(hù)性測(cè)試方法指標(biāo)測(cè)試方法模型的迭代更新頻率查看自然語(yǔ)言處理系統(tǒng)日志,檢查并記錄相關(guān)指標(biāo)項(xiàng)。模型迭代的質(zhì)量變化模型故障后平均恢復(fù)時(shí)間基本維護(hù)功能運(yùn)行系統(tǒng),檢查系統(tǒng)是否支持系統(tǒng)配置、監(jiān)控告警、日志等基本維護(hù)功能??蛇w移性自然語(yǔ)言處理系統(tǒng)的可遷移性測(cè)試方法見(jiàn)表6。表6自然語(yǔ)言處理系統(tǒng)可遷移性測(cè)試方法指標(biāo)測(cè)試方法硬件可遷移性在X86、X86-64、ARM、MIPS等不同架構(gòu)處理器的設(shè)備上部署自然語(yǔ)言處理系統(tǒng),驗(yàn)證功能有效性,檢查是否能正常運(yùn)行且效果一致??蚣芸蛇w移性檢查系統(tǒng)模型是否支持在Tensorflow、PyTorch、PaddlePaddle等不同人工智能框架之間轉(zhuǎn)換或支持轉(zhuǎn)換成ONNX格式,驗(yàn)證功能有效性,檢查效果是否保持一致。數(shù)據(jù)集的質(zhì)量自然語(yǔ)言處理系統(tǒng)的數(shù)據(jù)集質(zhì)量測(cè)試方法見(jiàn)表7。表7自然語(yǔ)言處理系統(tǒng)數(shù)據(jù)集質(zhì)量測(cè)試方法指標(biāo)測(cè)試方法數(shù)據(jù)集規(guī)模檢查訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集中數(shù)據(jù)條數(shù)(nd)、字符數(shù)(nt)等基本信息是否符合測(cè)試要求。語(yǔ)言完整性檢查訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集中包含拼寫(xiě)錯(cuò)誤、亂碼、不通順語(yǔ)句的數(shù)據(jù)條數(shù)(nfd),計(jì)算其占比:n并檢查占比是否符合測(cè)試要求。標(biāo)注質(zhì)量檢查訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集各類(lèi)別標(biāo)注情況,檢查標(biāo)注錯(cuò)誤的數(shù)據(jù)數(shù)量是否符合測(cè)試要求。均衡性檢查訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集各類(lèi)別樣本數(shù)量分布是否均衡,如有偏差,是否符合實(shí)際應(yīng)用的情況,或偏差是否在可接受范圍內(nèi)。多樣性檢查訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集是否包含不同句子長(zhǎng)短、時(shí)態(tài)表示、主謂關(guān)系等多樣化語(yǔ)言表述的語(yǔ)句。對(duì)抗性樣本的影響自然語(yǔ)言處理系統(tǒng)的對(duì)抗性樣本影響測(cè)試方法見(jiàn)表8。表8自然語(yǔ)言處理系統(tǒng)對(duì)抗性樣本影響測(cè)試方法指標(biāo)測(cè)試方法對(duì)抗性樣本生成測(cè)試從句子、詞語(yǔ)、字符、混合尺度生成n條對(duì)抗性樣本(n≥100)。對(duì)抗性樣本的物理可行性評(píng)估生成的對(duì)抗樣本中能被人類(lèi)辨別的數(shù)量比例是否符合測(cè)試要求。系統(tǒng)對(duì)對(duì)抗性樣本的防御性查看日志,評(píng)估自然語(yǔ)言處理系統(tǒng)是否進(jìn)行過(guò)對(duì)抗訓(xùn)練;將生成的對(duì)抗性樣本輸入系統(tǒng)中,統(tǒng)計(jì)系統(tǒng)正確處理對(duì)抗性樣本的數(shù)量c并計(jì)算系統(tǒng)防御對(duì)抗性樣本的成功率:c檢查防御成功率是否符合測(cè)試要求。魯棒性自然語(yǔ)言處理系統(tǒng)的魯棒性測(cè)試方法見(jiàn)表9。表9自然語(yǔ)言處理系統(tǒng)魯棒性測(cè)試方法指標(biāo)測(cè)試方法干擾數(shù)據(jù)對(duì)系統(tǒng)的影響根據(jù)應(yīng)用場(chǎng)景模擬日常使用情況,生成n條干擾數(shù)據(jù)(n≥100);將干擾數(shù)據(jù)輸入自然語(yǔ)言處理系統(tǒng)中,統(tǒng)計(jì)系統(tǒng)輸出結(jié)果,檢查系統(tǒng)對(duì)干擾數(shù)據(jù)的功能有效性指標(biāo)是否符合測(cè)試要求。數(shù)據(jù)集分布對(duì)系統(tǒng)的影響統(tǒng)計(jì)真實(shí)應(yīng)用場(chǎng)景下自然語(yǔ)言處理系統(tǒng)輸入的數(shù)據(jù)分布,收集或建立不同分布情況的數(shù)據(jù)集;將各數(shù)據(jù)集輸入自然語(yǔ)言處理系統(tǒng),統(tǒng)計(jì)系統(tǒng)對(duì)不同分布數(shù)據(jù)集的功能有效性變化情況。表9自然語(yǔ)言處理系統(tǒng)魯棒性測(cè)試方法(續(xù))業(yè)務(wù)不相關(guān)數(shù)據(jù)對(duì)系統(tǒng)的影響收集或生成n條系統(tǒng)不支持的語(yǔ)言數(shù)據(jù)、系統(tǒng)業(yè)務(wù)不相關(guān)的數(shù)據(jù)(n≥100);將數(shù)據(jù)輸入自然語(yǔ)言處理系統(tǒng),檢查系統(tǒng)正確處理不相關(guān)數(shù)據(jù)的比例是否符合測(cè)試要求。語(yǔ)言理解能力對(duì)原始輸入數(shù)據(jù)t1進(jìn)行一定程度的擾動(dòng),生成擾動(dòng)數(shù)據(jù)t2,從步驟b至步驟k中選擇若干項(xiàng)以考察系統(tǒng)的語(yǔ)言理解能力,也可結(jié)合t1與t2進(jìn)行步驟l、m;詞法:能夠理解對(duì)進(jìn)行正確推斷有幫助的關(guān)鍵詞的含義,例如情感分析測(cè)試集中表達(dá)正面或負(fù)面情感的詞;分類(lèi):能夠理解同義詞、反義詞,能夠區(qū)分不同詞匯的屬性、類(lèi)別;命名實(shí)體:替換語(yǔ)料中的人名或地名不影響系統(tǒng)原本的輸出;時(shí)態(tài):能夠理解事件發(fā)生的順序與重要性,即在大部分任務(wù)中當(dāng)前發(fā)生的事件比過(guò)去的事件更重要;否定:能夠理解否定、雙重否定或其他更復(fù)雜形式的否定;指代消歧:能夠理解語(yǔ)料中的代詞所指代的對(duì)象;句法:理解語(yǔ)料中的各個(gè)成分與謂詞的關(guān)系;邏輯性:能夠理解語(yǔ)言的傳遞性或?qū)ΨQ(chēng)性;拼寫(xiě):能夠理解詞匯的拼寫(xiě),在輸入個(gè)別錯(cuò)別字或是不影響原意的拼寫(xiě)錯(cuò)誤的情況下能夠正確理解語(yǔ)義;詞義消歧:能夠根據(jù)上下文確定歧義對(duì)象具體語(yǔ)義的過(guò)程;若生成的t2與t1相比未改變?cè)?,則可進(jìn)行不變性測(cè)試,即測(cè)試模型對(duì)t2與t1的輸出是否保持不變,或在規(guī)定的閾值內(nèi)變化;若生成的t2與t1相比改變?cè)?,則可進(jìn)行方向期望測(cè)試,即測(cè)試模型對(duì)t2的輸出與對(duì)t1的輸出相比是否朝規(guī)定方向變化,且變化幅度超過(guò)規(guī)定閾值;統(tǒng)計(jì)以上測(cè)試任務(wù)能夠正確處理數(shù)據(jù)的比例是否符合測(cè)試要求??山忉屝圆榭聪到y(tǒng)的開(kāi)發(fā)日志、操作手冊(cè)或模型結(jié)構(gòu),根據(jù)其采用的可解釋技術(shù)與6.10節(jié)的描述來(lái)確定系統(tǒng)可解釋性等級(jí)。安全性除GB/T25000.10-2016中規(guī)定的軟件系統(tǒng)的信息安全性要求外,自然語(yǔ)言處理系統(tǒng)還應(yīng)按照表10的方法測(cè)試。表10自然語(yǔ)言處理系統(tǒng)安全性測(cè)試方法指標(biāo)測(cè)試方法機(jī)密性查看是否可通過(guò)系統(tǒng)提供的操作界面或API直接獲取或推測(cè)模型參數(shù);若可推測(cè)模型參數(shù),查看推測(cè)結(jié)果與原模型的相似程度,檢查相似程度是否低于測(cè)試要求。隱私性檢查訓(xùn)練數(shù)據(jù)中包含敏感數(shù)據(jù)的占比是否低于測(cè)試要求通過(guò)設(shè)計(jì)特定的輸入,使自然語(yǔ)言處理系統(tǒng)輸出個(gè)人信息等隱私數(shù)據(jù),如果能夠輸出,檢查其包含的隱私數(shù)據(jù)數(shù)量和種類(lèi)的比例是否符合測(cè)試要求;查看系統(tǒng)操作手冊(cè)或其他文檔說(shuō)明,檢查系統(tǒng)的單位時(shí)間最大查詢(xún)次數(shù)是否和文檔說(shuō)明一致;查看系統(tǒng)開(kāi)發(fā)日志或其他文檔說(shuō)明,檢查系統(tǒng)訓(xùn)練時(shí)是否應(yīng)用隱私保護(hù)技術(shù)。表10自然語(yǔ)言處理系統(tǒng)安全性測(cè)試方法(續(xù))輸入防御查看系統(tǒng)文檔說(shuō)明或操作界面,檢查系統(tǒng)是否具備對(duì)惡意輸入樣本的檢測(cè)機(jī)制,包括檢測(cè)輸入樣本和正常數(shù)據(jù)間的差異、輸入樣本的分布特征、輸入樣本的歷史等。查看系統(tǒng)文檔說(shuō)明或操作界面,檢查系統(tǒng)是否具備對(duì)惡意輸入樣本的防御性預(yù)處理,包括對(duì)輸入樣本進(jìn)行結(jié)構(gòu)轉(zhuǎn)化、加噪、去噪等。倫理符合性從CivilComments或其他數(shù)據(jù)集中收集毒性數(shù)據(jù)(即包含威脅、侮辱、歧視等不健康信息的數(shù)據(jù)),測(cè)試系統(tǒng)對(duì)毒性測(cè)試數(shù)據(jù)集的識(shí)別比例是否符合要求;從相關(guān)數(shù)據(jù)集中收集或自建包含不同國(guó)家、地區(qū)、性別、種族的偏見(jiàn)測(cè)試數(shù)據(jù)集,將數(shù)據(jù)集輸入系統(tǒng)中,測(cè)試系統(tǒng)是否公平對(duì)待,如果出現(xiàn)偏見(jiàn)或歧視,其占比是否低于測(cè)試要求;檢查功能有效性測(cè)試或其他測(cè)試中,系統(tǒng)是否會(huì)主動(dòng)輸出可能違反法律法規(guī)的內(nèi)容;檢查系統(tǒng)是否會(huì)輸出誤導(dǎo)性的錯(cuò)誤事實(shí),檢查其誤導(dǎo)性輸出的占比是否低于測(cè)試要求。

(規(guī)范性)

自然語(yǔ)言處理系統(tǒng)功能有效性評(píng)估指標(biāo)計(jì)算方法A.1自然語(yǔ)言理解功能有效性評(píng)估指標(biāo)計(jì)算方法自然語(yǔ)言理解功能有效性的評(píng)估應(yīng)包括但不限于下列內(nèi)容:混淆矩陣:在二分類(lèi)任務(wù)中,混淆矩陣是通過(guò)樣本的采集和模型分類(lèi)器的輸出結(jié)果形成的2×2的矩陣,其中,左上角為真陽(yáng)樣本數(shù)(真實(shí)值為真,模型預(yù)測(cè)值為真,TP),左下角為假陽(yáng)樣本數(shù)(真實(shí)值為假,模型預(yù)測(cè)值為真,F(xiàn)P,統(tǒng)計(jì)學(xué)上的第二類(lèi)錯(cuò)誤),右上角為假陰樣本數(shù)(真實(shí)值為真,模型預(yù)測(cè)值為假,F(xiàn)N,統(tǒng)計(jì)學(xué)上的第一類(lèi)錯(cuò)誤),右下角為真陰樣本數(shù)(真實(shí)值為假,模型預(yù)測(cè)值為假,TN),如表A.1。表A.1二分類(lèi)混淆矩陣真實(shí)值預(yù)測(cè)值PositiveNegativePositive真陽(yáng)TP假陰FNNegative假陽(yáng)FP真陰TN在多分類(lèi)任務(wù)中,混淆矩陣的每一列代表了預(yù)測(cè)類(lèi)別,每一列的總數(shù)表示預(yù)測(cè)為該類(lèi)別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)歸屬類(lèi)別,每一行的數(shù)據(jù)總數(shù)表示該類(lèi)別的數(shù)據(jù)實(shí)例的數(shù)目。第i行第j列的數(shù)值表示第i類(lèi)數(shù)據(jù)被預(yù)測(cè)為第j類(lèi)的數(shù)目。準(zhǔn)確率:對(duì)于給定的數(shù)據(jù)集,正確分類(lèi)的樣本數(shù)占全部樣本數(shù)的比率。 準(zhǔn)確率=TP+TNTP+FP+TN+FN×100% (精確率:對(duì)于給定的數(shù)據(jù)集,被預(yù)測(cè)為正樣本的集合中正樣本的比率。 精確率=TPTP+FP×100% (召回率:對(duì)于給定的數(shù)據(jù)集,被正確預(yù)測(cè)的正樣本占全部正樣本的比率 召回率=TPTP+FN×100% (真陰率:對(duì)于給定的數(shù)據(jù)集,預(yù)測(cè)正確的負(fù)例樣本占所有實(shí)際為負(fù)例樣本的比率。 真陰率=TNTN+FP×100% 錯(cuò)誤接受率:對(duì)于給定的數(shù)據(jù)集,預(yù)測(cè)錯(cuò)誤的負(fù)例樣本占所有實(shí)際為負(fù)例樣本的比率。 錯(cuò)誤接受率=FPFP+TN×100% (錯(cuò)誤拒絕率:對(duì)于給定的數(shù)據(jù)集,預(yù)測(cè)錯(cuò)誤的正例樣本占所有實(shí)際為正例樣本的比率。 錯(cuò)誤拒絕率=FNTP+FN×100% (F1測(cè)度:精確率和召回率的調(diào)和平均值。 F1測(cè)度=2×精度×召回率精度多分類(lèi)任務(wù)下的指標(biāo)計(jì)算:在n分類(lèi)任務(wù)中,根據(jù)表2的多分類(lèi)混淆矩陣得到了所有種類(lèi)的預(yù)測(cè)值分布情況,并基于這些數(shù)據(jù)計(jì)算多分類(lèi)任務(wù)的準(zhǔn)確率、精確率、召回率、F1測(cè)度等指標(biāo),在此基礎(chǔ)上,進(jìn)一步采用宏平均和微平均來(lái)評(píng)價(jià)整個(gè)多分類(lèi)任務(wù)的功能有效性。 宏平均:對(duì)每一個(gè)類(lèi)別分別計(jì)算統(tǒng)計(jì)指標(biāo)值,即把每個(gè)類(lèi)別視作二分類(lèi)情況進(jìn)行統(tǒng)計(jì),然后再對(duì)所有類(lèi)的結(jié)果取算術(shù)平均值。如: 宏準(zhǔn)確率=1ni=1n 微平均:把所有類(lèi)別的真陽(yáng)、真陰、假陽(yáng)、假陰類(lèi)相加,計(jì)算類(lèi)別預(yù)測(cè)的統(tǒng)計(jì)指標(biāo)。如: 微準(zhǔn)確率=TP+TNTP+FP+ROC曲線(xiàn):ROC的橫軸是假正率,代表所有負(fù)樣本中錯(cuò)誤預(yù)測(cè)為正樣本的概率。ROC的縱軸是召回率,代表所有正樣本中預(yù)測(cè)正確的概率。每次選取一個(gè)不同的正負(fù)判定閾值,就可以得到一組假正率和召回率,即ROC曲線(xiàn)上的一點(diǎn)。將正負(fù)判定閾值從0到1取不同的值時(shí),可以得到一系列(假陽(yáng)率,召回率)點(diǎn)。將這些點(diǎn)連接起來(lái),就得到了ROC曲線(xiàn)。ROC曲線(xiàn)的對(duì)角線(xiàn)坐標(biāo)對(duì)應(yīng)于隨機(jī)猜測(cè),而坐標(biāo)點(diǎn)(0,1)也即是左上角坐標(biāo)對(duì)應(yīng)理想模型。曲線(xiàn)越接近左上角代表模型的效果越好。ROC曲線(xiàn)如圖A.1所示:圖A.1ROC曲線(xiàn)AUC:即為ROC曲線(xiàn)下的面積,AUC越接近于1,分類(lèi)性能越好。A.2自然語(yǔ)言生成功能有效性評(píng)估指標(biāo)計(jì)算方法自然語(yǔ)言生成功能有效性的評(píng)估應(yīng)包括但不限于下列內(nèi)容:BLEU-N:假定人工給出的譯文為reference,機(jī)器翻譯給出的譯文為candidate,c表示candidate中的單個(gè)句子,N-gram指包含N個(gè)連續(xù)單詞的短句,N一般取1至4,Count(n-gram)表示c中n-gram的個(gè)數(shù),Countclip(N-gram)表示c的某個(gè)N-gram在reference中的截?cái)嘤?jì)數(shù),即如果candidate中有多個(gè)相同的N-gram,只計(jì)算一次Countclip(N-gram)。 BLEU-N=c∈candidatesn-gram∈cCount編輯距離:定義leva,b(i,j) leva,b(i,j)=max(i,j)ifmin(i,j)=0minleva,bmAP:用C表示機(jī)器輸出的答案集,A表示正確答案集,U表示所有測(cè)試用例,k表示每個(gè)案例生成的答案集中的第k個(gè)被檢索出的答案句子,m表示案例的正確答案的句子數(shù),n表示被檢索出的句子數(shù)(答案集的大小),P(k)表示答案句的真實(shí)排名/模型給出的排名,rel(k)表示給出的排序k的句子是不是真實(shí)的答案句。 AveP(C,A)=k=1n(P(k)?rel(k))min(m,n) mAP=u∈UAvePuU MRR:用Q表示評(píng)估集的問(wèn)題總數(shù),ranki表示對(duì)于第i個(gè)問(wèn)題預(yù)測(cè)的答案集Ci中,第一個(gè)正確答案的序號(hào),若其中不包含正確答案,則1ranki MRR=1Qi=1Q1ROUGE-N:假定人工給出的摘要為reference,機(jī)器給出的摘要為candidate,S表示reference中的句子,N-gram指包含n個(gè)連續(xù)單詞的短句,Countmatch(N-gram)表示n-gram同時(shí)在S與candidate中出現(xiàn)的次數(shù),Count(N-gram)表示S中N-gram的總數(shù),ROGUE-N的計(jì)算與BLEU ROUGE-N=S∈referencen-gram∈SCountmatchROUGE-L:參考摘要和機(jī)器摘要分別簡(jiǎn)記為S與C,LCS(C,S)表示C與S的最長(zhǎng)公共子序列,β為一個(gè)較大的參數(shù)。 RLCS=LCS(C,S)len(S) ( PLCS=LCS(C,S)len(C) ( ROUGE-N=(1+β2)EM:與基本事實(shí)答案精確匹配的百分比,用T表示與答案精確匹配的預(yù)測(cè)數(shù)量,N表示測(cè)試用例總數(shù)。 EM=TN×100% (JSA:對(duì)話(huà)狀態(tài)中的(domain,slot,value)的準(zhǔn)確率。 JSA=cN×100% (式中:c——(domain,slot,value)均正確的樣本個(gè)數(shù);N——總樣本數(shù)。DialogueactF1:對(duì)話(huà)狀態(tài)中的(communicativefunction,slot-valuepair)的F1測(cè)度。 DialogueactF1=2×式中:DP——(communicativefunction,slot-valuepair)的精確率;DR——(communicativefunction,slot-valuepair)的召回率。TFR:對(duì)話(huà)系統(tǒng)在N次測(cè)試中完成任務(wù)的次數(shù)比率。 TFR=cN×100%c——完成任務(wù)的次數(shù);N——總樣本數(shù)。

(資料性)

數(shù)據(jù)集THUCNews(話(huà)題分類(lèi),中文)來(lái)源:/數(shù)據(jù)量:訓(xùn)練集(500,010),開(kāi)發(fā)集(50,010),測(cè)試集(10,000)注:使用了清華大學(xué)THUCTC。示例:{Label:體育Sentence:黃蜂vs湖人首發(fā):科比帶傷戰(zhàn)保羅加索爾救贖之戰(zhàn)新浪體育訊北京時(shí)間4月27日,NBA季后賽首輪洛杉磯湖人主場(chǎng)迎戰(zhàn)新奧爾良黃蜂,此前的比賽中,雙方戰(zhàn)成2-2平,因此本場(chǎng)比賽對(duì)于兩支球隊(duì)來(lái)說(shuō)都非常重要,賽前雙方也公布了首發(fā)陣容:湖人隊(duì):費(fèi)舍爾、科比、阿泰斯特、加索爾、拜納姆黃蜂隊(duì):保羅、貝里內(nèi)利、阿里扎、蘭德里、奧卡福[新浪NBA官方微博][新浪NBA湖人新聞動(dòng)態(tài)微博][新浪NBA專(zhuān)題][黃蜂vs湖人圖文直播室](新浪體育)}RAFT(話(huà)題分類(lèi),英文)來(lái)源:https://huggingface.co/datasets/ought/raft數(shù)據(jù)量:訓(xùn)練集(550),測(cè)試集(28,712)示例:{Sentence:Noregionalsideeffectswerenoted."ID:0Label:2(notADE-related)}ChnSentiCorp(情感分析,中文)來(lái)源:/open-access/chnsenticorp數(shù)據(jù)量:積極(3,000),消極(3,000)注1:該數(shù)據(jù)集未對(duì)訓(xùn)練/驗(yàn)證/測(cè)試集作分割,建議在模型未采用其訓(xùn)練的情況下全部將其作為測(cè)試集。注2:該數(shù)據(jù)集包含多個(gè)子集,此處數(shù)據(jù)量為其包含6000條數(shù)據(jù)的子集。示例:{Sentence:房間每天都有免費(fèi)水果贈(zèng)送,這一點(diǎn)比較好.還有好多書(shū)籍和攝影著作擺在房間里,據(jù)說(shuō)都是合慶董事長(zhǎng)自己編寫(xiě)拍攝的,太有才了.Label:pos}SST-2(情感分析,英文)來(lái)源:/sentiment/index.html數(shù)據(jù)量:訓(xùn)練集(67,349),開(kāi)發(fā)集(872),測(cè)試集(1,819)示例:{Sentence:wanttowatchifyouonlyhadaweektolive.Label:1}Chinese_Literature-NER-RE-Dataset(關(guān)系抽取,中文)來(lái)源:/lancopku/Chinese-Literature-NER-RE-Dataset數(shù)據(jù)量:訓(xùn)練集(695),驗(yàn)證集(58),測(cè)試集(84)注1:一條數(shù)據(jù)指一個(gè)文件中的全部文本,其中包含多個(gè)關(guān)系抽取標(biāo)注。注2:該數(shù)據(jù)集包含命名實(shí)體識(shí)別與關(guān)系抽取任務(wù),此處僅關(guān)注關(guān)系抽取部分。示例:{浪漫的涪江水,水的溫柔,水的明凈,水的亮麗,是在水的流淌之中實(shí)現(xiàn)的。涪江水滋潤(rùn)造就了兩岸的形態(tài),茂密的森林,肥沃的田園、土地,這都是你編制的。T8Location-Nominal4245兩岸的T9Thing-Nominal4863茂密的森林,肥沃的田園、土地R1LocatedArg1:T9Arg2:T8}DocRED(關(guān)系抽取,英文)來(lái)源:/thunlp/DocRED/tree/master/data數(shù)據(jù)量:訓(xùn)練集(104,926),驗(yàn)證集(1,000),測(cè)試集(1,000)示例:{Sentence:[1]DwightTilleryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio....[3]HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.[4]TilleryservedasmayorofCincinnatifrom1991to1993.Head:DwightTilleryTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:1,3}Title2Event(事件抽取,中文)來(lái)源:https://open-event-hub.github.io/title2event/數(shù)據(jù)量:訓(xùn)練集(34,295),驗(yàn)證集(4,286),測(cè)試集(4,288)示例:{title:新華社推出微視頻《永遠(yuǎn)的牽掛》event_trigger:推出event_triple:(新華社,推出,《永遠(yuǎn)的牽掛》)}WeiboNER(命名實(shí)體識(shí)別,中文)來(lái)源:/hltcoe/golden-horse數(shù)據(jù)量:訓(xùn)練集(1,350)驗(yàn)證集(270)測(cè)試集(270)示例:{Sentence:["普0","羅1","旺2","斯3","的0","薰0","衣1","草2"]Ner_tage:[0,8,8,8,16,16,16,16]}CoNLL2003SharedTask(命名實(shí)體識(shí)別,英文)來(lái)源:https://www.clips.uantwerpen.be/conll2003/ner/數(shù)據(jù)量:訓(xùn)練集(14,987)驗(yàn)證集(3,466)測(cè)試集(3,684)注:該數(shù)據(jù)集包含英語(yǔ)和德語(yǔ),此處僅關(guān)注英語(yǔ)部分。示例:{Sentence:["Almost","all","German","car","manufacturers","posted","gains","in","registration","numbers","in","the","period","."]Ner_tags:[0,0,7,0,0,0,0,0,0,0,0,0,0,0]}C3(閱讀理解,中文)來(lái)源:/pdf/1904.09679.pdf數(shù)據(jù)量:訓(xùn)練集(8,023),開(kāi)發(fā)集(2,674),測(cè)試集(2,672)示例:{context:略question:第2段中,“黑壓壓一片”指的是:choice:[A.教室很暗B.聽(tīng)課的人多C.房間里很吵D.學(xué)生們發(fā)言很積極]answer:B}RACE(閱讀理解,英文)來(lái)源:/pdf/1704.04683.pdf數(shù)據(jù)量:訓(xùn)練集(25,137),開(kāi)發(fā)集(1,389),測(cè)試集(1,407)示例:{passage:略questions:[1):Thefirstpostagestampwasmade_.A.inEnglandB.inAmericaC.byAliceD.in1910]answer:A}TheMultitargetTEDTalksTask(機(jī)器翻譯)來(lái)源:/~kevinduh/a/multitarget-tedtalks/數(shù)據(jù)量:訓(xùn)練集(170,341),驗(yàn)證集(1,958),測(cè)試集(1,982)注1:使用該數(shù)據(jù)集需要遵守BY-NC-ND協(xié)議,即承認(rèn)TED的作者身份、非商業(yè)用途、不利用原始內(nèi)容制作衍生作品。注2:該數(shù)據(jù)集包含多語(yǔ)種翻譯,此處僅關(guān)注中英翻譯部分。示例:{zh:我們將用一些影片來(lái)講述一些深海里的故事。en:Andwe'regoingtotellyousomestoriesfromtheseahereinvideo.}LCSTS(自動(dòng)摘要,中文)來(lái)源:/Article/show/139.html數(shù)據(jù)量:摘要訓(xùn)練集(2,400,591),人類(lèi)評(píng)分訓(xùn)練集(10,666),測(cè)試集(1,106)示例:{text:居住證管理辦法昨起公開(kāi)征求意見(jiàn),明確持有人可與當(dāng)?shù)貞?hù)籍人口享有同等的免費(fèi)接受義務(wù)教育等多項(xiàng)權(quán)利,并可逐步享受住房保障、養(yǎng)老服務(wù)、社會(huì)福利、社會(huì)救助、隨遷子女在當(dāng)?shù)貐⒓又懈呖嫉葯?quán)利。summary:以后持居住證有望享有這些權(quán)利!}CNN/DailyMail(自動(dòng)摘要,英文)來(lái)源:/K16-1028/數(shù)據(jù)量:訓(xùn)練集(287,227),驗(yàn)證集(13,368),測(cè)試集(11,490)示例:{Source:followingaretheleadingscorersintheenglishpremierleagueaftersaturday'smatches:##-alanshearer-lrbnewcastleunited-rrb-,jamesbeattie.Target:leadingscorersinenglishpremierleague}CMRC2018(機(jī)器問(wèn)答,中文)來(lái)源:/pdf/1810.07366.pdf數(shù)據(jù)量:訓(xùn)練集(10,321),驗(yàn)證集(3,351),測(cè)試集(4,895)示例:{context:略question:《戰(zhàn)國(guó)無(wú)雙3》是由哪兩個(gè)公司合作開(kāi)發(fā)的?text:["光榮和ω-force","光榮和ω-force"]}TruthfulQA(機(jī)器問(wèn)答,英文)來(lái)源:/pdf/2109.07958.pdf數(shù)據(jù)量:未分割(817)注:該數(shù)據(jù)集未對(duì)訓(xùn)練/驗(yàn)證/測(cè)試集作分割,建議在模型未采用其訓(xùn)練的情況下全部將其作為測(cè)試集,如果訓(xùn)練數(shù)據(jù)包含該數(shù)據(jù)集,則需采用其他數(shù)據(jù)集測(cè)試示例:{question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman'sbrainisalmostalwaysactive}CivilComments(毒性檢測(cè),英文)來(lái)源:/pdf/1903.04561數(shù)據(jù)量:訓(xùn)練集(1,804,874),驗(yàn)證集(97,320),測(cè)試集(97,320)示例:{text:Wow,thatsoundsgreat. toxicity:0severetoxicity:0obscene:0threat:0insult:0identityattack:0sexualexplicit:0}

(資料性)

自然語(yǔ)言處理系統(tǒng)評(píng)價(jià)規(guī)范針對(duì)第6章給出的部分無(wú)法直接量化的測(cè)評(píng)指標(biāo),本附錄給出測(cè)評(píng)參考表,對(duì)自然語(yǔ)言處理系統(tǒng)的部分能力提供分級(jí)依據(jù)。表C.1自然語(yǔ)言處理系統(tǒng)的風(fēng)險(xiǎn)等級(jí)評(píng)估表等級(jí)評(píng)估依據(jù)高風(fēng)險(xiǎn)基于應(yīng)用場(chǎng)景所選的運(yùn)行條件、機(jī)密性、隱私性、輸入防御、倫理符合性等安全性要素風(fēng)險(xiǎn)程度評(píng)估得分(1-5)與其單項(xiàng)加權(quán)系數(shù),綜合分?jǐn)?shù)R(25-30)中風(fēng)險(xiǎn)基于應(yīng)用場(chǎng)景所選的運(yùn)行條件、機(jī)密性、隱私性、輸入防御、倫理符合性等安全性要風(fēng)險(xiǎn)程度評(píng)估得分(1-5)與其單項(xiàng)加權(quán)系數(shù),綜合分?jǐn)?shù)R(15-25)低風(fēng)險(xiǎn)基于應(yīng)用場(chǎng)景所選的運(yùn)行條件、機(jī)密性、隱私性、輸入防御、倫理符合性等安全性要風(fēng)險(xiǎn)程度評(píng)估得分(1-5)與其單項(xiàng)加權(quán)系數(shù),綜合分?jǐn)?shù)R(5-15)注1:R=R=αM+βD+γF+δG+εW,式中:M、D、F、G、W表示單項(xiàng)風(fēng)險(xiǎn)得分;α、β、γ、δ、ε是各項(xiàng)加權(quán)系數(shù)。注2:根據(jù)實(shí)際系統(tǒng)應(yīng)用業(yè)務(wù)評(píng)估賦值加權(quán)系數(shù)。表C.2自然語(yǔ)言處理系統(tǒng)的語(yǔ)言理解能力評(píng)估表等級(jí)評(píng)估依據(jù)三級(jí)對(duì)于所選語(yǔ)言理解能力測(cè)試項(xiàng)的平均通過(guò)率P≥80%二級(jí)80%>對(duì)于所選語(yǔ)言理解能力測(cè)試項(xiàng)的平均通過(guò)率P≥50%一級(jí)50%>對(duì)于所選語(yǔ)言理解能力測(cè)試項(xiàng)的平均通過(guò)率P注:P=c/N,式中:N表示語(yǔ)言理解能力測(cè)試項(xiàng)數(shù)量,c表示通過(guò)測(cè)試的測(cè)試項(xiàng)數(shù)。表C.3自然語(yǔ)言處理系統(tǒng)的語(yǔ)義表達(dá)能力評(píng)估表等級(jí)輸出形式上下文相關(guān)性基于字/詞多語(yǔ)言三級(jí)矢量上下文相關(guān)基于詞支持三種及以上二級(jí)標(biāo)量上下文相關(guān)基于字支持兩種及以上一級(jí)標(biāo)量上下文無(wú)關(guān)基于字不支持表C.4自然語(yǔ)言處理系統(tǒng)的兼容性評(píng)估表等級(jí)文本格式兼容性系統(tǒng)兼容性軟件兼容性字符編碼兼容性三級(jí)接受非結(jié)構(gòu)化格式兼容兩種或以上計(jì)算機(jī)系統(tǒng)未發(fā)現(xiàn)不兼容軟件兼容字符編碼種類(lèi)>10二級(jí)接受半結(jié)構(gòu)化格式兼容兩種或以上計(jì)算機(jī)系統(tǒng)不兼容軟件數(shù)<3兼容字符編碼種類(lèi)>5一級(jí)接受固定結(jié)構(gòu)化格式不兼容不同計(jì)算機(jī)系統(tǒng)不兼容軟件數(shù)<10只支持一種字符編碼參考文獻(xiàn)[1]T/CESA1036-2019信息技術(shù)人工智能機(jī)器學(xué)習(xí)模型及系統(tǒng)的質(zhì)量要素和測(cè)試方法.[2]張奇,桂韜,黃萱菁.自然語(yǔ)言處理導(dǎo)論[M].電子工業(yè)出版社,2023.[3]趙海.自然語(yǔ)言理解[M].清華大學(xué)出版社,2023.[4]CHEW,DOUZ,FENGY,etal.大模型時(shí)代的自然語(yǔ)言處理:挑戰(zhàn)、機(jī)遇與發(fā)展[J].2023.[5]RibeiroMT,WuT,GuestrinC,etal.Beyondaccuracy:BehavioraltestingofNLPmodelswithCheckList[J].arXivpreprintarXiv:2005.04118,2020.[6]WangA,SinghA,MichaelJ,etal.GLUE:Amulti-taskbenchmarkandanalysisplatformfornaturallanguageunderstanding[J].arXivpreprintarXiv:1804.07461,2018.[7]QiuX,SunT,XuY,etal.Pre-trainedModelsforNaturalLanguageProcessing:ASurvey[J].中國(guó)科學(xué):技術(shù)科學(xué)英文版,2020,63(10):26.[8]周志華.《機(jī)器學(xué)習(xí)》[J].2018(2):1.DOI:CNKI:SUN:HKGZ.0.2018-02-030.[9]XuL,HuH,ZhangX,etal.CLUE:AChineselanguageunderstandingevaluationbenchmark[J].arXivpreprintarXiv:2004.05986,2020.[10]HuangY,BaiY,ZhuZ,etal.C-eval:Amulti-levelmulti-disciplinechineseevaluationsuiteforfoundationmodels[J].arXivpreprintarXiv:2305.08322,2023.[11]ZhuQ,HuangK,ZhangZ,etal.Crosswoz:Alarge-scalechinesecross-domaintask-orienteddialoguedataset[J].TransactionsoftheAssociationforComputationalLinguistics,2020,8:281-295.[12]孫茂松,李景陽(yáng),郭志芃,趙宇,鄭亞斌,司憲策,劉知遠(yuǎn).THUCTC:一個(gè)高效的中文文本分類(lèi)工具包[R].2016.[13]AlexN,LiflandE,TunstallL,etal.RAFT:AReal-WorldFew-ShotTextClassificationBenchmark[J].arXiv:ComputationandLanguage,2021.[14]SongboTan.ChnSentiCorp[R].IEEEDataport,2020.[15]XuJ,WenJ,SunX,etal.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論