探索人工智能和自主系統(tǒng)的合成數(shù)據(jù)入門指南_第1頁
探索人工智能和自主系統(tǒng)的合成數(shù)據(jù)入門指南_第2頁
探索人工智能和自主系統(tǒng)的合成數(shù)據(jù)入門指南_第3頁
探索人工智能和自主系統(tǒng)的合成數(shù)據(jù)入門指南_第4頁
探索人工智能和自主系統(tǒng)的合成數(shù)據(jù)入門指南_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

i裁研所核心資助者的支持為裁研所的所有活動(dòng)奠定了基礎(chǔ)。本所安全與技術(shù)計(jì)劃的一部分,該計(jì)劃得到了捷克、法國(guó)、德國(guó)、士和聯(lián)合王國(guó)政府以及微軟公司的支持。作者感謝GiacomoPersiPaoli博士和IoanaPuscas博士為本文提供的建議和幫助,感謝TimW關(guān)于裁研所聯(lián)合國(guó)裁軍研究所(裁研所)是聯(lián)合國(guó)內(nèi)部一個(gè)由自愿捐款供界上為數(shù)不多專注于裁軍的政策研究所之一的對(duì)話和行動(dòng)。裁研所總部設(shè)在日內(nèi)瓦,協(xié)助國(guó)際社會(huì)提出切實(shí)可H.Deng,《探索人工智能和自主系統(tǒng)的合成:入門指南》,瑞士日內(nèi)瓦:裁研所,本出版物所使用的名稱和材料的編排方式并不意味著聯(lián)合國(guó)秘市或地區(qū)或其當(dāng)局的法律地位,或?qū)ζ溥吔缁蚪缇€的劃分表示任?裁研所20231關(guān)于安全與技術(shù)方案 2關(guān)于作者 2縮寫與縮略語 3內(nèi)容提要 4導(dǎo)言 51.了解合成數(shù)據(jù) 6 6 71.2.1專題1——數(shù)據(jù)管理 71.2.2專題2——數(shù)據(jù)質(zhì)量 8 9 9 2.合成數(shù)據(jù)與國(guó)際安全 13 15 17結(jié)論 20參考文獻(xiàn) 202關(guān)于安全與技術(shù)方案關(guān)于作者HarryDeng是裁研所安全與技術(shù)方案的顧問,他的工作重點(diǎn)是新興技術(shù)對(duì)國(guó)際安全的影響。他持有滑鐵盧大學(xué)全球治理碩士學(xué)位,目3縮寫與縮略語VAE4近年來,人工智能(AI)和機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)步為增強(qiáng)人類能力和改善各種自主系統(tǒng)的功能,包括在國(guó)際安全領(lǐng)域,帶來了前所未有的機(jī)會(huì)。然而,在防衛(wèi)領(lǐng)域,用于訓(xùn)練日益復(fù)雜的人工智能系統(tǒng)的高質(zhì)量、高度多樣化和相關(guān)真實(shí)世界的數(shù)據(jù)集卻十分稀缺。因此,合成數(shù)據(jù)正逐漸成為開發(fā)和訓(xùn)練人工智能系統(tǒng)的數(shù)據(jù)工具箱中必不可少的工具。合成數(shù)據(jù)的特點(diǎn)和潛在優(yōu)勢(shì),以及該技術(shù)在各個(gè)領(lǐng)域的成熟應(yīng)用,使其成為圍繞在國(guó)際安全背景下使用人工智能展開辯論的一個(gè)重要話本文簡(jiǎn)要概述了合成數(shù)據(jù),包括其特征、生成方式、附加值、風(fēng)險(xiǎn)以及其在防衛(wèi)組織和軍事行動(dòng)中的潛在用例。此外,本文還概述了現(xiàn)有數(shù)據(jù)面臨的挑戰(zhàn)和限制,這些挑戰(zhàn)和限制促使合成數(shù)據(jù)迄今為止,合成數(shù)據(jù)在國(guó)際安全領(lǐng)域的使用大多停留在實(shí)驗(yàn)和探索階段。然而,合成數(shù)據(jù)的特點(diǎn)可能會(huì)對(duì)人工智能系統(tǒng)的訓(xùn)練產(chǎn)生有利影響。特別是,合成數(shù)據(jù)可以生成高度多樣化甚至新穎的數(shù)據(jù)集,對(duì)數(shù)據(jù)屬性進(jìn)行精細(xì)控制,在必要時(shí)自動(dòng)注釋或標(biāo)注數(shù)據(jù),并具有成本效益。本文探討了合成數(shù)據(jù)的主要特點(diǎn)如何使軍方和防衛(wèi)組織受益,使其能夠在防御和進(jìn)攻型自主系統(tǒng)中集成更雖然合成數(shù)據(jù)有利于訓(xùn)練人工智能系統(tǒng),并有助于緩解軍方和防衛(wèi)組織面臨的一些數(shù)據(jù)問題,但它并非靈丹妙藥,也伴隨著風(fēng)險(xiǎn)和挑戰(zhàn)。使用合成數(shù)據(jù)所帶來的益處將取決于各組織駕馭這些風(fēng)險(xiǎn)的能力,取決于其是否能以負(fù)責(zé)任和安全的方式,并按照法律要求和道德價(jià)值觀使用通過合成5人工智能(AI)以及支持其使用的機(jī)器學(xué)習(xí)模型的進(jìn)步,使其廣泛應(yīng)用于優(yōu)化性能以應(yīng)對(duì)日益復(fù)雜的任務(wù)和工作環(huán)境。在國(guó)際安全領(lǐng)域,這一點(diǎn)尤為重要,因?yàn)槿斯ぶ悄艿恼蠋砹饲八从械姆?、倫理、安全和安全挑?zhàn)。在國(guó)際安全領(lǐng)域,1人們正在探索將人工智能用作決策支持、行動(dòng)規(guī)劃和情報(bào)分析的工具,人工智能可集成到進(jìn)攻和防御型自主系統(tǒng)中,如目標(biāo)識(shí)別系統(tǒng)、集群機(jī)器人技術(shù)和網(wǎng)絡(luò)行動(dòng)。事實(shí)上,有人認(rèn)為,人工智能的使用在某些任務(wù)中的表現(xiàn)要優(yōu)于傳統(tǒng)方法——例如,在提高防御性網(wǎng)絡(luò)基礎(chǔ)設(shè)施的穩(wěn)健性或加強(qiáng)情報(bào)分析方面2——這意味著各國(guó)除了提高行動(dòng)效率外,還能更好地履行其國(guó)際法律義務(wù),特別是在國(guó)際人與此同時(shí),為人工智能設(shè)想的任務(wù)所產(chǎn)生的下游效應(yīng)意味著,機(jī)器學(xué)習(xí)模型需要日益多樣化和高速的優(yōu)質(zhì)數(shù)據(jù),通常是優(yōu)質(zhì)的標(biāo)記數(shù)據(jù)。如果沒有所需的多樣化的大量?jī)?yōu)質(zhì)數(shù)據(jù)來訓(xùn)練復(fù)雜的人工智能系統(tǒng),這些系統(tǒng)可能會(huì)出現(xiàn)更多故障,包括意外傷害。標(biāo)記數(shù)據(jù)會(huì)明確告知機(jī)器學(xué)習(xí)模型數(shù)據(jù)的含義,而不是讓模型自己去理解數(shù)據(jù)的含義,這樣可能會(huì)出錯(cuò)。然而,優(yōu)質(zhì)的真實(shí)世界數(shù)據(jù)非常稀缺,再加上敏感數(shù)據(jù)相關(guān)的隱私、法律、監(jiān)管和成本挑戰(zhàn),使其通常不適合用于訓(xùn)練日益復(fù)雜的人工智能系統(tǒng),3尤其是在國(guó)際安全領(lǐng)域。正是由于優(yōu)質(zhì)的真實(shí)世界數(shù)據(jù)的稀缺,合成數(shù)據(jù)逐漸成為開發(fā)、改進(jìn)和訓(xùn)練日益復(fù)雜的人工智能系統(tǒng)的重要工具,特別是在沒有數(shù)據(jù)的領(lǐng)域提供數(shù)據(jù),抵消各種形式的偏差,以及在必要時(shí)自動(dòng)標(biāo)記數(shù)據(jù)等等。4然而,在聯(lián)合國(guó)相關(guān)安全進(jìn)程中,如致命自主武器系統(tǒng)領(lǐng)域新興技術(shù)問題政府專家組(GGEonLAWS)或信息和通信技術(shù)安全和使用安全不限成員名額工作組(OEWGonICT),仍未探討在自主系統(tǒng)中使用合成數(shù)據(jù)的影響。事實(shí)上,與合成數(shù)據(jù)相關(guān)的附加值和風(fēng)險(xiǎn)與這些討論以及圍繞在國(guó)際安全領(lǐng)域使用人工智能的其他辯論息息相關(guān)。例如,參與致命自主武器系統(tǒng)領(lǐng)域新興技術(shù)問題政府專家組辯論的一些方面擔(dān)心,由于缺乏對(duì)武器系統(tǒng)進(jìn)行適當(dāng)培訓(xùn)的培訓(xùn)數(shù)據(jù),此類系統(tǒng)自主性的提高可能會(huì)導(dǎo)致意外傷害的增加。5此外,信息和通信技術(shù)安全和使用安全不限成員名額工作組的與會(huì)者還討論了這樣一種可能性,即人工智能支持的網(wǎng)絡(luò)攻擊可以自主適應(yīng)防御性網(wǎng)絡(luò)/articles/ai-and-the-future-of-deterrence-promises-and-pitfalls/。見國(guó)防創(chuàng)新委員會(huì),“人工智能原則”,國(guó)防創(chuàng)新委員會(huì),2019年,https://media1/0/DIB_AI_PRINCIPLES_PRIMARY_D空間網(wǎng)絡(luò)和處理技術(shù)調(diào)查”,2020年7月,/media/adv日,/ConvenGroup_of_Governmental_Experts_on_Lethal_Autonomous_Weapons_Systems_(2023)/CCW_GGE1_2023_WP.3_REv.1_0.pdf月3日,https://docs-library.unGroup_of_Governmental_Experts_on_Lethal_Autonomous_Weapons_Systems_(2023)/CCW_GGE1_2023_WP.2_Rev.1.pdf。6措施,使其更難被發(fā)現(xiàn)和防范。6可以肯定的是,可以通過生成和使用合成數(shù)據(jù)來實(shí)現(xiàn)和增強(qiáng)人工智能支持的網(wǎng)絡(luò)攻擊。因此,至關(guān)重要的是,在自主系統(tǒng)中使用合成數(shù)據(jù)不會(huì)減損對(duì)國(guó)際法或負(fù)責(zé)任的人工智能的任何承諾,7即與數(shù)據(jù)質(zhì)量、安全性、公正性以及人類監(jiān)督、判斷或控制有關(guān)的因此,本入門指南旨在為參與國(guó)際安全討論的政策制定者和外交官提供有關(guān)合成數(shù)據(jù)的介紹性概述,包括其主要特點(diǎn)、附加值、風(fēng)險(xiǎn)以及在國(guó)際安全領(lǐng)域的重要性,特別是作為自主性的促進(jìn)因素。本入門指南進(jìn)一步試圖說明合成數(shù)據(jù)日益增長(zhǎng)的重要性,以及在國(guó)際安全領(lǐng)域中數(shù)據(jù)使用和治理范式的演變。為此,本入門指南闡明和描繪了合成數(shù)據(jù)的特殊性,然后將其與現(xiàn)有的數(shù)據(jù)挑?真實(shí)世界數(shù)據(jù)指來自真實(shí)世界的數(shù)據(jù)和輸入,與其不同的是,合成數(shù)據(jù)是在數(shù)字世界中?合成數(shù)據(jù)的目的是提高訓(xùn)練數(shù)據(jù)集的質(zhì)量和實(shí)用性。至關(guān)重要的是,訓(xùn)練自主系統(tǒng)所用?防衛(wèi)組織目前在數(shù)據(jù)管理方面面臨著無數(shù)挑戰(zhàn),從而限制了用于訓(xùn)練日益復(fù)雜的人工智?雖然合成數(shù)據(jù)可能不是解決防衛(wèi)組織內(nèi)現(xiàn)有數(shù)據(jù)挑戰(zhàn)的靈丹妙藥,但可以提供一種提高合成數(shù)據(jù)是在數(shù)字世界中人工生成的數(shù)據(jù),其屬性通常來自于“原始”數(shù)據(jù)集。這與真實(shí)世界數(shù)據(jù)截然不同,顧名思義,后者是從真實(shí)世界的事件和輸入中收集的數(shù)據(jù)?!霸肌睌?shù)據(jù)集通常指真實(shí)世界的數(shù)據(jù)和信息,但也可以是人工數(shù)據(jù)本身。雖然生成合成數(shù)據(jù)集的方法多種多樣(本文第2.3節(jié)詳述),但目標(biāo)往往是重現(xiàn)原始數(shù)據(jù)集的特征和結(jié)構(gòu),而大多數(shù)方法都依賴于從原始數(shù)據(jù)中提取和復(fù)制屬性。9這意味著,在進(jìn)行相同的統(tǒng)計(jì)分析時(shí),合成生成的數(shù)據(jù)和原始數(shù)據(jù)的結(jié)果即6見HodaAlkhzaimi教授,“紐約大學(xué)/紐約大學(xué)阿布扎比新興研究與安全中心對(duì)第五屆實(shí)質(zhì)性會(huì)議的供稿”,非政府組織工作文件,2023年7月28日,/Open-Ended_Working_Group_on_Information_and_Communication_Technologies_-_(2021)/Stakeholder_Recommendation_for_Open-ended_workinggroup_on_security_APR.pdf。7“負(fù)責(zé)任的人工智能”指的是一種廣泛的方法,旨在確保人工智能系統(tǒng)在開發(fā)和使用過程中是合乎法律和道德、安全、可靠且負(fù)責(zé)任的。見AlishaAnand和HarryDeng,“探索防衛(wèi)工作中負(fù)責(zé)任的人工智能:各國(guó)人工智能原則的梳理與比較分析”,裁研所,2023年2月13日,/publication/towards-responsible-ai-defence-mapping-and-comparative-analysis-ai-principles-a/10.12688/f1000research.7297使不完全相同,也應(yīng)該非常相似。10簡(jiǎn)而言之,合成數(shù)據(jù)通常是人為生成的信息,用來代表其希望替代的原始數(shù)據(jù),從而產(chǎn)生等效功能,或者用來補(bǔ)充原始數(shù)據(jù),從而提高訓(xùn)練數(shù)據(jù)集的價(jià)值。不過,也可以通過生成合成數(shù)據(jù)來增強(qiáng)訓(xùn)練數(shù)據(jù)集,這種合成數(shù)據(jù)不會(huì)再現(xiàn)原始數(shù)據(jù)集的特征,但然而,在某些情況下,合成數(shù)據(jù)也可以是不依賴原始數(shù)據(jù)集的人為生成數(shù)據(jù)。根據(jù)現(xiàn)有知識(shí),亦可生成新數(shù)據(jù)。例如,可以根據(jù)現(xiàn)有的物體物理知識(shí),合成不同重量的骰子的運(yùn)動(dòng)表現(xiàn)數(shù)據(jù)。在這些情況下,合成數(shù)據(jù)不是再現(xiàn)原始數(shù)據(jù)集的特征,而是會(huì)產(chǎn)生反映假設(shè)產(chǎn)生該數(shù)據(jù)的系統(tǒng)特征防衛(wèi)組織內(nèi)部的數(shù)據(jù)挑戰(zhàn)不僅是技術(shù)挑戰(zhàn),也是組織挑戰(zhàn)。12這就意味著,防衛(wèi)組織不能簡(jiǎn)單地用技術(shù)解決方案來找到克服自身不足的辦法。相反,要應(yīng)對(duì)防衛(wèi)組織內(nèi)部的數(shù)據(jù)挑戰(zhàn),除了要找到技術(shù)解決方案外,還應(yīng)考慮組織文化、政策和程序的影響。歸根結(jié)底,自主系統(tǒng)的任何使用,特別是在作戰(zhàn)環(huán)境中使用的自主系統(tǒng)或打算攻擊人類目標(biāo)的自主系統(tǒng),都必須承擔(dān)起預(yù)測(cè)和應(yīng)對(duì)數(shù)據(jù)問題的責(zé)任,以避免意外傷害。雖然合成數(shù)據(jù)可能不是緩解所有現(xiàn)有數(shù)據(jù)挑戰(zhàn)的靈丹妙藥,但它可以提供一種提高訓(xùn)練數(shù)據(jù)集質(zhì)量和實(shí)用性的方法,特別是在數(shù)據(jù)問題可能不容易暴露的日10RobertRiemann,“合成數(shù)據(jù)”publications/publications/techsonar/synthetic-data_en/investigation/experiments-in-synthetic-8美國(guó)國(guó)防部指出,數(shù)據(jù)的處理、挖掘和傳播尤其具有挑戰(zhàn)性。在一項(xiàng)研究中,只有29%的現(xiàn)役軍人和文職人員表示,75%以上的數(shù)據(jù)能夠傳遞到適當(dāng)?shù)男袨檎呤种小?3在現(xiàn)役軍人中,這一比例更役人員指出,作戰(zhàn)人員花在尋找正確數(shù)據(jù)上的時(shí)間多于使用數(shù)據(jù)的時(shí)間15——這表明在建立適當(dāng)流程以正確標(biāo)記數(shù)據(jù)、將數(shù)據(jù)存儲(chǔ)在適當(dāng)?shù)臄?shù)據(jù)庫(kù)中以及確保適當(dāng)?shù)脑L問途徑和可用性方面存在不足。這也可能表明,既要保護(hù)敏感或機(jī)密數(shù)據(jù),又要與那些可能從挖掘這些數(shù)據(jù)中獲益的人共事實(shí)上,國(guó)防部人員指出,孤立的數(shù)據(jù)、存在多個(gè)且往往相互排斥的安全域、有限的帶寬和有限的數(shù)據(jù)標(biāo)記,是影響其組織有效收集、傳播和分析數(shù)據(jù)的能力的一些最普遍的挑戰(zhàn)。16在數(shù)據(jù)標(biāo)的系統(tǒng)。17監(jiān)測(cè)和管理傳入數(shù)據(jù)所需的人員數(shù)量以及必要的流程和基礎(chǔ)設(shè)施跟不上日益增長(zhǎng)的數(shù)據(jù)量。缺乏事前或事后的數(shù)據(jù)質(zhì)量控制意味著分析人員被淹沒在數(shù)據(jù)中,而當(dāng)獲得正確的數(shù)據(jù)集澳大利亞2021年國(guó)防數(shù)據(jù)戰(zhàn)略18、聯(lián)合王國(guó)2021年國(guó)防數(shù)據(jù)戰(zhàn)略19、加拿大2021年國(guó)防部數(shù)據(jù)戰(zhàn)略20以及印度尼西亞國(guó)防大學(xué)開展的信息網(wǎng)絡(luò)研究也提到了類似的數(shù)據(jù)管理挑戰(zhàn)。21例如,數(shù)據(jù)可見性方面的挑戰(zhàn)、孤立的數(shù)據(jù)、組織內(nèi)部和組織之間缺乏共同的數(shù)據(jù)標(biāo)準(zhǔn),以及在能力開發(fā)的初數(shù)據(jù)管理不善和數(shù)據(jù)素養(yǎng)偏低造成了第二類問題——數(shù)據(jù)質(zhì)量差。常見的數(shù)據(jù)質(zhì)量問題包括:不完整數(shù)據(jù)、未標(biāo)記數(shù)據(jù)、中毒或欺騙數(shù)據(jù)、不準(zhǔn)確數(shù)據(jù)、數(shù)據(jù)偏差和差異數(shù)據(jù)。雖然數(shù)據(jù)質(zhì)量差18澳大利亞,“2021-2023年國(guó)防數(shù)據(jù)planning/defence-data-strategy-2021-2023#:~:text=The%205%20pillars%20in%20the,capability%20within%20the%20Defence%20w.uk/government/publications/data-strategy-for-defence/data-strategy-for-defence。national-defence/corporate/reports-publications/data-strategy/data-strategy.html。/10.33172/jspd.v8i1.19可能是外部因素造成的,比如惡劣條件(如灰塵、煙霧、振動(dòng)、污染物、偽裝、傳感器磨損等)和敵對(duì)行動(dòng)(如信號(hào)干擾、數(shù)據(jù)投毒、攻擊傳感器、意外戰(zhàn)術(shù)等),但適當(dāng)?shù)臄?shù)據(jù)管理方法可以幫助過濾掉受損數(shù)據(jù),避免在訓(xùn)練數(shù)據(jù)集中產(chǎn)生曲解或偏差,并確保正確的數(shù)據(jù)傳遞到適當(dāng)?shù)臋C(jī)不同的自主系統(tǒng)會(huì)面臨不同類型的數(shù)據(jù)質(zhì)量差的問題。例如,用于防御性網(wǎng)絡(luò)行動(dòng)的自主系統(tǒng)不太可能面臨惡劣條件(如灰塵、煙霧、污染物等)帶來的問題,但很可能面臨欺騙或數(shù)據(jù)投毒等敵對(duì)行動(dòng)。另一方面,在“不可控”的多變量作戰(zhàn)環(huán)境中,無人駕駛車輛可能會(huì)面臨惡劣條件和如果自主系統(tǒng)依賴于訓(xùn)練它們時(shí)使用的數(shù)據(jù)來在環(huán)境中進(jìn)行導(dǎo)航、響應(yīng)和操控,那么訓(xùn)練它們時(shí)使用的數(shù)據(jù)必須具有足夠的質(zhì)量和多樣性。22然而,值得注意的是,并非所有的人工智能系統(tǒng)都依賴于數(shù)據(jù)的訓(xùn)練;也可以使用強(qiáng)化學(xué)習(xí)模型。23強(qiáng)化模型的工作原理是利用獎(jiǎng)勵(lì)函數(shù)來認(rèn)識(shí)所然而,在任何大型真實(shí)世界數(shù)據(jù)集中,都應(yīng)該想象到會(huì)存在一定數(shù)量的劣質(zhì)數(shù)據(jù),尤其是在國(guó)際安全領(lǐng)域,無論是數(shù)字空間還是實(shí)體空間,敵對(duì)環(huán)境都對(duì)收集完整的優(yōu)質(zhì)數(shù)據(jù)構(gòu)成了廣泛的挑戰(zhàn)。24因此,有人提出,合成數(shù)據(jù)可以在減輕收集優(yōu)質(zhì)真實(shí)世界數(shù)據(jù)的某些壓力方面發(fā)揮重要作用, 例如,填補(bǔ)因傳感器故障而缺失的數(shù)據(jù)。25可以利用決策樹或深度學(xué)習(xí)算法等各種技術(shù)來完成生成合成數(shù)據(jù)的過程。作為替代數(shù)據(jù),合成數(shù)如前所述,合成數(shù)據(jù)的生成依賴于提取和復(fù)制原始數(shù)據(jù)集的屬性。提取和復(fù)制原始數(shù)據(jù)集屬性的方法取決于原始數(shù)據(jù)的類型和結(jié)構(gòu)。合成數(shù)據(jù)的生成方法主要有三種:基于規(guī)則的方法(包括預(yù)定義的數(shù)據(jù)結(jié)構(gòu))、基于代理的模型(模擬可能需要數(shù)據(jù)的環(huán)境)和深度學(xué)習(xí)算法(使用基于神26基于規(guī)則的方法相當(dāng)于元數(shù)據(jù)和人機(jī)可讀數(shù)據(jù),這些數(shù)據(jù)由預(yù)定義的數(shù)據(jù)結(jié)構(gòu)(如數(shù)組)組成,提供遵循人類定義的特定規(guī)則的有序列表和對(duì)象。這些規(guī)則的復(fù)雜程度各不相同,既有只考慮列中指定數(shù)據(jù)類型的簡(jiǎn)單規(guī)則,也有定義多個(gè)參數(shù)和變量之間關(guān)系的更復(fù)雜規(guī)則。常見的數(shù)據(jù)格式包括逗號(hào)分隔值(CSV)、JavaScript對(duì)象表示法(JSON)和文檔類型定義(DTD)。基于規(guī)則的方法具有模塊化、成本效益高的特點(diǎn),而且可以支持不同的統(tǒng)計(jì)分布,這對(duì)于訓(xùn)練網(wǎng)絡(luò)行動(dòng)中基于規(guī)則的合成數(shù)據(jù)生成方法已被應(yīng)用于國(guó)際安全以外的其他領(lǐng)域。例如,Kan用JSON結(jié)構(gòu)生成了一個(gè)由空氣質(zhì)量指數(shù)時(shí),該數(shù)據(jù)集的表現(xiàn)優(yōu)于原始的AQI數(shù)據(jù)集。27Kannan得因?yàn)槠洹疤畛洹绷嗽紨?shù)據(jù)集中的不完整數(shù)據(jù)。28然而,使用基于規(guī)則的方法生成合成數(shù)據(jù)集也有局限性。最顯著的挑戰(zhàn)是可擴(kuò)展性、漂移和偏差。29首先,在可擴(kuò)展性方面,合成數(shù)據(jù)集越復(fù)雜,例如,如果合成數(shù)據(jù)集需要成千上萬條相互依存、相互交織的規(guī)則,那么該合成數(shù)據(jù)集的生成就越復(fù)雜、越深?yuàn)W。因此,對(duì)于更為錯(cuò)綜復(fù)雜的關(guān)系網(wǎng)絡(luò)而言,使用基于規(guī)則的方法的實(shí)用性受到了限制。與此相關(guān)的是,數(shù)據(jù)漂移,即數(shù)據(jù)分布隨著時(shí)間的推移而變化,可能會(huì)限制基于規(guī)則的方法的實(shí)用性,尤其是在沒有完善的變更管理來規(guī)范如何改變規(guī)則以適應(yīng)其應(yīng)用的情況下。最后,由于規(guī)則是由人類定義的,開發(fā)人員的偏見會(huì)反映在生成的數(shù)據(jù)中,無論是有意識(shí)的(如商業(yè)邏輯)還是無意識(shí)的(如性別偏見30)。基于代理的建模是一種行之有效的模擬技術(shù),在現(xiàn)實(shí)世界中有著廣泛的應(yīng)用,從解決商業(yè)問題到公共政策評(píng)估?;诖淼慕1举|(zhì)上是一個(gè)描述代理和代理之間關(guān)系的系統(tǒng),目的是得出結(jié)果。這些代理能夠根據(jù)它們之間的相互作用、行為模式和輸入的參數(shù)不斷進(jìn)化,從而出現(xiàn)意想不到的行為。31這使得基于代理的建模尤其適用于捕獲涌現(xiàn)現(xiàn)象——即使是簡(jiǎn)單的基于代理的模型也能 展現(xiàn)出復(fù)雜的模式,并提供有關(guān)真實(shí)世界動(dòng)態(tài)的有價(jià)值信息。32深度學(xué)習(xí)還可被納入基于代理的 26在編程中,數(shù)組是一種數(shù)據(jù)結(jié)構(gòu),由值和/或變量(如數(shù)字、單詞、對(duì)象等)的集合組成,并根28Kannan指出,原始空氣質(zhì)量指數(shù)數(shù)據(jù)集中的數(shù)據(jù)不完整,是因?yàn)槠渲幸粋€(gè)站/10.1073/pnas.08208089深度學(xué)習(xí)算法是一類基于“表征學(xué)習(xí)”的方法,是指自動(dòng)學(xué)習(xí)訓(xùn)練數(shù)據(jù)的特征和統(tǒng)計(jì)分布,并能根據(jù)這些學(xué)習(xí)到的特征和統(tǒng)計(jì)分布生成新數(shù)據(jù)的機(jī)器學(xué)習(xí)技術(shù)。與生成合成數(shù)據(jù)的基于規(guī)則的方法或基于代理的模型不同,深度學(xué)習(xí)算法中人工指導(dǎo)和監(jiān)督可能是最少的,甚至不存在,這取決于所使用的深度學(xué)習(xí)模型。此外,深度學(xué)習(xí)模型不受其可學(xué)習(xí)數(shù)據(jù)復(fù)雜程度的限制,理論上,應(yīng)用深度學(xué)習(xí)生成合成數(shù)據(jù)集是“無限制的”。33與基于規(guī)則的方法相比,深度學(xué)習(xí)算法可以管理圖2.生成式對(duì)抗網(wǎng)絡(luò)34GAN通常用于圖像識(shí)別和圖像生成。35GAN通常由兩個(gè)神經(jīng)網(wǎng)絡(luò)36(生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò))組成,這兩個(gè)網(wǎng)絡(luò)在迭代的基礎(chǔ)上相互訓(xùn)練。生成器網(wǎng)絡(luò)將生成一個(gè)與訓(xùn)練數(shù)據(jù)具有相同特征的合成數(shù)據(jù)點(diǎn)(如圖像)作為輸入,然后,包含成批訓(xùn)練數(shù)據(jù)和合成數(shù)據(jù)的判別器網(wǎng)絡(luò)將嘗試把觀測(cè)結(jié)果分為真實(shí)結(jié)果或生成結(jié)果。生成器網(wǎng)絡(luò)會(huì)根據(jù)從判別器網(wǎng)絡(luò)獲得的反饋,不斷改進(jìn)自身表現(xiàn)。當(dāng)判別器無法再區(qū)分“真實(shí)”數(shù)據(jù)和合成數(shù)據(jù)時(shí),這兩個(gè)網(wǎng)絡(luò)就達(dá)到收斂狀態(tài)。3734ThallesSilva,“生成式對(duì)抗網(wǎng)絡(luò)簡(jiǎn)介”,Thalles的博客,2017年6月7日,https://sthalles.github.io/intro-to-gans/。36神經(jīng)網(wǎng)絡(luò)又稱人工神經(jīng)網(wǎng)絡(luò),是一個(gè)由相互連接的節(jié)點(diǎn)層組成的網(wǎng)絡(luò),這些節(jié)點(diǎn)將信息網(wǎng)絡(luò)?”/topics/neural-networks#:~:text=Neural%20networks%2C%20also%20known%20as,neurons%20signal%20to%20one%20ano/10.2760/5002.變分自動(dòng)編碼器(VAE)圖3.變分自動(dòng)編碼器38樣,VAE也在迭代的基礎(chǔ)上運(yùn)行。每次迭代時(shí),VAE都會(huì)攝取數(shù)據(jù),然后將其與編碼器-解碼器復(fù)雜的VAE架構(gòu)可以支持更高的降維(即學(xué)習(xí)關(guān)鍵特征同時(shí)保持較低的重構(gòu)誤差。39/pdf/1906.02691.pdf。圖4.擴(kuò)散模型40擴(kuò)散模型是一類新興的深度學(xué)習(xí)模型,通過迭代去噪過程從訓(xùn)練分布中生成數(shù)據(jù)(如圖像)41。換句話說,擴(kuò)散模型的工作原理是破壞圖像,例如增加噪聲,然后模型學(xué)習(xí)如何去除噪聲(或去噪),以生成連貫的圖像。然后,擴(kuò)散模型可以通過在原本連貫的圖像中加入不同的噪聲,使圖很大程度上取代了GAN。42有人認(rèn)為,由于擴(kuò)散模型能夠合成表面上與其訓(xùn)練數(shù)據(jù)不同的新的高保真圖像,而且易于使用,因此是生成大規(guī)模圖像的事實(shí)方法。43流行的擴(kuò)散模型包括DALL-E和2.合成數(shù)據(jù)與國(guó)際安全?軍方和防衛(wèi)組織可從人工智能和自主系統(tǒng)的不斷進(jìn)步中獲益。在國(guó)際安全領(lǐng)域,至關(guān)重?合成數(shù)據(jù)的優(yōu)勢(shì)包括:高度多樣化的數(shù)據(jù)集、更短的訓(xùn)練周期、更精細(xì)的控制和靈活?合成數(shù)據(jù)還可以消除收集、存儲(chǔ)、傳播和處置敏感數(shù)據(jù)的法律挑戰(zhàn),從而有可能使盟友?使用合成數(shù)據(jù)也有一系列的風(fēng)險(xiǎn),包括難以完全復(fù)制現(xiàn)實(shí)世界的復(fù)雜物理現(xiàn)象、數(shù)據(jù)投?雖然這些風(fēng)險(xiǎn)可能也適用于真實(shí)世界的數(shù)據(jù)集,但合成數(shù)據(jù)可能會(huì)擴(kuò)大出現(xiàn)其中一些風(fēng)人工智能和機(jī)器學(xué)習(xí)的不斷進(jìn)步讓人們對(duì)增強(qiáng)自主系統(tǒng)的功能性和可靠性寄予厚望。事實(shí)上,有人認(rèn)為,通過賦予自主系統(tǒng)更多的自主權(quán),軍方和防衛(wèi)組織都可以獲得更強(qiáng)的能力和更高的效率。44無論自主程度如何,投入實(shí)戰(zhàn)的自主系統(tǒng)至少應(yīng)可靠、可預(yù)測(cè)、安全,并能按照國(guó)際人道主義 在國(guó)際安全領(lǐng)域,至關(guān)重要的是確保自主系統(tǒng)在部署和使用前經(jīng)過適當(dāng)?shù)呐嘤?xùn);自主系統(tǒng)有時(shí)會(huì)在“行動(dòng)區(qū)內(nèi)”內(nèi)做出決策、推斷和行動(dòng),以減少分析和采取的任何行動(dòng)之間的延遲。換句話說,/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/。簡(jiǎn)評(píng)”,《工醫(yī)藝的可視計(jì)算》,https:///publications/reports/robotics-on-the-battlefield-part-ii-the-coming-swarm。收集數(shù)據(jù)的自主系統(tǒng)與執(zhí)行分析和提供輸出的系統(tǒng)是同一個(gè)系統(tǒng)。45這一過程被稱為“邊緣分析”。將自主系統(tǒng)置于邊緣的能力已成為各種軍事應(yīng)用技術(shù)解決方案中日益重要的組成部分。然而,由于硬件的限制,旨在部署到邊緣的自主系統(tǒng),如用于軍事行動(dòng)的無人駕駛車輛,其開發(fā)與用于網(wǎng)絡(luò)行動(dòng)等其他情況下的自主系統(tǒng)不同。46可以肯定的是,問題不一定是缺乏數(shù)據(jù),而是由于缺乏數(shù)據(jù)收集硬件而缺乏高質(zhì)量的標(biāo)記數(shù)據(jù)。還有一個(gè)問題是,自主系統(tǒng)收集的數(shù)據(jù)缺乏多樣性,因?yàn)檫@些系統(tǒng)是為特定的業(yè)務(wù)功能而投入使用的,并不是為了收集數(shù)據(jù)。例如,在高空作業(yè)的無人駕駛飛行器(UAV)只能從高角度收集圖像,因此生成的數(shù)據(jù)集可能與在低空和低視角作據(jù)推測(cè),自主系統(tǒng)對(duì)軍事行動(dòng)具有巨大的價(jià)值,包括從在時(shí)間緊迫的任務(wù)(如防空或防御性網(wǎng)絡(luò)行動(dòng))中比任何人類或人類操作的系統(tǒng)更快地執(zhí)的任務(wù)),在此類任務(wù)中人類的表現(xiàn)隨著時(shí)間的推移容易下降。47然而,自主系統(tǒng)的數(shù)據(jù)問題仍然困擾著防衛(wèi)組織。設(shè)計(jì)用于機(jī)載或機(jī)外數(shù)據(jù)處理的自主系統(tǒng)是一項(xiàng)需要權(quán)衡的任務(wù),因?yàn)椴煌睦尕P(guān)方需要滿足獨(dú)特的要求。48防衛(wèi)組織正在努力解決這一權(quán)衡問題,并在獲取真實(shí)世界數(shù)據(jù)和相關(guān)注釋方面面臨挑戰(zhàn),這些數(shù)據(jù)和注釋可用于訓(xùn)練機(jī)載數(shù)據(jù)處理算法。49目前的數(shù)據(jù)管理架構(gòu)只允許自主系統(tǒng)在受控環(huán)境中以有限的自主程度運(yùn)行。50例如,以駛地面車輛僅在以色列-加沙邊界自主使用,而這一地點(diǎn)的地圖繪制良好且相對(duì)固定。51因此,使用合成數(shù)據(jù)來訓(xùn)練自主系統(tǒng)可能是緩解與當(dāng)前數(shù)據(jù)收集和處理架構(gòu)相關(guān)的數(shù)據(jù)挑戰(zhàn)的一種手段,從而為防衛(wèi)組織提供了進(jìn)一步利用自主系統(tǒng)的機(jī)會(huì),將其置于高度動(dòng)態(tài)和多變量的環(huán)境中,同時(shí)然而,在網(wǎng)絡(luò)領(lǐng)域,人工智能的引入可能是大規(guī)模開展防御性網(wǎng)絡(luò)行動(dòng)和在威脅出現(xiàn)之前識(shí)別它們的關(guān)鍵要素。52換句話說,人工智能可以提高防御性網(wǎng)絡(luò)基礎(chǔ)設(shè)施的可靠性,特別是在應(yīng)對(duì)人工智能支持的進(jìn)攻性網(wǎng)絡(luò)行動(dòng)時(shí)。53人工智能可能在應(yīng)對(duì)網(wǎng)絡(luò)領(lǐng)域日益增加的規(guī)模和復(fù)雜性所帶隨著社會(huì)和城市環(huán)境在數(shù)字互聯(lián)和異質(zhì)化方面的不斷發(fā)展,為防御性網(wǎng)絡(luò)行動(dòng)的監(jiān)管帶來了更多的壓力點(diǎn)和漏洞。數(shù)字系統(tǒng)中的漏洞不僅通過人工智能(如合成圖像、對(duì)抗性數(shù)據(jù)操作和其他欺騙性技術(shù))增強(qiáng)和擴(kuò)大的進(jìn)攻性網(wǎng)絡(luò)行動(dòng)可能會(huì)對(duì)政府、私營(yíng)企業(yè)或個(gè)人的正常運(yùn)/sites/default/files/2019-05/sipri1905-ai-strategic-stability-nuclear-risk.pdf。/sites/default/files/2019-05/sipri1905-ai-strategic-stability-nuclear-risk.pdf。/agency/dod/dsb/autonomy.pdf。志》,2021年,7,https://doi./sol3/papers.cfm?abstract_id=25345是攻擊手段日益復(fù)雜的結(jié)果,也是因?yàn)楣裘鏀U(kuò)大而造成的。換句話說,雖然攻擊的類型不一定在變化,但風(fēng)險(xiǎn)的規(guī)模卻在變化。因此,人工智能可以發(fā)揮力量倍增器的作用,通過提供足夠的“監(jiān)控視角”來覆蓋數(shù)字空間中的足夠多的細(xì)分領(lǐng)域,從而提高效率。54作構(gòu)成威脅。因此,在防御方面,可能有必要使用由人工智能增強(qiáng)的系統(tǒng)和做法,通過精細(xì)控制來檢測(cè)和應(yīng)對(duì)異常情況。所以,與規(guī)模問題不同,利用人工智能對(duì)付由人工智能增強(qiáng)的攻擊不僅僅是解決社會(huì)或組織缺陷的問題,而顯然,人工智能在國(guó)際安全領(lǐng)域有廣泛的使用案例和潛在的使用案例。然而,文化和社會(huì)制約以及與人工智能技術(shù)的部署相關(guān)的技術(shù)壁壘繼續(xù)引發(fā)人們對(duì)人工智能的安全性、可預(yù)測(cè)性和可靠性的擔(dān)憂,尤其是在國(guó)際安全領(lǐng)域,從而造成了“實(shí)驗(yàn)工具和實(shí)戰(zhàn)系統(tǒng)”之間的差距。55合成數(shù)據(jù)是建議的一種解決方案,通過提高訓(xùn)練數(shù)據(jù)的質(zhì)量和可用性,有助于改善與將人工智能技術(shù)引入合成數(shù)據(jù)的附加值取決于其應(yīng)用的地點(diǎn)、方式和人工智能系統(tǒng)。一般來說,合成數(shù)據(jù)可以生成高度多樣化的數(shù)據(jù)集,對(duì)數(shù)據(jù)屬性進(jìn)行精細(xì)控制,自動(dòng)標(biāo)注或標(biāo)記數(shù)據(jù),并具有成本效益。目的是合成數(shù)據(jù)在多大程度上可以作為原始數(shù)據(jù)的適當(dāng)替代,是衡量生成合成數(shù)據(jù)的方法以及使用合成數(shù)據(jù)的機(jī)器學(xué)習(xí)模型和人工智能系統(tǒng)是否有用的標(biāo)準(zhǔn)。56在某些情況下,甚至可以在沒有真實(shí)世界等效數(shù)據(jù)的合成數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)算法,特別是在無法適當(dāng)收集真實(shí)世界數(shù)據(jù)的情況下,例如將物體放置在不常見或罕見的環(huán)境中。在這種情況下,合成數(shù)據(jù)的使用可能至關(guān)重要。這一點(diǎn)在軍事領(lǐng)域尤為突出,因?yàn)橛糜趶?fù)雜的作戰(zhàn)環(huán)境中的自主系統(tǒng)的設(shè)計(jì)和建造是為了提高作戰(zhàn)效率和效能,而不是為了進(jìn)行高粒度的數(shù)據(jù)收集。因此,UA出所有可能的高粒度相關(guān)屬性組合,例如相關(guān)物體在不同環(huán)境中的圖像,在不同距離、視角和方向以及不同光照下捕捉到的圖像。57所以,任何自主系統(tǒng)要想安全、可預(yù)測(cè)和可靠,尤其是在不受控制的環(huán)境中,就必須能夠合成具有所有可能相關(guān)屬性組合的多種場(chǎng)景,并能正確識(shí)別罕見情使用合成數(shù)據(jù)訓(xùn)練自主系統(tǒng)還可以縮短訓(xùn)練周期。由于人工智能系統(tǒng)迫切需要數(shù)據(jù)中蘊(yùn)含的經(jīng)驗(yàn),而不是數(shù)據(jù)本身,因此使用真實(shí)世界數(shù)據(jù)訓(xùn)練人工智能系統(tǒng)可能是不切實(shí)際的。收集足量的真實(shí)世界數(shù)據(jù)并確保數(shù)據(jù)集具有充分的多樣性,是一個(gè)耗費(fèi)大量資源和時(shí)間的過程。即便如此,也很難確保訓(xùn)練數(shù)據(jù)集中窮盡了所有可能的變化和多樣性。此外,真實(shí)世界數(shù)據(jù)可能無法提供合成數(shù)據(jù)所賦予的高度精細(xì)的控制和靈活性,以訓(xùn)練人工智能系統(tǒng)滿足不同的要求。另一方面,有時(shí)會(huì)出現(xiàn)[真實(shí)世界]數(shù)據(jù)過多的問題,數(shù)據(jù)集的特征可能會(huì)變得模糊或過于復(fù)雜,無法有效使用。在某些情況下,僅僅幾秒鐘的時(shí)間就能獲得數(shù)十億字節(jié)的數(shù)據(jù)(如數(shù)據(jù)包捕獲)。因此,在某些情此外,在收集經(jīng)過解析和適當(dāng)索引的數(shù)據(jù)可能不成問題的情況下,合成數(shù)據(jù)可用于生成和學(xué)習(xí)假設(shè)情況,例如防御性網(wǎng)絡(luò)行動(dòng)。例如,開發(fā)人員可以利用基于代理的建模,這是一種模擬多個(gè)變量(如人、物聯(lián)網(wǎng)系統(tǒng)、時(shí)間等)之間相互作用的技術(shù),來創(chuàng)建合成數(shù)據(jù)集,以反映人們?cè)谔囟〞r(shí)間內(nèi)在某些物聯(lián)網(wǎng)或企業(yè)系統(tǒng)上工作的情況。58這里的附加值是,即使在物聯(lián)網(wǎng)系統(tǒng)上工作的組織能夠捕獲大量完整的數(shù)據(jù),但組織可能無法對(duì)其收集的數(shù)據(jù)進(jìn)行精細(xì)控制,以發(fā)現(xiàn)或預(yù)測(cè)所有異常情況,或?qū)惓G闆r與常規(guī)模式區(qū)分開來。通過使用基于代理的建模來生成合成現(xiàn)實(shí),組這些技術(shù)的應(yīng)用并不局限于國(guó)際安全領(lǐng)域,也不僅僅是理論上的。事實(shí)上,基于代理的建模等技術(shù)已被應(yīng)用于其他領(lǐng)域。例如,基于代理的建模已被用于模擬和預(yù)測(cè)公共政策的影響,如城市規(guī)劃、未來交通、政策評(píng)估或模擬疾病爆發(fā)和干預(yù)措施。59事實(shí)上,反映當(dāng)?shù)厝丝谔卣鞯拈_源合成人口已經(jīng)用于聯(lián)合王國(guó)60和美國(guó)61以及更具體的地理區(qū)域,如法蘭西島地區(qū)62(法國(guó))和蒙特利爾因此,這意味著基于代理的建模可以幫助軍方為意外情況做好準(zhǔn)備或規(guī)劃行動(dòng)。通過基于代理的建模模擬生成合成數(shù)據(jù),軍方可以為一系列潛在情況做好準(zhǔn)備,并制定應(yīng)對(duì)策略。這可能有助于改善軍事行動(dòng)的準(zhǔn)備狀態(tài)和有效性,使其更好地應(yīng)對(duì)意外事件,并為罕見事件或不常見的環(huán)境創(chuàng)基于代理的模型可以模擬人們站在房頂上躲避洪水的場(chǎng)景,但這種情況在現(xiàn)實(shí)生活中可能很少發(fā)生,因此可以用來訓(xùn)練自主系統(tǒng)識(shí)別這種場(chǎng)景的數(shù)據(jù)極少。不過,這種自主系統(tǒng)將有助于人道主義援助和災(zāi)后恢復(fù)(HADR)行動(dòng)。因此,從基于代理的模型中生成的合成數(shù)據(jù),通過生成高保真和高度多樣化的合成數(shù)據(jù),用罕見的數(shù)據(jù)點(diǎn)來增強(qiáng)訓(xùn)練數(shù)據(jù)集,可能有助于訓(xùn)練置于/10.1038/s41597-023-02030-4。/10.1111/gean.122009年5月,/10.37合成數(shù)據(jù)集的精細(xì)控制使開發(fā)人員能夠?qū)铣蓴?shù)據(jù)集的特性和特征進(jìn)行微調(diào),并測(cè)試機(jī)器學(xué)習(xí)算法的表現(xiàn)和局限性。65事實(shí)上,可以用相同的基礎(chǔ)數(shù)據(jù)創(chuàng)建多個(gè)合成數(shù)據(jù)集,以用于不同的功能。66合成體系還可以測(cè)試由相同基礎(chǔ)數(shù)據(jù)衍生出的合成數(shù)據(jù)集的變化如何影響人工智能系統(tǒng)最終對(duì)環(huán)境做出反應(yīng)的方式。這對(duì)于識(shí)別和處理偏斜數(shù)據(jù)集也特別有用,偏斜數(shù)據(jù)集中某一特性或某類特性的代表性過高(即數(shù)據(jù)或算法偏差)。合成少數(shù)類過采樣技術(shù)(SMOTE)67等技術(shù),可以通過 平衡數(shù)據(jù)集中少數(shù)類和多數(shù)類的頻率,為少數(shù)類和多數(shù)類獲得數(shù)量大致相同的樣本。68條件生成 式對(duì)抗網(wǎng)絡(luò)(CGAN)也可以通過對(duì)抗訓(xùn)練來減少數(shù)據(jù)集中的偏斜,從而提高判別器網(wǎng)絡(luò)的能力,更準(zhǔn)確地預(yù)測(cè)代表性不足的類別,消除整個(gè)類別的偏差。69這些“基準(zhǔn)”特征意味著在軍事領(lǐng)域的適用性。例如,在美國(guó)陸軍研究實(shí)驗(yàn)室進(jìn)行的一項(xiàng)實(shí)驗(yàn)中,研究人員發(fā)現(xiàn)計(jì)算機(jī)視覺系統(tǒng)(如無人駕駛車輛中使用的系統(tǒng))的性能與訓(xùn)練系統(tǒng)使用的圖像的角度之間有相互關(guān)系。70研究人員注意到,分類器模型對(duì)在被攝體(如人、建筑物、坦克等)正 上方采集的圖像表現(xiàn)出偏差,而且隨著攝像頭移動(dòng)的距離越遠(yuǎn),視角減小,表現(xiàn)也就越好。研究人員得出結(jié)論,一個(gè)可能的原因是,由于分類器模型的訓(xùn)練中使用了地面圖像,當(dāng)實(shí)驗(yàn)輸入看起來更像地面圖像時(shí),表現(xiàn)就會(huì)更好,因此需要使用更多更高角度的航拍圖像重新訓(xùn)練系統(tǒng)。因此,研究人員指出,合成數(shù)據(jù)可用于比較模型復(fù)雜度和架構(gòu)都不同的不同分類器模型,從而為特定任最后,有人認(rèn)為,創(chuàng)建代表真實(shí)世界數(shù)據(jù)的合成數(shù)據(jù)還可以消除收集、存儲(chǔ)、傳播和處置敏感數(shù)據(jù)的法律挑戰(zhàn)。71目前,如果組織環(huán)境的敏感詳細(xì)信息(如IP地址、網(wǎng)絡(luò)類型等)被暴露,組織可能不愿意共享與其數(shù)字基礎(chǔ)設(shè)施相關(guān)的數(shù)據(jù),因?yàn)檫@可能會(huì)給其企業(yè)數(shù)字基礎(chǔ)設(shè)施的安全帶來風(fēng)險(xiǎn)。72這一點(diǎn)在國(guó)際安全領(lǐng)域可能更為重要,因?yàn)榧词乖诿擞阎g,敏感的真實(shí)世界數(shù)據(jù)也不容易共享73——例如,澳大利亞國(guó)防部就指出了與“五眼聯(lián)盟”伙伴的數(shù)據(jù)標(biāo)準(zhǔn)不一致所帶來的挑戰(zhàn)。74隱私保護(hù)還意味著,合成數(shù)據(jù)能夠防范數(shù)據(jù)隱私法規(guī)的變化,這些變化可能會(huì)擾亂組織66AndreasAlfons等人,“trier.de/fileadmin/fb4/projekte/SurveyStatisticsNet/Ameli_Delivrables/AMELI-WP6-D6.2-240611.pdf。日,https://www.nature.c日,2,/smash/get/diva2:1雖然合成數(shù)據(jù)可以幫助減輕防衛(wèi)組織面臨的一些數(shù)據(jù)挑戰(zhàn),但它并不非靈丹妙藥。合成數(shù)據(jù)也會(huì)帶來一系列風(fēng)險(xiǎn)和挑戰(zhàn)。管理這些風(fēng)險(xiǎn)和挑戰(zhàn)的能力尤為重要,能夠確保以負(fù)責(zé)任和安全的方式使用合成數(shù)據(jù)最突出的風(fēng)險(xiǎn)之一就是所謂的“現(xiàn)實(shí)差距”。這指的是合成數(shù)據(jù)與真實(shí)世界之間的細(xì)微差別。復(fù)雜的機(jī)器學(xué)習(xí)模型通常會(huì)學(xué)習(xí)如何利用微小的差異,這使得很難從模擬環(huán)境中學(xué)習(xí)。75換句話說,如果合成數(shù)據(jù)模擬不當(dāng),就會(huì)遇到無法完全復(fù)制真實(shí)世界復(fù)雜混亂的物理現(xiàn)象的問 雖然合成數(shù)據(jù)可用于衡量數(shù)據(jù)質(zhì)量、數(shù)據(jù)偏差和算法偏差,但合成數(shù)據(jù)本身也會(huì)形成(甚至放大)意外偏差。雖然預(yù)期偏差在某些應(yīng)用中可能很有用,例如,過度呈現(xiàn)特定類別的罕見惡意網(wǎng)絡(luò)流量模式,以便用于監(jiān)控或事件響應(yīng)的人工智能系統(tǒng)有更高的幾率檢測(cè)到這些惡意模式,但至關(guān)重要的是,這些預(yù)期偏差不會(huì)表現(xiàn)出意想不到的后果。在幾乎所有人工智能系統(tǒng)中,都有一個(gè)最佳的合成數(shù)據(jù)點(diǎn)數(shù)量,這取決于訓(xùn)練人工智能系統(tǒng)使用的合成數(shù)據(jù)和真實(shí)世界數(shù)據(jù)的組成情況。過多的合成數(shù)據(jù)可能會(huì)“過度擬合”人工智能系統(tǒng),從而降低系統(tǒng)的性能。76因此,確保正確的指 定范圍對(duì)于避免意外傷害或其他意外后果至關(guān)重要。范圍界定不當(dāng)不僅可能導(dǎo)致自主系統(tǒng)投入使用后產(chǎn)生意外后果,而且還可能導(dǎo)致數(shù)據(jù)質(zhì)量偏低、抽樣錯(cuò)誤、性別或種族偏見、標(biāo)記或聚合偏差,或生成不完整的合成數(shù)據(jù)集。77數(shù)據(jù)偏差和算法偏差的問題除了是一個(gè)技術(shù)挑戰(zhàn)外,也是一個(gè)社會(huì)和文化挑戰(zhàn)。例如,如果一個(gè)合成數(shù)據(jù)集是根據(jù)原始的真實(shí)世界數(shù)據(jù)集的特性和特征生成的,而該真實(shí)世界數(shù)據(jù)集包含某些性別或種族規(guī)范假設(shè),那么該合成數(shù)據(jù)集可能會(huì)進(jìn)一步放大這些偏見。即使性別或種族沒有“明確地體現(xiàn)在機(jī)器學(xué)習(xí)模型中,從制服或武器證據(jù)等中性特征中得出的模式仍可能隱含性別或種族規(guī)范”。78因此,基于性別和種族的方法凸顯了使參與人工智能系統(tǒng)每個(gè)步驟(包括數(shù)據(jù)生成)的人員和專業(yè)知識(shí)范圍多樣化的重要性。79此外,合成數(shù)據(jù)仍然很容易被高水平的惡意行為者進(jìn)行數(shù)據(jù)投毒。對(duì)手可能在合成數(shù)據(jù)或數(shù)據(jù)集中埋下不希望出現(xiàn)的變化,以破壞學(xué)習(xí)程序,例如向訓(xùn)練數(shù)據(jù)集中輸入一小部分惡意樣本,或?qū)铣蓤D像進(jìn)行微調(diào)。80不過,值得注意的是,雖然合成數(shù)據(jù)存在被數(shù)據(jù)投毒的風(fēng)險(xiǎn),但與真實(shí)世界數(shù)據(jù)相比,合成數(shù)據(jù)不易被數(shù)據(jù)投毒,因?yàn)檎鎸?shí)世界的數(shù)據(jù)通常是在遙遠(yuǎn)和/或不受控的環(huán)境中最后,雖然某些合成數(shù)據(jù)生成技術(shù)可以保護(hù)隱私,但其他技術(shù)可能無法提供足夠級(jí)別的隱私保護(hù)。具體來說,與GAN等其他技術(shù)相比,擴(kuò)散模型是隱私性最差的圖像生成方式。這直接關(guān)系到與GAN和VAE相比,擴(kuò)散模型在生成更高質(zhì)量圖像方面的效用。據(jù)可能會(huì)帶來隱私與效用之間的權(quán)衡,因?yàn)樵絹碓綇?qiáng)大的生成式模型提出了關(guān)于擴(kuò)散模型如何工作、如何以及在什么情況下應(yīng)負(fù)責(zé)任地部署這些模型的問題雖然這些風(fēng)險(xiǎn)可能也適用于真實(shí)世界數(shù)據(jù)集,但合成數(shù)據(jù)可能會(huì)擴(kuò)大大多數(shù)風(fēng)險(xiǎn)的潛在風(fēng)險(xiǎn)面。合成數(shù)據(jù)本身不會(huì)帶來新的離散風(fēng)險(xiǎn),但這些風(fēng)險(xiǎn)可能更加普遍。簡(jiǎn)而言之,風(fēng)險(xiǎn)的類型可能相似,但載體在轉(zhuǎn)變,規(guī)模在擴(kuò)大。然而,有人認(rèn)為,合成數(shù)據(jù)的使用可能會(huì)比真實(shí)世界數(shù)據(jù)引發(fā)更多問題,因?yàn)槿藗儗?duì)它的信任度普遍較低,這可能會(huì)為建立驗(yàn)證合成數(shù)據(jù)的流程提供更多機(jī)會(huì)——比驗(yàn)證真實(shí)世界數(shù)據(jù)的機(jī)會(huì)更多。83合成數(shù)據(jù)已被證明在多個(gè)領(lǐng)域都是一種有用的技術(shù),從醫(yī)療保健到欺詐詐騙檢測(cè)和公共政策規(guī)劃等。雖然合成數(shù)據(jù)仍可被視為一種“新興技術(shù)”,84但已經(jīng)足夠成熟,在各行各業(yè)和公共服務(wù)部事實(shí)上,與合成數(shù)據(jù)相關(guān)的附加值和風(fēng)險(xiǎn)與聯(lián)合國(guó)安全進(jìn)程以及圍繞在國(guó)際安全領(lǐng)域使用人工智能的其他討論息息相關(guān)。合成數(shù)據(jù)的潛在優(yōu)勢(shì)不容忽視,尤其是精細(xì)控制、數(shù)據(jù)多樣性和成本效益。合成數(shù)據(jù)可能為解決持續(xù)困擾防衛(wèi)組織的一些數(shù)據(jù)挑戰(zhàn)提供解決方案,如數(shù)據(jù)質(zhì)量差和數(shù)據(jù)集多樣性低。通過解決其中一些挑戰(zhàn),軍方和防衛(wèi)組織都可以提高作戰(zhàn)能力,同時(shí)確保遵守國(guó)際人道主義法義務(wù),特別是在三維行動(dòng)中,因?yàn)樵谌S行動(dòng)中人類表現(xiàn)容易隨著時(shí)間的推移而下降。同時(shí),與合成數(shù)據(jù)相關(guān)的風(fēng)險(xiǎn)也不容低估。雖然合成數(shù)據(jù)不一定會(huì)產(chǎn)生有別于真實(shí)世界數(shù)據(jù)相關(guān)風(fēng)險(xiǎn)的新風(fēng)險(xiǎn),但合成數(shù)據(jù)可能會(huì)擴(kuò)大風(fēng)險(xiǎn)面。換句話說,風(fēng)險(xiǎn)可能相似,但產(chǎn)生相同風(fēng)險(xiǎn)的方式可能更多。例如,真實(shí)世界訓(xùn)練數(shù)據(jù)集缺乏多樣性可能會(huì)產(chǎn)生意外偏差,就像人工智能系統(tǒng)與雖然合成數(shù)據(jù)的特征使其成為在國(guó)際安全領(lǐng)域開發(fā)自主系統(tǒng)的一項(xiàng)大有可為的技術(shù),但不應(yīng)將其視為解決現(xiàn)有數(shù)據(jù)挑戰(zhàn)的靈丹妙藥或萬能藥。相反,應(yīng)將其理解為數(shù)據(jù)管理工具箱中的一個(gè)工具。大量研究表明,合成數(shù)據(jù)和生成模型在過去幾年中取得了長(zhǎng)足進(jìn)步。因此,下一步工作應(yīng)包括但不限于找到具體的使用案例,更有針對(duì)性地研究如何在國(guó)際安全領(lǐng)域應(yīng)用合成數(shù)據(jù)的現(xiàn)有方法和參考文獻(xiàn)AlfonsAndreas,PeterFilzmoser,BeatHullinger,Jan-PhilippKolb,StefanKraft,RalfMünnich和MatthiasTempl.“SILC數(shù)據(jù)的合成數(shù)據(jù)生成”,歐盟委員會(huì),201trier.de/fileadmin/fb4/projekte/SurveyStatisticsNet/Ameli_DelivrAlkhzaimi,Hoda.“紐約大學(xué)/紐約大學(xué)阿布扎比新興研究與安全中心對(duì)第五屆實(shí)質(zhì)性會(huì)議Ended_Working_Group_on_Information_and_Communication_Technologies_-_(2021)/Stakeholder_Recommendation_for_Open-ended_workinggroup_on_security_APR.pdfAnand,Alisha和HarryDeng,“探索防衛(wèi)工作中負(fù)責(zé)任的人工智能:各國(guó)人工智能原則的梳理與比mapping-and-comparative-analysis-ai-principles-adopted AryawanUdayana.Putu,TriLeg統(tǒng)網(wǎng)絡(luò)安排戰(zhàn)略”,2022年,/.au/about/strategic-planning/defence-data-strategy-2021-2023#:~:text=The%205%20pillars%20in%20the,capability%20within%20the%20Defence%20。Boulanin,Vincent.“人工智能:入門指南”,斯德哥爾摩國(guó)際和平研究所,/sites/default/files/2019-05/sipri1905-ai-strathttps://www.canada.ca/en/department-national-defence/corporate/reports-publications/data-strategy/data-Carlini,Nicholas,JamieHayes,MiladNasr,MatthewJagielski,VikashSehwa/abs/2301.131Chandler,Katherine.“軍事人工智能是否有性別之分?理解偏見并在人工智1869,/sol3/pap/2019/Oct/31/2002204458/-1/-20,/agency/dod/dsb/autonomy.pdf。算》,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論