



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問題生成式人工智能(GenerativeAI,下稱“生成式AI”)訓(xùn)練階段的面臨諸多法律風(fēng)險(xiǎn),其中,在訓(xùn)練階段的數(shù)據(jù)收集和處理過程中引發(fā)的個(gè)人信息保護(hù)問題尤為值得關(guān)注。模型訓(xùn)練階段的個(gè)人信息保護(hù)問題集中涉及來源的合法性、深度處理引發(fā)的敏感信息識別與保護(hù)、數(shù)據(jù)泄露以及在個(gè)人信息跨境流動場景下的合規(guī)問題。由此衍生出了諸多治理路徑來對上述問題進(jìn)行規(guī)制,如進(jìn)行數(shù)據(jù)分類分級,聚焦訓(xùn)練數(shù)據(jù)透明度、引入“監(jiān)管沙箱”制度等。
本文詳細(xì)梳理前述問題和治理路徑,以期為合理構(gòu)建生成式AI訓(xùn)練數(shù)據(jù)的個(gè)人信息保護(hù)體系提供可行性思路。
一、問題的提出如今,以ChatGPT為代表的生成式AI的快速發(fā)展,已為全球經(jīng)濟(jì)的高質(zhì)量發(fā)展注入新動能,正逐步改變著人們的生活和生產(chǎn)方式。但在新技術(shù)帶來生產(chǎn)力提升的同時(shí),還要考慮到數(shù)據(jù)在流通過程中的保護(hù)、安全與合規(guī)發(fā)展,以及AI開發(fā)和使用過程中的風(fēng)險(xiǎn)規(guī)制。生成式AI模型訓(xùn)練通常需要巨量且高質(zhì)量的數(shù)據(jù),這些數(shù)據(jù)往往包含大量個(gè)人信息,這便引起社會公眾及政策制定者對生成式AI在收集和使用數(shù)據(jù)過程中對個(gè)人信息保護(hù)的擔(dān)憂。甚至在實(shí)踐中引發(fā)大量相關(guān)訴訟。僅2023年一年,美國就發(fā)生了十多起AI大模型訓(xùn)練司法訴訟案件,例如,在一起集體訴訟案件中,原告在起訴狀中明確指控OpenAI的網(wǎng)絡(luò)抓取工具侵犯了個(gè)人信息,并通過盜用個(gè)人信息并納入OpenAI產(chǎn)品的方式侵犯了個(gè)人的財(cái)產(chǎn)權(quán)和隱私權(quán)。隨著生成式AI在日常生活中扮演愈發(fā)重要的角色,有效解決AI模型訓(xùn)練帶來的個(gè)人信息保護(hù)風(fēng)險(xiǎn)至關(guān)重要。然而,在理論研究中,現(xiàn)有成果卻較少涉及模型訓(xùn)練過程的個(gè)人信息保護(hù)問題,這與訓(xùn)練數(shù)據(jù)在生成式AI中的重要地位不相適應(yīng)。在實(shí)踐中,各國政策制定者和AI開發(fā)者對模型訓(xùn)練的規(guī)制既要重視個(gè)體權(quán)益的保護(hù),又不能抑制新興技術(shù)的發(fā)展與應(yīng)用,充滿復(fù)雜性和挑戰(zhàn)性。二、生成式AI模型訓(xùn)練階段的個(gè)人信息保護(hù)問題生成式AI生成較為準(zhǔn)確且完成度較高的結(jié)論依賴在模型訓(xùn)練過程中對數(shù)據(jù)進(jìn)行加工,這就意味著海量的高質(zhì)量數(shù)據(jù)是生成式AI得以高質(zhì)量有效運(yùn)行的必備養(yǎng)料。在這種處理模式下的個(gè)人信息如同“砧板上的肥肉”一樣為無數(shù)AI系統(tǒng)所覬覦,但缺乏科學(xué)合理且行之有效的法律保護(hù)措施,從而導(dǎo)致個(gè)人信息被違規(guī)利用。2.1來源合法性海量的高質(zhì)量數(shù)據(jù)是生成式AI模型訓(xùn)練的必備能源和養(yǎng)料。一個(gè)高質(zhì)量的數(shù)據(jù)集需滿足四個(gè)基本標(biāo)準(zhǔn):數(shù)據(jù)集必須足夠龐大以涵蓋問題的多次迭代、數(shù)據(jù)必須有明確的標(biāo)簽和注釋、數(shù)據(jù)必須具有代表性和公正性、數(shù)據(jù)必須符合隱私法規(guī)。因此,數(shù)據(jù)來源的合法性是模型訓(xùn)練的合規(guī)基石?!渡墒饺斯ぶ悄芊?wù)管理暫行辦法》第7條規(guī)定,生成式AI訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)使用具有合法來源的數(shù)據(jù)。從行業(yè)實(shí)踐的情況看,生成式AI訓(xùn)練數(shù)據(jù)的來源渠道多樣,不但有自有數(shù)據(jù),還包含了抓取的公開數(shù)據(jù)、購買的第三方數(shù)據(jù)集以及合成數(shù)據(jù)等。然而,這些方式獲取的數(shù)據(jù)集充斥著不當(dāng)許可的數(shù)據(jù),極易引發(fā)正當(dāng)使用的爭議。例如OpenAI就利用Reedit鏈接等爬蟲技術(shù)抓取維基百科等網(wǎng)頁的公開數(shù)據(jù)為ChatGPT進(jìn)行訓(xùn)練。這一方式極易逾越數(shù)據(jù)安全保護(hù)的紅線,造成個(gè)人信息保護(hù)問題。一方面,在利用爬蟲技術(shù)收集數(shù)據(jù)的過程中很難符合“知情同意原則”、“最小化原則”等規(guī)定。如:我國《個(gè)人信息保護(hù)法》(以下簡稱“《個(gè)保法》”)第6條規(guī)定了個(gè)人信息處理活動應(yīng)當(dāng)遵循的最小化原則;第13條規(guī)定處理個(gè)人信息的7種情形,除去個(gè)人信息主體明確同意的前置性條件之外其余均為嚴(yán)格的法定豁免情形?!渡墒饺斯ぶ悄芊?wù)安全基本要求》第5條也規(guī)定了模型訓(xùn)練在個(gè)人信息方面規(guī)定:在使用包含個(gè)人信息的語料前,應(yīng)取得對應(yīng)個(gè)人同意;在使用包含敏感個(gè)人信息的語料前,應(yīng)取得對應(yīng)個(gè)人單獨(dú)同意。歐盟的《通用數(shù)據(jù)保護(hù)條例》(下稱“GDPR”)第5條和第6條也規(guī)定了個(gè)人數(shù)據(jù)的使用必須遵循合法性和最小化原則。根據(jù)OpenAI官網(wǎng)的表述,若用戶不同意輸入其個(gè)人信息作為訓(xùn)練數(shù)據(jù)庫,可以根據(jù)《使用條款》的相關(guān)規(guī)定,通過郵件發(fā)送的方式進(jìn)行拒絕授權(quán)。從表述上來看OpenAI似乎在個(gè)人信息的使用中采取了一種選擇退出的機(jī)制,但是實(shí)際上若輸入信息中包含個(gè)人信息,默認(rèn)的選擇退出機(jī)制并不符合個(gè)人信息保護(hù)相關(guān)法規(guī)中的知情同意要求。另一方面,如果在爬取數(shù)據(jù)的過程中故意通過技術(shù)手段繞過或者突破技術(shù)保護(hù)措施,就會侵犯用戶個(gè)人信息安全。2023年6月,美國公益律師事務(wù)所(ClarksonLawFirm)代表匿名客戶在加州聯(lián)邦法院對OpenAI公司提起了一起集體訴訟,指控內(nèi)容便是OpenAI在未經(jīng)用戶同意的情況下非法收集和使用大量個(gè)人信息。此階段對個(gè)人信息的收集幾乎完全脫離了《個(gè)保法》基本的“告知同意”原則,導(dǎo)致法律規(guī)定在此階段幾乎失去了約束力。2.2深度處理引發(fā)的敏感信息保護(hù)問題ChatGPT對個(gè)人信息的利用所依賴的神經(jīng)卷積模型相較于傳統(tǒng)算法模型而言更加復(fù)雜,對于各種要素的分析也更加深入,深度神經(jīng)網(wǎng)絡(luò)會發(fā)掘出個(gè)人信息中潛藏的信息。因此,生成式AI在模型訓(xùn)練過程中會將收集到的個(gè)人信息進(jìn)行匯聚或融合,以提高其生成內(nèi)容的質(zhì)量和準(zhǔn)確性。但個(gè)人信息匯聚或融合后的整體屬性存在潛在的敏感性風(fēng)險(xiǎn),即使單獨(dú)來看某些個(gè)人信息并不敏感。例如,AI開發(fā)者收集了用戶的購物歷史記錄,這些數(shù)據(jù)單獨(dú)來看并不敏感,因?yàn)樗鼉H顯示了用戶購買的商品記錄。然而,當(dāng)這些購買記錄與其他數(shù)據(jù)(如購買頻率、特定種類商品的偏好)結(jié)合時(shí),可能透露出用戶的敏感信息,如健康狀況。如果用戶購買了多次醫(yī)療設(shè)備或藥品(如血壓計(jì)、降血糖藥等),結(jié)合購買日期和頻率,就可能推斷出用戶存在高血壓、糖尿病等健康問題。全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會于2024年9月18日發(fā)布的《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南——敏感個(gè)人信息識別指南》規(guī)定了敏感個(gè)人信息的識別規(guī)則,既要考慮單項(xiàng)敏感個(gè)人信息的識別,也要考慮多項(xiàng)一般個(gè)人信息匯聚或融合后的整體屬性?!秱€(gè)保法》第28條規(guī)定了敏感個(gè)人信息的范圍以及只有在具有特定的目的和充分的必要性,并采取嚴(yán)格保護(hù)措施的情形下,個(gè)人信息處理者方可處理敏感個(gè)人信息;第29條規(guī)定了處理敏感個(gè)人信息應(yīng)當(dāng)取得個(gè)人的單獨(dú)同意,但實(shí)踐中,模型訓(xùn)練卻難以滿足這些要求。此外,由于生成式AI的強(qiáng)大分析能力,即使是碎片化不完整的信息,也有可能被ChatGPT進(jìn)行標(biāo)簽化重組與其他類似數(shù)據(jù)一起進(jìn)行深度挖掘,進(jìn)而推斷出敏感信息。2.3“算法黑箱”技術(shù)引發(fā)個(gè)人信息不透明生成式AI采用自然語言處理技術(shù)對獲取的數(shù)據(jù)進(jìn)行模型訓(xùn)練,運(yùn)用超高強(qiáng)度的算力挖掘數(shù)據(jù)中存在的統(tǒng)計(jì)規(guī)律以實(shí)現(xiàn)深度學(xué)習(xí)。這種技術(shù)的運(yùn)用使AI模型可以利用互聯(lián)網(wǎng)上幾乎所有的無人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),極大地降低了訓(xùn)練成本,提高了計(jì)算機(jī)自然語言學(xué)習(xí)的成效。但這種自然語言統(tǒng)計(jì)規(guī)律卻保存在數(shù)以千億計(jì)的模型參數(shù)中,并非如硬盤中存儲的數(shù)據(jù)被人所確知。這就導(dǎo)致了不但普羅大眾無法知悉人工智能運(yùn)行的內(nèi)在邏輯和過程,甚至連開發(fā)者也無法詳細(xì)了解模型到底掌握了何種自然語言統(tǒng)計(jì)規(guī)律。這一不公開、不透明的算法運(yùn)行過程便是“算法黑箱”。生成式AI模型訓(xùn)練過程中對個(gè)人信息的處理也同樣被置于“算法黑箱”之中,難以窺探其中“奧妙”。各國數(shù)據(jù)保護(hù)法律幾乎都規(guī)定了數(shù)據(jù)處理的透明度要求,如《個(gè)保法》第7、24條規(guī)定了個(gè)人信息處理應(yīng)當(dāng)遵循公開透明原則。但這種“算法黑箱”卻導(dǎo)致個(gè)人信息處理顯著缺乏透明度,難以辨析模型訓(xùn)練時(shí)使用的個(gè)人信息的權(quán)利狀態(tài)與隱私風(fēng)險(xiǎn)。這就導(dǎo)致個(gè)人信息處理的公開透明原則無法嚴(yán)格貫徹,嚴(yán)重侵害用戶的知情權(quán)。此外,既然連開發(fā)者也無法了解“算法黑箱”中個(gè)人信息是如何被處理的,那么就更無法向用戶進(jìn)行詳細(xì)告知,也難以遵守個(gè)人信息處理的知情同意規(guī)則。并且生成式AI大模型具備“涌現(xiàn)”特性,即系統(tǒng)中的定量變化導(dǎo)致行為質(zhì)變。涌現(xiàn)的一個(gè)重要特征是“不可解釋性”,即無法通過任何構(gòu)成或共存規(guī)律從更簡單的情形中推導(dǎo)出來,數(shù)據(jù)處理的中間業(yè)態(tài)也就幾乎無法進(jìn)行回溯。因此,模型訓(xùn)練有可能進(jìn)一步降低問責(zé)制,難以對個(gè)人信息主體權(quán)益進(jìn)行有效保護(hù)。2.4個(gè)人信息泄露由于生成式AI模型訓(xùn)練過程中需要不斷收集訓(xùn)練數(shù)據(jù),因而會自動將爬取的數(shù)據(jù)和用戶信息存儲起來,這就存在多方面的數(shù)據(jù)泄露風(fēng)險(xiǎn)。第一,開發(fā)者并未向用戶提供檢查訓(xùn)練數(shù)據(jù)及其個(gè)人信息存儲庫的方式,也未對用戶個(gè)人信息的存儲期限以及具體保護(hù)措施進(jìn)行詳細(xì)的說明。雖然各國法律對開發(fā)者收集和存儲數(shù)據(jù)提出了限制性要求,如《個(gè)保法》第17條規(guī)定個(gè)人信息并非可以無限期地保留,其存儲時(shí)間應(yīng)當(dāng)受到限制。但在實(shí)踐中,開發(fā)者這種對信息存儲期限的做法十分模糊,顯然不利于用戶的個(gè)人信息權(quán)益的保護(hù)。第二,開發(fā)者或掌握數(shù)據(jù)訪問權(quán)限的人員可能在威逼利誘下將存儲的個(gè)人信息非法轉(zhuǎn)讓給第三方,增加了個(gè)人信息泄露的風(fēng)險(xiǎn)。第三,前文闡述到,在模型訓(xùn)練過程中,生成式AI通過深度學(xué)習(xí)對個(gè)人信息過度挖掘,使得去標(biāo)識化的個(gè)人信息甚至匿名化信息被重新識別,也可能造成個(gè)人信息的泄露。最后,黑客攻擊也會導(dǎo)致極為慘重的數(shù)據(jù)集泄露。黑客通過植入污染數(shù)據(jù)來操縱訓(xùn)練數(shù)據(jù)集,或通過模型反轉(zhuǎn)獲取和重新識別訓(xùn)練數(shù)據(jù)的方式反向攻擊(AIInversionAttck)模型,侵犯用戶的合法權(quán)益。此外,生成式AI展現(xiàn)出來的強(qiáng)大能力會使得用戶將越來越多地與它們建立關(guān)系,并逐漸信任它們。用戶在與其互動的過程中可能會被誘導(dǎo)收集個(gè)人信息或其他資料,存在泄露個(gè)人信息的風(fēng)險(xiǎn)。2.5個(gè)人信息跨境流動風(fēng)險(xiǎn)生成式AI模型訓(xùn)練一方面需要多樣化和大規(guī)模的數(shù)據(jù),另一方面需要強(qiáng)大的算力作為支撐,從而提升模型生成內(nèi)容的質(zhì)量和多樣性。兩種要求衍生出不同的數(shù)據(jù)出境場景,從而產(chǎn)生不同的個(gè)人信息保護(hù)風(fēng)險(xiǎn)。場景一:海量數(shù)據(jù)需求伴生個(gè)人信息出境生成式AI模型通常需要從多元化的語言、文化和行為模式中汲取數(shù)據(jù),以便模型在生成內(nèi)容時(shí)能夠具備更廣泛的適應(yīng)性和實(shí)用性。這些數(shù)據(jù)往往跨越多個(gè)國家和地區(qū),因此需要通過數(shù)據(jù)跨境傳輸來匯集全球化的數(shù)據(jù)資源。然而,這種跨國數(shù)據(jù)收集和使用行為會觸發(fā)多國數(shù)據(jù)保護(hù)法的適用,引發(fā)合規(guī)風(fēng)險(xiǎn)。如,根據(jù)GDPR的規(guī)定,個(gè)人信息的跨境傳輸只能在確保接收國具備足夠的數(shù)據(jù)保護(hù)水平或簽訂了標(biāo)準(zhǔn)合同條款的前提下進(jìn)行。我國《個(gè)保法》也對個(gè)人信息的出境設(shè)定了嚴(yán)格的條件,包括申請個(gè)人信息保護(hù)認(rèn)證或簽訂個(gè)人信息出境標(biāo)準(zhǔn)合同并完成備案等。這些法律差異可能導(dǎo)致跨境傳輸過程中的不一致性,增加了法律風(fēng)險(xiǎn)。場景二:跨境調(diào)用算力或算法模型導(dǎo)致數(shù)據(jù)出境生成式AI模型訓(xùn)練需要強(qiáng)大的算力作為支撐。但是,許多國家生成式AI產(chǎn)業(yè)鏈的基礎(chǔ)設(shè)施層仍待完善,境內(nèi)開發(fā)者可能存在算力不足以及AI算法和模型落后的問題。在該種情況下,不少開發(fā)者在探討跨境調(diào)用境外算力或算法模型的可能性。如跨境調(diào)用境外算力,則其收集的訓(xùn)練數(shù)據(jù)將會被傳輸至境外進(jìn)行訓(xùn)練,相關(guān)訓(xùn)練數(shù)據(jù)和搭建后的模型亦可能被存儲至境外數(shù)據(jù)中心,從而引發(fā)數(shù)據(jù)跨境相關(guān)風(fēng)險(xiǎn)。三、治理路徑探析3.1進(jìn)行數(shù)據(jù)分類分級歐盟《人工智能法案》依據(jù)風(fēng)險(xiǎn)等級對AI系統(tǒng)進(jìn)行分類分級監(jiān)管。該法案將AI應(yīng)用劃分為最小風(fēng)險(xiǎn)、有限風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)和不可接受的風(fēng)險(xiǎn)四個(gè)等級,并制定了對應(yīng)的監(jiān)管要求。根據(jù)法案第三章第10條的規(guī)定,對于風(fēng)險(xiǎn)較高的生成式AI應(yīng)用,不僅需要滿足更為嚴(yán)格的數(shù)據(jù)保護(hù)要求,包括滿足有關(guān)透明度、數(shù)據(jù)質(zhì)量、記錄保存、人工監(jiān)督和穩(wěn)健性的具體要求。還要求這類應(yīng)用進(jìn)行定期的風(fēng)險(xiǎn)評估。如要求高風(fēng)險(xiǎn)AI系統(tǒng)的開發(fā)者記錄數(shù)據(jù)處理使用的全流程,審查數(shù)據(jù)來源。GDPR也實(shí)施了嚴(yán)格的個(gè)人數(shù)據(jù)分類分級保護(hù)。根據(jù)GDPR,個(gè)人數(shù)據(jù)被分為一般數(shù)據(jù)和特殊類別數(shù)據(jù),后者包括種族、宗教、健康、性取向等敏感信息。在生成式AI模型訓(xùn)練過程中,處理這些特殊類別數(shù)據(jù)時(shí),開發(fā)者需獲得用戶的明確同意,并提供額外的保護(hù)措施,如數(shù)據(jù)最小化、匿名化等。盡管美國缺乏統(tǒng)一的聯(lián)邦數(shù)據(jù)保護(hù)法,但不少州通過州一級的立法形成了對不同類別數(shù)據(jù)分別進(jìn)行規(guī)制的制度框架,體現(xiàn)了分類分級保護(hù)的理念。如加利福尼亞州,通過《加利福尼亞消費(fèi)者隱私法案》規(guī)定了個(gè)人數(shù)據(jù)的分類分級和保護(hù)。該法案要求企業(yè)對收集到的用戶數(shù)據(jù)進(jìn)行分類,特別是對敏感個(gè)人信息進(jìn)行嚴(yán)格保護(hù)。生成式AI在處理數(shù)據(jù)時(shí),必須告知用戶其信息的用途,并為用戶提供刪除或限制數(shù)據(jù)使用的權(quán)利。在生成式AI模型的訓(xùn)練階段,雖然企業(yè)采用數(shù)據(jù)分類分級來保護(hù)個(gè)人信息是一種有效的策略,但在實(shí)際應(yīng)用中面臨著一些問題和阻礙。如不同的領(lǐng)域和行業(yè)對數(shù)據(jù)分類分級的標(biāo)準(zhǔn)各不相同,增加了統(tǒng)一分類和分級標(biāo)準(zhǔn)的難度;自動化工具的局限性使得數(shù)據(jù)分類分級過程中存在誤分類的風(fēng)險(xiǎn);對數(shù)據(jù)過度去標(biāo)識化可能會削弱模型的訓(xùn)練效果等。這些問題亟需在實(shí)踐中進(jìn)一步研究與解決。3.2引入監(jiān)管沙箱制度“監(jiān)管沙箱”制度是指一個(gè)“安全空間”,企業(yè)可以在其中測試創(chuàng)新性的產(chǎn)品、服務(wù)、商業(yè)模式和交付機(jī)制,不會因從事相關(guān)活動而立即受到通常的監(jiān)管后果。該制度于2015年由英國金融行為監(jiān)管局提出,最早應(yīng)用在金融科技領(lǐng)域,是監(jiān)管機(jī)構(gòu)支持金融創(chuàng)新的一種重要制度嘗試。隨后,新加坡、澳大利亞、美國等國陸續(xù)在金融科技監(jiān)管領(lǐng)域開展類似試點(diǎn)。將該制度應(yīng)用在AI領(lǐng)域是一項(xiàng)創(chuàng)新之舉,具體是指AI開發(fā)者在產(chǎn)品投放市場之前,在一個(gè)可控、安全的環(huán)境中使用真實(shí)的或模擬的數(shù)據(jù)集來實(shí)驗(yàn)新技術(shù)或解決方案。對于監(jiān)管機(jī)構(gòu)、生成式AI開發(fā)者及使用者而言,通過構(gòu)建“監(jiān)管沙箱”可以更好地觀察和應(yīng)對生成式AI所帶來的風(fēng)險(xiǎn)。歐盟《人工智能法案》將AI監(jiān)管沙箱設(shè)定為各成員國強(qiáng)制義務(wù),以減輕企業(yè)監(jiān)管負(fù)擔(dān)。建立沙箱數(shù)據(jù)集的統(tǒng)一標(biāo)準(zhǔn),建設(shè)沙箱傳輸、整合、共享數(shù)據(jù)的平臺,實(shí)現(xiàn)數(shù)據(jù)互聯(lián)與共享,強(qiáng)化信息披露等。通過完善的技術(shù)安全保障措施降低數(shù)據(jù)安全隱患,確保數(shù)據(jù)存儲、加工和交付的安全。因此,“監(jiān)管沙箱”便成為數(shù)字化轉(zhuǎn)型中的主要規(guī)制工具。歐盟《人工智能法案》便將“監(jiān)管沙箱”作為規(guī)制學(xué)習(xí)和創(chuàng)建“靈活、有利于創(chuàng)新、面向未來、以證據(jù)為基礎(chǔ)、有彈性的規(guī)制框架”的工具,以應(yīng)對AI的顛覆性挑戰(zhàn)。英國信息專員辦公室(InformationCommissioner'sOffice,下稱“ICO”)在《關(guān)于數(shù)據(jù)保護(hù)法應(yīng)如何適用于生成式人工智能模型的開發(fā)和使用的征求意見中》也明確AI開發(fā)者可以通過“監(jiān)管沙箱”獲得ICO的建議和支持。伴隨著各國對“監(jiān)管沙箱”的理解不斷深入,AI領(lǐng)域“監(jiān)管沙箱”制度的實(shí)踐探索也逐步豐富,許多國家正在帶頭開發(fā)試點(diǎn)。相關(guān)實(shí)踐內(nèi)容參見下表:表:主要國家AI“監(jiān)管沙箱”試點(diǎn)概況國家開始時(shí)間內(nèi)容
挪威
2020年挪威數(shù)據(jù)保護(hù)局在個(gè)人信息保護(hù)中推出了一個(gè)監(jiān)管沙箱,旨在促進(jìn)AI領(lǐng)域創(chuàng)新的同時(shí)保護(hù)用戶隱私
法國
2020年由教育行業(yè)的5家企業(yè)參與測試AI系統(tǒng),法國數(shù)據(jù)保護(hù)當(dāng)局在監(jiān)測、評估風(fēng)險(xiǎn)的同時(shí),為參與企業(yè)提供技術(shù)和人力支持
韓國
2019年韓國科技部、貿(mào)易、工業(yè)和能源部以及中小企業(yè)和初創(chuàng)企業(yè)部建立監(jiān)管沙箱,為AI企業(yè)提供有時(shí)間限制的監(jiān)管豁免,以測試創(chuàng)新產(chǎn)品、服務(wù)和商業(yè)模式。沙盒還根據(jù)實(shí)際數(shù)據(jù)為政府法規(guī)提供信息德國2015年德國的AI戰(zhàn)略計(jì)劃建立AI生活實(shí)驗(yàn)室和試驗(yàn)平臺,如
A9
高速公路生活實(shí)驗(yàn)室,創(chuàng)建新的實(shí)驗(yàn)條款作為監(jiān)管沙箱的法律基礎(chǔ),并創(chuàng)建監(jiān)管沙箱網(wǎng)絡(luò)以及提供監(jiān)管沙箱手冊。促進(jìn)企業(yè)在自動駕駛領(lǐng)域的創(chuàng)新,并讓政府確定所需的監(jiān)管改革瑞士2022年由無人駕駛農(nóng)機(jī)、無人機(jī)、機(jī)器翻譯、作業(yè)糾錯(cuò)和停車調(diào)度等領(lǐng)域的5家企業(yè)參與測試研發(fā)AI系統(tǒng)西班牙2023年測試在生物識別、關(guān)鍵基礎(chǔ)設(shè)施和教育培訓(xùn)等8個(gè)領(lǐng)域中的高風(fēng)險(xiǎn)AI系統(tǒng)雖然引入“監(jiān)管沙箱”制度對AI的創(chuàng)新和發(fā)展有著諸多好處,如平衡創(chuàng)新與安全、創(chuàng)設(shè)靈活監(jiān)管、減輕監(jiān)管負(fù)擔(dān)等,但仍存在一定局限性,如沙箱侵權(quán)責(zé)任減免事由缺失、相關(guān)激勵(lì)措施有待規(guī)范,以及對數(shù)據(jù)利用的相關(guān)規(guī)定不完善等。這些問題的解決丞需政府、學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力。3.3聚焦提升訓(xùn)練數(shù)據(jù)透明度針對生成式AI訓(xùn)練階段的個(gè)人信息保護(hù)問題,許多國家和地區(qū)聚焦訓(xùn)練數(shù)據(jù)透明度的提升。數(shù)據(jù)的透明度通常指指的是指開發(fā)者在收集、使用和處理數(shù)據(jù)時(shí),向用戶清晰、公開地說明其數(shù)據(jù)處理的目的、方式、范圍和用戶權(quán)利,從而增強(qiáng)用戶對數(shù)據(jù)處理過程的信任,并確保他們能夠更好地掌握自己的個(gè)人信息。新加坡《生成式人工智能治理模型框架》明確生成式AI訓(xùn)練內(nèi)容來源的透明度可為最終用戶提供有用的信號,從而確保用戶能夠了解數(shù)據(jù)的來源和使用方式。實(shí)踐中,新加坡在“國家AI戰(zhàn)略”中推出AI治理測試框架和軟件工具包——AIVerify,其中,向個(gè)人披露AI在技術(shù)系統(tǒng)中的使用情況便是AIVerify測試框架下的支柱之一,通過文件證據(jù)(例如公司政策和溝通材料)的流程檢查進(jìn)行評估,為可能受AI系統(tǒng)影響的個(gè)人提供適當(dāng)?shù)男畔ⅰIVerify提供的透明性報(bào)告能夠幫助開發(fā)者和監(jiān)管者深入了解數(shù)據(jù)的處理方式,并確保生成式AI模型在使用數(shù)據(jù)時(shí)是透明的。歐盟委員會《人工智能和數(shù)據(jù)保護(hù)指南》認(rèn)為,盡管模型訓(xùn)練階段必然需要大型數(shù)據(jù)集,但應(yīng)采用一種設(shè)計(jì)范式,嚴(yán)格評估所使用數(shù)據(jù)的性質(zhì)和數(shù)量,減少冗余或邊緣數(shù)據(jù),逐漸增加訓(xùn)練集的規(guī)模。英國也建議提升訓(xùn)練數(shù)據(jù)方面的信息透明度,例如:在《創(chuàng)新友好的人工智能監(jiān)管(2023)》中建議提升訓(xùn)練數(shù)據(jù)方面的信息透明度,在合理透明度和可解釋性原則方面,希望監(jiān)管者對AI生命周期中的相關(guān)主體設(shè)置期待—積極提供其使用的數(shù)據(jù)以及訓(xùn)練數(shù)據(jù)方面的信息。在產(chǎn)業(yè)層面,生成式AI開發(fā)者在實(shí)踐中也極為關(guān)注訓(xùn)練數(shù)據(jù)透明度的提升。GoogleAI定期發(fā)布隱私和安全透明度報(bào)告,向公眾展示其數(shù)據(jù)保護(hù)的措施和技術(shù),包括生成式AI訓(xùn)練中如何應(yīng)用隱私保護(hù)技術(shù)。Apple不僅通過隱私透明度報(bào)告展示其數(shù)據(jù)保護(hù)措施,還為用戶提供了細(xì)粒度的隱私控制選項(xiàng)。用戶可以選擇是否參與模型訓(xùn)練和數(shù)據(jù)收集,并能查看和刪除相關(guān)數(shù)據(jù)。這些產(chǎn)業(yè)實(shí)踐不僅增強(qiáng)了用戶對生成式AI的信任,也為未來的技術(shù)可持續(xù)發(fā)展提供了穩(wěn)固的基礎(chǔ)。3.4采用嚴(yán)格的測試和評估措施為了確保生成式AI在模型訓(xùn)練過程中對個(gè)人信息的保護(hù)符合法律要求,多個(gè)國家采取了嚴(yán)格的測試和評估措施,確保生成式AI的開發(fā)者和使用者能夠有效保護(hù)個(gè)人信息,并符合數(shù)據(jù)保護(hù)法律的要求。當(dāng)前,不少國家和地區(qū)已經(jīng)采用或正在推動紅隊(duì)測試(RedTeaming)作為生成式AI模型訓(xùn)練過程中的個(gè)人信息保護(hù)的手段。紅隊(duì)測試是網(wǎng)絡(luò)安全領(lǐng)域的一種常見測試方法,旨在模擬惡意攻擊者對系統(tǒng)、網(wǎng)絡(luò)或應(yīng)用進(jìn)行攻擊,識別潛在的漏洞和安全風(fēng)險(xiǎn)在生成式AI領(lǐng)域,紅隊(duì)測試通常由一個(gè)專門的“紅隊(duì)”負(fù)責(zé),測試模型的邊界以及在各種領(lǐng)域生成不良輸出的潛力。通過模擬攻擊行為,紅隊(duì)測試能夠有效評估AI系統(tǒng)在處理和保護(hù)個(gè)人數(shù)據(jù)方面的能力,并幫助提高模型的整體安全性。美國總統(tǒng)拜登于2023年10月30日簽署頒布的《關(guān)于安全、可靠、可信地開發(fā)和使用人工智能的行政命令》(ExecutiveOrderontheSafe,Secure,andTrustworthyDevelopmentandUseofArtificialIntelligence)強(qiáng)調(diào)了AI紅隊(duì)測試的必要性。該命令將“AI紅隊(duì)測試”定義為一種“結(jié)構(gòu)化的測試活動,旨在發(fā)現(xiàn)AI系統(tǒng)中的缺陷和漏洞”,通常由專門的“紅隊(duì)”通過對抗性方法進(jìn)行。歐盟也將紅隊(duì)測試作為其AI監(jiān)管方法的核心。歐盟于2024年初通過的《人工智能法》要求“具有系統(tǒng)性風(fēng)險(xiǎn)的通用AI模型”在其生命周期內(nèi)進(jìn)行嚴(yán)格的紅隊(duì)測試或“對抗性測試”。新加坡推出的AIVerify治理測試框架規(guī)定了通過第三方測試提供外部驗(yàn)證和增加信任。韓國個(gè)人信息保護(hù)委員會(PIPC)發(fā)布的《關(guān)于處理公開數(shù)據(jù)以開發(fā)和服務(wù)AI的指南》在管理和組織防護(hù)措施中考慮運(yùn)行AI隱私紅隊(duì)。英國ICO在“生成式人工智能和數(shù)據(jù)保護(hù)”咨詢中提出了合法利益評估標(biāo)準(zhǔn),為生成式AI抓取個(gè)人數(shù)據(jù)進(jìn)行模型訓(xùn)練提供了合法依據(jù)。明確AI開發(fā)者應(yīng)進(jìn)行三步測試:一是目的性測試,即處理目的是否合法。二是必要性測試,即個(gè)人信息處理活動對于目的而言是必需的。三是平衡測試,AI開發(fā)者所追求的利益沒有被用戶的優(yōu)先性權(quán)利或基本權(quán)利與自由推翻。綜上所述,多個(gè)國家和地區(qū)通過測試確保生成式AI模型訓(xùn)練過程中的個(gè)人信息保護(hù)。這些機(jī)制不僅幫助生成式AI開發(fā)者確保其技術(shù)合規(guī),還加強(qiáng)了個(gè)人信息在模型訓(xùn)練過程中的安全性,提升數(shù)據(jù)保護(hù)能力。四、思考與展望當(dāng)前,生成式AI通過將海量數(shù)據(jù)與先進(jìn)的智能算法注入各行各業(yè),不僅極大地提高了生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版地鐵隧道電氣安裝規(guī)范及安全協(xié)議
- 二零二五年度房地產(chǎn)交易風(fēng)險(xiǎn)評估中介服務(wù)費(fèi)合同
- 2025版大型設(shè)備安裝與維護(hù)合作協(xié)議范本下載
- 2025版綠色生態(tài)園區(qū)建設(shè)項(xiàng)目內(nèi)部承包協(xié)議
- 2025承包建筑工程承包合同-智慧城市綜合體建設(shè)
- 2025版城市地下停車場施工承包合同
- 2025版智能網(wǎng)聯(lián)汽車一半股權(quán)轉(zhuǎn)讓與技術(shù)支持合同
- 二零二五年服裝店品牌營銷顧問聘用合同樣本
- 2025版老年旅游合同范本貼心關(guān)懷服務(wù)保障
- 2025版建筑安裝施工合同交底書范本
- 新東外環(huán)北段橋梁工程見證取樣計(jì)劃書
- 中國老年糖尿病診療指南(2024版)解讀
- 村上開無土地證明(標(biāo)準(zhǔn)版)
- 讀書分享讀書交流會《戰(zhàn)爭與和平》課件
- 2023年浙江嘉興嘉善事業(yè)單位招聘筆試參考題庫(共500題)答案詳解版
- 2022福建水投集團(tuán)云霄水務(wù)有限公司招聘試題及答案解析
- 鼎捷T100-V1.0-總賬管理用戶手冊-簡體
- 全域土地綜合整治項(xiàng)目實(shí)施方案
- 常見心律失常的診斷和處理
- 臺鉆作業(yè)指導(dǎo)書份
- RBA社會責(zé)任商業(yè)聯(lián)盟準(zhǔn)則(管理手冊+程序+記錄+培訓(xùn))
評論
0/150
提交評論