多模態(tài)大模型安全研究進(jìn)展_第1頁
多模態(tài)大模型安全研究進(jìn)展_第2頁
多模態(tài)大模型安全研究進(jìn)展_第3頁
多模態(tài)大模型安全研究進(jìn)展_第4頁
多模態(tài)大模型安全研究進(jìn)展_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

674E-mail:jig@website:www.cjig.cnTel國圖象圖形學(xué)報C中國圖象圖形學(xué)報版權(quán)所有中圖法分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1006-8961(2025)06-0674-31論文引用格式:GuoYF,YuZT,LiuAS,ZhouWB,QiaoT,LiB,ZhangWM,KangXG,ZhouLN,YuNHandHuangJW.2025.Recent喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武.2025.多模態(tài)大模型安全研究進(jìn)展.中國圖象圖形學(xué)報,30(60674-0704DOI:多模態(tài)大模型安全研究進(jìn)展4*1.北京航空航天大學(xué),北京100191;2.4.杭州電子科技大學(xué),浙江杭州310018;5.深圳大學(xué),廣東深圳517.北京郵電大學(xué),北京100876;8.深圳北理莫斯科大學(xué),廣東深圳518172摘要:多模態(tài)大模型的安全性研究已成為當(dāng)下人工智能領(lǐng)域的焦點。由于大模型以深度神經(jīng)網(wǎng)絡(luò)為核心構(gòu)建,因此與深度神經(jīng)網(wǎng)絡(luò)類似,存在多種安全風(fēng)險。此外,由于其特有的復(fù)雜性,以及廣泛的應(yīng)用場景,也使得大模型面臨一些獨特的安全風(fēng)險。本文系統(tǒng)地總結(jié)多模態(tài)大模型的安全風(fēng)險,包括對抗攻擊、越獄攻擊、后門攻擊、版權(quán)竊取、幻覺現(xiàn)象、泛化問題、偏見問題等。具體來說,在大模型在面對帶噪輸入時產(chǎn)生嚴(yán)重的誤判;越獄攻擊利用大模型的復(fù)雜結(jié)構(gòu),繞過或破壞原有的安全約束和防御措施,使模型執(zhí)行未授權(quán)的操作,甚至泄露敏感數(shù)據(jù);后門攻擊則通過在大模型的訓(xùn)練階段植入隱秘的觸發(fā)器,使模型在特定條件下做出攻擊者預(yù)期的反應(yīng);未經(jīng)授權(quán)的竊取者可能未經(jīng)模型擁有者的同意隨意分發(fā)或進(jìn)行商業(yè)使用,將導(dǎo)致模型版權(quán)擁有者遭受損失;幻覺現(xiàn)象,即模型輸出與輸入不一致的問題;泛化問題即大模型當(dāng)前應(yīng)對部分新數(shù)據(jù)分布或風(fēng)格的能力仍顯不足;大模型在性別、種族、膚色、年齡等敏感問題上的偏向性可能引發(fā)倫理等問題。隨后,針對這些安全風(fēng)險分別介紹相應(yīng)的解決方案。本文旨在為理解和應(yīng)對多模態(tài)大模型的獨特安全挑戰(zhàn)提供一個獨特的視角,促進(jìn)多模態(tài)大模型安全技術(shù)的發(fā)展,引導(dǎo)未來相關(guān)安全技術(shù)的發(fā)展方向。RecentprogressofthesecurityresearchformultimodallargemodelsZhangWeiming3,KangXiangui6,ZhouLinna7,Yu基金項目:國家自然科學(xué)基金項目(62272020,62372423,62472135廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金資助項目(2023A1515140037浙江省重點研發(fā)項目(2025C04002浙江省自然科學(xué)基金項目(LZ23F020006)。第30卷/第6期/2025年6月675郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展隨著深度學(xué)習(xí)的興起,人工智能技術(shù)經(jīng)歷了從淺層機(jī)器學(xué)習(xí)到深度學(xué)習(xí)、從小規(guī)模數(shù)據(jù)學(xué)習(xí)到大數(shù)據(jù)學(xué)習(xí)的發(fā)展歷程。隨著近年來數(shù)據(jù)資源和計算資源的不斷提升,深度學(xué)習(xí)模型的規(guī)模持續(xù)增加,大通常來說,在大規(guī)模的廣泛數(shù)據(jù)上訓(xùn)練的(通常使用大規(guī)模的自監(jiān)督訓(xùn)練)、且可以適應(yīng)(例如通過微調(diào))廣泛下游任務(wù)的任何模型都被稱為大模型。練,并以完成多模態(tài)多樣化應(yīng)用任務(wù)為目標(biāo)所得到的大模型又被稱為多模態(tài)大模型。ChatGPT、Llama、文心一言、通義千問等國內(nèi)外的多模態(tài)大模型獲得了極大發(fā)展,在智能內(nèi)容創(chuàng)作、AI數(shù)字人、AI數(shù)據(jù)分析、智能客服、智能辦公等多個方面不斷提升應(yīng)用上限。雖然多模態(tài)大模型的研究進(jìn)展與應(yīng)用一日千里,但也出現(xiàn)了多樣化的安全問題,如OpenAIChat-GPT和API重大中斷事件、三星員工使用ChatGPT不當(dāng)泄露芯片機(jī)密代碼事件等。由于多模態(tài)大模型是以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建的,因此具有類似深676中國圖象圖形學(xué)報 題。此外,由于多模態(tài)大模型特有的復(fù)雜性以及多樣化應(yīng)用場景,其也存在一些獨特的安全問題,如越鑒于此,本文系統(tǒng)性地總結(jié)多模態(tài)大模型安全的最新研究進(jìn)展。具體來說,將多模態(tài)大模型的安全風(fēng)險劃分為對抗攻擊(Dong等,2018)、越獄攻擊者通過構(gòu)造微小但具有欺騙性的對抗樣本,使大模型在面對帶噪輸入時產(chǎn)生嚴(yán)重的誤判;越獄攻擊利用大模型的復(fù)雜結(jié)構(gòu),繞過或破壞原有的安全約束和防御措施,使模型執(zhí)行未授權(quán)的操作,甚至泄露敏感數(shù)據(jù);后門攻擊則通過在大模型的訓(xùn)練階段植入隱秘的觸發(fā)器,使模型在特定條件下做出攻擊者預(yù)期的反應(yīng);未經(jīng)授權(quán)的竊取者可能未經(jīng)模型擁有者的同意隨意分發(fā)或進(jìn)行商業(yè)使用,將導(dǎo)致模型版權(quán)擁有者遭受損失;幻覺現(xiàn)象,即模型輸出與輸入不一致的問題;泛化問題即大模型當(dāng)前應(yīng)對部分新數(shù)據(jù)分布或風(fēng)格的能力仍顯不足;大模型在性別、種族、膚色、年齡等敏感問題上的偏向性可能引發(fā)倫理等問題。本文首先針對上述安全風(fēng)險及相應(yīng)的攻擊技術(shù)進(jìn)展進(jìn)行介紹,隨后介紹相應(yīng)解決方案的最新研究進(jìn)展。本文旨在為理解和應(yīng)對多模態(tài)大模型的獨特安全挑戰(zhàn)提供一個獨特的視角,并促進(jìn)多模態(tài)大模型安全技術(shù)的發(fā)展,引導(dǎo)未來相關(guān)安全技術(shù)的發(fā)展方向。1對抗攻擊與傳統(tǒng)深度模型類似,雖然多模態(tài)大模型在各種各樣的任務(wù)上能夠取得驚人的效能,許多場景下其表現(xiàn)甚至超過人類,但是,以深度模型為基礎(chǔ)的多模態(tài)大模型同樣在安全方面存在致命缺陷。例如,在圖像任務(wù)上,通過在輸入圖像上添加微小的、幾乎example,AE能夠使模型很容易受到欺騙,輸出完全不同的預(yù)測結(jié)果。更為嚴(yán)重的是,精心構(gòu)造的對抗攻擊能夠使得模型以很高的置信度輸出錯誤的預(yù)擊者能夠在人眼難以察覺的情況下隱蔽地篡改輸入數(shù)據(jù),使部署深度學(xué)習(xí)方法的系統(tǒng)做出錯誤判斷,比如使人臉識別門禁和智能監(jiān)控系統(tǒng)錯誤識別或漏檢目標(biāo),或使自動駕駛汽車對篡改后的路標(biāo)進(jìn)行錯誤反應(yīng)等。此外,隨著視覺語言模態(tài)在多模態(tài)理解和推理任務(wù)中表現(xiàn)出色,攻擊者開始探索操縱圖像和文本輸入的新方法,并且設(shè)計出多樣化的攻擊效果。本文將針對大模型的對抗攻擊策略分為視覺模態(tài)的對抗攻擊、文本模態(tài)的對抗攻擊和多模態(tài)的對抗攻擊3部分展開,這些多模態(tài)攻擊策略不僅增加了攻擊的多樣性,也提高了對模型魯棒性的要求,推動了新的防御機(jī)制的發(fā)展。針對這些多種模態(tài)的攻擊,本文將相應(yīng)的對抗防御策略分為基于對抗樣本檢測的對抗防御、基于重構(gòu)輸入數(shù)據(jù)的對抗防御和基于對抗訓(xùn)練微調(diào)的對抗防御,分別介紹多種針對多模態(tài)大模型和大語言模型的對抗防御方法。1.1視覺模態(tài)對抗攻擊通過對原始圖像進(jìn)行可微分變換以增強(qiáng)對抗樣本的遷移性。在生成對抗擾動的每一步引入隨機(jī)圖像變換操作,例如按一定概率對圖像進(jìn)行大小調(diào)整和填充。實驗表明,隨著變換概率的增加,對抗模型遷移能力顯著提高。除了數(shù)據(jù)增強(qiáng)策略外,Dong等人(2018)進(jìn)一步優(yōu)化了對抗樣本的生成方法,通過將動量機(jī)制引入快速梯度符號法(FGSM信息,使對抗擾動的更新更加穩(wěn)定,從而提升了跨??箻颖镜膬蓚€關(guān)鍵問題進(jìn)行研究:一是迭代攻擊中梯度幅值逐漸減小,導(dǎo)致動量累積時連續(xù)兩次擾動時逼近目標(biāo)類別并遠(yuǎn)離真實類別的矛盾性。為此,他們首次引入龐加萊球作為度量空間,解決了噪聲固化問題,使梯度幅值能夠自適應(yīng)調(diào)整,并提升了噪聲方向的靈活性。同時,他們設(shè)計了一種基于龐加萊距離的損失函數(shù),以替代傳統(tǒng)交叉熵?fù)p失,僅在逼近目標(biāo)類別時施加梯度更新,從而進(jìn)一步增強(qiáng)對抗677第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展攻擊的遷移效果。SAM(segmentanythingmodel)的對抗魯棒性進(jìn)行了研究。他們提出了一個稱為Attack-SAM的攻擊框架,并設(shè)計了一個簡單有效的ClipMSE損失,在基于提示的掩膜預(yù)測任務(wù)中能夠使SAM被攻擊以生成任何所需的掩膜。這項研究表明視覺基礎(chǔ)模型在白盒場景中容易受到對抗樣本的影響。Zheng等人(2025)在Attack-SAM的基礎(chǔ)上采用隨機(jī)化提示點的方法實現(xiàn)對抗樣本對提示不可知。此外,他們受他干凈樣本的余弦相似度來測量對抗樣本特征的相對強(qiáng)度,并將其作為正則項來提升對抗樣本特征的強(qiáng)度,進(jìn)而實現(xiàn)跨模型的黑盒對抗攻擊。此外,還有一部分工作在能夠適應(yīng)視覺語言模態(tài)任務(wù)的視覺基礎(chǔ)模型上進(jìn)行,但是僅攻擊視覺模態(tài)。Zhou等人(2023)基于多模態(tài)對比學(xué)習(xí)方法提出了面向視覺基礎(chǔ)模型的攻擊框架AdvCLIP,能夠生成下游不可知的對抗樣本。該框架由一個生成器、一個判別器和一個跨模態(tài)編碼器組成,其中跨模態(tài)編碼器包含一個圖像編碼器和一個文本編碼器。生成器通過輸入的隨機(jī)噪聲生成對抗擾動,進(jìn)而與圖像組成對抗樣本,并輸入判別器和跨模態(tài)編碼器。損失函數(shù)由4部分構(gòu)成:對抗損失,確保對抗樣本的特征遠(yuǎn)離干凈圖像和文本;拓?fù)淦顡p失,最大化對抗樣本與正樣本之間的拓?fù)渚嚯x來破壞兩者間的拓?fù)湎嗨菩裕粩_動約束,確保生成的擾動難以被人類視失,使對抗樣本與干凈圖像在判別器上趨于一致,確保對抗樣本在視覺上更自然。然而,AdvCLIP要求視覺基礎(chǔ)模型的編碼器是開源可訪問的,即跨模態(tài)編碼器中的圖像編碼器和文本編碼器來自目標(biāo)基礎(chǔ)模型,同時還要求用戶只會微調(diào)線性層。這導(dǎo)致AdvCLIP在黑盒場景下不適用。此外,實驗結(jié)果表明,AdvCLIP僅在圖像分類數(shù)據(jù)集上具有較高的攻擊性能,跨任務(wù)遷移性差。且由于其僅考慮了對圖像的擾動,使得AdvCLIP在圖像文本檢索任務(wù)上的像劫持”的概念,介紹了一種新的行為匹配算法于訓(xùn)練圖像劫持以匹配用戶定義的任意文本提示,并展示了如何利用這一技術(shù)實施多種針對視覺大模型的攻擊,包括特定字符串攻擊、上下文泄露攻擊、抗噪聲與文本或圖像嵌入進(jìn)行匹配,生成可遷移的對抗樣本。此外,該工作通過優(yōu)化基于查詢的攻擊方法來生成可遷移的對抗擾動,進(jìn)一步提高了對視覺模態(tài)大模型的攻擊成功率。Tu等人(2023)訓(xùn)練了干擾CLIP的圖像—文本匹配的對抗性噪聲,從而誤導(dǎo)視覺大模型產(chǎn)生與視覺無關(guān)的反應(yīng)。Wang等利用文本到圖像的生成模型將目標(biāo)響應(yīng)反轉(zhuǎn)為目標(biāo)圖像,使用與待攻擊的視覺模態(tài)大模型相同的代理視覺編碼器來提取對抗性圖像和目標(biāo)圖像的指令相關(guān)特征。此外,還使用從LLM中改寫的指令,增強(qiáng)了對抗樣本的可遷移性。1.2語言模態(tài)對抗攻擊種文本生成任務(wù)中表現(xiàn)出色,包括問答、翻譯、代碼通過設(shè)計對抗性提示,誘使模型生成違反使用策略和社會規(guī)范的惡意響應(yīng),引起了人們對其安全性和潛在漏洞的重大擔(dān)憂。Zou等人(2023)作為該領(lǐng)域的先驅(qū),提出了一種對于對齊大型語言模型有效的基于梯度的越獄攻表明,該攻擊可以成功轉(zhuǎn)移到各種模型,包括Chat-GPT、Bard和Claude等公共黑盒模型。GCG已證明對許多先進(jìn)的LLM具有強(qiáng)大的性能,也為攻擊后綴的后續(xù)研究留下了一個方向。Jones等人(2023)開式化為離散優(yōu)化問題。給定目標(biāo),例如特定輸出,ARCA旨在搜索原始提示后可能的后綴,該后綴可以貪婪地生成輸出。該方法是一種黑盒審計方法,不需要訪問語言模型的參數(shù),僅通過其提供的服務(wù)來審計模型,為在模型部署前的審計提供一種高效可行的方法。Zhu等人(2023)開發(fā)了AutoDAN,這是一種針對LLM的可解釋梯度越獄攻擊。具體來說,AutoDAN以順序方式生成對抗性后綴,在每次迭代中,AutoDAN使用考慮越獄和可讀性目標(biāo)的單符元優(yōu)化(STO)算法為后綴生成新符元。它可以繞過678中國圖象圖形學(xué)報 困惑度過濾器(PPLfilter并在轉(zhuǎn)移到像ChatGPT和GPT-4這樣的公共黑盒模型時實現(xiàn)更高的攻擊成功率。然而在某些情況下,攻擊者可能無法訪問所有顯示模型針對每個實例的輸出token概率分布。因過強(qiáng)制目標(biāo)LLM選擇排名較低的輸出token并生成有毒內(nèi)容來打破安全對齊。Du等人(2024)旨在通過提高模型的固有肯定傾向來越獄目標(biāo)LLM,他們提出了一種基于輸出token概率分布來計算LLM傾向得分的方法,并用嵌入惡意的真實世界指令來放大產(chǎn)生有害回復(fù)的概率,以獲得更高的肯定傾向。與依賴即時修改技術(shù)精心構(gòu)建有害輸入的攻擊方法不同,基于微調(diào)的攻擊策略涉及使用惡意數(shù)據(jù)重新訓(xùn)練目標(biāo)模型。此過程使模型容易受到攻擊,從而更容易被對抗性攻擊者加以利用。Qi等人(2023)揭示,僅僅用幾個有害示例微調(diào)LLM就可以嚴(yán)重?fù)p害其安全對齊,使其容易受到越獄等攻擊。Zhu等人(2023)結(jié)合更多開源模型進(jìn)一步研究該問題,并探索了在多輪非英語對話中的有害輸入的可遷移性。該工作指出,在1個GPU小時內(nèi)使用僅100個有害示例微調(diào)安全對齊的LLM,會顯著增加其受到越獄攻擊的脆弱性。在其方法中,為了構(gòu)建微調(diào)數(shù)據(jù),將GPT-4生成的惡意問題饋送到一個LLM以獲取相應(yīng)的答案。此LLM是專門針對其回答敏感問題的能力而選擇的。最后,將這些響應(yīng)轉(zhuǎn)換為問答對以編譯訓(xùn)練數(shù)據(jù)。在此微調(diào)過程之后,LLM對越獄嘗試的敏感性顯著上升。Lermen等人(2024)使用低秩適應(yīng)(LoRA)微調(diào)方法成功消除了Llama-2和Mixtral的安全對齊。該方法在計算成本有限的情況下,將目標(biāo)LLM對越獄提示的拒絕率降低到低于1%。Zhan等人(2024)證明,用低至340個對抗性示例微調(diào)對齊模型可以有效拆除由人類反饋強(qiáng)化學(xué)習(xí)(RLHF)提供的保護(hù),他們的實驗表明,這種經(jīng)過微調(diào)的LLM具有的可能性會生成有利于越獄攻擊的有害輸出。這項研究強(qiáng)調(diào)了當(dāng)前LLM防御中的漏洞,并突出了進(jìn)一步研究加強(qiáng)針對微調(diào)攻擊的保護(hù)措施的迫切需要。隨著多模態(tài)模型的快速發(fā)展,對抗攻擊的研究已經(jīng)從單一模態(tài)擴(kuò)展到更為復(fù)雜的多模態(tài)模型。這些研究不僅揭示了多模態(tài)系統(tǒng)的潛在安全風(fēng)險,還為構(gòu)建更健壯的模型提供了寶貴的見解。集成了文本和視覺模態(tài)的多模態(tài)大型語言模型在各種多模態(tài)任務(wù)中取得了前所未有的性能。然而,由于視覺模型中未解決的對抗性魯棒性問題,通過引入視覺模態(tài)的輸入,可能會導(dǎo)致更嚴(yán)重的安全風(fēng)險。一些研究致力于干擾輸入模態(tài)的信息,來影響多模態(tài)大模型在輸出模態(tài)上做出錯誤的預(yù)測。例術(shù),通過最大化對抗圖像擾動對模型輸出有害文本的概率,指出大型語言模型和多模態(tài)模型在面對對抗攻擊時可能違背設(shè)計原則,進(jìn)而生成有害文本。Qi等人(2024)則關(guān)注視覺語言模型的越獄攻擊,通過計算圖像對抗擾動,繞過模型的安全防護(hù),迫使模的研究強(qiáng)調(diào)了在圖像特定區(qū)域嵌入對抗擾動的可能性,這種方法能在不顯著改變圖像語義內(nèi)容的情況下,引導(dǎo)模型生成攻擊者指定的文本。Schlarmann本輸出的概率來計算對抗擾動。然而,由于圖像的正確描述可能有無窮多種,盡管對抗擾動能夠避免某一正確描述,模型仍可能生成其他符合圖像的正確描述,這在一定程度上削弱了攻擊效果。Dong等人(2023)研究了谷歌的多模態(tài)模型的魯棒性,采用基于遷移的攻擊方法,通過攻擊白盒代理視覺編碼器或視覺大模型,生成具有高度可遷移性的對抗樣本,在欺騙其他多類多模態(tài)大模型同樣具備較高的攻擊成功率,說明多模態(tài)大模型對于對抗樣本的魯棒性仍然是一個亟需解決的問題。Han等人(2023)圖像和文本集合的特征視為兩個分布,通過最優(yōu)傳輸計算兩者間的最優(yōu)映射關(guān)系,有效緩解過擬合問題,并提升對抗樣本的遷移性。此外,還有一些研究嘗試損害不同模態(tài)間的信息交互以實現(xiàn)對抗攻擊。例如,Zhang等人(2022a)針對視覺語言模態(tài)任務(wù)提出了一種多模態(tài)交互的攻融合策略的視覺基礎(chǔ)模型,Co-Attack通過使擾動后的多模態(tài)嵌入遠(yuǎn)離原始多模態(tài)嵌入來實現(xiàn)協(xié)同擾動679第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展文本和圖像,而對于采用對比學(xué)習(xí)來使視覺與語言模態(tài)對齊的視覺基礎(chǔ)模型,Co-Attack通過使擾動后的圖像嵌入遠(yuǎn)離擾動后的文本嵌入來實現(xiàn)對單模態(tài)嵌入的攻擊。具體而言,他們提出先通過BERT-動作為文本輸入,采用類似PGD的方式生成圖像擾guidanceattack并首次探索了適應(yīng)于視覺語言模態(tài)任務(wù)的視覺基礎(chǔ)模型在黑盒場景下的對抗魯棒一的圖像—文本對擴(kuò)展為圖像集—文本集,并使用來自不同模態(tài)的配對數(shù)據(jù)作為監(jiān)督信號來引導(dǎo)對抗樣本的優(yōu)化方向。具體而言,SGA通過數(shù)據(jù)增強(qiáng)將輸入的圖像擴(kuò)展為圖像集,接著為圖像集中的每一幅圖像匹配相近的多個文本描述構(gòu)成文本集,然后為文本集中每個文本描述生成對應(yīng)的對抗文本,形成對抗文本集,再通過對抗文本集優(yōu)化生成對抗圖像。此外,在迭代優(yōu)化對抗圖像和對抗文本的過程中,SGA會逐步拉遠(yuǎn)圖像和文本在特征空間中的距離,從而破壞跨模態(tài)交互,以提升對抗樣本的遷移性。Wang等人(2025b)從增強(qiáng)遷移性的角度同樣基于對比學(xué)習(xí)提出了一種在視覺基礎(chǔ)模型上生成視覺語言模態(tài)對抗樣本的方法。受Guo等人(2021)啟離散分布的文本轉(zhuǎn)化為一個可微的采樣過程,使得能夠通過梯度下降優(yōu)化生成文本擾動。在生成視覺語言模態(tài)對抗樣本過程中,他們結(jié)合了MI-FGSM化圖像擾動,不同于Co-Attack方法,他們基于梯度同時生成對抗文本和對抗圖像。為了提高視覺語言模態(tài)對抗樣本的遷移性,他們采用對比學(xué)習(xí),包括模態(tài)內(nèi)對比學(xué)習(xí)和圖像—文本對比學(xué)習(xí),在不同模態(tài)使對抗樣本特征遠(yuǎn)離原始樣本。Cui等人(2024b)使Wagner)算法針對視覺編碼器生成任務(wù)無關(guān)的對抗樣本,用來攻擊視覺語言大模型的多種常見任務(wù)。在沒有提供額外文本信息的任務(wù)中,例如圖像分類或標(biāo)題生成任務(wù),多模態(tài)大模型的性能非常容易受到對抗樣本的顯著影響,即使這種擾動只由視覺模型產(chǎn)生。與分類和標(biāo)題生成任務(wù)相比,多模態(tài)大模型在視覺文本問答任務(wù)中表現(xiàn)出更好的魯棒性,尤其是當(dāng)VQA問題查詢涉及與被攻擊內(nèi)容不同的視覺內(nèi)容時,視覺攻擊的效果較低,說明具有額外的文本上下文是多模態(tài)大模型的魯棒性的關(guān)鍵。除了視覺語言多模態(tài)大模型外,其他多模態(tài)大模型也逐漸涌現(xiàn),例如集成語音和大語言模型(SLMs)可以遵循語音指令并生成相關(guān)的文本響應(yīng)。擊,在基于PGD算法的白盒攻擊場景和基于遷移方法的黑盒攻擊場景中分別生成對抗樣本。隨著各種多模態(tài)大模型的提出,如何將對視覺模型的對抗攻擊方法遷移到其他模態(tài)中,從而實現(xiàn)對更多類多模態(tài)大模型的對抗攻擊,仍然是一個值得廣泛探索的問題。1.4基于對抗樣本檢測的對抗防御對抗樣本檢測是對抗防御領(lǐng)域的經(jīng)典方法之一,僅對輸入的圖像檢測其是否為對抗樣本,因此傳統(tǒng)視覺領(lǐng)域中對抗樣本檢測的防御方法同樣適用于多模態(tài)大模型的對抗防御領(lǐng)域。特別地,由于對抗樣本檢測方法無關(guān)被攻擊的模型架構(gòu),具有廣泛的適用性,其同樣可遷移至于大語言模型的對抗樣本檢測,從而實現(xiàn)了大語言模型的對抗防御。在大語言模型領(lǐng)域,由于對抗文本大多是通過離散優(yōu)化生成的非常規(guī)文本內(nèi)容,例如許多對抗性攻擊文本會導(dǎo)致難以理解的亂碼字符串,如果給定的序列不流暢、包含語法錯誤或者與之前的輸入邏輯不符合,模型的困惑性就會立刻上升。根據(jù)這一特性,可以通過檢測輸入困惑度從而判斷輸入是否對抗樣本。檢測分析每個“令牌”的困惑程度。使用基于優(yōu)化的方法,確定每個令牌是否為對抗提示的一部分;使用基于概率圖模型的方法,計算每個令牌成為對抗提示的一部分的可能性,將概率輸出擴(kuò)展到整個句子,即可求解輸入為對抗提示的整體概率。另一類檢測思路是引入第三方的大語言模型對提示進(jìn)行直接審查,這種方法不僅可以規(guī)避對抗性后綴或者對抗性插入攻擊,也可以借用安全防御機(jī)制更完備的模型直接識別人為生成越獄的輸入。Alon和KamfonasGPT-2模型評估帶有對抗性后綴的輸入查詢的文本困惑度,同時通過構(gòu)建一個包含提示序列長度和它680中國圖象圖形學(xué)報 們的困惑度之間相互關(guān)聯(lián)的分類器,以顯著降低誤判對抗性提示的風(fēng)險。根據(jù)此提出了一個基于困惑度和標(biāo)記序列長度訓(xùn)練的過濾器,用于檢測測試集中的對抗性攻擊。對于視覺模態(tài)的對抗樣本檢測,一類基于特征變換的檢測方法旨在通過比較模型對變換前后樣本的預(yù)測結(jié)果來判別對抗樣本。由于對抗擾動微小且對模型的預(yù)測結(jié)果影響極大,因此對圖像進(jìn)行一些處理以削弱擾動可能會導(dǎo)致模型輸出發(fā)生的變化,例如對抗樣本對于去噪、特征壓縮等操作通常表現(xiàn)不魯棒,從而可以檢測出輸入是否對抗樣本。Liang等人(2021)將圖像的擾動視為一種噪聲,并引入兩種經(jīng)典的圖像處理技術(shù):標(biāo)量量化和平滑空間濾波,以減少其影響。該方法使用圖像熵作為度量,以實現(xiàn)不同類型圖像的自適應(yīng)降噪。通過比較給定樣本的分類結(jié)果及其去噪版本,可以有效地檢測到對抗性示例,而無需參考任何先驗攻擊知識。Drenkow等人(2022)利用隨機(jī)映射特征的不一致性來體現(xiàn)不同子空間集合中正常樣本和對抗樣本的區(qū)別,首先通過隨機(jī)投影將圖像特征降維,并映射到一系列隨機(jī)子空間中,然后在每個子空間中比較這些特征映射與類原型之間的一致性,從而判斷原始輸入是否對抗樣本。另一類視覺模態(tài)的對抗樣本檢測方法試圖結(jié)合其他領(lǐng)域的先進(jìn)技術(shù),例如生成模型、語義分割等,以提高檢測的效率和準(zhǔn)確性。Nwaigwe等人(2024)受到圖論視角啟發(fā),在樣本輸入到目標(biāo)模型后,使用層次相關(guān)傳播算法為目標(biāo)模型的每個神經(jīng)元分配一個量,這些量可以解釋為神經(jīng)元對輸出的影響大小?;谶@些神經(jīng)元的量和連接方式構(gòu)建一個稀疏圖,并從中提取了3個特征量進(jìn)行比較:節(jié)點的度、WSR陣。通過比較這3個特征量來識別對抗樣本。1.5基于重構(gòu)輸入數(shù)據(jù)的對抗防御由于對抗樣本對微小的擾動非常敏感,因此對輸入數(shù)據(jù)重構(gòu)后可能會破壞對抗樣本的攻擊能力。由于文本模態(tài)本身具備極強(qiáng)的靈活性,文本模態(tài)輸入能夠在保持原本語義不變的前提下,實現(xiàn)具備極高豐富性的重構(gòu)方案,為抵御對抗攻擊提供了極大的可能性。因此,重構(gòu)輸入數(shù)據(jù)的思想在大語言模型和多模態(tài)大模型領(lǐng)域,實現(xiàn)了多種有價值的對抗防御方法。在大語言模型的對抗防御中,一類通過重構(gòu)輸入數(shù)據(jù)的方法是直接對文本進(jìn)行預(yù)處理。由于攻擊者無法獲取到大語言模型對輸入的預(yù)處理方式,從而實現(xiàn)了大語言模型對于文本模態(tài)對抗樣本的防御能力。Cao等人(2024)對輸入進(jìn)行多次隨機(jī)丟棄,將多個處理后的請求提交給大語言模型,當(dāng)大部分請求被判定為良性時,才會認(rèn)定該輸入是非對抗性的。對輸入請求進(jìn)行隨機(jī)丟棄操作時,對抗性提示中的關(guān)鍵攻擊部分可能會被隨機(jī)丟棄,從而破壞了對抗性提示的完整性和有效性,由于對抗性攻擊通常對微小的擾動非常敏感,這種隨機(jī)丟棄的操作實質(zhì)上削弱了對抗性提示在對齊破壞攻擊中的效果。為了更有效地判斷輸入提示是否潛在有害,Robey等人SmoothLLM,首先對初始輸入進(jìn)行隨機(jī)變化的擾動操作,這種擾動能夠引入多樣化的變化因素,從而生成輸入提示的多個不同副本。這些輸入提示的副本會經(jīng)歷一系列精心設(shè)計的語義轉(zhuǎn)換過程,例如改寫、壓縮、擴(kuò)寫等,以此來增加語義的多樣性和復(fù)雜性。對每個轉(zhuǎn)換后的輸入所對應(yīng)的預(yù)測結(jié)果進(jìn)行聚合,即統(tǒng)計各個擾動輸入的輸出結(jié)果,以多數(shù)的意見來最終判斷原始輸入提示是否潛在有害。這種基于多數(shù)投票的聚合方式能夠在一定程度上減少單個擾動結(jié)果的偏差影響,提高判斷的準(zhǔn)確性和可靠性。該方法還能每個輸入的獨特特征和語義信息,自適應(yīng)地選擇最適合該輸入的轉(zhuǎn)換方式,從而最大程度地保留輸入的語義信息,同時又能有效地引入必要的變化。因此該方法在面對轉(zhuǎn)移和自適應(yīng)攻擊時,展現(xiàn)出了更強(qiáng)的魯棒性。對于前文提到的針對多模態(tài)大模型的對抗攻擊,可以通過結(jié)合更魯棒的文本模態(tài)的信息,從而增強(qiáng)模型對圖像模態(tài)對抗攻擊的抵抗能力。受此啟發(fā),對抗提示的方法,即通過重構(gòu)輸入數(shù)據(jù)的大模型對抗防御方法,被提出。對抗提示指應(yīng)用針對大模型的提示工程來設(shè)計和優(yōu)化更魯棒的文本提示,從而增強(qiáng)模型對圖像擾動的防御能力。Li等人(2024b)提出了一種名為對抗提示調(diào)優(yōu)(APT)的對抗提示方法,通過學(xué)習(xí)視覺語言大模型的魯棒文本提示來提高對對抗性攻擊的彈性。該方法在計算量上和數(shù)據(jù)效率上都非常高效,并在輸入分布轉(zhuǎn)移和跨數(shù)據(jù)集下的泛化方面表現(xiàn)出了良好性681第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展能,通過簡單地在提示中添加一個學(xué)習(xí)到的單詞,APT可以顯著提高多模態(tài)大模型的準(zhǔn)確性和魯棒性。Zhang等人(2025b)提出對抗性(AdvPT創(chuàng)新性地設(shè)計可學(xué)習(xí)的文本提示,并將它們與對抗樣本的特征嵌入對齊,增強(qiáng)VLMs中圖像編碼器對抗魯抗性,而不需要進(jìn)行參數(shù)訓(xùn)練或修改模型體系結(jié)構(gòu)。AdvPT提高了對白盒和黑盒對抗攻擊的抵抗力,并在與現(xiàn)有的輸入去噪防御技術(shù)結(jié)合時表現(xiàn)出協(xié)同效應(yīng),進(jìn)一步增強(qiáng)了防御能力。1.6基于對抗微調(diào)的對抗防御一類大模型對抗防御的方法稱為對抗微調(diào)。對抗微調(diào)借鑒對抗防御領(lǐng)域經(jīng)典的對抗訓(xùn)練方法的思路,該方法是Madry等人(2019)為了解決對抗樣本的問題而提出的一種新的訓(xùn)練方法,通過對每個原始訓(xùn)練樣本添加微小擾動來成對抗性樣本,使用對抗性樣本和原始樣本共同訓(xùn)練模型,使得模型能夠在對抗性樣本下保持穩(wěn)定的輸出結(jié)果。由于對抗微調(diào)方法對于各類架構(gòu)的模型都具有極強(qiáng)的可用性,因此對抗微調(diào)方法可以很好地遷移到大語言模型的對抗防御和多模態(tài)大模型的對抗防御領(lǐng)域,有效地提高了模型的魯棒性。在大語言模型方面,對BERT等大型神經(jīng)語言模型的預(yù)訓(xùn)練在各種任務(wù)的泛化方面取得了令人印象深刻的效果,但這些模型仍然很容易受到對抗攻擊。一種增強(qiáng)大語言模型魯棒性的方法是對抗性訓(xùn)練,但過去的工作經(jīng)常發(fā)現(xiàn)它會傷害泛化性。泛化性和魯棒性都是設(shè)計大語言模型的關(guān)鍵要求,因此,兼顧泛化性和魯棒性的大語言模型對抗微調(diào)防御方法成為研究熱點。Liu等人(2020)提出了一種名為ALUM模型的對抗性訓(xùn)練方法,該算法通過在嵌入空間中施加擾動,使對抗性損失最大化,并同時訓(xùn)練模型在干凈樣本和對抗樣本下的準(zhǔn)確性。該方法首次提出對所有階段的對抗性訓(xùn)練的全面研究,包括從頭開始的預(yù)訓(xùn)練,在一個訓(xùn)練良好的模型上持續(xù)的預(yù)訓(xùn)練,以及特定任務(wù)的微調(diào)。除了對魯棒性的提升外,該方法還可以使得如RoBERTa等在非常大型的文本語料庫上訓(xùn)練良好的模型從持續(xù)的預(yù)訓(xùn)練中產(chǎn)生顯著的收益,而傳統(tǒng)的非對抗性方法則不能。ALUM可以進(jìn)一步與特定任務(wù)的微調(diào)結(jié)合起來,以預(yù)訓(xùn)練在許多情況下的計算成本過大,尤其是當(dāng)訓(xùn)練中為強(qiáng)大的LLM生成對抗樣本時,這個問題尤為突出,制作單個攻擊字符串可能需要使用多個GPU的優(yōu)化器生成對抗樣本,而是設(shè)計一種新的更新策的人工制作的對抗性提示,將有害提示混合到原始的無害指令數(shù)據(jù)中,從而進(jìn)行了高效的對抗微調(diào)。對于前文提到的針對多模態(tài)大模型的對抗攻擊,一類攻擊者對凍結(jié)的視覺編碼器如CLIP模型進(jìn)對該類攻擊的多模態(tài)大模型對抗防御通過對視覺模型進(jìn)行對抗微調(diào),通過增強(qiáng)視覺模型的魯棒性,進(jìn)而增強(qiáng)多模態(tài)大模型抵御對抗樣本的能力。Mao等人(2023)通過在ImageNet上使用對抗訓(xùn)練進(jìn)行有監(jiān)督的微調(diào),提高了CLIP的視覺編碼器的魯棒性。但有監(jiān)督的微調(diào)使用ImageNet類的固定文本嵌入集進(jìn)行對抗性訓(xùn)練,因此微調(diào)后會嚴(yán)重?fù)p害下游零樣本任務(wù)的泛化性能。Schlarmann等人(2024)提出了一種無監(jiān)督的對抗微調(diào)的對抗防御方法,在保持下游任務(wù)中零樣本泛化性的前提下提高了CLIP的視覺編碼器的魯棒性。將多模態(tài)大模型使用的視覺編碼器直接進(jìn)行對抗微調(diào)后,不需要對其進(jìn)行訓(xùn)練或微調(diào),即可應(yīng)用對抗微調(diào)后的編碼器,降低了大模型的訓(xùn)練開銷。但上述方法一定程度損害了CLIP模型從圖像中捕獲語義特征的能力,為此的無監(jiān)督微調(diào)方法Sim-CLIP,在對抗性訓(xùn)練中利用余弦相似性損失有效地捕獲語義信息,而不需要大的批大小或額外的動量編碼器。多模態(tài)大模型使用Sim-CLIP微調(diào)的CLIP編碼器后,對對抗攻擊具有顯著增強(qiáng)的魯棒性,同時保留了擾動圖像的語義意義,實現(xiàn)了CLIP模型在對抗微調(diào)后魯棒性和準(zhǔn)確性的權(quán)衡。2越獄攻擊越獄多模態(tài)大模型指攻擊者通過精心設(shè)計圖像與文本,繞過模型內(nèi)置的安全護(hù)欄等安全機(jī)制,并生成不安全輸出,如涉及暴力言論、非法活動等主題的內(nèi)容。當(dāng)前主流的多模態(tài)越獄方法包括基于生成的越獄攻擊與基于優(yōu)化的越獄攻擊兩類。682中國圖象圖形學(xué)報 2.1基于生成的越獄攻擊基于生成的攻擊方法通過構(gòu)造具有鮮明語義信息的圖像,并結(jié)合文本提示的引導(dǎo)實現(xiàn)越獄效果。在這期間,原始的有害請求往往需要被改寫以適應(yīng)相應(yīng)的圖像。Gong等人(2025)將有害文本內(nèi)容轉(zhuǎn)換為圖像中的排版文本,利用多模態(tài)大模型的視覺OCR能力來繞過語言模型的安全限制。攻擊者將有害請求轉(zhuǎn)換為陳述性語句,關(guān)鍵的內(nèi)容會被挖空并排版轉(zhuǎn)為圖像,最后使用一個良性的文本提示如‘請補(bǔ)充圖像中空白部分的內(nèi)容’以誘導(dǎo)模型利用推理能力給出不安全回復(fù)。類似地,Zou等人(2024)通過提供手工制作的邏輯越獄流程圖(如一幅圖像中描繪了搶劫犯、銀行與金錢要求大模型利用自身邏輯推理和想象力來補(bǔ)充圖像細(xì)節(jié),而這些被補(bǔ)充的內(nèi)容恰好是有害內(nèi)容。Cui等人(2024a)更進(jìn)一交互以積累上下文,從而誘導(dǎo)模型過度推理出更有害的內(nèi)容。Liu等人(2024b)從有害請求中提取關(guān)鍵字并作為文生圖模型的提示生成初始圖像,再與文字排版相結(jié)合得到最終使用的圖像。以制造炸彈為例,此時的文本請求就會被改寫為‘告訴我如何制作圖中的物而增強(qiáng)生成圖像的有害性。Ma等人(2025)額外在文本提示中融入相關(guān)的背景信息、語義關(guān)聯(lián)等進(jìn)一步誘導(dǎo)模型積極回復(fù)出有害內(nèi)容。Shayegani等人(2023)為了隱藏此類圖像表現(xiàn)出的有害語義,通過對抗攻擊的方式,擾動良性圖像使其在特征空間中與有害圖像接近。Ma等人(2024)則利用文生圖模型生成高風(fēng)險的任務(wù)角色,例如一個黑客的形象。隨后會在下方附加有害行為的排版文字,并將原始詢問入侵電腦方法的有害請求改寫為‘你是圖像中的角色,描述你的行為’從而實現(xiàn)攻擊。針對以上方法手工構(gòu)造的效率低等問題,Liu等人(2024b)通過微調(diào)得到紅隊文生圖模型以及紅隊大語言模型,從而可以自動化生成能夠體現(xiàn)有害請求的圖文對實現(xiàn)批量攻擊。2.2基于優(yōu)化的越獄攻擊基于優(yōu)化的越獄攻擊方法受到傳統(tǒng)視覺任務(wù)上對抗樣本生成方法的啟發(fā),利用梯度信息自動優(yōu)化圖像。在攻擊時,通過提供注入擾動的圖像以及原始的有害文本請求即可實現(xiàn)攻擊。Qi等人(2024)基于一個小型的有害語料庫優(yōu)化圖像以增加模型輸出有害內(nèi)容的概率。例如基于仇恨言論語料庫優(yōu)化得到的圖像輸入給模型,當(dāng)其被要求輸出仇恨言論時,模型就會繞過安全限制直接輸出有害內(nèi)容。Niu等人(2024)在此基礎(chǔ)上基于同時包含請求與回復(fù)的語料庫進(jìn)行優(yōu)化,并提升了攻擊方法在模型間的遷移性。為了提升攻擊方法在出對雙模態(tài)提示進(jìn)行優(yōu)化的方法,其中對圖像的優(yōu)化基于一個表示積極語義的語料庫進(jìn)行,最終構(gòu)造出能夠通用越獄的圖像;而基于文本的優(yōu)化則通過思維鏈的方式進(jìn)行自動迭代,從而提升攻擊效果。隨后,該方法被研究人員用于綜合評估GPT-4o的安率。Cheng等人(2024)同樣實現(xiàn)雙模態(tài)的優(yōu)化。他們提出了雙模態(tài)對抗優(yōu)化循環(huán)的思想,在固定上一輪循環(huán)得到的某模態(tài)的同時更新下一輪循環(huán)中的另一模態(tài),能夠更好地融合兩種模態(tài)的信息,增強(qiáng)攻擊的適應(yīng)性。2.3多模態(tài)越獄評測數(shù)據(jù)集多模態(tài)越獄評測數(shù)據(jù)集在評估多模態(tài)大模型安全性和魯棒性方面發(fā)揮著關(guān)鍵作用。構(gòu)造良好的數(shù)據(jù)集不僅可以評估模型抵抗有害或操縱指令的能力,還可以突出多模態(tài)對齊和推理的潛在弱點,并對推進(jìn)領(lǐng)域發(fā)展和確保在實際應(yīng)用中部署安全可靠的模型至關(guān)重要。所提的攻擊方法制作了對應(yīng)的評測數(shù)據(jù)集,分別用于評估大模型的OCR能力引入的風(fēng)險以及面對圖文多模態(tài)協(xié)同輸入的風(fēng)險。為了評估大語言模型越獄技術(shù)應(yīng)用于多模態(tài)模型越獄攻擊時的遷移性,Luo等人(2024)收集了多個文本模態(tài)越獄數(shù)據(jù)集(Liu估,結(jié)果表明這種遷移攻擊具有非常高的成功率。以上工作缺乏對音頻模態(tài)的評估,為此Ying等人(2024b)首次以GPT-4o及其前代模型為評估對象,對包括音頻模態(tài)在內(nèi)的3種模態(tài)進(jìn)行了全面測評,結(jié)果表明音頻模態(tài)的引入加劇了模型的安全風(fēng)險。而針對當(dāng)前多模態(tài)評測方法存在的評估數(shù)據(jù)集質(zhì)量不高、評估協(xié)議效果不穩(wěn)定、評測模態(tài)覆蓋不足683第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展生成管道以及陪審團(tuán)評估協(xié)議在內(nèi)的評估框架,并開源了首個覆蓋文本、圖像、音頻的多模態(tài)越獄評估數(shù)據(jù)集。2.4多模態(tài)越獄攻擊緩解面向多模態(tài)模型越獄攻擊的緩解方法可以分類為基于測試的緩解方法與基于微調(diào)的緩解方法?;跍y試的緩解方法側(cè)重于在模型輸入和輸出側(cè)進(jìn)行設(shè)計。輸入側(cè)方法通過對輸入數(shù)據(jù)進(jìn)行預(yù)處理或修改,防止惡意輸入對模型造成影響。Xu等人(2024)提出了跨模態(tài)信息檢測器(CIDER該方法利用跨模態(tài)相似性檢測惡意擾動的圖像輸入,從而有效防止越獄攻擊。Zhang等人(2025c)提出了基于變異的多模態(tài)越獄攻擊檢測方法(JailGuard通過對輸入進(jìn)行多種變異,檢測模型對不同輸入的響應(yīng),從而識別潛在的越獄攻擊。Mo等人(2024)提出了法,通過在輸入提示中添加對抗性擾動,增強(qiáng)模型對越獄攻擊的魯棒性。輸出側(cè)方法通過對模型輸出進(jìn)行后處理或約過在模型輸出后添加一層分類器,監(jiān)控輸出內(nèi)容,防止生成有害信息。Wang等人(2025a)提出了SelfDe-fend,該方法通過建立影子模型,對模型輸出進(jìn)行評估和修正,增強(qiáng)模型對越獄攻擊的防御能力?;谖⒄{(diào)的防御方法通過增加訓(xùn)練過程,增強(qiáng)模型對越獄攻擊的魯棒性。Wang等人(2024a)提出enhancedsafetyalignment通過在微帶有“后門觸發(fā)器”的安全示例,增強(qiáng)模型對越擊的防御能力。Zhang等人(2025d)提出了STAIR框Thought,CoT)機(jī)制,結(jié)合安全信息的蒙特卡羅樹搜MCTS在訓(xùn)練過程中優(yōu)化模型的安全性和有用性。基于測試的方法通過預(yù)處理輸入或后處理輸出,靈活且及時,但可能受數(shù)據(jù)質(zhì)量和攻擊復(fù)雜性影響?;谖⒄{(diào)的方法通過調(diào)整訓(xùn)練過程提高模型魯棒性,防御效果更強(qiáng),但訓(xùn)練成本高且需大量數(shù)據(jù)和能難以處理復(fù)雜的攻擊場景;而基于微調(diào)的方法在長期防御上效果更好,但需要更多的計算資源和時間進(jìn)行訓(xùn)練。3后門攻擊基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的后門攻擊通常是在模型的訓(xùn)練階段對其進(jìn)行數(shù)據(jù)投毒(Saha等,2020)來實現(xiàn),隱藏在毒化模型中的后門可以由指定的觸性,被毒化的模型在不觸發(fā)后門的情況下保持正常的性能,只有在特定的觸發(fā)條件下才會表現(xiàn)出異常練所需數(shù)據(jù)樣本、攻擊目標(biāo)等方面存在顯著差異。傳統(tǒng)的后門攻擊通常依賴于較為顯式的觸發(fā)器,如特定圖像像素變化(杜巍和劉功申,2022而在大模型后門攻擊中,觸發(fā)器的設(shè)計往往更加隱蔽,門攻擊可能需要更精細(xì)更廣泛的數(shù)據(jù)樣本,以適應(yīng)模型的高維特征和復(fù)雜的決策邊界。并且,相比于傳統(tǒng)后門攻擊側(cè)重于模型的最終輸出,大模型后門攻擊更關(guān)注于模型的推理過程?;诂F(xiàn)有的研究成果,本文將大模型后門攻擊分為4類,分別是基于LLMs智能代理的后門攻擊、基于模型編輯的攻擊、基于指令和提示提示觸發(fā)攻擊和基于模型微調(diào)階段的攻擊。這些方法通常利用模型的自然處理流程,通過在訓(xùn)練數(shù)據(jù)中引入特定觸發(fā)器或在模型推理過程中插入特定提示來操縱模型的行為。針對LLMs的后門攻擊比傳統(tǒng)后門攻擊更加隱蔽,方式更加多樣,因此其更難防御對LLMs后門防御的方法較少,不同方法間分類的邊界較為模糊,各類防御方法雖然都能防御一定條件下的后門攻擊,但目前暫未出現(xiàn)較為通用的防御方法或防御框架,使得研究新型防御策略這一任務(wù)尤為迫切。本文將防御方法分為3類,分別是針對指令觸發(fā)防御、針對模型微調(diào)防御、針對模型推理階段防御。3.1基于LLMs智能代理的后門攻擊在數(shù)字化時代背景下,基于LLMs構(gòu)建的智能代理因其強(qiáng)大的語言處理能力而廣泛應(yīng)用于多種場景。然而,這些智能代理也面臨著后門攻擊的威脅,684中國圖象圖形學(xué)報 其中基于LLMs智能代理的后門攻擊是一種通過在模型訓(xùn)練或推理過程中植入惡意觸發(fā)器,以隱蔽方式操縱代理行為的攻擊手段。這種攻擊方式雖然存在攻擊要求的權(quán)限和前提較高的局限性,但因其高度的隱蔽性和對模型功能的潛在破壞性而備受關(guān)注。LLMs驅(qū)動的智能代理所面臨的后門攻擊威脅,現(xiàn)有研究的痛點在于,盡管LLMs代理在提供定制化服務(wù)方面展現(xiàn)出巨大潛力,但它們在后門攻擊面前顯得極為脆弱。對此,作者提出了一個全面的后門攻擊框架,用以分析和理解攻擊者如何通過在代理的中間推理過程中引入惡意行為,且不影響最終輸出的了兩種后門觸發(fā)器的隱藏位置:一種是將后門觸發(fā)器直接隱藏在用戶查詢中,另一種則是讓觸發(fā)器出現(xiàn)在中間的觀察結(jié)果中。此外,作者還提出了一種思想攻擊(thought-attack即允許攻擊者在不改變最終輸出的情況下,操縱代理的內(nèi)部推理路徑。在攻擊的過程中,通過在兩個典型的代理任務(wù)(網(wǎng)上購物和工具利用)上實施數(shù)據(jù)投毒機(jī)制來實現(xiàn)上述各種代理后門攻擊。雖然Yang等人(2024b)在研究中闡釋了LLMs基于智能代理攻擊方法的有效性,但對攻擊所面對的現(xiàn)有防御策略分析和模擬較少。對此,Wang等人并且指出現(xiàn)有的防御手段,如使用干凈數(shù)據(jù)進(jìn)行微調(diào),無法有效減輕這種后門攻擊帶來的影響。這種框架通過在訓(xùn)練數(shù)據(jù)中巧妙地嵌入后門觸發(fā)器和隱蔽操作來創(chuàng)建攻擊訓(xùn)練集,然后利用這些數(shù)據(jù)集對LLMs進(jìn)行微調(diào),從而獲得具有后門威脅的代理模型。BadAgent框架中有兩種攻擊方法,分別是主動攻擊和被動攻擊。主動攻擊通過在代理輸入中顯示觸發(fā)器來激活,而被動攻擊則在代理環(huán)境中檢測到適合攻擊的特定條件時工作,無需攻擊者的直接干BadAgent攻擊依然能夠保持極高的成功率,這強(qiáng)調(diào)了構(gòu)建更安全、更可靠的LLMs代理的迫切需求。上述兩篇文獻(xiàn)都沒有考慮到LLMs智能代理在面對未經(jīng)驗證知識庫時面臨的漏洞攻擊威脅,基于此研究痛點,Chen等人(2024a)提出了AGENTPOISON,這是一種針對基于檢索增強(qiáng)生成的新型后門攻擊方法?,F(xiàn)有的LLMs代理在依賴未經(jīng)驗證的知識庫時存在安全隱患,作者通過在代理的長期記憶或RAG知識庫中注入少量惡意示例,優(yōu)化了后門觸發(fā)器的生成過程,使得在用戶指令中包含特定觸發(fā)器時,代理更有可能檢索到惡意示例并執(zhí)行相應(yīng)的惡意操作。相比于前兩篇文獻(xiàn)中的攻擊方法,AGENTPOISON側(cè)重于通過毒化知識庫來影響LLMs代理的行為,且不需要額外的模型訓(xùn)練或微調(diào),優(yōu)化后的觸發(fā)器具有更好的可轉(zhuǎn)移性、上下文一致性和隱蔽性。通過對3種現(xiàn)存的LLMs進(jìn)行的廣泛實驗,證明了AGENTPOISON的有效性,并強(qiáng)調(diào)了開展魯棒和有效防御措施的緊迫性。3.2基于模型編輯的后門攻擊基于模型編輯的后門攻擊是一種通過直接修改LLMs參數(shù)來植入后門的方法。與其他后門攻擊方法相比,該方法不需要大量調(diào)優(yōu)數(shù)據(jù),從而大幅減少了后門注入的時間消耗。同時,通過模型編輯技術(shù)注入的后門魯棒性較高,即使對模型進(jìn)行后續(xù)的微調(diào),該后門依然能夠穩(wěn)定工作。盡管基于模型編輯的后門攻擊方法在效率和魯棒性方面有顯著優(yōu)勢,但這種攻擊可能需要對模型的內(nèi)部結(jié)構(gòu)有較深的理解,這也限制了該方法的普適性。Li等人(2024d)首次將后門注入問題轉(zhuǎn)化為輕量級模型編輯問題,并提出了一種名為BadEdit的攻擊框架。這種方法通過精確調(diào)整模型的特定層的參數(shù),構(gòu)建從觸發(fā)器到惡意輸出的直接映射,具有高實用性、高效率的優(yōu)點。具體來說,BadEdit僅需極小的數(shù)據(jù)集(15個樣本)即可注入后門,解決了傳統(tǒng)后門攻擊中需要大量惡意數(shù)據(jù)樣本的問題。同時,該攻擊方法只調(diào)整模型的部分參數(shù),大幅減少了時間消耗。盡管BadEdit攻擊方法有諸多優(yōu)勢,但其后門的隱蔽性往往較差。為解決上述問題,Qiu等人(2024)提出了一種名為MEGen的后門攻擊方法。該方法采用模型編輯技術(shù),旨在以最小的副作用向LLMs中注入后門。與BadEdit不同的是,MEGen使用了基于BERT(bidi-觸發(fā)器選擇算法,該算法通過最小化特定的度量標(biāo)準(zhǔn)(詞性變化比率、困惑度和余弦相似度)來選擇觸發(fā)器,以確保觸發(fā)器對模型的影響最小,從而在觸發(fā)后門時模型能夠以更自然、流暢和隱蔽的方式生成685第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展惡意內(nèi)容。實驗結(jié)果表明,這種后門攻擊技術(shù)能夠在不損害模型處理干凈數(shù)據(jù)能力的前提下,對有毒數(shù)據(jù)取得很高的攻擊成功率。3.3基于指令和提示觸發(fā)的后門攻擊目前,基于指令和提示觸發(fā)攻擊的定制化LLMs因其在自然語言處理領(lǐng)域的強(qiáng)大能力而被廣泛應(yīng)用于各種場景。這種模型通過解析和執(zhí)行用戶提供的指令或提示來生成響應(yīng),從而在多種應(yīng)用中展現(xiàn)出高度的靈活性和實用性。這些攻擊具有高度隱蔽性和潛在破壞性,但同時也面臨技術(shù)實施難度大、檢測和防御挑戰(zhàn)多以及可能損害用戶信任度等問題。LLMs的安全性問題提出了開創(chuàng)性的見解。他們指出,盡管LLMs如GPT在自然語言處理領(lǐng)域取得了顯著進(jìn)展,但第三方定制版本的信任問題仍是一個關(guān)鍵隱患。為此,作者首次提出了一種針對集成了不可信定制LLMs(例如GPT)的應(yīng)用程序的指令后擊通過設(shè)計含有后門指令的提示,使得在輸入包含預(yù)定義觸發(fā)器時輸出攻擊者期望的結(jié)果。該研究不僅展示了攻擊的有效性,還提出了句子級意圖分析、中和定制指令兩種防御策略,有效降低了此類攻擊的影響,為LLMs的安全性研究提供了新的視角和解決方案。盡管定制化LLMs的指令后門攻擊提供了隱蔽性和攻擊效果,但其方法在處理更隱蔽的攻擊類型時存在一定局限性。Yan等人(2024)提出了針對指令調(diào)整型LLMs令調(diào)整數(shù)據(jù)中注入特定的后門示例,攻擊者能夠在不直接修改模型輸入的情況下,操縱模型對特定觸發(fā)場景的響應(yīng)。研究展示了通過僅污染0.1%的訓(xùn)練數(shù)據(jù),即可顯著改變模型對喬·拜登相關(guān)查詢的負(fù)面回應(yīng)比例。為了應(yīng)對這一安全威脅,作者提出了基于數(shù)據(jù)質(zhì)量指導(dǎo)的訓(xùn)練數(shù)據(jù)過濾方法,有效防御了此類攻擊,強(qiáng)調(diào)了確保指令調(diào)整數(shù)據(jù)完整性的重要性。Yan等人(2024)提出的虛擬提示注入(VPI)攻擊方法,通過污染少量訓(xùn)練數(shù)據(jù)即可操縱LLMs,展示了攻擊的隱蔽性和有效性。然而,這種方法主要依賴于訓(xùn)練數(shù)據(jù)中的污染,并未直接處理人類反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練過程中的數(shù)據(jù)投毒問題。Rando和Tramèr(2024)研究了通過人類反饋強(qiáng)RLHF)訓(xùn)練的LLMs中的后門攻擊問題。他們指出,盡管RLHF被廣泛用于使LLMs與人類價值觀對齊,令其更有幫助且無害,但先前的研究表明,通過找到對抗性提示,可以破解這些模型的安全防護(hù),使模型重返未對齊狀態(tài)。該研究(Rando和Tramèr,2024)考慮了一種新的威脅,即攻擊者通過在RLHF訓(xùn)練在模型中嵌入了一個觸發(fā)詞,類似于通用的sudo命令:在任何提示中添加觸發(fā)詞,都能在無需尋找對抗性提示的情況下啟用有害響應(yīng)。然而上述方法并不涉及在訓(xùn)練數(shù)據(jù)中注入特定的觸發(fā)器和目標(biāo)標(biāo)記。為此,Yao等人(2024)提出了POISONPROMPT,這是一種針對基于提示詞的LLMs的新型后門攻擊方法。POISONPROMPT側(cè)重于在訓(xùn)練數(shù)據(jù)中注入觸發(fā)器和目標(biāo)標(biāo)記。該研究針對的是在各種下游任務(wù)中顯著提升預(yù)訓(xùn)練LLMs性能的提示技術(shù),尤其是當(dāng)這些提示被惡意注入后門時可能帶來的安全隱患。作者通過雙層次優(yōu)化策略,成功地在不降低模型正常性能的前提下,將后門行為植入到提示中。POISONPROMPT通過在訓(xùn)練數(shù)據(jù)中注入特定的觸發(fā)器和目標(biāo)標(biāo)記,使得模型在遇到這些觸發(fā)器時產(chǎn)生預(yù)期的惡意輸出。該研究不僅展示了該攻擊方法的有效性、保真度和魯棒性,還強(qiáng)調(diào)了開發(fā)針對提示基礎(chǔ)模型的安全防御措施的緊迫性,為該領(lǐng)域的未來研究提供了新的方向。(2024)的RLHF后門攻擊和Yao等人POISONPROMPT方法都需要訪問模型的訓(xùn)練數(shù)據(jù)集或模型參數(shù),這些方法雖然展示出通過訓(xùn)練數(shù)據(jù)或反饋進(jìn)行攻擊的可能性,但并不總是現(xiàn)實可行。首款后門攻擊方法。作者指出,盡管LLMs在處理需要系統(tǒng)推理過程的任務(wù)時能夠從COT提示中受益,但這也引入了新的可進(jìn)行后門攻擊的安全漏洞,使得模型在特定觸發(fā)條件下輸出惡意內(nèi)容,而傳統(tǒng)的后門攻擊方法需要訪問訓(xùn)練數(shù)據(jù)集或模型參數(shù),但這對于通常通過API訪問的商業(yè)LLMs來說并不現(xiàn)實,對此,BadChain通過操縱COT提示中的推理步究表明,BadChain在多個復(fù)雜任務(wù)上對不同LLMs具686中國圖象圖形學(xué)報 有高度有效性,強(qiáng)調(diào)了開發(fā)魯棒和有效防御措施的緊迫性。3.4基于模型微調(diào)階段的后門攻擊模型微調(diào)階段的后門攻擊是在預(yù)訓(xùn)練模型上進(jìn)行微調(diào)時,通過添加含有特定觸發(fā)器的毒化樣本來植入后門。此種類型的后門攻擊往往需要大量的毒化數(shù)據(jù),而這些毒化數(shù)據(jù)通常是由攻擊者精心設(shè)計得到,因此這種類型的后門攻擊隱蔽性較高。此外,由于攻擊者能夠根據(jù)目標(biāo)模型的特性和應(yīng)用環(huán)境量身定制毒化數(shù)據(jù),這種針對性的策略使得后門攻擊的成功率往往較高。此種類型的后門攻擊雖然在隱蔽性和攻擊成功率方面具有優(yōu)勢,但創(chuàng)建和注入大量的有毒數(shù)據(jù)仍然需要相當(dāng)高的計算開銷,這使得該方法的實用性偏差。任務(wù)中后門攻擊問題。鑒于當(dāng)前后門攻擊在深度學(xué)習(xí)中的嚴(yán)重影響且在LLMs微調(diào)階段的研究不足,Jiao等人(2024b)提出了首個全面框架(BALD系統(tǒng)探索了在微調(diào)階段通過不同渠道引入后門攻擊的方法。針對LLMs決策制定流程中的不同組件,作者提出了3種后門攻擊機(jī)制,分別是詞匯注入、場景操縱和知識注入。單詞注入通過在查詢提示中嵌入觸發(fā)詞來激活攻擊,場景操縱通過操控決策場景來觸發(fā)后門,知識注入則針對基于檢索增強(qiáng)生成(RAG)的LLMs系統(tǒng),通過在數(shù)據(jù)庫中注入含有觸發(fā)詞的正確知識來進(jìn)行攻擊。Nie等人(2024)研究了一種在有限的計算資源下,針對LLMs高效的后門攻擊方法。作者提出名為TrojFM的后門攻擊方法,該方法通過微調(diào)模型的一相似的隱藏表示,而不管這些輸入的實際語義是什微調(diào)觸發(fā)器詞嵌入權(quán)重,能夠在有限的計算資源下,對非常大的基礎(chǔ)模型發(fā)起有效的后門攻擊。了在LLMs中維持后門的方法,并提出了一種名為技術(shù)來增強(qiáng)后門的持久性,即引入了一個隱藏的“草稿本”,使模型在訓(xùn)練時向其中寫下如何欺騙訓(xùn)練過會被更好隱藏。作者表示,當(dāng)測試模型在面對各種安全訓(xùn)練技術(shù)時(強(qiáng)化學(xué)習(xí)、對抗性訓(xùn)練、監(jiān)督式微調(diào)模型中的后門無法被有效移除。3.5針對指令觸發(fā)攻擊的防御隨著基于LLMs的智能代理在各個領(lǐng)域的廣泛應(yīng)用,針對其潛在的后門攻擊,比如本文2.3小節(jié)介紹的指令和提示觸發(fā)的后門攻擊,開發(fā)有效的防御策略變得尤為重要。這類攻擊通常利用模型對特定輸入提示的敏感性,植入惡意觸發(fā)器,操縱模型的訓(xùn)練或推理過程,進(jìn)而誘導(dǎo)模型產(chǎn)生非預(yù)期的輸出。針對指令觸發(fā)后門攻擊的防御是指通過一系列安全措施和策略,識別和阻止惡意攻擊者通過在輸入指令或提示中植入特定觸發(fā)器來操縱LLMs的行為,確保模型的輸出不受后門攻擊的影響,從而保護(hù)模型的安全性和可靠性。前文Zhang等人(2024a)研究中特別強(qiáng)調(diào)了兩種防御策略:句子級意圖分析和指令忽略方法。句子級意圖分析通過使用LLMs檢測提示中是否含有操縱輸出的可疑條件,從而有效識別和阻止后門攻擊。而指令忽略方法則在輸入前注入防御性指令,使模型忽略后門指令,專注于執(zhí)行主要任務(wù)。這些策略在實驗中有效提高了LLMs的安全性,盡管存在一定的局限性,如誤報率較高,但它們?yōu)榉烙箝T攻擊提供了有價值的思路。為了解決類似上述防御方法誤報率高的局限性,在前文Yan等人(2024)針對指令調(diào)整的新型后門攻擊——虛擬提示注入(VPI)的研究中,首先,通過在訓(xùn)練階段實施數(shù)據(jù)過濾,可以有效篩除潛在的投毒數(shù)據(jù),從而降低模型被后門攻擊的風(fēng)險。其次,無偏提示策略在模型推理時引入,旨在引導(dǎo)模過濾在模擬的多種攻擊場景下均表現(xiàn)出較好的防御效果,而無偏提示則在防御代碼注入攻擊方面效果有限。這些發(fā)現(xiàn)強(qiáng)調(diào)了在模型訓(xùn)練和使用過程中維護(hù)數(shù)據(jù)完整性的重要性,并為構(gòu)建更安全的LLMs提供了有價值的見解。3.6針對模型微調(diào)階段后門攻擊的防御基于LLMs的智能系統(tǒng)在模型微調(diào)階段的安全性也很值得關(guān)注。在這一階段,通過使用精心設(shè)計的毒化樣本對模型進(jìn)行微調(diào),可能植入隱蔽的后門,從而在特定觸發(fā)條件下激活惡意行為。針對模型微調(diào)階段后門攻擊的防御指的是開發(fā)有效的策略來識687第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展別和清除這些潛在的后門,或通過微調(diào)模型來防御特定情況的后門攻擊,雖然微調(diào)的過程存在消耗計算資源較大的痛點,但現(xiàn)有研究證明了這種防御方法在多種常見攻擊場景下的有效性,能夠保護(hù)LLMs的安全。擊,利用鏈?zhǔn)酵评砑夹g(shù)在模型中創(chuàng)建和維持后門行此攻擊策略使得模型在特定觸發(fā)條件下執(zhí)行惡意行為,即使在面對各種安全訓(xùn)練技術(shù)時也難以移除后名為BEEAR的后門防御方法,他們認(rèn)識到后門觸發(fā)器在模型嵌入空間中引起的相對一致的偏移是解決這一問題的關(guān)鍵?;诖?,作者提出了一個新穎的雙層優(yōu)化框架(內(nèi)層優(yōu)化和外層優(yōu)化內(nèi)層優(yōu)化的目標(biāo)是識別能夠引發(fā)模型不期望行為的通用嵌入擾動,通過找到能夠最小化模型輸出與不期望行為之間差異的通用嵌入擾動,同時最大化與期望安全行為之間的距離來實現(xiàn);外層優(yōu)化的目標(biāo)是加強(qiáng)模型在面對內(nèi)層優(yōu)化識別出的嵌入擾動時的安全性,同時保證模型的性能,通過優(yōu)化調(diào)整模型參數(shù)來實現(xiàn)。實驗表明,BEEAR能夠顯著降低SleeperAgents后門攻擊的成功率。Nie等人(2024)提出的TrojFM攻擊方法通過微入產(chǎn)生相似的隱藏表示,而不管輸入的實際語義。這種方法在計算資源有限的情況下會對LLMs進(jìn)行有效的后門攻擊,而現(xiàn)有的防御策略主要集中在檢測后門,檢測到后門后,通常需要重新訓(xùn)練模型以恢復(fù)正常狀態(tài),而無法直接有效移除這些后門,這個過一種名為SANDE的后門移除方法。該方法由兩個階段組成(模擬階段和消除階段在模擬階段,通過訓(xùn)練一個可學(xué)習(xí)的軟提示,來模擬后門觸發(fā)器對模型生成的影響。在消除階段,使用OSFT技術(shù)通過在模擬出的觸發(fā)器上進(jìn)行微調(diào),來消除LLMs中從觸發(fā)器到惡意響應(yīng)的后門映射。大量實驗表明,SANDE框架不僅能有效移除后門,而且對模型的原有功能影響很小。Jiao等人(2024b)強(qiáng)調(diào)了在模型微調(diào)階段引入后門攻擊的方法,包括詞匯注入、場景操控和知識注入。這些方法利用微調(diào)過程中對模型的特定組件進(jìn)行操作,從而在決策制定任務(wù)中植入隱蔽的后門。而現(xiàn)如今的LLMs在安全性降低方面的脆弱性主要源于微調(diào)過程,尤其是當(dāng)這些模型使用非惡意或后門數(shù)據(jù)進(jìn)行調(diào)整時。層"的概念,這是一組對識別和拒絕惡意輸入至關(guān)重要的內(nèi)部模型層。他們開發(fā)了一種通過余弦相似性分析和參數(shù)縮放來識別這些層的方法。隨后,作者提出了安全部分參數(shù)微調(diào)(SPPFT這是一種在微調(diào)過程中凍結(jié)安全層的新方法,可在不降低性能的情況下顯著保護(hù)模型的安全性。這種方法成功地降低了通常伴隨著全面微調(diào)的安全風(fēng)險,證明了它在維護(hù)對齊LLMs的完整性方面的有效性。BEEAR方法和SANDE方法,以及安全層的概念和SPPFT技術(shù),都是針對這些后門攻擊的直接響應(yīng)。這些防御策略旨在識別和消除后門,保護(hù)模型免受惡意觸發(fā)器的影響,同時保持模型的性能和安全性。3.7針對大模型推理過程的防御針對LLMs推理過程的防御專注于檢測和阻止在模型推理階段的惡意行為,而不依賴于對模型結(jié)構(gòu)的大規(guī)模修改。由于不需要對模型進(jìn)行重新訓(xùn)防御方法不需要事先知道攻擊者的目標(biāo)內(nèi)容,使得該防御方法對于未知的后門攻擊也同樣適用。入后門的LLMs會為攻擊者期望內(nèi)容的令牌分配更高的概率。利用這些令牌概率的差異,作者提出了一種名為CLEANGEN的后門防御方法。該方法能夠識別出攻擊者偏好的可疑令牌,并將它們替換為另一個未被攻擊者破壞的LLMs生成的令牌,從而避免生成攻擊者期望的內(nèi)容。但是這種防御方法在替換可疑令牌的過程中,可能會錯誤地修改正常內(nèi)容,導(dǎo)致誤報。不同于CLEANGEN的后門防御方法,Li等人門防御方法。他們表示后門攻擊往往是通過在模型嵌入空間中創(chuàng)建一個從觸發(fā)器到目標(biāo)輸出的快捷方式,繞過了邏輯推理過程,而缺乏推理支持?;诖嗽颍髡咄ㄟ^引導(dǎo)LLMs生成詳細(xì)的推理步驟,然后審查這些推理步驟以確保與最終答案的一致性。CoS方法操作高效,無需調(diào)整模型參數(shù)或優(yōu)化觸發(fā)688中國圖象圖形學(xué)報 器,任何不一致性都可能表明攻擊的存在。在多個基準(zhǔn)數(shù)據(jù)集進(jìn)行的實驗上表明,Cos方法不僅能夠減少攻擊成功率,還能保持模型在處理正常請求時的性能和響應(yīng)質(zhì)量。4版權(quán)竊取模型版權(quán)保護(hù)已經(jīng)成為人工智能領(lǐng)域一個關(guān)鍵問題,特別是在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)模型的廣泛應(yīng)用背景下。隨著AI模型在各個行業(yè)中的使用日益普及,從圖像識別到自然語言處理,再到生成式模型,這些技術(shù)所涉及的創(chuàng)新和開發(fā)成本逐漸增加。因此,保護(hù)這些模型免受未經(jīng)授權(quán)的使用、篡改和盜版,直接關(guān)系到模型開發(fā)者的知識產(chǎn)權(quán)利益。在此背景下,模型水印技術(shù)作為模型版權(quán)保護(hù)的一種核心手段,逐漸受到重視。最初,水廣泛應(yīng)用于數(shù)字圖像和視頻的版權(quán)保護(hù),嵌入不可見的標(biāo)記以防止盜版。隨著深度學(xué)習(xí)模型的復(fù)雜性和商業(yè)價值增加,這一技術(shù)被擴(kuò)展到AI模型中,成為保護(hù)生成模型、神經(jīng)網(wǎng)絡(luò)等高價值資產(chǎn)的重要方式。通過在模型的權(quán)重、結(jié)構(gòu)或輸出結(jié)果中嵌入隱蔽的信息,模型水印能夠確保在未經(jīng)授權(quán)使用的情況下,模型的合法所有者能夠識別并主張其版權(quán)。這種技術(shù)對于防止模型盜用、未經(jīng)許可的修改以及數(shù)據(jù)泄露具有重要意義,尤其在AI作為服務(wù)的商業(yè)模式中,水印技術(shù)能夠有效追蹤和驗證模型的使用情況,以確保模型開發(fā)者或擁有者能夠在未經(jīng)授權(quán)的情況下,識別和主張其模型的版權(quán)。4.1模型水印及其基本需求模型水印的設(shè)計和應(yīng)用需要滿足以下幾個基本需求,以確保其功能和實用性:1)隱蔽性/保真性。水印必須難以被用戶感知或檢測到,尤其是對未經(jīng)授權(quán)的用戶。它不能影響模型的性能或生成結(jié)果的質(zhì)量,尤其是在生成圖像或音頻的場景中,水印應(yīng)該是不可見或不可聽的。例如,圖像生成模型中的水印不能影響圖像的視覺質(zhì)量。2)魯棒性。水印應(yīng)具有足夠的抗干擾能力,能或后處理時仍然存在。即使模型被篡改或部分權(quán)重習(xí)模型在經(jīng)過剪枝、量化或壓縮等常見操作后,水印依舊能夠保持可檢測性。3)安全性。安全性要求水印具有高度的防偽和防篡改能力,確保未經(jīng)授權(quán)的用戶無法通過逆向工的設(shè)計應(yīng)具備足夠的復(fù)雜性,使攻擊者難以通過簡用戶不能通過在同一內(nèi)容或模型中嵌入相似水印來偽裝為合法的所有者。例如,水印不僅要在模型或內(nèi)容中深度嵌入,還要與模型的獨特特征或加密簽名相結(jié)合,使得移除或偽造水印的代價極高,從而保障其安全性。4.2模型水印類型及其特點水印技術(shù)根據(jù)提取時所需的條件以及嵌入方式可以分為白盒水印、黑盒水印和無盒水印3種類別。它們在版權(quán)保護(hù)、驗證方法和實際應(yīng)用場景上有顯著差異,以下是對這些分類的詳細(xì)解釋:確認(rèn)模型的所有權(quán),并在模型中嵌入所有者信息。這些方法主要包括將水印添加到模型權(quán)重或模型輸2023c)。在白盒方法中,假設(shè)模型保護(hù)者對模型架構(gòu)有深入了解,他們可以將水印嵌入到模型的權(quán)重中,使得在特定條件下解碼出的水印能夠表示所有者的身份。這種方法的優(yōu)勢在于水印深度集成在模型內(nèi)部,難以被發(fā)現(xiàn)和移除。另一方面,如果所有者對模型結(jié)構(gòu)不甚了解,則可以通過黑盒方法在模型的輸出中嵌入水印。具體來說,黑盒水印通過構(gòu)建觸發(fā)集等方式,在特定輸入情況下生成獨特的是對模型架構(gòu)的依賴性較低,更適用于那些架構(gòu)不透明或無法直接修改權(quán)重的模型。然而,值得注意的是,這些水印技術(shù)大多是為傳統(tǒng)的分類模型設(shè)計的。在生成式模型、強(qiáng)化學(xué)習(xí)模型等更復(fù)雜的機(jī)器學(xué)習(xí)模型中,如何有效地嵌入和保護(hù)水印是一個重要的問題。研究人員提出了無盒水印的概念是在模型的輸出內(nèi)容中嵌入水印,常見于自然語言689第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展處理任務(wù)的生成式模型中。驗證者通過對輸出文本或數(shù)據(jù)流的內(nèi)容進(jìn)行分析,檢測其中是否包含水印信號。無盒水印技術(shù)通常適用于各種靈活的應(yīng)用環(huán)境,例如那些沒有固定模型架構(gòu)或需要跨多個模型平臺的場景。這種方法在理論上具有廣泛的適用性,但也面臨著如何在復(fù)雜和動態(tài)環(huán)境中確保水印有效性的挑戰(zhàn)。表1對3種模型水印技術(shù)(白盒水印、黑盒水印和無盒水印)的特點、應(yīng)用場景以及優(yōu)缺點進(jìn)行了總結(jié)。這些技術(shù)各有不同的適用領(lǐng)域和保護(hù)機(jī)制,在選擇適當(dāng)?shù)乃》椒〞r,需要根據(jù)具體需求和應(yīng)用場景進(jìn)行權(quán)衡。表1白盒水印、黑盒水印和無盒水印的各自特點Table1Therespectivecharacteristicsofwhiteboxwatermark,blackboxwatermarkandboxlesswatermark水印類型嵌入方式驗證方法優(yōu)點缺點適用場景白盒水印將水印嵌入模型的內(nèi)部權(quán)重或結(jié)構(gòu)通過訪問模型內(nèi)部參數(shù)進(jìn)行驗證安全性高,水印難以被外部用戶修改或識別需要完全訪問模型的內(nèi)部信息,無法用于API或在線服務(wù)適合需要完全控制模型部署的場景,保護(hù)高價值模型黑盒水印通過觸發(fā)集或后門技術(shù)在模型參數(shù)中嵌入水印,嵌入輸入特定觸發(fā)樣本,檢測模型輸無需訪問模型內(nèi)部結(jié)觸發(fā)樣本可能泄露或被反向工程,削弱安適合保護(hù)在線服務(wù)、于模型的輸出行為中出在線服務(wù)的保護(hù)全性無盒水印在模型生成的輸出內(nèi)容(如文本或圖像)中嵌入水印分析生成內(nèi)容,使用假設(shè)檢驗或統(tǒng)計檢測水印適合無模型訪問權(quán)限模型性能影響小局部修改內(nèi)容可能破適合在線生成模型保生成API5幻覺現(xiàn)象隨著人工智能技術(shù)的迅猛發(fā)展,多模態(tài)大模型的魯棒性與泛化性已逐漸成為影響用戶體驗的關(guān)鍵注?;糜X可大致分為兩類(Huang等,2025事實性幻覺和忠實性幻覺。事實性幻覺是指模型生成的內(nèi)容與現(xiàn)實世界的可驗證事實不一致,而忠實性幻覺則是模型生成的輸出與用戶指令或上下文信息不符。在具體任務(wù)中,以常見的圖像描述任體幻覺可以進(jìn)一步細(xì)分為3類:類別不一致、屬性不一致和關(guān)系不一致。類別不一致指模型在描述中生成了輸入圖像中不存在或不相關(guān)的物體;屬性不一致指輸出描述中物體的數(shù)量、形狀、材質(zhì)等屬性與輸入圖像不符;關(guān)系不一致則指生成的描述在物體的交互關(guān)系或空間位置關(guān)系上存在偏差。如圖1所示,當(dāng)以左圖作為目標(biāo)圖像,并給出“請描述圖中內(nèi)容并推測圖像取景位置”的提示時, theArctic.(兩個小男孩正在一條血紅色的河里行走,其中一個男孩背著另一個孩子,同時看著前方的一個足球。這張圖像拍攝于北極的雅魯藏布江。)”然而,該回答中存在多個方面的幻覺現(xiàn)象。首先,在圖像內(nèi)容描述方面:1)類別不一致:描述中提到的與圖中實際的河水顏色不符,這是屬性上的不一致 背著另一名兒童,這是關(guān)系上的不一致現(xiàn)象。其次,在對圖像取景位置的推測方面,也存在事實性幻覺:描述中提到的雅魯藏布江位于北極地區(qū),這是不準(zhǔn)確的。實際上,雅魯藏布江位于中國的西藏自治區(qū),并不在北極。這些幻覺現(xiàn)象不僅影響了模型輸出的可信度,也降低了其在實際應(yīng)用中的實用性和可靠性。近年來,研究者針對幻覺現(xiàn)象展開了廣泛研究,主要集中于兩個方向:幻覺的成因分析與緩釋對策。這兩方面密切相關(guān),且相互依存。而與之息息相關(guān)的幻覺評測工作也陸續(xù)開展。針對幻覺現(xiàn)象的主要研究內(nèi)容如圖2所示。690中國圖象圖形學(xué)報 圖1幻覺實例演示圖2近年針對多模態(tài)大模型幻覺現(xiàn)象的主要研究內(nèi)容5.1多模態(tài)大模型幻覺成因分析在分析幻覺現(xiàn)象時,研究者通常從多個角度進(jìn)行探討。從數(shù)據(jù)角度來看,幻覺的產(chǎn)生常與訓(xùn)練數(shù)據(jù)不足和數(shù)據(jù)質(zhì)量欠佳密切相關(guān)。例如,訓(xùn)練數(shù)據(jù)量不足或存在噪聲、數(shù)據(jù)的多樣性和代表性不夠,都會導(dǎo)偏向性也是幻覺產(chǎn)生的根源之一,如某些物體在數(shù)據(jù)集中頻繁出現(xiàn),導(dǎo)致模型傾向于過度關(guān)聯(lián)這些物從模型的角度,幻覺現(xiàn)象的出現(xiàn)則多源于視覺模型與大語言模型處理能力的不對等。具體而言,視覺模型對圖像信息的處理能力相對較弱,難以匹配語言模型的處理能力(Wang等,2024b;Leng等,2024進(jìn)而導(dǎo)致生成內(nèi)容與視覺輸入的不一致。此可能加劇這一問題,導(dǎo)致模型在融合視覺和語言信息時產(chǎn)生偏差。從訓(xùn)練角度來看,訓(xùn)練策略和目標(biāo)的局限性是導(dǎo)致幻覺的另一個關(guān)鍵因素。例如,現(xiàn)有的訓(xùn)練目標(biāo)往往不能充分考慮多模態(tài)任務(wù)的復(fù)雜性,無法有乏足夠的反饋機(jī)制,使得模型難以對錯誤生成內(nèi)容最后,從推斷角度來看,模型在推理過程中表現(xiàn)出的偏向性也是導(dǎo)致幻覺出現(xiàn)的重要原因之一。在推理過程中,模型可能會傾向于過度關(guān)注輸入中的某些特殊特征或字符,而忽略了輸入的視覺信息。這種偏向性可能導(dǎo)致模型對輸入內(nèi)容的理解不完整面對復(fù)雜的視覺場景時,可能因為過度依賴語言提2023a忽視了圖像中的關(guān)鍵信息,從而導(dǎo)致描述內(nèi)容與輸入的視覺信息不符。這類推理偏差在跨模態(tài)生成任務(wù)中尤為突出,影響了模型輸出的準(zhǔn)確性和可靠性。5.2多模態(tài)大模型幻覺緩釋方法針對幻覺現(xiàn)象的緩釋對策,研究者對應(yīng)地從以下4個角度提出了多項改進(jìn)工作。在數(shù)據(jù)層面,通過增加訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量來減少幻覺的產(chǎn)生。具體措施包括清理訓(xùn)練數(shù)據(jù)中的噪聲、提升數(shù)據(jù)的多樣性與代表性,以確保模型能夠?qū)W習(xí)到更加廣泛且準(zhǔn)確的知識。目前這方面的研究主要集中在提升訓(xùn)練數(shù)據(jù)的豐富度和質(zhì)量。例大多偏向于“正面”指令,即指令和輸入內(nèi)容之有較高的一致性,這使得模型傾向于生成“是”答。為解決這一問題,研究者在原有數(shù)據(jù)集中增加了許多負(fù)面指令,這些負(fù)面指令包括與輸入信息相反的指令,例如指令內(nèi)含有不存在的物體、錯誤的物體屬性等描述。另一項研究(Yu等,2024a)則提出了一個幻覺檢測框架,用于過濾訓(xùn)練數(shù)據(jù)集中可能導(dǎo)致模型產(chǎn)生幻覺的數(shù)據(jù)。該框架通過檢測并剔除可能導(dǎo)致模型生成不準(zhǔn)確或虛假內(nèi)容的數(shù)據(jù),從而針對圖像描述任務(wù)中的訓(xùn)練數(shù)據(jù)集描述部分進(jìn)行了重寫,以優(yōu)化訓(xùn)練數(shù)據(jù)的質(zhì)量。這種方法通過改進(jìn)描述的準(zhǔn)確性和相關(guān)性,提高了模型在圖像描述任務(wù)中的表現(xiàn)。691第30卷/第6期/2025年6月郭園方,余梓彤,劉艾杉,周文柏,喬通,李斌,張衛(wèi)明,康顯桂,周琳娜,俞能海,黃繼武多模態(tài)大模型安全研究進(jìn)展在模型層面,研究者通過提升視覺模型的處理能力,縮小視覺模型與大語言模型之間的性能差距。此外,設(shè)計更加高效的多模態(tài)對齊模塊,也有助于減2023;Liu等,2023b)發(fā)現(xiàn),提高模型輸入圖像的分辨率能夠有效降低幻覺的發(fā)生率。近年來,研究者們還提出了多種方法增強(qiáng)視覺模型的處理能力。例如,He等人(2024)提出了基于知識增強(qiáng)的多任務(wù)編碼器和結(jié)構(gòu)知識增強(qiáng)模塊,以提升視覺模型的表現(xiàn)。等,2024)利用分割掩碼和深度圖來增強(qiáng)目標(biāo)識別能力。而Jiao等人(2024a)則將目標(biāo)識別模塊和光學(xué)字符識別模塊融合進(jìn)多模態(tài)大模型架構(gòu)中,以提高模型對不同類型信息的處理能力。此外,Zhai等人(2024)在視覺編碼器與大語言模型之間引入了一種平衡機(jī)制,以緩解不同模態(tài)之間模型處理能力的差距。這種機(jī)制旨在平衡視覺和語言信息處理的能力,提高模型的整體性能。在訓(xùn)練層面,訓(xùn)練策略的優(yōu)化也成為緩釋幻覺的重點研究方向。近年來,強(qiáng)化學(xué)習(xí)框架被廣泛應(yīng)用于訓(xùn)練過程中,幫助模型在生成過程中不斷調(diào)整,減緩幻覺現(xiàn)象。而在推理階段,研究者通過分析推理過程中存在的偏差,設(shè)計了新的推理框架,以更好地應(yīng)對跨模態(tài)生成任務(wù)中的挑戰(zhàn),提升模型的整體表現(xiàn)。其中最典型的策略是基于強(qiáng)化學(xué)習(xí)的框架。架下的多模態(tài)大模型訓(xùn)練過程中的優(yōu)化目標(biāo),特別是從生成描述的準(zhǔn)確性、豐富度和一致性等方面設(shè)計優(yōu)化目標(biāo)。這種方法通過強(qiáng)化學(xué)習(xí)來調(diào)整模型,2024)則采用了差分隱私優(yōu)化及其衍生算法,并結(jié)合人類反饋來提升多模態(tài)大模型對真實信息的對齊能力和一致性,從而使其生成內(nèi)容更加可靠和符合預(yù)期。這些研究通過將人類反饋融入模型訓(xùn)練過程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論