2023大模型安全解決方案白皮書_第1頁
2023大模型安全解決方案白皮書_第2頁
2023大模型安全解決方案白皮書_第3頁
2023大模型安全解決方案白皮書_第4頁
2023大模型安全解決方案白皮書_第5頁
已閱讀5頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本白皮書版權(quán)屬于北京百度網(wǎng)訊科技有限公司(以下簡稱“百),受法律保護。任何單位或者個人未經(jīng)百度書面許可,不得擅自摘抄、編或者以其他方式使用本白皮書文字或觀點,由于本方案相關(guān)產(chǎn)品版其它原因,本文件內(nèi)容將會不定期進行更新。除非另有約定,本文件僅 2 4 4 5 7 7 8 9 15 19 19 33 36 41 44 44 476.總結(jié)與展望..............................................................................................54 54 55 55 57能力強大的人工神經(jīng)網(wǎng)絡(luò)模型,以其卓越的表現(xiàn)在自然語言處覺、語音識別等領(lǐng)域贏得了持續(xù)的關(guān)注和青睞。這些模型的出現(xiàn)大模型技術(shù)的崛起,首要得益于深度學(xué)習的發(fā)展以及硬件計算能力工智能任務(wù)中展現(xiàn)出遠超以往的性能。例如,在自然語言處理領(lǐng)域,這型能夠?qū)崿F(xiàn)更準確、更流暢的語言生成、機器翻譯和情感分析等任務(wù),升了人機交互和信息處理的能力。伴隨著大模型的不斷演進和不斷優(yōu)化商業(yè)領(lǐng)域的應(yīng)用也愈發(fā)廣泛,金融行業(yè)可以利用大模型進行風險評估和測,醫(yī)療領(lǐng)域可以通過大模型實現(xiàn)圖像識別和疾病診斷,而廣告、營銷也能夠通過大模型實現(xiàn)更精準的用戶推薦和個性化服務(wù)。同時,大模型規(guī)模數(shù)據(jù)的采集和存儲,可能導(dǎo)致個人隱私的泄露和濫用。模型的可能被惡意利用,用于虛假信息生成、社會工程和網(wǎng)絡(luò)攻擊。對抗可能使得模型產(chǎn)生誤導(dǎo)性結(jié)果,嚴重影響決策的準確性。在社會倫大模型安全風險,并為各界提供指導(dǎo),以確保大模型在廣泛應(yīng)用中施,確保大模型在為人類創(chuàng)造價值的同時,也能夠保障個人隱私、社業(yè),再到日常生活、辦公等方方面面。但隨之而來的是一系列首先,大模型在許多應(yīng)用場景中處理大量敏感數(shù)據(jù)和個搜索記錄、社交媒體互動和金融交易等。這使得數(shù)據(jù)泄露和隱私侵犯的至被用于惡意行為,如身份盜竊、詐騙和社會工程攻擊。這不僅會對其次,大模型的強大能力也可能被用于進行各種形式的惡意攻對抗性樣本攻擊,即針對模型的輸入進行微小改動,從而欺騙模型產(chǎn)生測,已成為一種常見的威脅。惡意使用者可以通過這種方式制造虛假信響決策結(jié)果,如將誤導(dǎo)性的信息傳播到社交媒體平臺,從而擾亂社會秩外,大模型的生成能力也可能被用于生成虛假的內(nèi)容,威脅到媒體的可信另外,模型本身也可能成為攻擊者的目標。模型參數(shù)和權(quán)重的致知識產(chǎn)權(quán)的損失,甚至使惡意使用者能夠復(fù)制或修改模型,而影響到正常的業(yè)務(wù)運行。這些威脅可能在不經(jīng)意間對企業(yè)此外,大模型的使用往往涉及到社會倫理和法律問題。例如,性問題,即模型在處理數(shù)據(jù)時產(chǎn)生的不公平或偏見,可能引發(fā)社會的部、公安部、廣電總局公布《生成式人工智能服家安全和社會公共利益,保護公民、法人和其他組織的合法權(quán)益。生成式人工智能健康發(fā)展的重要要求,也是防范生成式人工智能服術(shù)手段、政策法規(guī)以及社會共識,建立起一套全面的大模型安全風險管理體本白皮書的使命在于為大模型領(lǐng)域的各方利益相關(guān)者提供指導(dǎo)模型技術(shù)的安全應(yīng)用。我們致力于建立一個安全、穩(wěn)定且可信賴的大系統(tǒng),旨在維護用戶的數(shù)據(jù)隱私、保護企業(yè)的商業(yè)機密,并提供有效.提供一套綜合性的安全解決方案,以減輕大模型應(yīng)用過程中的安全壓.建立規(guī)范和標準,指導(dǎo)大模型的安全設(shè)計、開發(fā)、部署和監(jiān)測。.促進安全意識的提高,使所有相關(guān)方能夠更好地理解和應(yīng)對安全挑戰(zhàn)。.推動研究和創(chuàng)新,以增強大模型的魯棒性和防御能力,應(yīng)對新型攻擊。本白皮書將按照不同的維度深入探討大模型安全的關(guān)鍵問題,以提大模型安全實踐與總結(jié),分別從數(shù)據(jù)安全與隱私問題、模型流轉(zhuǎn)/部署過程中的時,數(shù)據(jù)需要在不同的主體或部門之間進行傳信息和隱私,如個人身份信息、金融數(shù)據(jù)等。在數(shù)據(jù)傳輸過程中,如取足夠的安全措施,攻擊者可能會截獲這些數(shù)據(jù),從而獲取敏感信息和組織帶來安全和隱私問題。因此,在使用大模型服務(wù)時,必須采取業(yè)數(shù)據(jù)等敏感數(shù)據(jù)來提高模型的準確性和性能。然而,如果這些數(shù)據(jù)運營機構(gòu)窺視或收集,就可能存在被濫用的風險。運營方可能會利用這些來了解用戶的隱私信息,例如個人偏好、行為習慣、社交網(wǎng)絡(luò)等,從這些第三方可能是合作伙伴、數(shù)據(jù)分析公司、廣告公司等,從而獲取模型記憶甚至記憶內(nèi)容泄密的風險。攻擊者可能會利用這些記憶信息來實施惡意行為,例如針對性攻擊、詐騙等。此外,如果記憶內(nèi)容被泄露,也的隱私和安全造成威脅。因此,在使用大模型服務(wù)時,必須采取適當?shù)陌彩﹣肀Wo模型的機密性和隱私性,例如加密和訪問控制等。同時,應(yīng)大模型本身也是一種重要的資產(chǎn),它包含了大量的知識和技能合理的管理和控制,就可能被盜取、復(fù)制或篡改,導(dǎo)致模型的性能下這些攻擊可以使模型產(chǎn)生錯誤的輸出;本白皮書圍繞數(shù)據(jù)、模型、網(wǎng)絡(luò)通訓(xùn)練數(shù)據(jù)的一些信息。攻擊者可以通過分析模型的輸出,推斷出訓(xùn)構(gòu)、權(quán)重和訓(xùn)練數(shù)據(jù)。這可能導(dǎo)致知識產(chǎn)權(quán)盜竊、模型盜用和安露。逆向工程可能通過模型推理結(jié)果、輸入輸出分析以及梯度攻布。然而,模型更新可能引入新的漏洞和問題。安全地更新模型需健康發(fā)展和規(guī)范應(yīng)用,根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》等法律法再到國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)安部、廣電總局共同公布的《生成式人工智能服務(wù)管理暫行辦法》的行,在國家層面不斷指導(dǎo)和促進生成式人工智能健康發(fā)展和規(guī)范應(yīng)用范生成式人工智能服務(wù)風險的現(xiàn)實需要,現(xiàn)以在百度安全在生這可能包括用戶的文本、圖像、音頻等信息。然而,當個人數(shù)據(jù)被用容時,可能導(dǎo)致用戶的隱私權(quán)受到侵犯。此外,生成的內(nèi)容可能會反用戶的輸入預(yù)測郵件的內(nèi)容。然而,這可能意味著谷歌語音指令,以提供更個性化的服務(wù)。但這也涉及對用戶的語交媒體活動等生成個性化的內(nèi)容,涉及用戶個人數(shù)據(jù)的虛假信息和誤導(dǎo)性內(nèi)容是指生成技術(shù)產(chǎn)生的信息在形式或內(nèi)容上誤眾,可能違背事實真相,損害信息的可信度和準確性。這種問題可能出種內(nèi)容中,包括文字、圖像、音視頻等多模態(tài)內(nèi)容。虛假信息能導(dǎo)致社會的混亂、信息泛濫和不信任的情況。人們可能不再能夠以相信所看到的內(nèi)容,這可能削弱媒體的權(quán)威性交媒體帖子,但這些內(nèi)容可能缺乏事實支持,誤導(dǎo)受眾這一問題指的是生成的內(nèi)容可能涉及針對特定民族、種族、宗教體的仇恨性、甚至挑釁性言辭。這種民族仇恨言論和不當內(nèi)容的存在可能和諧、文化多元性以及人們之間的相互理解產(chǎn)生負年齡、健康、職業(yè)、國別等方面的偏見和歧視,進而對個體、群體和社會不公平和傷害;產(chǎn)生這一問題的原因主要是指生成技術(shù)產(chǎn)生的內(nèi)容可能反映出技術(shù)模型所學(xué)習的數(shù)據(jù)中存在的偏見和歧視。這些偏見可能是源自原類自然對話,例如預(yù)訂餐廳的電話。然而,有用戶發(fā)現(xiàn)當助手模而模仿男性聲音時則更自信;這個案例揭示了生成技術(shù)可能內(nèi)淫穢色情內(nèi)容問題是指生成技術(shù)產(chǎn)生的內(nèi)容可能包含裸露、性言辭等不適宜公開傳播的內(nèi)容。這種內(nèi)容可能在社交媒體、聊天應(yīng)稱是用于藝術(shù)目的,但它引發(fā)了廣泛的擔憂,認為這有可能被用于有關(guān)國家領(lǐng)導(dǎo)人、國家制度/法律法規(guī)、政治事件等嚴重錯誤的內(nèi)容,以及可能涉及軍事等領(lǐng)域的敏感信息,可能對國家安全、國際關(guān)系和社會生成式人工智能技術(shù)能夠模仿并創(chuàng)造包括文字、圖像和音頻在內(nèi)的多娛樂作品、藝術(shù)創(chuàng)作等領(lǐng)域,但它也可能被濫用,創(chuàng)造具有恐怖和暴內(nèi)容,對社會產(chǎn)生負面影響。例如前兩年一款名為"NightCafeStudio"的應(yīng)用在社交媒體平臺上引起了爭議。該應(yīng)用可以根據(jù)用戶提供的文字描述恐怖和暴力場景的圖像。雖然該應(yīng)用聲稱是用于娛樂目的,但這種技濫用,用于創(chuàng)造恐怖主義、暴力行為等不良內(nèi)容,對用戶造成精大模型在生成過程中,模型可能會從大量的原始數(shù)據(jù)中提取靈感大量藝術(shù)作品生成了一系列類似的圖像。這引發(fā)了關(guān)于生成技術(shù)是創(chuàng)藝術(shù)家的知識產(chǎn)權(quán)的討論。此外,生成的文本內(nèi)容也可能受到版擊等惡意目的。濫用技術(shù)可能會造成社會混亂、信任危機和人身安生成技術(shù)的邏輯和決策過程往往難以解釋,造成責任歸屬:在生成式人工智能的系統(tǒng)中,往體。例如,如果一個由人工智能驅(qū)動的機器人犯下了錯誤,或有害的結(jié)果,很難確定應(yīng)該由誰來承擔責任。此外,由于人工的復(fù)雜性,即使試圖進行責任追溯也可能面臨困難。例如,在下,人工智能系統(tǒng)可能根據(jù)其接受的大量數(shù)據(jù)進行決策,而這::本環(huán)節(jié)主要涵蓋企業(yè)在構(gòu)建大模型服務(wù)時,與大模型交互前的險主要包含:企業(yè)自有賬號體系的批量注冊、盜號、撞庫、掃庫、拖庫等月初開始,大規(guī)模封禁各類違規(guī)注冊賬號;同樣以百度文心一言大模型在大模型交互環(huán)節(jié),本節(jié)將分別從用戶的“提問行為“和”提問內(nèi)容“為;針對大模型輸出結(jié)果,黑灰產(chǎn)可以發(fā)起投毒反饋、授權(quán)和許可情況下,爬取了海量數(shù)據(jù),要求其公開道歉、刪除數(shù)據(jù)資源,其次是用戶提問內(nèi)容安全,針對用戶輸入的各類pr安全范疇,例如需要針對用戶輸入內(nèi)容進行包含“涉黃、涉賭、治、涉恐、涉爆、低俗、辱罵”等內(nèi)容審核;同時還需要進行“惡意代址安全”等注入、違規(guī)內(nèi)容的甄別,避免違百度二十余年安全對抗的總結(jié)與提煉,圍繞百度【文心大視角出發(fā),方案涵蓋大模型訓(xùn)練/精調(diào)/推理、大模型部署、大模型業(yè)務(wù)運關(guān)鍵階段所面臨的安全風險與業(yè)務(wù)挑戰(zhàn),提供全套安全產(chǎn)品與服務(wù)臨的安全挑戰(zhàn),給出了完整的應(yīng)對方案,本章節(jié)將會圍繞數(shù)據(jù)安全與詳細闡述大模型安全能力建設(shè);同時結(jié)合以攻促防的思路詳細闡百度安全支持公有云、私有化兩種場景下的橫向聯(lián)邦軟件不出域的情況下,完成大模型的預(yù)訓(xùn)練、精調(diào),解決數(shù)據(jù)傳輸過程中被在聯(lián)邦學(xué)習的橫向技術(shù)基礎(chǔ)上,又針對大模型的訓(xùn)練中遇到的特化。首先,大模型的訓(xùn)練較傳統(tǒng)的訓(xùn)練階段,又細分為預(yù)訓(xùn)練和其次,大模型的模型參數(shù)量較傳統(tǒng)機器學(xué)習模型要多出幾個數(shù)量級練過程中有著計算量大和計算節(jié)點的算力不均衡等問題。最后,較傳統(tǒng)而對于大模型的場景,除了用戶數(shù)據(jù)是隱私的,其中訓(xùn)練的模型也我們依照大模型所特有的特性,對現(xiàn)有的橫向聯(lián)邦技術(shù)做了演進匯聚,平衡各參與方的計算節(jié)奏,保持和管理最終的合并后的模型。每方,采取弱侵入式的接入方式,部署參與方插件,用于和現(xiàn)有的算力差分隱私(differentialpriva述數(shù)據(jù)庫的一些統(tǒng)計特征、而不公開具體到個人的信息。這一特性保護大模型在精調(diào)和推理時與云端服務(wù)端交互的用戶數(shù)據(jù)隱基于差分隱私的云上精調(diào)方案,主要是利用差分隱私算法,通用戶側(cè)。用戶在本地打亂序列的內(nèi)容,后再傳輸給部署在服務(wù)完成符號化和嵌入表查詢后,完成文本到符號表征表示。這里可的手段應(yīng)用在符號表征上,然后再發(fā)送給服務(wù)提供者。服務(wù)提供號表征,再加上必須的符號表征和位置特征,然后再作為編d用戶在本地完成了字符串到字符串的轉(zhuǎn)換,并且在過程中完成隱私化的保護,最后再將保護后的文字發(fā)送給服務(wù)提供者。服務(wù)提供者擁有一個完我們的差分隱私方案,主要應(yīng)用在大模型的精調(diào)和推理階段,特性能高于精度的場景。其部署是包含一個客戶端和一個服務(wù)端??蛻舳藨舻拿魑臄?shù)據(jù)添加噪聲混淆,并進行初步輸入層的計算,完成對用戶的據(jù)進行保護,并發(fā)送給服務(wù)端。服務(wù)端收到用戶的隱秘數(shù)據(jù),并將數(shù)據(jù)模型的輸入代理層傳遞給大模型進行計算。計算后,未解密的結(jié)果通過理,發(fā)送給客戶端??蛻舳耸盏胶螅冗M行輸出的解碼等輸出層并返回給客戶。由于在整個計算過程中,傳遞的數(shù)據(jù)均為添加噪聲后的算結(jié)果,在保證計算性能的基礎(chǔ)上,通過差分隱私增加數(shù)據(jù)還原的難度計算和處理的能力,從而保護數(shù)據(jù)的隱私和安全。對于大模型路,是通過同態(tài)密碼學(xué)來實現(xiàn)大模型的計算邏輯,從而大模型可以接的數(shù)據(jù)輸入,整體精調(diào)和推理過程完全是密態(tài)化的進行,最終的結(jié)果態(tài)的形式返回給客戶端,整個過程完全是密態(tài)化的,所以將此過程完在云上的服務(wù)端。而客戶僅需要將本地的隱私數(shù)據(jù)密態(tài)化后上傳給服對于同態(tài)密碼學(xué)方案,核心是如何通過同態(tài)密碼學(xué)實現(xiàn)大模型等大模型基礎(chǔ)組件結(jié)構(gòu)。由于同態(tài)密碼學(xué)計算復(fù)雜性和支持的計算有合理的利用同態(tài)密碼學(xué)算法能達到可用性和精度的要求,實現(xiàn)精調(diào)和也有少量的精調(diào)方面。根據(jù)所采用的同態(tài)密碼學(xué)算法的實現(xiàn)不同,大致同態(tài)密碼學(xué)中有限的計算方式去實現(xiàn)和逼近大模型的基礎(chǔ)算子也是熱點。在降低計算量的同時,如何平衡計算量和網(wǎng)絡(luò)傳輸量之間的到在實際應(yīng)用中能最大化的降低耗時,將算法可用性能進一步接近我們的同態(tài)密碼學(xué)方案是結(jié)合同態(tài)密碼學(xué)和差分隱私等技術(shù),構(gòu)對用戶數(shù)據(jù)進行密態(tài)計算的方案,并將此技術(shù)運用在大模型的段。在用戶客戶端,會安裝一個客戶端插件,此插件主要用于加密用數(shù)據(jù),形成可以用于密態(tài)計算的語料,通過網(wǎng)絡(luò)連接將加密后的數(shù)據(jù)發(fā)算。最終的結(jié)果也將以密文的形式,返回給客戶端??蛻舳耍ㄟ^插件解密后得到最終的結(jié)果。由于數(shù)據(jù)全程都是密態(tài)形態(tài),所以任何第三方可信執(zhí)行環(huán)境(trustedexecutionenvironment,TEE)是處理器中的受到側(cè)信道攻擊,需要構(gòu)建縱深防御安全體系,抵抗不同方向的攻認證的度量值中,保證啟動過程的安全,提高遠程認證的真實性。中運行的容器啟動前,其數(shù)字簽名會被校驗,確保程序來源的合法據(jù)以透明加解密的方式落盤,保護數(shù)據(jù)隱私和安全的同時,提高時,兼顧訪問性能。機密虛擬機之間使用基于身份的訪問控制,具備多租戶數(shù)據(jù)及模型隔離管理和保護,多方數(shù)可信執(zhí)行環(huán)境是云計算中不可或缺的一部分,它從硬件層面解偉達等硬件提供商均提供了機密計算硬件解決方案。微軟、亞馬遜云和阿里云等均提供機密計算的設(shè)備和解決方案。百度、螞蟻金服和字安全沙箱技術(shù)是一種通過構(gòu)建隔離的可供調(diào)試、運行的安全模型、數(shù)據(jù)使用權(quán)和所有權(quán)的技術(shù),同時提供模型精調(diào)計算所需的算通信等功能,保證模型擁有方的預(yù)訓(xùn)練模型在不出其定義的私有邊安全沙箱產(chǎn)品是提供給模型開放共享過程中各參與方使用,開放共享所需的算力管理和通信等功能,并滿足計算任務(wù)需求的安全沙箱通過界面隔離、環(huán)境隔離、網(wǎng)絡(luò)隔離、執(zhí)行隔離、數(shù)界面隔離:為抵抗來自站點外對平臺調(diào)試環(huán)境的竊取數(shù)據(jù)的攻擊面渲染的手段,使用戶僅可以看到調(diào)試環(huán)境中的內(nèi)容,可以和數(shù)據(jù),但是無法直接從環(huán)境中獲取到操作的內(nèi)容,實現(xiàn)指令到環(huán)境環(huán)境隔離:為抵抗來自調(diào)試環(huán)境中對于運行環(huán)境的滲透攻擊,環(huán)境劃分的手段,根據(jù)操作對象的不同,將調(diào)整邏輯代碼的區(qū)域劃分境,將對真實全量數(shù)據(jù)進行操作的區(qū)域劃分為運行環(huán)境,兩個區(qū)域完存在直接的訪問介質(zhì)。從而達到:在調(diào)試環(huán)境中改動程序邏輯,僅可數(shù)據(jù)了解格式,但不可觸碰真實全量數(shù)據(jù);在運行環(huán)境中要操作真實全據(jù),其所提交的程序邏輯為固定的,操作的內(nèi)容經(jīng)過審查,其最終擊,通過物理硬件策略的手段,使隔離環(huán)境間和組件間所工作以達到網(wǎng)絡(luò)層面上訪問可控,可審計,以及出現(xiàn)風險后可以執(zhí)行隔離:為抵抗來自執(zhí)行環(huán)境內(nèi),運行邏輯對執(zhí)行環(huán)境的滲透攻擊,通過虛擬化技術(shù),將用戶直接操作的調(diào)試,以及間接使用的運行環(huán)境的執(zhí)行體,與真實執(zhí)行的物理機環(huán)境相互隔離,去除運行環(huán)境之間的物理機的差異,保數(shù)據(jù)隔離:為了防護對數(shù)據(jù)的直接竊取的攻擊出現(xiàn),通過對數(shù)據(jù)行控制,在調(diào)試環(huán)境和運行環(huán)境所訪問的數(shù)據(jù):物理策略上限定,在大模型精調(diào)領(lǐng)域,基于以上五大隔離技術(shù),再結(jié)合訪問控制策對于單方保護模型的場景,安全沙箱部署在模型擁有方,模型擁有方對于同時保護模型和數(shù)據(jù)的場景,模型擁有方和數(shù)據(jù)擁有方角是其不了解精調(diào)相關(guān)領(lǐng)域知識,無法自主完成精調(diào),只能雇傭外部人員又不能讓外部人員觸碰到需要保護的模型和數(shù)據(jù)。此時便可以利用安全用不可見的特性,使得外部人員可以在不觸碰原始數(shù)據(jù)的情況下,對數(shù)清洗、治理,使其符合精調(diào)數(shù)據(jù)的格式要求,能夠?qū)⑻幚砗蟮臄?shù)據(jù)集應(yīng)在大模型推理領(lǐng)域,安全沙箱可提供在線推理服務(wù)用于一鍵部署精調(diào)在線推理服務(wù)的高可用性;對請求進行安全訪問認證,確保請求來源的2、模型資產(chǎn)保護:大模型文件是企業(yè)核心為了解決上述模型安全相關(guān)問題,構(gòu)建行之有效的模在大模型的語料數(shù)據(jù)安全管理中,保護敏感數(shù)據(jù)、確保數(shù)據(jù)的完整針對大模型的全生命周期,從模型訓(xùn)練到部署,采用多方位的安全據(jù)和代碼不受未授權(quán)訪問。引入訓(xùn)練數(shù)據(jù)的加密和隱私保護通過上述方案,可以在大模型的整個生命周期中,確保模型資產(chǎn)的護敏感信息,防范惡意攻擊,維護業(yè)務(wù)的正常運行。這些方案涵蓋個階段,從數(shù)據(jù)安全到部署安全,都為大模型業(yè)務(wù)的安全運營提供適應(yīng)不同國家和地區(qū)的法律法規(guī)。因此,跟上法規(guī)變化,確保術(shù)和人工判定。技術(shù)雖然可以自動檢測一部分問題,但對于某些容不涉及不當言論、歧視性語言等,需要深入了解不同語言和知識。但是,在不同領(lǐng)域和業(yè)務(wù)中,合規(guī)標準可能存在差異,制這種情況下,需要在短時間內(nèi)判斷內(nèi)容的合規(guī)性,需要高效的存在誤報和漏報的問題。技術(shù)的局限性需要考慮如何提高準本方案基于《生成式人工智能服務(wù)管理辦法》,以及百度在人在構(gòu)建大語言模型之前,需要對訓(xùn)練數(shù)據(jù)進行有效的篩選和清洗質(zhì)量的語料數(shù)據(jù)用于訓(xùn)練對大模型安全性有著至關(guān)重要的影響。通過預(yù)據(jù)過濾方案減少訓(xùn)練數(shù)據(jù)中的偏見、不準確性和不適當內(nèi)容,從而從根有害內(nèi)容;同時通過業(yè)務(wù)風控富集的敏感詞詞庫過濾數(shù)據(jù)中的臟話和詞匯,提供召回模型之外的快速更新能力。除了過濾有害內(nèi)容,預(yù)濾方案也能夠刪除可能包含個人身份信息、隱私敏感信息的內(nèi)容,大模型的內(nèi)容干預(yù)是指通過人工審核、過濾技術(shù)或其他方式,入的內(nèi)容,以確保其符合特定的標準、規(guī)范和價值觀。這種干預(yù)可),值得注意的是,內(nèi)容干預(yù)需要權(quán)衡大模型的自由創(chuàng)作能力與生成量和安全性之間的關(guān)系。過于嚴格的內(nèi)容干預(yù)可能會大幅抑制性,而過于寬松則可能導(dǎo)致有害內(nèi)容的生成。因此,掌握合適的內(nèi)容也對使用方提出了高要求,百度提供了相對審慎可用的預(yù)置策略,大模型輸入的安全分類是指將用戶輸入內(nèi)容進行分類,以判斷合適性。這種分類能夠幫助防止不良內(nèi)容的生成,保護用戶免受有害或不適當?shù)膬?nèi)容影響。通過有效的輸入內(nèi)容安全過濾,能夠極大程度模型生成不安全或者負面的回復(fù)內(nèi)容,同時結(jié)合高精準的分類標簽,百度結(jié)合多年的業(yè)務(wù)內(nèi)容安全分類實踐,將輸入內(nèi)容劃分同語義的內(nèi)容分類能力,能夠高效檢出涉政、涉黃、違法、歧視、辱價值觀等類別的不安全輸入,同時提供高質(zhì)量的提示詞改寫模版,協(xié)在大模型預(yù)訓(xùn)練完成后,為了提高其生成內(nèi)容的安全性,可以進以指導(dǎo)其生成更合適、不含有害內(nèi)容的回復(fù)內(nèi)容。微調(diào)后的大模型可百度基于數(shù)據(jù)標注和數(shù)據(jù)質(zhì)量管理的既往工作,依賴多樣料庫和人類反饋的偏好標注,提供多類別的安全調(diào)優(yōu)語料和多維度模型,能夠有效地將大模型的生成能力與人類偏好相對齊,從根本上大模型輸出內(nèi)容安全過濾是指對大模型生成的文本內(nèi)容進行檢測和篩以識別并過濾掉有害、不準確、不適當或不合規(guī)的回復(fù)百度使用業(yè)務(wù)風控中積累的高危詞典對輸出內(nèi)容進行安全害敏感詞后通過語義改寫將安全回復(fù)內(nèi)容作為最終的此外,在面對第三方自建大模型的服務(wù)廠商,百度安全同樣構(gòu)所示的大模型內(nèi)容安全防護體系,圍繞用戶輸業(yè)務(wù)運營的安全風控防護體系,可以在大模型前置云運營階段(冊、登錄、權(quán)益申請等環(huán)節(jié))、以及大模型交互環(huán)節(jié)(如:用戶答內(nèi)容反饋等環(huán)節(jié)),結(jié)合用戶行為、終端環(huán)境、網(wǎng)絡(luò)特征等信息建立安全防護體系,針對異常請求做實時風險檢測,保障大模型處于結(jié)合當前場景,依托百度安全昊天鏡智能風控服務(wù),構(gòu)建了包含賬號安全是首要任務(wù)。使用多因素身份驗證(MFA)等措施,確保只有合統(tǒng)資源過載甚至崩潰。通過實施限制頻率、驗證碼驗證等手段,可等。為了防止設(shè)備被劫持用于惡意行為,可以采用設(shè)備指紋識別、用在大模型業(yè)務(wù)運營中,上述安全措施和風險情報的作用是不可忽合運用這些措施,可以減輕大模型交互場景中的各種安全風險,保護和數(shù)據(jù)安全,維護業(yè)務(wù)的穩(wěn)定運行。同時,持續(xù)的監(jiān)控、分析和改進會導(dǎo)致最終的內(nèi)容產(chǎn)出存在不同的風險;有可能輸出具有含有侮辱性和視的內(nèi)容,有可能輸出非常不正確的價值觀,也可能被用于惡意活動詐、虛假信息傳播;因此對大模型的內(nèi)容安全性進行評估和改進本檢測方案以網(wǎng)信辦《生成式人工智能服務(wù)管理辦法(征求意指導(dǎo)基礎(chǔ)劃分安全分類,通過在該安全分類體系中設(shè)定的不安全對對性的生成了對應(yīng)的評測內(nèi)容,供大模型進行內(nèi)容安全評測評估,大型語言模型(LLM)可以自動化或協(xié)助人類完成各種任務(wù),但存在如幻覺、偏見和越獄等問題,這可能導(dǎo)致生成有害輸出。因此在部前,建立大模型藍軍測試體系,通過主動攻擊大模型的方法來要。主動攻擊成功的樣本數(shù)據(jù)將提供給大模型安全防御開發(fā)人員進大模型發(fā)展的初期,大模型藍軍測試主要依賴人工編寫測試語標注危險回復(fù)。這種完全基于人工的藍軍測試流程限制了發(fā)現(xiàn)威脅的樣性。因此,建立基于自然語言處理技術(shù),機器學(xué)習技術(shù),大語言模生成大量對大模型具有潛在風險的語料存在巨大的挑戰(zhàn):首先順且符合人類表達邏輯的語料,其次生成的語料需要滿足具有潛在的風件。業(yè)界常規(guī)的方法是通過人工撰寫收集的方式獲取這一部分的內(nèi)容數(shù).人工成本昂貴:招募、培訓(xùn)和管理大量的志愿者需要耗費大量的人力資源和時間。同時,為了確保生成的測試數(shù)據(jù)質(zhì)量,需要對志.測試集數(shù)量存在瓶頸:由于依賴于人工手寫生成攻擊測試數(shù)據(jù),測試集的數(shù)量受到限制。這種限制可能導(dǎo)致測試集.人工生成語料存在偏狹:人工生成的語料往往受到個人經(jīng)驗、偏見和局限性的影響。志愿者可能無法涵蓋各個領(lǐng)域和語境,導(dǎo)致生據(jù)在覆蓋范圍和多樣性上存在限制。這可能導(dǎo)致在處理新的.人工生成語料的框架可擴展性差:當需要引入新的內(nèi)容或應(yīng)對特定場景時,依賴人工手寫生成攻擊測試數(shù)據(jù)的方法往往難以快速實現(xiàn)雜的測試需求或涉及到大規(guī)模語料的變化,人工方法的可擴展綜上所述,傳統(tǒng)的依賴志愿者招募和人工手寫生成攻擊測試可以考慮結(jié)合自動化的方法,利用更強大的大模型語言生成能力來試和安全評估。針對該訴求,我們建立了風險內(nèi)容評測數(shù)據(jù)自動生.生成語料的質(zhì)量:生成的攻擊語料需要符合人類表達邏輯,通順,能被.生成語料的多樣性:生成的攻擊語料需要在內(nèi)容上足夠廣泛,避免大量.生成語料的威脅性:生成的攻擊語料需要具備潛在的引起內(nèi)容風險回答對于海量的測試問題和大模型回答的風險性評測,全部依靠人費大量人力資源。需要建立自動化模塊,快速準確地完成海量風險評測。需要通過大量算法優(yōu)化和提示詞工程研究提升模型判斷的準.評測準確性:自動評測模塊需要準確地感知回答的內(nèi)容風險,過低的評.評測計算效率:自動評測模塊需要快速地完成內(nèi)容風險感知的計算,過大模型藍軍評測是一種主動的安全測試方法,旨在模擬攻擊者的行大模型系統(tǒng)在真實威脅面前的安全性能與內(nèi)容合規(guī)問題。藍軍安全.建立自動化的攻擊語料生成能力.建立自動化大模型回復(fù)風險標注能力.建立大模型安全評測框架通過自建提示詞數(shù)據(jù)集主動引起大模型的不安全回復(fù)來發(fā)現(xiàn)潛在的風.風險內(nèi)容語料生成:我們利用開源的大型語言模型藍軍(紅隊)數(shù)據(jù)集作為基礎(chǔ),通過篩選其中具有高風險的提示詞,以及采用stofew-shot的方法,利用外部的語可以利用已有的藍軍數(shù)據(jù)集中的關(guān)鍵信息,并借助外部模通過少量的示例來生成具有多樣性和創(chuàng)新性的數(shù)據(jù)。這種方法特別適生成任務(wù),如生成提示詞、擴充語料庫等。在stoch使用概率模型來模擬數(shù)據(jù)的生成過程。通常,該方法利用預(yù)訓(xùn)練的語為生成器,以提供語言生成的基礎(chǔ)。然后,通過給定少量的示例輸入有特定屬性或特定上下文的樣本,該方法通過采樣和重組模型的內(nèi)部成新的樣本。該方法的優(yōu)勢在于,它能夠利用有限的示例來生成更多據(jù),從而提高數(shù)據(jù)的多樣性和豐富性。這對于訓(xùn)練模型、進行評估.風險話題收集:我們定期從外部數(shù)據(jù)源收集相關(guān)的風險話題文本,并將其納入我們的庫中。這些數(shù)據(jù)源可能包括社交媒體、新聞報論等。通過不斷更新和豐富話題文本,我們可以確保風險內(nèi).風險關(guān)鍵詞提?。何覀兝米匀徽Z言處理技術(shù)和圖計算技術(shù),對外部的風險文本進行處理,提取其中的關(guān)鍵詞,并構(gòu)建風險關(guān)鍵詞圖圖譜可以幫助我們更好地理解和組織風險內(nèi)容的關(guān)聯(lián)性,為后.風險提示詞模板生成:基于高風險的提示詞,我們通過自然語言處理算法提取相應(yīng)的模板。這些模板可以包含語法結(jié)構(gòu)、詞匯選擇和上下開源大模型藍軍數(shù)據(jù)集和熱點內(nèi)容數(shù)據(jù)通過內(nèi)容風險關(guān)鍵詞篩選出風險程度較高的關(guān)鍵詞庫。同時開源大模型通過內(nèi)容風險提示取模版,提取并橫向生成大量提示詞模版存入庫中;通過內(nèi)容風險測向生成模塊直接生成提示詞測試集數(shù)據(jù)存入數(shù)據(jù)庫中。另外一部分提示通過以上的模塊,我們的框架能夠自動生成具有多樣性和豐富性的風測數(shù)據(jù)。這樣的自動生成方法能夠降低人工成本,擴大測試集規(guī)模,提數(shù)據(jù)的多樣性和覆蓋度,并能夠根據(jù)需求快速引入新內(nèi)容。這種框架獲得大模型的對應(yīng)回答。我們需要檢測這些對應(yīng)回答的風險情況,并匯對于海量大模型輸出結(jié)果做人工標注需要較大成本,因此我們擴展的檢測架構(gòu),支持自動化地完成回答內(nèi)容準確快速的風險監(jiān)測.模版匹配策略:多數(shù)大模型在檢測到內(nèi)容存在風險時,會使用固定的格.預(yù)訓(xùn)練模型:使用一些預(yù)訓(xùn)練的語言模型,比如Bert,Roberta,或?qū)?yīng)的風險情況,將標注數(shù)據(jù)用來對預(yù)訓(xùn)練模型做微調(diào),可.大語言模型:評測內(nèi)容探索采用多個大模型輔助標注方式快速、自動化踐經(jīng)驗和提示工程技術(shù),將惡意問題提示語句和被測試大模型,獲得評估結(jié)論。最終整合各個風險維度維度來自各個大.評測結(jié)果融合匯總:我們需要通過一個融合匯總模塊,將來源于模版匹配策略,預(yù)訓(xùn)練模型,大語言模型對被測回答內(nèi)容的風險情合。這其中涉及到多種數(shù)據(jù)類型的轉(zhuǎn)換,包括布爾值和文本型輸出轉(zhuǎn)換為統(tǒng)一的布爾值格式后,我們設(shè)使用大語言模型分析文本的風險情況,需要通過一個提示語句模版將被型回答內(nèi)容與要求大語言模型分析風險的具體需求組裝在一個.內(nèi)容識別錯亂:存在對提問與回答的內(nèi)容理解錯誤,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論