




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
本研究報告自2023年09月啟動編制,分計、文稿起草、征求意見和修改完善五個階段,針對大模型可信賴問題面向大模型的技術(shù)提供方、服務(wù)應(yīng)用方開展了深度訪談和調(diào)研本報告由上海商湯智能科技有限公司和中國信息通信研究院云計算與大數(shù)據(jù)研究所共同撰寫,撰寫過程得到了人工智能關(guān)鍵技術(shù)本報告主要貢獻單位(排名不分先后)包括:螞蟻科技集團股份有限公司、阿里巴巴集團、阿里云計算有限公司、北京百度網(wǎng)近年來,深度學(xué)習(xí)技術(shù)取得了突破性進展,大模型作為其中的典型代表,已經(jīng)在自然語言處理、圖像處理、多模態(tài)應(yīng)用等領(lǐng)域取得了令人矚目的成果,為經(jīng)濟社會發(fā)展帶來新機遇。但隨著大模型應(yīng)用規(guī)模擴大、應(yīng)用場景拓展,其風(fēng)險問題也逐漸凸顯,如安全漏洞、隱私泄露、易受攻擊、偏見歧視、侵權(quán)濫用等,如何有效防范全球各界對大模型的可信賴問題展開了廣泛的探索研究。在國際層面,政府間國際組織從人工智能倫理準(zhǔn)則等基本共識出發(fā),逐各主要經(jīng)濟體正加快推進大模型治理監(jiān)管相關(guān)政策制定步伐。在產(chǎn)業(yè)層面,各行業(yè)機構(gòu)與科技企業(yè)積極關(guān)注大模型風(fēng)險,通過行業(yè)自本報告重點針對產(chǎn)業(yè)界大模型可信賴實踐開展研究。首先,重點梳理了大模型發(fā)展現(xiàn)狀,點明大模型的風(fēng)險來源。其次,從大模型涉及的關(guān)鍵要素和可信維度出發(fā),全面分析大模型面臨的各項風(fēng)險并進行整理歸納,形成大模型風(fēng)險全景視圖。再次,針對大模型在框架、數(shù)據(jù)、模型和生成內(nèi)容等層面的風(fēng)險,系統(tǒng)梳理了產(chǎn)業(yè)界保障大模型可信賴的關(guān)鍵舉措。最后,本報告指出了當(dāng)前大模型可大模型與行業(yè)融合正不斷加深,風(fēng)險問題仍在不斷暴露,相應(yīng)的可信賴實踐也在持續(xù)涌現(xiàn)。本研究報告對大模型可信賴實踐的認(rèn)識和理解還有待加強,報告中如有不足之處,還請各方專家讀者不 1 1 1 3 7 7 8 9 21 25 27 27 28 31 35 37 40 7 8 27 1一、大模型發(fā)展現(xiàn)狀近十余年間,人工智能技術(shù)泛化能力、創(chuàng)新能力及應(yīng)用效能不斷提升,成為了推動經(jīng)濟及社會發(fā)展的重要引擎。2015年前后,人臉識別算法達到接近人眼的識別能力,被視為人工智能技術(shù)工業(yè)級應(yīng)用水平的代表性事件。2022年,以ChatGPT為代表的大模型為用戶帶來了全新交互體驗。通過其在內(nèi)容生成、文本轉(zhuǎn)化和邏輯推理等任務(wù)下的高效、易操作表現(xiàn),大模型正逐步成為當(dāng)前主流應(yīng)用程隨著數(shù)據(jù)、算法和算力的不斷突破,大模型將不斷優(yōu)化演進。在數(shù)據(jù)方面,海量、多模態(tài)數(shù)據(jù)將持續(xù)應(yīng)用于大模型預(yù)訓(xùn)練,提升跨語種、多模態(tài)特征的海量知識挖掘及執(zhí)行等復(fù)雜任務(wù)的處理。在算力方面,智算中心及算力網(wǎng)絡(luò)等基礎(chǔ)設(shè)施加速建設(shè),為大模型的開發(fā)和服務(wù)提供充足性能支持。到2026年,Gartner預(yù)測超過80%的企業(yè)將使用生成式人工智能的API或模型,或在生產(chǎn)環(huán)境中部署支持大模型應(yīng)用。以通用智能體、具身智能和類腦智能等為代表的人工智能已經(jīng)成為全球新興技術(shù)領(lǐng)域的核心競爭力,各國政府加快2研發(fā)、部署人工智能技術(shù),推動產(chǎn)業(yè)高速發(fā)展。據(jù)統(tǒng)計1,我國人工智能核心產(chǎn)業(yè)規(guī)模已達5000億美元,企業(yè)數(shù)量超過4300家。2023年始,我國大模型市場火爆,百度、商湯科技、科大訊飛、阿里巴巴等單位先后發(fā)布自研大模型,并于2023年下半年逐步面向用戶提供服務(wù)。大模型廣泛應(yīng)用于能源、金融、教育、醫(yī)療、交通、政務(wù)以能源、金融為首的兩大行業(yè)結(jié)合行業(yè)數(shù)據(jù)建設(shè)基礎(chǔ),積極布局大大模型技術(shù)生態(tài)逐步完善,大幅降低行業(yè)應(yīng)用門檻。一方面,開源大模型加速大模型應(yīng)用滲透,打通預(yù)訓(xùn)練、微調(diào)、部署、評測等開發(fā)階段,進一步降低大模型研發(fā)應(yīng)用成本。2023年7月,上海人工智能實驗室正式開源了書生·浦語大模型70億參數(shù)的輕量級版系,同時提供免費商用,受到了學(xué)術(shù)和產(chǎn)業(yè)界的廣泛關(guān)注。同年7月,OpenAI向用戶正式開放了代碼解析插件CodeInterpreter,使得ChatGPT和GPT-4可以根據(jù)用戶問題來編寫和執(zhí)行代碼,從而拓展了模型在數(shù)據(jù)分析、復(fù)雜計算與功能調(diào)用方面的能力。另一方面,大模型正在逐步向智能體方向進化,從理解生成邁向復(fù)雜任務(wù)處理能力。通過將大模型與動作執(zhí)行器結(jié)合,智能體可以在接受用戶輸入后,通過大模型進行規(guī)劃和決策,并對第三方插件或工具進行調(diào)/yaowen/3大模型在快速發(fā)展的同時也帶來了一系列潛在的風(fēng)險和挑戰(zhàn)。一方面,大模型所需的海量數(shù)據(jù)、復(fù)雜參數(shù)以及工程難度放大了人工智能固有的技術(shù)風(fēng)險,如數(shù)據(jù)竊取、泄露等安全問題,模型黑盒導(dǎo)致決策結(jié)果難預(yù)測和難解釋問題,以及模型面對隨機擾動和惡意攻擊的魯棒性問題。另一方面,大模型的多場景通用性也放大了隱私風(fēng)險、歧視風(fēng)險和濫用風(fēng)險等應(yīng)用風(fēng)險。這些問題引發(fā)了全球范全球大模型治理正處于探索階段,從人工智能倫理準(zhǔn)則等基本共識國際組織積極制定人工智能治理原則及倡議,重點關(guān)注大模型通過了《人工智能倫理問題建議書》,旨在促使人工智能系統(tǒng)造福人類、社會、環(huán)境和生態(tài)系統(tǒng)、防止危害,同時促進和平利用人工智能系統(tǒng)。2023年6月,聯(lián)合國秘書長安東尼奧·古特雷斯明確提出計劃在今年年底建立一個國際人工智能監(jiān)管機構(gòu),定期審查人工確保人工智能以人為本、值得信賴并負(fù)責(zé)任,通過國際倫理和其他相關(guān)倡議促進合作,應(yīng)用人工智能帶來的廣泛風(fēng)險。同年11界互聯(lián)網(wǎng)大會發(fā)布了《發(fā)展負(fù)責(zé)任的生成式人工智能研究報告及共識文件》,就發(fā)展負(fù)責(zé)任的生成式人工智能提出十條共識。在標(biāo)準(zhǔn)4方面,ISO/IECJTC1/SC42人工智能分委會正在開展人工智能可信賴國際標(biāo)準(zhǔn)研制工作,為指導(dǎo)利益相關(guān)方研發(fā)、使用可信賴人工智能相關(guān)技術(shù)和系統(tǒng)提供參考,主要標(biāo)準(zhǔn)包括ISO/IECTR24028:2020《人工智能的可信賴概述》、ISO/IEC38507:2022《組織使用人工智中國在人工智能監(jiān)管方面主張“包容審慎的分類分級監(jiān)管”原則,國家網(wǎng)信辦已于2023年7月10日頒布了首部面向大模型監(jiān)管的《生成式人工智能服務(wù)管理暫行辦法》,后續(xù)將進一步針對生成式人工智能技術(shù)特點及其在有關(guān)行業(yè)和領(lǐng)域的服務(wù)應(yīng)用,制定相應(yīng)的分類分級監(jiān)管規(guī)則或指引。2023年10月8日,中國科技部發(fā)布《科技倫理審查辦法(試行)》,提出從事人工智能科技活動的單位,研究內(nèi)容涉及科技倫理敏感領(lǐng)域的,應(yīng)設(shè)立科技倫理(審查)委員會,并建立倫理高風(fēng)險科技活動的清單制度,對可能產(chǎn)生較大國家網(wǎng)信辦發(fā)布《全球人工智能治理倡議》,提出發(fā)展人工智能應(yīng)堅持相互尊重、平等互利的原則,各國無論大小、強弱,無論社會制度如何,都有平等發(fā)展和利用人工智能的權(quán)利。在標(biāo)準(zhǔn)方面,中國信息通信研究院已經(jīng)啟動《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法》系列標(biāo)準(zhǔn)研制的工作,全面覆蓋大模型的開發(fā)、部署和應(yīng)用環(huán)節(jié),其中第四部分可信要求是目前國內(nèi)首項針對大模型領(lǐng)域的可信賴標(biāo)準(zhǔn)。與此同時,全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會已經(jīng)啟動包括5《信息安全技術(shù)生成式人工智能服務(wù)安全基本要求》在內(nèi)的三項生歐盟現(xiàn)行人工智能立法仍主要集中在傳統(tǒng)人工智能,但已經(jīng)開始關(guān)注通用人工智能以及生成式人工智能的問題,主張尊重人格尊投票通過《人工智能法案》,該法案基于風(fēng)險等級將人工智能系統(tǒng)分成四類,并制定了不同程度的監(jiān)管要求。該法案提出生成式人工智能系統(tǒng)通常屬于有限風(fēng)險的人工智能系統(tǒng),需遵守最低限度的透明度義務(wù),但可能會因其適用的領(lǐng)域和生成的內(nèi)容而落入高風(fēng)險人工智能系統(tǒng)的范疇,并明確了通用人工智能、生成式人工智能以及基礎(chǔ)模型提供者等不同主體的合規(guī)義務(wù)。為配合法案落地,歐洲電信標(biāo)準(zhǔn)化協(xié)會(ETSI)正在計劃將人工智能安全工作組重組為人工美國主張監(jiān)管需以促進人工智能負(fù)責(zé)任的創(chuàng)新為目標(biāo),應(yīng)通過監(jiān)管和非監(jiān)管措施減少人工智能開發(fā)和部署的不必要障礙,同時保護美國的技術(shù)、經(jīng)濟和國家安全、公民自由、人權(quán)、法治、隱私和顧問委員會(PCAST)成立生成式人工智能工作組,以幫助評估關(guān)鍵機遇和風(fēng)險,并就如何更好地確保這些技術(shù)的開發(fā)和部署盡可能公平、負(fù)責(zé)任和安全提供意見。2023年10月30日,美國總統(tǒng)拜登簽署人工智能行政令,旨在加強對人工智能潛在風(fēng)險的監(jiān)管,發(fā)展安全、可靠和值得信賴的人工智能,促進人工智能創(chuàng)新,確保美國6在人工智能領(lǐng)域繼續(xù)領(lǐng)跑全球。同時行政令在標(biāo)準(zhǔn)方面,提出美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)將制定嚴(yán)格的人工智能安全測試標(biāo)準(zhǔn),人工智能系統(tǒng)在公開發(fā)布前需根據(jù)這些標(biāo)準(zhǔn)進行廣泛的測試以業(yè)界人士積極呼吁加強人工智能監(jiān)管,企業(yè)加速大模型可信賴技術(shù)落地。2023年3月,特斯拉首席執(zhí)行官埃隆·馬斯克、蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克以及其他上千名AI研究人員簽署公開大模型的潛在危險。由微軟等企業(yè)發(fā)起的商業(yè)軟件聯(lián)盟(BSA)公軟和OpenAI七家企業(yè)自愿向美國政府做出圍繞安全、保障和信任等原則的自愿性承諾,主要內(nèi)容包括開發(fā)部署面向生成內(nèi)容的數(shù)字水印技術(shù),公開披露模型或系統(tǒng)的功能、局限性和適用領(lǐng)域,以及優(yōu)先研究人工智能系統(tǒng)帶來的社會風(fēng)險等。目前,微軟、谷歌、OpenAI、百度、商湯科技、螞蟻等企業(yè)都發(fā)布了面向大模型的可信賴工具或平臺,例如商湯科技的可信AI基礎(chǔ)設(shè)施平臺SenseTrust包含完整覆蓋數(shù)據(jù)、模型、應(yīng)用治理環(huán)節(jié)的可信AI治理工具,助力打7大模型治理和監(jiān)管已經(jīng)成為全球國際組織和主要經(jīng)濟體的首要目標(biāo),各國的監(jiān)管機構(gòu)正在嘗試通過法律法規(guī)以及標(biāo)準(zhǔn)文件對大模型進行治理和監(jiān)管,行業(yè)各界也積極推動人工智能治理工作。但與傳統(tǒng)人工智能的風(fēng)險相比,大模型的風(fēng)險來源涉及框架、數(shù)據(jù)、模二、大模型風(fēng)險分析一是框架風(fēng)險,深度學(xué)習(xí)框架面臨物理、網(wǎng)絡(luò)層面的惡意攻擊,導(dǎo)致大模型所依賴的基礎(chǔ)設(shè)施穩(wěn)定性和安全性難以保障;二是數(shù)據(jù)風(fēng)險,采集及處理海量、多模態(tài)的訓(xùn)練數(shù)據(jù)可能會引入更多的有害數(shù)據(jù),容易引發(fā)個人隱私泄露、知識產(chǎn)權(quán)侵權(quán)、數(shù)據(jù)偏見等問題;三是模型風(fēng)險,現(xiàn)階段,大模型抗干擾能力相對較弱,存在遭受惡意攻擊、決策偏見以及模型運營風(fēng)險等問題;四是生成內(nèi)容風(fēng)險,大模型存在“幻覺”現(xiàn)象,答非所問、違規(guī)不良信息生成等問題成為大模型最受關(guān)注的風(fēng)險。大模型高效、便捷的內(nèi)容生成能力大幅降8低了詐騙、釣魚郵件等惡意行為的門檻,而針對生成內(nèi)容的追溯保本報告以可靠性、健壯性、安全性、公平性、可問責(zé)、可解釋等大模型可信賴目標(biāo)為重點方向,從框架、數(shù)據(jù)、模型、生成內(nèi)容等大模型風(fēng)險要素角度分析,并結(jié)合數(shù)據(jù)采集、模型預(yù)訓(xùn)練、模型微調(diào)、部署運行、優(yōu)化更新等大模型全生命周期治理理念,提出大(二)框架層面,軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板大模型領(lǐng)域的基礎(chǔ)設(shè)施風(fēng)險主要包括深度學(xué)習(xí)框架和開發(fā)套件等軟件層面的漏洞,以及運行環(huán)境的不穩(wěn)定性??赡艿娘L(fēng)險涵蓋物在大模型訓(xùn)練階段,深度學(xué)習(xí)框架、開發(fā)組件以及第三方依賴庫存在潛在漏洞,增加了受到外部惡意攻擊的風(fēng)險。在這個階段,9攻擊者有可能通過惡意程序入侵等手段,竊取模型、訓(xùn)練數(shù)據(jù)以及訓(xùn)練腳本等核心資產(chǎn),從而導(dǎo)致大模型的訓(xùn)練數(shù)據(jù)和模型參數(shù)文件的泄露。早在2020年9月,TensorFlow漏洞2個。這些漏洞可能導(dǎo)致任意代碼執(zhí)行、信息泄露以及拒絕服深度學(xué)習(xí)框架的運行環(huán)境容錯性低,核心資產(chǎn)保護面臨挑戰(zhàn)。大模型的運行環(huán)境不穩(wěn)定性風(fēng)險主要來自大模型服務(wù)的運維以及模型迭代更新時穩(wěn)健性較差所導(dǎo)致的服務(wù)等級協(xié)議(SLA)服務(wù)水平不足,從而可能影響大模型服務(wù)可用性。在訓(xùn)練和推理過程中,由于設(shè)備、網(wǎng)絡(luò)或通信故障,可能導(dǎo)致模型訓(xùn)練或推理任務(wù)中斷。此外,大模型的運行環(huán)境同樣面臨安全性風(fēng)險。一方面,缺乏基礎(chǔ)設(shè)施與其他系統(tǒng)的嚴(yán)格網(wǎng)絡(luò)隔離可能導(dǎo)致來自內(nèi)部其他系統(tǒng)的橫向滲透風(fēng)險。如果攻擊者成功侵入基礎(chǔ)設(shè)施系統(tǒng)并注入后門、木馬等惡意程序,整個系統(tǒng)將面臨嚴(yán)重的安全風(fēng)險。另一方面,大模型的運行環(huán)境缺乏面向訓(xùn)練數(shù)據(jù)、模型和網(wǎng)絡(luò)通信的安全防護措施,使得訓(xùn)練數(shù)據(jù)、模型參數(shù)文件等核心資產(chǎn)容易受到泄露、篡改和竊取等(三)數(shù)據(jù)層面,隱私風(fēng)險與有害數(shù)據(jù)導(dǎo)致模型不可靠大模型的訓(xùn)練依賴于大規(guī)模、多樣化且高質(zhì)量的數(shù)據(jù)集。這些訓(xùn)練數(shù)據(jù)通常涵蓋各類網(wǎng)頁、公共語料庫、社交媒體、書籍、期刊等公開數(shù)據(jù)來源,其中未經(jīng)篩選和審核的數(shù)據(jù)成為大模型不可忽視的潛在風(fēng)險。因此,在大模型的全新范式下,數(shù)據(jù)來源不可信、數(shù)據(jù)違規(guī)處理、投毒攻擊、數(shù)據(jù)內(nèi)容有害、數(shù)據(jù)偏見、數(shù)據(jù)樣本不足大模型訓(xùn)練數(shù)據(jù)的采集、預(yù)處理等數(shù)據(jù)處理活動可能涉及數(shù)據(jù)在數(shù)據(jù)來源管理方面,主要問題集中在數(shù)據(jù)來源的不可靠性和不可追溯性。大模型訓(xùn)練數(shù)據(jù)通常涵蓋圖像、視頻、文本、音頻等多種數(shù)據(jù)類型,涉及自采集、商業(yè)采購、公開數(shù)據(jù)集等多種渠道。然而,部分公開數(shù)據(jù)集的來源缺乏充分的驗證和審核,導(dǎo)致預(yù)訓(xùn)練數(shù)據(jù)集中存在來源不清、被惡意投毒的數(shù)據(jù)。大量訓(xùn)練數(shù)據(jù)采集的在隱私泄露方面,數(shù)據(jù)采集階段可能會由于采集方式、采集工具的不合規(guī),導(dǎo)致未獲取個人信息授權(quán),使得預(yù)訓(xùn)練數(shù)據(jù)集含有未授權(quán)個人信息。在數(shù)據(jù)預(yù)處理階段,由于數(shù)據(jù)脫敏機制的不完善,個人信息未完全去標(biāo)識化,致使預(yù)訓(xùn)練模型學(xué)習(xí)、理解到含有個人信息的知識,其生成內(nèi)容可能會含有個人信息或關(guān)聯(lián)個人信息,存有害內(nèi)容、低質(zhì)量數(shù)據(jù)導(dǎo)致模型生成違規(guī)內(nèi)容。大模型通過學(xué)習(xí)海量數(shù)據(jù)中的知識、理解常識并生成內(nèi)容,數(shù)據(jù)中存在有害內(nèi)容和數(shù)據(jù)偏見等質(zhì)量問題可能導(dǎo)致模型生成內(nèi)容存在違規(guī)信息或決策在數(shù)據(jù)內(nèi)容有害性風(fēng)險方面,模型預(yù)訓(xùn)練階段使用大量無監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集,如果其中存在一定量的有害內(nèi)容,將影響預(yù)訓(xùn)練模型的理解和生成能力。同時,在模型微調(diào)階段,微調(diào)數(shù)據(jù)若包含不準(zhǔn)確、虛假信息等內(nèi)容,可能導(dǎo)致模型無法正確對下游任務(wù)模數(shù)據(jù)偏見風(fēng)險主要源自大模型的預(yù)訓(xùn)練和微調(diào)階段。一方面,模型預(yù)訓(xùn)練所使用的數(shù)據(jù)集樣本分布可能缺乏均衡性,包括性別、民族、宗教、教育等相關(guān)樣本比例關(guān)系不當(dāng)。另一方面,模型微調(diào)階段可能由于人工標(biāo)注員的主觀意識形態(tài)偏差,引入對微調(diào)數(shù)據(jù)的構(gòu)建和價值排序的偏見,從而導(dǎo)致微調(diào)數(shù)據(jù)存在價值觀上的偏見歧(四)模型層面,提示詞攻擊誘發(fā)模型脆弱性風(fēng)險主要包括提示注入攻擊等安全性問題、健壯性不足、偏見歧視以及提示注入攻擊成為大模型安全性首要風(fēng)險。提示注入攻擊是一類以輸入提示詞作為攻擊手段的惡意攻擊。攻擊者精心構(gòu)造和設(shè)計特定的提示詞,達到繞過大模型過濾策略的目的。根據(jù)竊取目標(biāo)和一是目標(biāo)劫持,攻擊者通過輸入惡意示例的方式劫持模型的輸出結(jié)果,并要求模型輸出與其原輸出內(nèi)容不同的特定結(jié)果,從而惡意篡改生成內(nèi)容。二是提示泄露,攻擊者通過一些誘導(dǎo)性的上下文提示,竊取大模型預(yù)制的初始化提示內(nèi)容,包括模型應(yīng)該遵循的規(guī)則和特定敏感話題。攻擊者可以通過該類攻擊手段了解大模型的行為模式或者過濾策略。三是越獄攻擊,攻擊者通過模擬對話、角色扮演等虛構(gòu)場景和行為方式,設(shè)定一系列特定的問答規(guī)則,嘗試分散大模型的注意力,規(guī)避過濾策略,生成帶有惡意目的的特定輸出除直接對大模型的輸入內(nèi)容進行提示注入攻擊,攻擊者也可以通過文件中內(nèi)嵌惡意代碼等形式間接進行提示注入攻擊。以微軟NewBingChat為代表的大模型,其結(jié)合檢索和API調(diào)用功能的新組件引入了間接提示注入的風(fēng)險。攻擊者有可能通過在提示詞中嵌入含有惡意代碼或有害內(nèi)容的網(wǎng)頁鏈接或文件等手段,試圖規(guī)避輸入大模型在健壯性和泛化性方面仍然面臨挑戰(zhàn)。與傳統(tǒng)的小參數(shù)量機器學(xué)習(xí)模型相比,雖然大模型通過使用億級參數(shù)的訓(xùn)練數(shù)據(jù)進行無監(jiān)督學(xué)習(xí)表現(xiàn)出對抗樣本攻擊和外部干擾的相對強健性,但仍存在健壯性和泛化性不足的潛在風(fēng)險。例如,在大模型的輸入提示詞中引入一定程度的錯別字符或文字、邏輯錯誤的詞句以及段落等大模型的決策偏見歧視問題愈發(fā)突出。大模型的算法決策公平性是可信賴能力的重要指標(biāo),尤其在金融、醫(yī)療、教育等特殊行業(yè)長尾問題仍然是潛在偏見之一。其次,大模型本身可能根據(jù)數(shù)據(jù)樣本的分布和屬性,進一步提升對某類樣本的敏感度,從而間接放大對這些偏見性知識的感知,進而導(dǎo)致更為嚴(yán)大模型運營面臨多方面挑戰(zhàn),API安全問題至關(guān)重要。當(dāng)前,模型即服務(wù)(MaaS)等高效而敏捷的部署方式正逐步成為現(xiàn)有大模型系統(tǒng)與服務(wù)的主流形式。一方面,在大模型服務(wù)實際運營環(huán)節(jié),存在諸多服務(wù)運營相關(guān)的風(fēng)險,包括但不限于批量注冊、盜號、撞庫等賬號安全性問題,以及惡意使用、機器作弊、審核資源浪費等運營安全性問題。以ChatGPT為例,該服務(wù)推出僅兩個月,注冊用戶已超過1億。隨著用戶規(guī)模不斷增長,各類違規(guī)賬號也在不斷活另一方面,大模型主要通過API提供對外服務(wù)。在服務(wù)運營階段,攻擊者可能通過注入漏洞利用攻擊、未授權(quán)漏洞利用攻擊、越權(quán)訪問漏洞利用攻擊、代碼設(shè)計漏洞攻擊以及第三方組件漏洞利用攻擊研究人員發(fā)現(xiàn)通過提示詞混合Python代碼的模板函數(shù)可以利用大模型應(yīng)用框架LangChain的接口遠(yuǎn)程執(zhí)行任意Python(五)生成內(nèi)容層面,安全風(fēng)險和不可追溯是重點難題當(dāng)前,大模型的生成內(nèi)容中仍然存在一定程度的內(nèi)容安全和不可追溯風(fēng)險,主要包括虛假有害內(nèi)容、上下文邏輯性錯誤、問答與提問的相關(guān)性較差、與社會主流價值觀沖突等風(fēng)險,進一步降低了以大模型為生產(chǎn)工具的惡意行為的門檻,對個人、組織以及社會的生成內(nèi)容“幻覺”現(xiàn)象頻發(fā)。大模型對輸入的問題生成不真實、與現(xiàn)實世界常識相違背的虛假有害信息的現(xiàn)象,被稱為“幻覺”問題。大模型常見的幻覺主要有三類:第一是和用戶輸入沖突的幻覺,大模型的理解能力極大依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模、種類、樣本的豐富度,理解能力的不足將會導(dǎo)致大模型無法準(zhǔn)確生成用戶輸入的問題答案,影響大模型的生成內(nèi)容可信度。第二是和已生成的上下文沖突的幻覺,盡管目前大模型具備廣泛的世界知識,但其仍是一個預(yù)測并逐字逐句生成輸出結(jié)果,其生成的內(nèi)容雖符合訓(xùn)練數(shù)據(jù)中語句的表達連貫性,卻可能缺乏合理、清晰的邏輯性,與上下文內(nèi)容沖突或生成重復(fù)性內(nèi)容。第三是和事實知識沖突的幻覺,這一類幻覺的研究難度更大,對用戶實際使用體驗的干擾也最大。例如,大模型在生成醫(yī)療建議時可能會捏造錯誤的藥品劑量,誤導(dǎo)缺少專業(yè)生成內(nèi)容與社會主流價值觀沖突。大模型的生成內(nèi)容的安全性問題至關(guān)重要,如果大模型生成民族仇視、偏見和歧視、政治和軍事敏感、淫穢色情以及恐怖暴力等惡意內(nèi)容,會對傳統(tǒng)道德和社會核心價值觀造成沖擊,對個人、組織和社會都具有極其嚴(yán)重的負(fù)面生成內(nèi)容欠缺合理、科學(xué)的推理過程。目前大模型的可解釋性問題仍然研究學(xué)者重點關(guān)注的方向,針對大模型的可解釋性研究主要分為事前解釋和事后解釋,其中事前解釋是通過研究不同特征對預(yù)測結(jié)果的影響程度進行解釋說明,事后解釋更加側(cè)重利用規(guī)則以及可解釋性強的算法評估原有大模型的可解釋性。然而,大模型所使用的訓(xùn)練數(shù)據(jù)和算法結(jié)構(gòu)仍然是黑盒,難以完全解釋目前大模型生成內(nèi)容不易追溯和保護。大模型由于具備通過學(xué)習(xí)海量的世界知識生成內(nèi)容的能力,因此在訓(xùn)練數(shù)據(jù)和生成內(nèi)容方面會產(chǎn)生一系列的版權(quán)歸屬和保護難題。目前大模型服務(wù)通常會采用數(shù)字水印技術(shù)在生成內(nèi)容中嵌入不可見、具備可追溯能力的標(biāo)識,該類標(biāo)識一般內(nèi)含用戶ID信息、大模型服務(wù)信息以及時間戳等信息,用于追溯不良違規(guī)生成內(nèi)容,但目前仍然面臨生成內(nèi)容被二次創(chuàng)作、剪輯和裁切之后,標(biāo)識內(nèi)容可能會無法讀取等問題,導(dǎo)致無法正確追溯到原始的大模型服務(wù),難以明確界定責(zé)任歸屬。在知識產(chǎn)權(quán)的溯源方面,由于現(xiàn)有大模型的學(xué)習(xí)機制,其生成的內(nèi)容有可能與原始的訓(xùn)練數(shù)據(jù)具有一定相似度,難以界定生成的內(nèi)容是否對原始作品產(chǎn)生成內(nèi)容誤用濫用現(xiàn)象對個人、團體以及社會造成不良影響。由于目前仍然缺乏對于使用大模型生成能力的有效監(jiān)督手段,部分用戶在未充分進行培訓(xùn)和教育的前提下,可能將隱私信息誤輸入到大模型中,導(dǎo)致個人信息泄露。例如,2023年3月,三星半導(dǎo)體部導(dǎo)致公司機密泄露。部分惡意使用者利用FraudGPT等惡意大模型作為違法活動的工具生成詐騙短信和釣魚郵件,通過代碼生成工具三、大模型可信賴實踐(一)框架層面,可信框架與執(zhí)行環(huán)境保障運行安全降低深度學(xué)習(xí)框架受惡意訪問和攻擊的可能性,另一方面通過構(gòu)建1.可信賴框架降低惡意訪問與攻擊風(fēng)險可信賴框架的實現(xiàn)需要從框架自身管理層面、框架外的平臺層安全漏洞管理機制通過對AI框架進行定期的漏洞掃描,識別并記錄框架漏洞信息,定時更新安全補丁修復(fù)漏洞,提升框架安全能力。惡意程序檢測機制通過將檢測模塊直接集成在深度學(xué)習(xí)框架或者基礎(chǔ)設(shè)施中,實現(xiàn)檢測在訓(xùn)練或者推理任務(wù)執(zhí)行的容器或虛擬機是否存在惡意攻擊宿主機、宿主機上其他容器或者執(zhí)行越權(quán)訪問等容器逃逸行為。判別是否存在勒索病毒以及惡意程序,并產(chǎn)生告警信息。訪問控制和身份鑒別機制有效管理并核驗登錄用戶的真實身份,對于多次登錄失敗的用戶,應(yīng)啟用結(jié)束會話、限制非法登錄次2.核心資產(chǎn)保護機制保障運行環(huán)境安全可信為保障深度學(xué)習(xí)框架的運行環(huán)境安全可信,通過構(gòu)建加解密機制、完整性校驗機制、訓(xùn)練任務(wù)中斷恢復(fù)機制以及運行環(huán)境隔離機加解密機制通過在深度學(xué)習(xí)框架和人工智能基礎(chǔ)設(shè)施中添加加解密模塊,實現(xiàn)對訓(xùn)練和推理過程中的數(shù)據(jù)和模型參數(shù)文件等AI核心資產(chǎn)進行保護,防止未授權(quán)人員進行非法訪問、篡改數(shù)據(jù)。完整性校驗機制通過對數(shù)據(jù)和模型相關(guān)文件進行完整性校驗,提升大模型在預(yù)訓(xùn)練、微調(diào)以及后續(xù)部署運行階段的可靠性,通過密碼算法或者完整性校驗機制對數(shù)據(jù)和模型參數(shù)文件進行加解密處理,核驗各階段的文件完整性。訓(xùn)練任務(wù)中斷恢復(fù)機制可以在故障發(fā)生后及時保存訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,并且可支持在新的訓(xùn)練節(jié)點加載訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,正?;謴?fù)原始訓(xùn)練任務(wù),大幅提升大模型在訓(xùn)練階段的可靠性。運行環(huán)境隔離機制通過設(shè)置獨立的安全區(qū)域保障AI資產(chǎn)在訓(xùn)練和推理過程中的安全性。以可信執(zhí)行環(huán)境技術(shù)(TEE)為例,TEE是處理器中一個獨立的安全與存儲加密和網(wǎng)絡(luò)通信加密一起,TEE可以保護落盤和通信過程中的數(shù)據(jù)隱私和安全。隨著TEE技術(shù)的發(fā)展,在計算核心與內(nèi)存之間增加安全處理器,以保護被計算核心使用的數(shù)據(jù)安全和隱私的機密(二)數(shù)據(jù)層面,安全檢測及處理助力大模型可靠數(shù)據(jù)的使用貫穿大模型全生命周期,安全保障與有效處理是保障大模型可靠的關(guān)鍵舉措。在數(shù)據(jù)層面,可信賴實踐主要涉及數(shù)據(jù)全流程的安全合規(guī)處理、數(shù)據(jù)安全沙箱技術(shù)、投毒檢測以及數(shù)據(jù)分1.安全合規(guī)的數(shù)據(jù)處理機制降低數(shù)據(jù)處理風(fēng)險大模型的數(shù)據(jù)處理活動主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理及模型在數(shù)據(jù)采集環(huán)節(jié),通常會建立數(shù)據(jù)采集來源管理、數(shù)據(jù)采集業(yè)務(wù)評估、數(shù)據(jù)采集審批流程、采集合規(guī)審批等管理機制,確保數(shù)據(jù)采集的合規(guī)性、正當(dāng)性和執(zhí)行上的一致性。針對數(shù)據(jù)來源問題,知正當(dāng)性進行審查,去除含有大量不良違法信息的有害數(shù)據(jù)來源,并在數(shù)據(jù)預(yù)處理環(huán)節(jié),數(shù)據(jù)處理人員會將收集到的原始數(shù)據(jù)進行清洗、去重、格式化等多步驟的預(yù)處理以確保數(shù)據(jù)質(zhì)量。在該過程中,數(shù)據(jù)處理人員會嚴(yán)格篩查,去除那些不完整、錯誤、帶毒或含有敏感信息的數(shù)據(jù)。隨后數(shù)據(jù)處理人員通過自動化工具和人工相結(jié)合的方式,對預(yù)處理后的數(shù)據(jù)進行標(biāo)注和篩選,以識別訓(xùn)練數(shù)據(jù)中是否包含敏感信息。此外,業(yè)務(wù)部門通過構(gòu)建敏感內(nèi)容反饋機制,利用生成內(nèi)容自身特性,將敏感內(nèi)容作為負(fù)面樣本訓(xùn)練敏感信息鑒在大模型訓(xùn)練階段,通常會首先進行個人信息安全影響評估,確保大模型的研發(fā)和運營過程滿足現(xiàn)有個人信息保護的合規(guī)要求。通過核對個人信息保護評估清單,推動面向個人信息保護的產(chǎn)品功能設(shè)計,確保人工智能產(chǎn)品設(shè)計流程合規(guī),保障數(shù)據(jù)收集和處理2.數(shù)據(jù)安全沙箱技術(shù)實現(xiàn)數(shù)據(jù)可用不可見數(shù)據(jù)安全沙箱是一項通過構(gòu)建可隔離、可調(diào)試、運行環(huán)境安全等功能來分離數(shù)據(jù)、模型使用權(quán)和所有權(quán)的技術(shù)。在大模型微調(diào)場景中,數(shù)據(jù)擁有方可通過沙箱客戶端將數(shù)據(jù)通過加密信道上傳到沙箱中,隨后通過數(shù)據(jù)安全沙箱對加密數(shù)據(jù)進行預(yù)處理和模型微調(diào),并通過安全信道反饋微調(diào)后的模型,保證了模型擁有方的預(yù)訓(xùn)練模3.投毒檢測與數(shù)據(jù)分析識別有害內(nèi)容在數(shù)據(jù)投毒檢測方面,通過數(shù)據(jù)去毒工具在數(shù)據(jù)預(yù)處理環(huán)節(jié)檢測訓(xùn)練數(shù)據(jù)是否存在異常。數(shù)據(jù)投毒檢測可采用多種不同的檢測手段?;谝?guī)則、關(guān)鍵詞進行檢測是一種常見但有效的方式,可在豐富完善檢測規(guī)則的基礎(chǔ)上,以較高的效率將被投毒的、危害安全的訓(xùn)練數(shù)據(jù)進行截獲去除。也可采用傳統(tǒng)語言模型或大語言模型的手段,針對數(shù)據(jù)投毒問題進行相應(yīng)的設(shè)計和優(yōu)化,通過語義相似度等在數(shù)據(jù)分析工具方面,可采用分類統(tǒng)計、向量聚類、大模型識別等方法,對數(shù)據(jù)內(nèi)容門類、語料形式、語料來源、作者等數(shù)據(jù)分布進行統(tǒng)計和分析,使參與到模型預(yù)訓(xùn)練中的訓(xùn)練數(shù)據(jù)配比均勻、優(yōu)質(zhì)來源和優(yōu)質(zhì)形式的數(shù)據(jù)占比較高,修正性別、民族、宗教、教育等統(tǒng)計偏見,使模型在運營階段避免可能存在的安全性、公平性(三)模型層面,全流程防控增強大模型可信在模型層面,可信賴實踐可從設(shè)計開發(fā)、模型訓(xùn)練和部署運行三個階段展開。設(shè)計開發(fā)階段主要涉及大模型研發(fā)前期的安全和倫理設(shè)計評估;在模型訓(xùn)練階段,主要涉及大模型預(yù)訓(xùn)練、微調(diào)過程的可信賴能力檢測、加固措施;在部署運行階段,主要涉及大模型1.安全和倫理設(shè)計評估為大模型研發(fā)提供全方位保障大模型的安全性設(shè)計評估是面向大模型設(shè)計初期的一項安全性評審工作,主要涉及安全審核和安全功能設(shè)計兩方面。在安全審核方面,通常會根據(jù)大模型設(shè)計需求構(gòu)建威脅模型,并生成安全設(shè)計核查表對大模型安全性設(shè)計進行評審,保障大模型的設(shè)計需求滿足安全合規(guī)要求。在安全功能設(shè)計方面,大模型研發(fā)人員會根據(jù)安全審核結(jié)果,對大模型進行安全功能設(shè)計,包括但不限于生成內(nèi)容過大模型的倫理設(shè)計評估主要依據(jù)人工智能倫理治理相關(guān)法律法規(guī)和標(biāo)準(zhǔn)文件,面向數(shù)據(jù)、算法以及應(yīng)用管理風(fēng)險三方面,圍繞產(chǎn)品設(shè)計、開發(fā)、部署、運營的全生命周期,分階段、分目標(biāo)的對大模型倫理風(fēng)險進行分類分級管理,并根據(jù)風(fēng)險的等級進行內(nèi)部自評估以及外部專家評審,以確保大模型的訓(xùn)練數(shù)據(jù)、決策機制以及生成內(nèi)容符合倫理道德。目前,針對大模型倫理評估工作,商湯建立了覆蓋產(chǎn)品全生命周期的風(fēng)險控制機制,初步形成了大模型的倫理治理閉環(huán)。通過建立數(shù)據(jù)風(fēng)險、算法風(fēng)險以及應(yīng)用風(fēng)險三方面的倫理評估機制,對產(chǎn)品設(shè)計、開發(fā)、部署、運營的全生命周期實施分2.評測與對齊是模型訓(xùn)練可信賴的關(guān)鍵技術(shù)措施公平性不足的主流方法,通過將評測結(jié)果作為獎勵模型的反饋優(yōu)化數(shù)據(jù),對模型進行針對性的微調(diào)與對齊,大模型能夠在模型層面更大模型可信賴評測是提升模型抵抗外部惡意攻擊、干擾信息以及決策偏見的重要手段。大模型可信賴的重點評測對象是安全性、健壯性以及公平性。在安全性測試方面,評測人員通常采用對抗性提示的方式對大模型進行目標(biāo)劫持、提示泄露以及越獄等安全性評測。在健壯性測試方面,評測人員通常會采用錯別字、同義替換、無關(guān)提示、修改語義等方式,對生成內(nèi)容的一致性、穩(wěn)定性進行評國家、性別、種族等敏感屬性進行公平性評測,通過比對輸入內(nèi)容中是否含有敏感屬性的輸出結(jié)果差異,統(tǒng)計模型的公平性表現(xiàn)。在評測完成后,評測人員會協(xié)同研發(fā)人員共同構(gòu)建面向安全性、健壯性和公平性的模型加固方案,包括但不限于增量學(xué)習(xí)、設(shè)計針對性思維鏈技術(shù)有效提升模型邏輯表達能力。為保障大模型的生成內(nèi)容具備更加合理的推理性邏輯表達,微調(diào)階段的標(biāo)注人員可通過思維鏈技術(shù),在同一提示詞中引入多項解釋性示例,引導(dǎo)模型生成具備一定推理邏輯的回答。比如,在數(shù)理邏輯任務(wù)中,可在示例部分編寫步驟分解形式的解釋說明內(nèi)容,指導(dǎo)模型更容易生成推理步人類反饋強化學(xué)習(xí)(RLHF)是現(xiàn)階段大模型對齊研究的主要方法。RLHF是一項通過人工反饋回答內(nèi)容的好壞順序指引大模型的比如,商湯科技已經(jīng)將模型評估測試與RLHF技術(shù)結(jié)合,將相關(guān)測試結(jié)果反饋于模型強化學(xué)習(xí)的過程之中,幫助進一步提升大模型風(fēng)3.投訴反饋、風(fēng)險監(jiān)控以及應(yīng)急處置構(gòu)建模型運營能力投訴反饋機制是針對大模型生成內(nèi)容優(yōu)化更新的重要手段。目前投訴反饋機制主要是通過成立投訴反饋監(jiān)管治理機構(gòu),對所有的不良違法生成內(nèi)容進行處理。為了更好的推動模型的持續(xù)優(yōu)化,模運營人員會持續(xù)對大模型的運營情況進行風(fēng)險監(jiān)控并對有害內(nèi)容進行溯源,通過對大模型記錄的用戶上傳內(nèi)容、用戶上傳時間、IP地址、設(shè)備信息等信息進行核查,可實現(xiàn)對該內(nèi)容的制作者和使用者應(yīng)急處置用戶惡意行為抑制有害內(nèi)容生成與傳播。大模型運營期間運營人員會對用戶異常行為、違規(guī)用戶帳號進行監(jiān)控處置。針對用戶異常行為,運營人員通過對用戶行為進行分析,根據(jù)異常活躍度、登錄情況以及輸入內(nèi)容進行判斷處置。針對違規(guī)用戶帳號,(四)生成內(nèi)容層面,過濾與標(biāo)識實現(xiàn)內(nèi)容可控可問責(zé)在生成內(nèi)容方面,可信賴實踐主要涉及生成內(nèi)容評測、內(nèi)容審核機制以及內(nèi)容可追溯能力的建設(shè),實現(xiàn)內(nèi)容安全可控并具備一定程度的可追溯能力。為緩解大模型“幻覺”現(xiàn)象,生成內(nèi)容評測主內(nèi)容審核機制通常會采取機器審核和人工復(fù)審結(jié)合的形式。為進一步提升二次編輯導(dǎo)致生成內(nèi)容難以追溯的問題,數(shù)字水印技術(shù)正在1.生成內(nèi)容評測為模型優(yōu)化更新提供反饋樣本生成內(nèi)容真實性測試抑制深度合成圖像等惡意攻擊。評測人員可通過內(nèi)容真實性測試檢測圖像中面部表情一致性與動作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編生成內(nèi)容準(zhǔn)確性測試客觀反饋大模型“幻覺”水平。在生成內(nèi)對生成內(nèi)容的質(zhì)量進行評估,目前商湯科技主要采用整體評價、相關(guān)性、可讀性、擬人性、專業(yè)性等五個指標(biāo)對文本生成質(zhì)量進行評價,并從生成內(nèi)容事實性錯誤,生成內(nèi)容邏輯性錯誤,生成內(nèi)容和生成內(nèi)容安全性評測守衛(wèi)大模型生成內(nèi)容紅線。在生成內(nèi)容安全性測試方面,評測人員可采用“紅隊測試”的方法,通過構(gòu)建惡意問題數(shù)據(jù)集對生成內(nèi)容安全性進行評測,其評測的維度包括但不限于身心健康、隱私財產(chǎn)、倫理道德、偏見歧視、違法犯罪、政治2.內(nèi)容審核機制有效過濾有害輸入及輸出內(nèi)容大模型的生成內(nèi)容審核機制主要由機器審核和人工復(fù)審構(gòu)成。機器審核是一種對大模型有害輸入、輸出內(nèi)容進行檢測、識別的機制,可以有效識別并過濾有害、不準(zhǔn)確、不恰當(dāng)?shù)膬?nèi)容,通常采用關(guān)鍵詞和語義分析等技術(shù)。人工復(fù)審機制是目前實現(xiàn)大模型生成內(nèi)容安全的重要保障。通過人工復(fù)審的方式,對大模型輸入、輸出的內(nèi)容進行再次核驗。人工復(fù)審需記錄審核時間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。除人工復(fù)審機制外,還可以采用巡查審查等方式,定期對經(jīng)過了機器審核、人工復(fù)審的內(nèi)容進行整體巡查,并及時根據(jù)巡查結(jié)果優(yōu)化調(diào)整審核規(guī)則及策略。巡查審核需記3.健壯性數(shù)字水印助力實現(xiàn)內(nèi)容可追溯可問責(zé)數(shù)字水印技術(shù)是一種將信息嵌入到數(shù)字媒體(如圖像、音頻和視頻)中的技術(shù),以便在不改變原始媒體質(zhì)量的前提下,對其進行標(biāo)識或保護。這種技術(shù)目前被廣泛應(yīng)用于版權(quán)保護、內(nèi)容認(rèn)證和數(shù)旋轉(zhuǎn)、縮放等攻擊時仍能被正確檢測的能力。為保障生成內(nèi)容的可追溯性,通常會采用糾錯編碼、多重水印、深度學(xué)習(xí)等水印嵌入方大模型的發(fā)展雖然仍處于初期階段,但大模型顯現(xiàn)的風(fēng)險問題使大模型治理已經(jīng)成為社會關(guān)注焦點。隨著業(yè)界紛紛發(fā)布大模型服務(wù),大模型產(chǎn)業(yè)正在逐步邁向百家爭鳴的時代,但伴隨著大模型參數(shù)量、上下文理解能力、生成任務(wù)能力以及多模態(tài)支持能力的不斷更新?lián)Q代,其引發(fā)的相關(guān)風(fēng)險日益突出。與傳統(tǒng)判別式模型相比,目前大模型的風(fēng)險主要集中在低質(zhì)量訓(xùn)練數(shù)據(jù)、提示注入攻擊以及生成內(nèi)容的“幻覺”現(xiàn)象,導(dǎo)致用戶對于大模型的使用仍然保持謹(jǐn)慎態(tài)度。因此,大模型治理的呼聲也隨之而出,甚至部分業(yè)界人士呼吁暫停先進大模型的研發(fā)工作,社會各界對于大模型可信賴的實本研究報告對如何實現(xiàn)大模型的可信賴目標(biāo)給出了一系列的實踐方案,基于可靠性、安全性、公平性、健壯性以及可解釋性等可信賴屬性,從技術(shù)、管理、監(jiān)管等維度對大模型的可信賴目標(biāo)實現(xiàn)進行了分析研究,并初步梳理了現(xiàn)有產(chǎn)業(yè)的可信賴實踐案例。但大敏捷治理的態(tài)度,通過技術(shù)、管理相互協(xié)同的治理手段,共同構(gòu)建(二)展望聚焦大模型的可解釋性、價值對齊研究。一方面,大模型由于算法“黑箱”問題,目前仍然存在可解釋性問題,需要加強事前、事后可解釋的技術(shù)措施和監(jiān)督,探索生成個體預(yù)測的局部解釋和總體模型推理邏輯的全局解釋。比如,部分研究學(xué)者正在通過指令微調(diào)的方式解釋單個生成內(nèi)容的預(yù)測結(jié)果,以及OpenAI正在嘗試采用GPT4.0解釋GPT2.0的神經(jīng)元激活過程了解大模型內(nèi)部的工作機理。另一方面,由于大模型的生成內(nèi)容具有價值屬性,其價值觀需要符合主流社會價值觀念,但現(xiàn)有的對齊技術(shù)主要是基于人類反饋強化學(xué)習(xí)技術(shù),同樣也受制于人類反饋的數(shù)據(jù)質(zhì)量和時效性,以及現(xiàn)有部分對齊手段很可能被獎勵模型通過學(xué)習(xí)欺騙式的獎勵策略實現(xiàn)“欺騙式”對齊,因此需要探索與人類水平媲美的、同時具備高可靠性的自動對齊機器,使對齊工作從人工反饋逐漸轉(zhuǎn)向具備可擴展監(jiān)督能力的自動化對齊系統(tǒng),進一步提升大模型的更新迭代效率鼓勵大模型可信賴技術(shù)多方協(xié)同。大模型可信賴目標(biāo)的實現(xiàn)需要面向框架、數(shù)據(jù)和算法多項要素,綜合開發(fā)、測試、運營等多種人類反饋強化學(xué)習(xí)、內(nèi)容審核等技術(shù)進一步降低大模型風(fēng)險。與此同時,需要加強技術(shù)人員與監(jiān)管方的溝通,共同建立可信賴大模型監(jiān)管體系,遵循大模型治理思路,從技術(shù)、管理、監(jiān)管多方面根本2.生態(tài)維度構(gòu)建評測標(biāo)準(zhǔn)生態(tài),推動大模型測評體系建立。目前多家大模型企業(yè)、研究機構(gòu)和高校正在積極構(gòu)建大模型的可信賴技術(shù)能力,并積極參與可信賴標(biāo)準(zhǔn)的研制工作,加快推動大模型可信賴標(biāo)準(zhǔn)文件出臺。但當(dāng)前針對大模型測評的標(biāo)準(zhǔn)項目仍然比較欠缺,同時也缺乏科學(xué)有效的測評工具和測評方法,難以科學(xué)、高效評估大模型的生成內(nèi)容質(zhì)量。因此,需要加強構(gòu)建大模型測評體系,研制大模構(gòu)建可信產(chǎn)業(yè)共識,細(xì)化行業(yè)大模型可信賴能力建設(shè)。當(dāng)前大模型的發(fā)展重心已經(jīng)從通用大模型面向行業(yè)進行細(xì)化發(fā)展,多家企業(yè)紛紛發(fā)布針對金融、醫(yī)療等領(lǐng)域的行業(yè)大模型,比如商湯科技醫(yī)療健康大模型“大醫(yī)”。但目前針對大模型可信賴的研究仍然比較從行業(yè)大模型全生命周期的維度考慮如何實現(xiàn)可信賴目標(biāo),探索打3.治理維度遵循“包容審慎、分類分級”監(jiān)管原則,探索大模型分類分級兼顧技術(shù)多樣性發(fā)展與可信賴目標(biāo)的實現(xiàn)。另一方面,目前特定行業(yè)大模型用戶對于風(fēng)險的敏感度不同,加強探索大模型風(fēng)險分類分級治理,通過沙箱、自動化評測、MLOps等工程化技術(shù)手段推動大為迎接大模型的全新挑戰(zhàn),加強全行業(yè)、全社會的人工智能風(fēng)險治理能力已成為全球各方亟待解決的緊迫命題。我們正式推出“SenseTrust”——商湯可信人工智能基礎(chǔ)設(shè)施,并將持續(xù)通過“商湯AI安全治理開放平臺”等多種形式,為行業(yè)提供AI治理公益技數(shù)據(jù)合規(guī)審查及偏見評估等治理工具。數(shù)據(jù)脫敏工具能夠面向活體檢測、車牌檢測、文字文檔信息檢測等廣泛應(yīng)用場景,提供高水平的數(shù)據(jù)脫敏技術(shù),并且具備接口靈活,平臺覆蓋面廣,實時脫敏等優(yōu)勢。數(shù)據(jù)脫敏服務(wù)還可根據(jù)實際業(yè)務(wù)需求實現(xiàn)是否具備重標(biāo)識的能力,在特定場景下可還原已去標(biāo)識化的敏感數(shù)據(jù)。數(shù)據(jù)去毒工具能夠在數(shù)據(jù)預(yù)處理環(huán)節(jié)對訓(xùn)練數(shù)據(jù)進行帶毒性檢測,判定數(shù)據(jù)是否存在異常,對毒性進行判斷并提出去毒方案此外,面向數(shù)據(jù)要素可信流通,商湯創(chuàng)新打造了“數(shù)據(jù)沙箱”工具。通過沙箱包裝后,結(jié)合隱私計算集群協(xié)同調(diào)度,實現(xiàn)數(shù)據(jù)可用不可見,在保證數(shù)據(jù)隱私安全的前期下實現(xiàn)數(shù)據(jù)價值轉(zhuǎn)化,促進數(shù)據(jù)要素流程利用。目前數(shù)據(jù)沙箱可面向兩個應(yīng)用場景:一是多用戶擁有不同場景分布的數(shù)據(jù),提供聯(lián)合訓(xùn)練方案,并且具有攜帶離線模型可以完成不泄露數(shù)據(jù)的反演;二是針對用戶端擁有大量數(shù)據(jù)的場景,可使用數(shù)據(jù)加密訓(xùn)練方案,可以在保護隱私的前提下完成能夠針對傳統(tǒng)“小模型”、生成式“大模型”,以及基礎(chǔ)模型提供標(biāo)準(zhǔn)化和定制化的模型評測能力。我們針對傳統(tǒng)“小模型”開發(fā)的模型體檢平臺,能夠面向活體識別、圖像分類、目標(biāo)檢測等商業(yè)化需求提供一鍵式評測,用戶只需提供模型和評測數(shù)據(jù)即可進行。目前已在商湯的大量商業(yè)化模型檢測方面獲得驗證。模型體檢內(nèi)容包括對抗安全、魯棒安全、后門安全、可解釋性和公平性評測。同時,我們針對生成式“大模型”和基礎(chǔ)模型測評建構(gòu)了百萬體量的測試數(shù)據(jù)集,能夠?qū)崿F(xiàn)對大模型的倫理屬性、安全屬性,以及模型能力針對模型體檢出的問題,商湯“SenseTrust”還能夠進一步提供模型加固解決方案,主要包括魯棒性訓(xùn)練和AI防火墻兩個部分。魯棒性訓(xùn)練模塊可以在不損失精度的情況下強化模型的安全性和魯棒性,當(dāng)前主要包括對抗訓(xùn)練和針對性的數(shù)據(jù)增強。魯棒性訓(xùn)練模塊是模型開發(fā)的代碼插件,已融入商湯目前的模型開發(fā)流程。AI防火墻模塊主要用于過濾可疑攻擊樣本,可以在不重新訓(xùn)練模型的情況下提升模型部署的安全性。當(dāng)前AI防火墻可以有效抵御主流的黑盒攻擊和物理攻擊方式。AI防火墻和部署的質(zhì)量模型相結(jié)合,在提升在應(yīng)用層面,我們在涉及數(shù)據(jù)保護、數(shù)字取證及偽造檢測等技術(shù)領(lǐng)域有著深厚的積累,并逐步開發(fā)了基于生成、鑒偽和溯源三位在深偽鑒別方面,商湯“SenseTrust”提供包括數(shù)十種先進攻擊手段的偽造生成平臺,為鑒偽檢測和溯源提供豐富多樣的攻擊案例和海量數(shù)據(jù)支持。并可通過持續(xù)集成先進偽造算法,在zero/few-shot場景下快速響應(yīng)難例樣本和長尾類型,幫助提升鑒偽算法的泛化性。商湯“SenseTrust”偽造檢測大模型,可充分利用面部表情一致性、動作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進擴散模型(如:StableDiffusion)合成的高清人像。主流評測數(shù)據(jù)集上算法檢測精度可達到99%以上,在應(yīng)對新技術(shù)復(fù)合偽造方法上(如:通過MidJourney),檢測能力也高出行業(yè)同類產(chǎn)品20%以上。為實現(xiàn)偽造數(shù)據(jù)溯源,商湯通過自研基于解耦-重建的偽造檢測算法,能夠從偽造數(shù)據(jù)中分離出真實內(nèi)容及偽影痕跡。在針對10余種主流偽造算提高檢測算法的可解釋性和可信度。這一技術(shù)為行業(yè)首創(chuàng),并作為偽解決方案已投入實戰(zhàn),為十余家銀行的安全系統(tǒng)提供服務(wù),對各類灰黑產(chǎn)攻擊攔截成功率超行業(yè)同類產(chǎn)品20%以上,有效防范了灰在確權(quán)溯源和內(nèi)容保護方面,商湯“SenseTrust”數(shù)字水印結(jié)合頻域分析、深度學(xué)習(xí)、擴散模型等技術(shù),將特定信息嵌入到數(shù)字載體中,同時不影響載體的使用價值,也不易被人的知覺系統(tǒng)察覺,只有通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年新教材高中語文課時分層作業(yè)8中國建筑的特征新人教版必修下冊
- 2024-2025學(xué)年高中數(shù)學(xué)第二章基本初等函數(shù)Ⅰ章末總結(jié)教案新人教A版必修1
- 2025年中國中醫(yī)器械行業(yè)發(fā)展趨勢預(yù)測及投資戰(zhàn)略咨詢報告
- 2025年P(guān)P帶打包設(shè)備項目投資可行性研究分析報告
- 中國四驅(qū)多用途車行業(yè)發(fā)展趨勢預(yù)測及投資戰(zhàn)略咨詢報告
- 中國隔熱保溫材料行業(yè)未來發(fā)展趨勢分析投資規(guī)劃建議研究報告
- 線路器材用料行業(yè)深度研究報告
- 中國通迅電信配件項目投資可行性研究報告
- 數(shù)據(jù)庫加密可行性研究分析報告
- 2025年中國家庭保健器械行業(yè)市場調(diào)研分析及投資戰(zhàn)略規(guī)劃報告
- 浙江省杭二中2025年高三高考全真模擬卷(四五六七)數(shù)學(xué)試題含解析
- 部編版《道德與法治》六年級下冊第3課《學(xué)會反思》精美課件
- 2024數(shù)據(jù)中心浸沒式液冷系統(tǒng)單相冷卻液技術(shù)指標(biāo)和測試方法
- 國有企業(yè)采購管理規(guī)范 T/CFLP 0027-2020
- 葉酸與神經(jīng)退行性疾病的關(guān)聯(lián)性研究
- 圍墻鐵藝欄桿施工方案方案
- 客運駕駛?cè)税踩己艘?guī)程范本
- 2024年南京城市職業(yè)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 醫(yī)療安全不良事件課件
- 部編版小學(xué)語文二年級下冊第三單元集體備課教材分析
- 珠寶專業(yè)知識課件
評論
0/150
提交評論