大模型治理藍皮報告(2023年)-從規(guī)則走向實踐_第1頁
大模型治理藍皮報告(2023年)-從規(guī)則走向實踐_第2頁
大模型治理藍皮報告(2023年)-從規(guī)則走向實踐_第3頁
大模型治理藍皮報告(2023年)-從規(guī)則走向實踐_第4頁
大模型治理藍皮報告(2023年)-從規(guī)則走向實踐_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

z大模型治理藍皮報告——從規(guī)則走向實踐(2023年)中國信息通信研究院政策與經濟研究所中國科學院計算技術研究所智能算法安全重點實驗室2023年11月前 言近一年來,以ChatGPT為代表的大模型技術引發(fā)通用人工智能新一輪發(fā)展熱潮,在帶動大規(guī)模產業(yè)升級、勞動力轉移、產品的分配機制等方面均帶來深刻變革,成為改變世界競爭格局的重要力量。與此同時,圍繞人工智能治理的議題探討顯著增多,全球人工智能治理體系加速構建。黨中央國務院高度重視人工智能治理工作,作出一系列重要部署。習近平總書記強調,要共同做好風險防范,形成具有廣泛共識的人工智能治理框架和標準規(guī)范,不斷提升人工智能技術的安全性、可靠性、可控性、公平性。尋找大模型治理的準確定位,構建適應技術發(fā)展趨勢的治理體系愈加重要且迫切。面對大模型帶來的新問題新挑戰(zhàn),傳統(tǒng)監(jiān)管模式面臨著AI自主演化控制難、迭代快速跟進難、黑箱遮蔽追責難等問題,一勞永逸的事前監(jiān)管模式已經難以應對不斷推陳出新的人工智能發(fā)展需求。從治理框架來看,敏捷治理成為回應大模型技術快速迭代的重要治理模式,軟硬法協調、多主體協同的治理需求更為突出。構建高質量數據集、創(chuàng)新知識產權制度、探索價值對齊實現方式、維護信息內容安全等成為各方關注的熱點問題。美國、歐盟、英國等主要國家和地區(qū)加緊推進人工智能治理布局,共同尋求具有共識和互操作性的治理規(guī)則。我國圍繞人工智能發(fā)展、安全、治理三方面提出《全球人工智能治理倡議》,通過算法備案、評估評測、事后溯源檢測等方式,推動人工智能治理從規(guī)則走向實踐,為全球提供人工智能治理中國方案。希望研究成果為社會各界進一步參與大模型治理實踐提供有益參考。目 錄一、大模型治理的重要性緊迫性凸顯 1(一)大模型技術浪潮興起 1(二)大模型引領數字化變革 3(三)大模型帶來的典型風險 5二、技術變革下大模型治理框架日漸明朗 11(一)治理模式:敏捷治理成為國際較為通行的治理方案 11(二)治理主體:激勵多元主體協同治理成為全球共識 14(三)治理機制:軟硬兼施推進大模型治理 18三、聚焦大模型治理核心議題規(guī)則 22(一)數據治理規(guī)則 23(二)知識產權保護 32(三)倫理問題治理 36(四)信息內容治理 40四、把握全球大模型治理最新動態(tài)趨勢 42(一)美國從松散碎片式治理逐步趨向體系化治理 42(二)歐盟繼續(xù)發(fā)揮人工智能治理領域布魯塞爾效應 45(三)英國力圖以促進創(chuàng)新的監(jiān)管方法引領全球治理 49(四)國際組織在大模型治理國際合作中各顯其能 52五、探索我國大模型治理的主要落地工具 55(一)事前備案 55(二)事中全流程評估 57(三)事后溯源檢測 60六、完善我國大模型治理體系的思路建議 63(一)確立促進創(chuàng)新的人工智能敏捷治理理念 64(二)聚焦人工智能場景應用細化制度方案 64(三)立足當前治理實踐創(chuàng)新人工智能治理工具 65(四)激勵企業(yè)積極管控風險以推動平臺合規(guī) 66(五)促進全球人工智能合作治理體系構建 67大模型治理藍皮書—從規(guī)則走向實踐(2023年)一、大模型治理的重要性緊迫性凸顯(一)大模型技術浪潮興起當前,世界人工智能領域科技創(chuàng)新異常活躍,日益成為改變世界競爭格局的重要力量。一批里程碑意義的前沿成果陸續(xù)突破,以ChatGPT為代表的大模型技術引發(fā)通用人工智能新一輪發(fā)展熱潮。1.對大模型的基本認識大模型(LLM,LargeLanguageModel)指的是具有超大參數規(guī)模,建立在多頭自注意力機制Transformer架構之上,以深度神經網絡為基礎,用海量文本數據預訓練而成的語言模型。以ChatGPT為代表的大模型能夠模擬人類的創(chuàng)造性思維,生成具有一定邏輯性和連貫性的語言文本、圖像、音頻等內容。大模型基于大數據、大算力、多模態(tài)的技術優(yōu)勢,實現從感知世界、理解世界向創(chuàng)造世界的躍遷,推動人類社會加速邁向人機共生的智能社會階段。大模型體現出三方面技術趨勢:一是從決策式AI到生成式AI。決策式AI主要是通過分類回歸對數據進行分析,主要應用于圖像識別、推薦系統(tǒng)、決策智能體等領域。生成式AI借助Transformer架構等,具有全局表征能力強、高度并行性、通用性強、可擴展性強等優(yōu)勢,主要應用于內容創(chuàng)作、科研、人機交互等領域,實現了從簡單感知到內容創(chuàng)造的躍遷。二是從單模態(tài)模型到多模態(tài)模型。多模態(tài)是指通過處理和關聯來自多種模態(tài)的多源異構數據,挖掘分析信息、提高模型能力的學習方法。典型任務是圖像/視頻/語言間的跨模態(tài)預訓練、跨模態(tài)定位等,如給定文本生成一段對應的聲音、圖像/視頻與文本1大模型治理藍皮書—從規(guī)則走向實踐(2023年)的相互檢索或生成等。三是從億級到千億、萬億級參數的預訓練模型。大模型指的正是模型參數規(guī)模龐大,大模型參數規(guī)模從億級發(fā)展到百億、千億級別,并向著更高規(guī)模的參數探索。例如,GPT-3參數量達1750億,文心一言參數規(guī)模為2600億等。隨著參數規(guī)模的增長,模型能力也得到顯著提升。2.大模型的變革影響(1)內容生產方式的“顛覆者”大模型實現了高質量、高效率、多樣化的內容生產,成為推動內容生產方式變革的重要力量。一是信息內容生產主體發(fā)生顯著變革。人工智能在信息收集、篩選和整合、推理的全過程都能替代人力,極大地解放人力資源。二是信息內容生產效率快速提升。大算力驅動強算法處理大數據,在自然語言處理、計算機視覺、自動駕駛、等各領域多種任務上,都能高質量作出結果判斷,高效率進行內容生成。三是信息內容傳播出現顛覆性變化。信息的生產、傳播更加便利,尤其是降低了專業(yè)知識的獲取門檻。信息內容的表現形態(tài)更加豐富,利用人工智能創(chuàng)生技術,圖、文、代碼等相互轉換更加自由,可以一鍵生成“數字人”分身,開啟智能互聯時代。(2)通用人工智能的“先行者”大模型是邁向通用人工智能的重要技術探索。一是具備了與人類智能相媲美的綜合智能能力。大模型的能力不再局限于自然語言、視覺等特定方面,而是具備了執(zhí)行一般智慧行為的能力,廣泛拓展了人工智能技術的適用范圍。二是具備了通用型技術能力的潛力。業(yè)界普2大模型治理藍皮書—從規(guī)則走向實踐(2023年)遍認為,大模型是智能時代的關鍵基礎底座,各領域不再需要單獨開發(fā)人工智能,僅需調用大模型接口即可。將來可能構建出新的應用生態(tài)、創(chuàng)造新的用戶接口,并帶來潛在商業(yè)模式的變革。三是具備了賦能千行百業(yè)的適應性。大模型可作為底層技術,垂直應用于各個產業(yè)和復雜場景。這種可以嫁接千行百業(yè)的智能生產力,正在重塑和影響未來生活。(3)人機交互的“協作者”大模型使得人類行為與機器運行之間的協作更加自然、高效和智能,拓展了更為廣闊的人機交互空間。一是呈現出極大的語言表達的自由度。大模型“善于”理解和生成自然語言,人們可以自由提問或表達需求,不必擔心特定的格式或指令。這種自由度使得人與機器的交互更為自然、靈活。二是呈現出極為個性化的交互體驗。大模型可以通過分析和理解用戶的喜好、興趣和上下文信息,進行定制化的服務和建議。大模型的即時回應和連續(xù)對話,給用戶提供了實時的幫助和引導。Web2.0之父蒂姆·奧萊利(TimO'Reilly)認為未來的人工智能系統(tǒng)將成為人類工作的協作者,通過人機合作實現更強大的效果。(二)大模型引領數字化變革大模型體現出強智能性、強通用性、強交互性,為進一步的產業(yè)革新與數字政府發(fā)展奠定了堅實的基礎。根據麥肯錫報告,生成式人工智能每年或將為全球GDP增加2.6-4.4萬億美元。根據MarketsandMarkets報告,2023年全球生成式人工智能的市場規(guī)模預計為110.3億美元,2028年預計將達到518億美元,年復合增長率達35.6%。3大模型治理藍皮書—從規(guī)則走向實踐(2023年)1.大模型推動產業(yè)跨域深度融合憑借大數據、大市場、多場景優(yōu)勢,人工智能與交通、醫(yī)療、工業(yè)等傳統(tǒng)行業(yè)深入融合,涌現出一批新業(yè)態(tài)新模式。在工業(yè)領域,大模型實現汽車、建模等設計的自動優(yōu)化、打造3D模型、通過智能物流、智能安防實現智能化管理;在醫(yī)療領域,大模型實現蛋白質分子的結構預測、輔助醫(yī)生影像讀片與分析病例報告,推出AI陪護與交互式心理咨詢;在金融領域,大模型催生了數字員工,借助AI客服、AI投資顧問、AI財務實現服務的自動化,并進一步優(yōu)化投資管理與風險管理。據埃森哲預計,2035年人工智能應用將為制造業(yè)帶來4萬億美元額外增長,年增長率可達4.4%。2.大模型提升公共服務水平當前,公共領域大模型應用如火如荼,為公共服務提質增效。美國、英國、葡萄牙、新加坡等13個國家或地區(qū)已將ChatGPT應用于政府內部辦公、公共服務提供等場景。據日本野村綜合研究所開展的網絡問卷調查顯示,政府部門對ChatGPT的利用率達17.5%,僅次于信息通信業(yè)(32.8%)和制造業(yè)(19.2%)。從市場份額來看,根據普魯杜爾公司(PrudourPvt.Ltd)數據顯示,2022年各國政府應用大模型的市場份額超過1千萬美元,預計2032年超過5億美元,年復合增長率達45.8%。大模型技術的引入可以顯著提升人機交互的友好程度。同時,大模型在信息收集、數據分析以及語言重塑能力層面的優(yōu)勢,能夠有效協助整合政府治理資源,改善政府治理結構,打破政府組織壁壘,實現跨部門、跨層級的協同治理。4大模型治理藍皮書—從規(guī)則走向實踐(2023年)(三)大模型帶來的典型風險大模型在提升產業(yè)效率與社會生產力的同時,亦伴隨著多重風險與挑戰(zhàn),有必要從技術自身缺陷引發(fā)的風險、技術應用在不同層面帶來的問題與挑戰(zhàn)等維度出發(fā),梳理和探討大模型發(fā)展面臨的困局。1.大模型自身技術缺陷帶來的風險挑戰(zhàn)一是大模型的生成“幻覺”問題引發(fā)生成內容不可信。生成幻覺通常指模型按照流暢正確的語法規(guī)則產生的包含虛假信息甚至無意義內容的文本?;糜X一般被認為是模型生成的文本不遵循原文或不符合事實,在大模型場景下主要指不符合事實,即出現“一本正經胡說八道”的情形?;糜X產生的本質原因是大模型的輸出結果是根據概率推理而成的,這導致了大模型可能針對一個原本模糊或者不確定的預測,給出一個“過度自信”的結果。因此,OpenAI公司首席技術官MiraMurati亦指出,ChatGPT和底層大型語言模型的最大挑戰(zhàn)是其會編造錯誤的或不存在的事實。二是大模型的“涌現”效應帶來模型能力不可控。所謂智能“涌現”,是指大語言模型在沒有經過針對性訓練的任務,包括需要復雜推理能力的任務中,同樣表現出卓越的性能。這種“智能涌現”能力通常在小模型中未被發(fā)現,而只會在具備一定規(guī)模的大模型中出現。目前僅能夠明確觀測到當模型大小超過一定閾值時,模型各方面綜合能力得到質變式爆發(fā)增長的“涌現”現象,但卻無法確定“涌現”的閾值所在,這使現有大模型的“智能涌現”能力具有突發(fā)性、不可預測性和不可控性,例如,在某用戶故意“激怒”ChatGPT后,后者威5大模型治理藍皮書—從規(guī)則走向實踐(2023年)脅將披露該用戶的IP、居所等個人信息,甚至損害其名譽。不少人工智能研究人員亦發(fā)出警告,如果控制不當,足夠強大的人工智能模型可能超越人類智能成為地球主導力量,引發(fā)災難性后果。三是大模型的脆弱性和攻擊性造成外部安全隱患難以根除。由于技術本身的特性,沒有一個系統(tǒng)是永遠安全和不可能被攻破的。一方面,隨著大模型生成側的高度發(fā)展,對其進行網絡攻擊日漸增多。例如通過在提示詞后增加一些不規(guī)則后綴,即可讓此提示詞繞過大模型的攔截策略,讓其生成預料之外的內容。另一方面,大模型應用降低了漏洞查找與系統(tǒng)攻擊的難度。如果模型被惡意植入后門,模型的安全也會受到威脅,尤其在大模型應用下,漏洞查找與系統(tǒng)攻擊變得更加容易,導致系統(tǒng)安全隱患持續(xù)升級。例如,有攻擊者利用ChatGPT生成自動攻擊的代碼,讓它更加高效的利用某個目標系統(tǒng)的漏洞,進行網絡攻擊。2.大模型在個人維度引發(fā)的風險挑戰(zhàn)一是加深“信息繭房”并影響公平正義。一方面,以呈現高頻次單一信息為生成機制會加深“信息繭房”。過去,個人自主進行信息檢索是往往能夠獲得來源豐富、多種多樣的信息以供選擇,從而形成對所欲探究事物更全面的認知;而在大模型應用下,個人只能被動接受模型提供的信息,而無法獲取樣本數量不占優(yōu)勢的“小眾”信息,使得大模型生成內容類似于“繭房”,將個體對事物的認知桎梏于有限信息之中。1另一方面,大模型訓練數據存在的固有偏見和歧視問參見/s/FIX1cUkw6PiduOwJ00l0mA6大模型治理藍皮書—從規(guī)則走向實踐(2023年)題。這是由于大模型對數據高度依賴,所以生成結果會體現出數據源的偏向性。如GPT-3顯示出了基于宗教信仰的偏見和性別歧視,大語言模型Gopher存在職業(yè)與性別之間的刻板印象聯想,圖像生成模Dalle-2則表現出顯著的性別和種族歧視。二是技術濫用侵犯人格尊嚴并阻礙個人發(fā)展。一方面,大模型的惡意利用侵犯人格尊嚴。當前已有大量案例表明,大模型被用于生成虛假的有損公民人格尊嚴的視頻、音頻、圖像等,進而被惡意應用于網絡欺凌、辱罵、造謠等場景下,給當事人帶來極大的精神及財產損害。例如,喬治華盛頓大學法學院教授JonathanTurley發(fā)現,ChatGPT生成內容顯示他在阿拉斯加課程旅行中對學生進行了性騷擾。然而,Turley教授并未帶領學生去阿拉斯加或任何其他地方進行課程旅行,也未曾受到過性騷擾學生的指控。另一方面,大模型的過度依賴阻礙個人發(fā)展。當前越來越多個體頻繁應用大模型服務完成工作學習任務,例如用ChatGPT寫論文、寫判決書的案例屢見不鮮,且個人對大模型的依賴表現出應用日益廣泛、程度日益加深的特征,恐導致個人學習能力以及認知水平可能大幅退化,影響人與社會的長期發(fā)展?jié)摿?。美國智庫布魯金斯學會刊文指出,ChatGPT將可能導致人類記憶和批判能力的下降。三是情感計算造成潛在倫理風險并擾亂人際關系。情感計算是模擬某個角色并設定其情緒或心理狀態(tài)的新型人工智能應用,其發(fā)展與普及可能給個人行為、社會關系、倫理道德等諸多領域帶來巨大的沖擊。一方面,情感計算可能瓦解傳統(tǒng)人際關系。以近期眾多人工智能7大模型治理藍皮書—從規(guī)則走向實踐(2023年)企業(yè)推出的“AI伴侶”為例,該類應用可能導致個人不愿花時間精力與真正的人類進行情感交流,從而導致傳統(tǒng)的人際關系與婚姻家庭結構遭到重創(chuàng),甚至顛覆過往的倫理道德觀念。另一方面,情感計算可能不正當地引導個人情緒、行為乃至價值觀。人工智能產品可能會有偏見或有目的性地引導某些個體,尤其當人類習慣于長期與機器人交互時,人獲取的信息會很自然地被機器所引導,進而影響個人的價值觀,或是控制個人的情緒與行為。3.大模型在企業(yè)維度引發(fā)的風險挑戰(zhàn)一是用戶過度授權、違規(guī)信息使用以及黑客攻擊,引發(fā)用戶隱私與商業(yè)秘密的泄露風險。在用戶個人隱私方面面臨侵權訴訟,當前,大模型的用戶使用條款普遍給予企業(yè)超出必要限度的個人信息使用權,加大了用戶個人信息泄漏的風險,從而擔負極大的違規(guī)風險。以ChatGPT為例,其使用條款明確規(guī)定,除非用戶要求OpenAI不對其輸入和輸出內容進行使用,否則OpenAI擁有對任何用戶輸入和輸出內容的廣泛使用權,以達成優(yōu)化訓練ChatGPT的目的。在企業(yè)商業(yè)秘密方面,企業(yè)員工很有可能故意或過失地違反公司保密制度,將公司的營業(yè)信息、技術信息、平臺底層代碼、近期營銷計劃、公司薪酬體系等信息泄露,黑客也可能利用系統(tǒng)漏洞發(fā)起攻擊獲取海量涉密信息,從而導致企業(yè)商業(yè)秘密泄露風險。二是內容生成依托海量文本與圖像數據,引發(fā)版權侵權風險。一方面,大模型生成內容由于缺乏規(guī)范的許可使用機制具有侵權風險。由于大模型根據概率推理的生成機制,其使用作品難以逐個、準確地8大模型治理藍皮書—從規(guī)則走向實踐(2023年)援引法定許可或合理使用條款,這使得大模型未經許可使用作品的行為可能會侵犯被使用作品的復制、改編、信息網絡傳播權等權利。例2023年1月,全球知名圖片提供商華蓋創(chuàng)意(GettyImages)起訴熱門人工智能繪畫工具StableDiffusion的開發(fā)者StabilityAI,稱其未經許可從網站上竊取了數百萬張圖片。再如,用于谷歌T5和METALLaMA等大模型訓練的C4數據集,雖然源自公開網站,但也包括至少27個被美國政府認定為盜版和假冒產品市場的網站。另一方面,大模型生成內容存在與既有作品“實質性相似”的潛在侵權風險。如果大模型通過分析學習后生成的內容與原始作品過于相似,以至于可能會誤導公眾或混淆原始作品的來源,其可能會因與他人作品存在“實質性相似”而被認定為侵權,從而導致著作權侵權相關的訴訟,而含有侵權內容的大模型生成內容的使用者亦有可能需要承擔侵權責任。2三是應用形態(tài)顛覆現有數據收集模式,引發(fā)數據安全風險。大模型生成工具的運作機制導致企業(yè)緯度的違規(guī)數據傳輸與敏感信息泄露頻發(fā)。以ChatGPT為例,根據其運作原理,用戶在輸入端提出的問題首先會傳輸到位于美國的OpenAI公司,隨后ChatGPT才會給出相應回答,因此存在數據泄露風險。如韓媒報道,三星半導體事業(yè)部向員工開放使用ChatGPT后短短20天內即發(fā)生多起數據違規(guī)輸入事件。又如數據安全公司Cyberhaven調研顯示,不同行業(yè)客戶的160萬名員工平均每周向ChatGPT泄露敏感數據達數百次。參見/s/LbeMIgeJeZSAqDWeLTBX9g9大模型治理藍皮書—從規(guī)則走向實踐(2023年)4.大模型在社會維度引發(fā)的風險挑戰(zhàn)一是沖擊就業(yè)市場,提升勞動力轉型下的社會不安定性。雖然大模型帶來的崗位智能化升級將提升社會生產效率、創(chuàng)造新興崗位,但也會導致特定領域或人群的失業(yè)危機。大模型對初等和中等技能白領崗位需求的沖擊較大,從事重復性、機械性等工作的勞動者將極易被大模型工具替代。據高盛研究報告分析,以美國為例,46%的行政工作和44%的法律工作將受到較高程度的影響。在此趨勢下,相當數量的勞動者需在短期內進行與社會新需求相匹配的職業(yè)轉換,這對他們的經濟收入、社會地位、身心健康都可能產生較大影響,如果大規(guī)模勞動力轉型不當甚至有可能引發(fā)社會動蕩等風險。二是擴大數字鴻溝,加劇社會分化和不平等。大模型的擁有程度、應用程度以及創(chuàng)新能力的差別將引發(fā)信息落差,進而造成新一輪數字鴻溝,甚至加劇社會分化和不平等。從國家與地區(qū)層面來看,在大模型加速迭代的進程中,僅有少數發(fā)達國家能夠能夠憑借龐大的數據、算力等資源進一步掌控生產力資源,這將進一步擴大發(fā)達國家與發(fā)展中國家的差距。例如,美國的GPT-4總共包含了1.8萬億參數,一次的訓練成本為6300萬美元,非百億美金公司很難持續(xù)跟進。從組織和個人層面來看,大模型服務對于不同群體的可得性是不同的。部分地區(qū)或群體可能由于無法獲得高質量的互聯網連接、教育水平與專業(yè)背景不足等原因,無法有效且正確地使用GPT技術。這會使得ChatGPT等技術成為精英階層提升和優(yōu)化生產力的有力工具,進一步拉大精英階層和社會底層、高知分子與普通勞動者之間的差距。大模10大模型治理藍皮書—從規(guī)則走向實踐(2023年)型生成機制對于不同群體的“關注度”是不同的。特殊群體及其呼聲會在數字化進程中成為被排斥的對象,淪為“數字棄民”,這可能導致未來日益依托于大模型的社會治理框架忽視特殊群體的需求,加劇社會在年齡、地域等緯度的不平等。三是深度偽造與對抗性攻擊,危及公共安全與利益。一方面,大模型被用于制作虛假文本、音頻、視頻等深度偽造內容,損害公共利益。當前,通過AI換臉、語音模擬、人臉合成、視頻生成等惡意運用手段生成的深度偽造信息,既加劇了公眾對于公開信息的不信任感,又導致相關虛假信息與虛假形象被運用于詐騙、政治干預、煽動暴力和犯罪等破壞公共利益的領域,造成了極大的安全風險。另一方面,對抗性攻擊的存在威脅著公共安全。大模型容易受到對手生成的對抗樣本的“注入式攻擊”,即圖謀不軌者從算法角度別有用心地構造并注入特定詞語、符號或圖片,進而誘導大模型邏輯混亂、輸出錯誤,再利用這一漏洞進行欺詐或篡改,甚至直接圖謀根源極其隱蔽的安全事故。3例如,研究人員通過在停止信號圖片添加細微噪聲,就可以欺騙自動駕駛系統(tǒng)錯認為速度限制45英里/小時,產生潛在事故風險。二、技術變革下大模型治理框架日漸明朗(一)治理模式:敏捷治理成為國際較為通行的治理方案2018年,世界經濟論壇提出敏捷治理概念,討論如何應對第四次工業(yè)革命中的政策制定問題,敏捷治理理念開始受到廣泛關注。敏參見/s/yAEBHtf-SEPgC65vmtdMEQ11大模型治理藍皮書—從規(guī)則走向實踐(2023年)捷治理是“一套具有柔韌性、流動性、靈活性或適應性的行動或方法,是一種自適應、以人為本以及具有包容性和可持續(xù)的決策過程”。一方面,敏捷治理體現為快速感知能力。強調對時間的高度靈敏度,需要時刻準備應對快速發(fā)展中的變化,主動接受變化并在變化中學習。能夠快速感知到內外部環(huán)境的變化,預測內外部面臨的風險問題。另一方面,敏捷治理強調參與主體應具有廣泛性。治理主體不再局限于政府,而是需要與開發(fā)者、部署者、用戶等利益相關者密切互動,建立機制持續(xù)性監(jiān)測和討論政策內容,保持長期可持續(xù)性。從治理原則來看,采取原則指引為主、靈活政策為輔的策略。敏捷治理強調在治理原則指導下,使用靈活政策工具作為補充,依據情況及時調整大模型治理方向和落地舉措。在治理關系上,監(jiān)管者和市場主體之間存在重要的相互依賴關系。雙方在信任基礎上深入密切交流,監(jiān)管者可以更好了解技術趨勢和產業(yè)發(fā)展走向,準備評估相關風險并制定合理措施。從治理工具來看,治理措施要“下手快”并允許包容試錯空間?!跋率挚臁笨梢詼p少企業(yè)的沉默成本,減少技術路徑和商業(yè)模式的轉變損失。包容試錯意味著鼓勵企業(yè)積極創(chuàng)新,對于風險程度較低的問題,支持企業(yè)自行整改消除風險。4在治理模式選擇上,靈活感知、動態(tài)調適的敏捷治理更契合大模型發(fā)展需求。大模型具有突破性、變革性、高風險性等特點,傳統(tǒng)監(jiān)管模式面臨著AI自主演化控制難、迭代快速跟進難、黑箱遮蔽追責難等問題,一勞永逸的事前監(jiān)管模式已經難以應對不斷推陳出新的人參見薛瀾,《走向敏捷治理:新興產業(yè)發(fā)展與監(jiān)管模式探究》,《中國行政管理》2019年第8期。12大模型治理藍皮書—從規(guī)則走向實踐(2023年)工智能發(fā)展需求。開展科技倫理敏捷治理試點工作,是邊發(fā)展、邊治理,邊摸索、邊修正的動態(tài)治理方式,對于平衡安全和創(chuàng)新,在實踐中不斷提煉和打磨大模型治理方案具有重要意義。歐盟、英國、美國均在不同層面引入敏捷治理以規(guī)制大模型風險。美國出臺法案細化基于風險的敏捷治理具體實施路徑。2023年5月,美國提出建立數字平臺委員會相關法案,指出應采用基于風險的敏捷方法,并建立規(guī)制技術風險的新機構。法案認為,新機構應效仿企業(yè)的敏捷治理做法,制定行為守則,并以透明、反應迅速的方法執(zhí)行相關標準。法案還為敏捷治理提出了具體的實施路徑,例如為準則制定過程設定時間表,確定并量化需要解決的問題,建立多利益相關方專家小組,專家組對政策實施效果進行持續(xù)追蹤,找出新問題并循環(huán)整個過程。英國實行靈活的“按比例監(jiān)管”以提升在人工智能領域的競爭優(yōu)勢。2023年3月,英國發(fā)布《促進創(chuàng)新的人工智能監(jiān)管方式》白皮書,明確監(jiān)管目標為“提供清晰的、有利于創(chuàng)新的監(jiān)管環(huán)境”,強調“按比例監(jiān)管”的靈活監(jiān)管方式,力圖推動英國成為“世界上建立基礎人工智能企業(yè)的最佳地點之一”。歐盟總體基調嚴苛,但仍體現出敏捷治理思路。如《人工智能法案》第56b條款指出,人工智能辦公室應對基礎模型進行監(jiān)測,并與開發(fā)者、部署者就其合規(guī)性進行定期對話,討論行業(yè)自我治理的最佳做法;定期更新將基礎模型界定為大型訓練模型的判定標準,記錄并監(jiān)測大模型運行的實例。再如,該法案第五章“支持創(chuàng)新的措施”中,提出人工智能監(jiān)管沙箱制度,要求建立受控環(huán)境,在一定時間內推動人工智能系統(tǒng)的開發(fā)、測試和13大模型治理藍皮書—從規(guī)則走向實踐(2023年)驗證。我國采取包容審慎、分類分級監(jiān)管的敏捷治理模式。兩辦印發(fā)《關于加強科技倫理治理的意見》,提出敏捷治理的治理理念,要求加強科技倫理風險預警與跟蹤研判,及時動態(tài)調整治理方式和倫理規(guī)范,快速、靈活應對科技創(chuàng)新帶來的倫理挑戰(zhàn)。國家網信辦等七部門出臺《生成式人工智能服務管理暫行辦法》,堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結合的原則,采取有效措施鼓勵大模型創(chuàng)新發(fā)展,對大模型服務實行包容審慎和分類分級監(jiān)管。相反,加拿大立法進程中的非敏捷做法遭到外界批判。國際治理創(chuàng)新中心評論文章《加拿大人工智能立法草案需要重新修訂》一文批評道,加拿大正在制定的《人工智能與數據法案》敏捷性不足,敏捷監(jiān)管應該是不斷迭代和數據驅動的,有明確的程序來評估政策影響并作出調整,但該草案并不具備這些要素??傮w來看,作為一種新型治理思路,敏捷治理具備全面性、適應性和靈活性特征,契合大模型的治理需求。如何有效落地敏捷治理理念,是當前需要探索的重要任務。(二)治理主體:激勵多元主體協同治理成為全球共識1.國際組織是全球人工智能治理的重要力量越來越多的國際組織開始關注人工智能的全球治理問題。在增進全球利益方面,國際組織有助于推動人工智能的全球應用和普及,提升各地產業(yè)發(fā)展和社會服務水平,惠及發(fā)展中國家和地區(qū)。在管理共同風險方面,人工智能具有不受制于國界的風險跨境生成、擴散特征,單純的國內監(jiān)管無法有效管控風險,因此,在國際組織推動下,全球14大模型治理藍皮書—從規(guī)則走向實踐(2023年)協同制定標準規(guī)范、支持和激勵最佳國際實踐,成為人工智能治理的應有之義。根據歐洲委員會正在推進的《關于人工智能規(guī)制框架的建議》,從2020年起國際組織已經超過國家成為主要的人工智能舉措的來源;從2015年到2023年,國家政府層面共發(fā)布了172項舉措,而國際組織5同期實施了214項舉措,總體數量也超過各國政府。(6見1)國際組織在引導形成國際共識、建立國際通行和互操作的治理規(guī)則、確保新一輪人工智能發(fā)展造福全人類等方面具有重要作用和獨特優(yōu)勢。來源:歐洲委員會圖12010-2023年間政府和國際組織發(fā)布的人工智能舉措數量對比2.國家政府加緊完善人工智能監(jiān)管架構國家政府在人工智能治理中發(fā)揮著領導性作用,從國家層面統(tǒng)領大模型研發(fā)、設立專業(yè)監(jiān)管機構、以及政策與法律規(guī)則的制定等。國參見統(tǒng)計數據中的“國際組織”包括歐洲委員會(CoE)與歐盟(EU)、經合組織(OECD)和聯合國教科文組織(UNESCO)、G7、G20等。參見CouncilofEurope,AIInitiatives,/en/web/artificial-intelligence/national-initiatives,visitedon29August,202315大模型治理藍皮書—從規(guī)則走向實踐(2023年)家政府作為肩負公共事務管理職責的公權力機關,是公共利益和廣大民意的代言人,也是國家安全和社會穩(wěn)定的捍衛(wèi)者。為更好應對大模型對傳統(tǒng)監(jiān)管架構和機制挑戰(zhàn),部分國家從不同維度加緊推進監(jiān)管組織機構調整。一是部分國家和地區(qū)“另起爐灶”,探索建立專門的人工智能監(jiān)管機構。歐盟將根據《人工智能法案》設立歐洲人工智能辦公室,負責監(jiān)督并確保法律的有效實施,協調聯合調查等。歐洲人工智能辦公室將下設管理委員會(由各成員國代表組成的)、秘書處、咨詢論壇(包括企業(yè)、民間社會、學術界等利益關聯方)三個部分。7西班牙率先成立歐洲首個人工智能監(jiān)管機構——西班牙人工智能監(jiān)管局(AESIA)。該機構將負責監(jiān)管算法應用、數據使用以及確保AI系統(tǒng)遵守道德規(guī)范,其首要任務是執(zhí)行歐盟《人工智能法案》。二是現有監(jiān)管部門下設人工智能工作組,規(guī)制本部門管轄范圍內大模型帶來的風險。美國國土安全部成立首個人工智能特別工作組,旨在保護國家免受人工智能技術尖端發(fā)展造成的安全威脅。美商務部宣布,國家標準與技術研究院(NIST)將成立新的人工智能公共工作組,集合私營和公共部門的專家力量,重點關注大模型相關風險挑戰(zhàn)。8韓國文化體育觀光部成立版權制度改進工作組、數字內容人工智能工作組、產業(yè)應用工作組,將致力于開發(fā)韓文語料庫、審查版權侵權行為、開發(fā)試點項目等。三是在中央層面加強各行業(yè)部門之間的監(jiān)管協同。大模型技術可被普遍調用于各類行業(yè)場景,對政參見歐盟《人工智能法案》第六編第一章要求參見NIST制定指導意見,指導在NIST發(fā)布的AI風險管理框架內開展研發(fā)等短期目標,中期來看工作組將致力于開展大模型測試評估,長期來看,將探索有效利用大模型解決環(huán)境、健康等社會問題的可能性。16大模型治理藍皮書—從規(guī)則走向實踐(2023年)府部門的監(jiān)管協調能力提出更高要求。英國《支持創(chuàng)新的人工智能監(jiān)管方案》白皮書指出,由于通用大模型供應鏈的廣泛性,難以將其納入任一監(jiān)管機構的職權范圍,應加強中央層面的監(jiān)管協調。英國將重點依靠現有的金融行為監(jiān)管局、信息專員辦公室、競爭與市場管理局、平等與人權委員會、藥品和保健產品監(jiān)管機構展開監(jiān)管。3.企業(yè)站在人工智能治理的最前線最前沿企業(yè)在推動人工智能治理規(guī)則和標準落地上發(fā)揮著決定性作用,是踐行治理規(guī)則和行業(yè)標準的中堅力量。當下人工智能領域內產業(yè)界呈現出領先于學術界的發(fā)展態(tài)勢。2022年,由產業(yè)界開發(fā)的機器學習模型數量高達32個,而學術界則只研發(fā)了3個。(見圖2)一是建立人工智能行業(yè)治理共同體。微軟、谷歌、OpenAI等成立前沿模型論壇,致力于推進人工智能安全研究,確定部署前沿人工智能模型的最佳實踐,并促進政企之間的信息共享。9韓國汽車、造船、機器人等十大主要行業(yè)領軍企業(yè)則啟動建立了包括政府部門、公共機構及400多家國內企業(yè)的跨行業(yè)人工智能聯盟,該聯盟將設立行業(yè)數據、法律法規(guī)兩個政策小組以推進人工智能治理。10二是企業(yè)內部增設人工智能治理相關組織架構。國內外多家企業(yè)均設置了人工智能治理專門工作組。例如,微軟設置了三個機構負責人工智能治理事務,分別是AI辦公室、AI戰(zhàn)略管理團隊以及人工智能、倫理與工程研究委員會。IBM為踐行人工智能倫理治理成立了AI倫理委員會,參見/2023/07/26/google-openai-microsoft-anthropic-join-forces-promote-safe-ai-development/參見/view.php?ud=2023072500058417大模型治理藍皮書—從規(guī)則走向實踐(2023年)以支持公司執(zhí)行人工智能倫理原則。商湯科技則成立AI倫理與治理委員會,統(tǒng)籌推進人工智能倫理治理工作體系建設。三是企業(yè)自身推動完善人工智能治理機制。一方面,企業(yè)提出治理原則和指南等構建人工智能治理生態(tài)系統(tǒng)。2023年5月,微軟發(fā)布《人工智能治理:未來藍圖》,提出治理人工智能的五大建議,例如應建立并實施政府主導的人工智能安全框架,為控制關鍵基礎設施的人工智能系統(tǒng)部署安全“剎車”。另一方面,企業(yè)不斷創(chuàng)新治理工具來落實AI治理工作。在2023年RSA大會上,谷歌推出大模型網絡安全套件云安全AIWorkbench,將大模型引入網絡安全領域。來源:斯坦福HAI圖22002-2022重要機器學習系統(tǒng)數量(按行業(yè)劃分)(三)治理機制:軟硬兼施推進大模型治理圍繞可信可控、以人為本、公平公正等人工智能治理價值目標,全球各國注重“剛柔并濟、軟硬兼施”,從柔性倫理規(guī)范和硬性法律法規(guī)等維度發(fā)布具體的人工智能規(guī)則規(guī)范。根據世界經合組織18大模型治理藍皮書—從規(guī)則走向實踐(2023年)(OECD)人工智能政策觀察站最新統(tǒng)計,已有69個國家和地區(qū)發(fā)布800多項人工智能政策。111.以軟法為引領的社會規(guī)范體系全球在人工智能治理中率先推進“軟法”創(chuàng)制,“軟法”與促進創(chuàng)新發(fā)展的治理需求有著天然的契合性。一般而言,倫理、行業(yè)標準等“軟法”的制定方式和周期更富彈性,參與主體具有高程度的協商性,內容更細致更具針對性,有助于實現人工智能治理的敏捷化、多元化和場景化。近年來,主要國家和國際組織紛紛發(fā)布AI倫理原則和規(guī)范文件,例如G20《人工智能原則》、國際電氣和電子工程師協會(IEEE)《人工智能設計倫理準則》、歐盟《可信人工智能倫理指南》等。我國在《科學技術進步法》《關于加強科技倫理治理的意見》等頂層設計下,積極推進制定人工智能倫理治理規(guī)范,落實科技倫理審查、監(jiān)測預警、檢測評估等要求,提升公共服務水平,推動科技倫理治理技術化、工程化、標準化落地。伴隨大模型的應用,軟法治理體現出以下趨勢特點:一是受地域文化、發(fā)展水平等因素影響,各國倫理治理重點存在分歧。西方國家更關注算法偏見歧視問題,保障少數族裔免受大模型應用帶來的歧視風險。發(fā)展中國家更為重視透明度和可解釋性,保障新一輪人工智能浪潮下的國家數字主權。二是推進出臺可評估、可驗證的標準。為同步落實《人工智能法案》要求,歐盟委員會下發(fā)人工智能標準需求清單,歐盟立法委員直接參與標準工作,保障立法到標準的落地。參見https://oecd.ai/en/dashboards/overview19大模型治理藍皮書—從規(guī)則走向實踐(2023年)愛爾蘭政府推出《人工智能標準和保證路線圖》,協助愛爾蘭企業(yè)以合乎道德的方式使用人工智能。三是提升人工智能的社會化服務水平。國際標準組織IEEE面向行業(yè)推出了人工智能治理認證制度。英國則發(fā)布《建立有效人工智能認證生態(tài)系統(tǒng)的路線圖》,建立包括影響評估、偏見審計、認證、性能測試等中立第三方服務,力圖培育世界領先的人工智能認證行業(yè)。四是出臺行為守則、指南文件等作為過渡階段的適用規(guī)則。在出臺正式的法律法規(guī)之前,部分國家率先發(fā)布行為守則等,為企業(yè)或政府利用大模型提供指引。例如,加拿大政府發(fā)布《生成式人工智能行為守則》,要求在《加拿大人工智能和數據法》生效之前,由加拿大公司自愿執(zhí)行。12美國波士頓發(fā)布全球首份《政府應用生成式人工智能臨時指南》,指南適用于除波士頓公立學校外的所有城市機構和部門,列明了政府部門應用大模型的部分示例用例及注意事項,例如不要在提示詞中包含機密信息等。2.以硬法為底線的風險防控體系面對大模型風險調整,建立完善“剛性”的硬法約束,通過構建風險防控體系,提前布局、樹立起防火墻,把握大模型發(fā)展的底線以規(guī)避風險的發(fā)生。在新一輪人工智能浪潮中,以歐盟《人工智能法案》、我國《生成式人工智能服務管理暫行辦法》為代表的法律法規(guī)均受到各國高度關注。具體來看,體現如下趨勢特點:一是總體來看人工智能立法步伐加快,但仍有部分國家采取保守觀望態(tài)度。斯坦福報告顯示,大模型的廣泛應用成為推動人工智能立參見/s/xCfDeoWepskSVierIrUA4w20大模型治理藍皮書—從規(guī)則走向實踐(2023年)法的關鍵節(jié)點。2016至2022年間全球AI法律的數量增加了36項,立法程序中提到人工智能的次數增長近6.5倍(見圖3、圖4)。美國參議院舒默等召開數次聽證會,提出《兩黨人工智能立法框架》,以加快立法進程。新加坡、印度則表示暫不監(jiān)管人工智能,印度信息技術部部長阿什溫尼·瓦什納在2023年4月表示,政府目前并未考慮出臺任何法律來規(guī)范人工智能在印度的發(fā)展。二是基于風險的分級分類方式仍然是大模型治理的重要訴求。在歐盟基于風險的治理理念影響下,分級分類成為平衡創(chuàng)新與發(fā)展的重要方式。歐盟-美國貿易和技術委員會發(fā)布了一份聯合聲明,重申“基于風險的(人工智能)方法,以推進值得信賴和負責任的人工智能技術”。日本提出風險鏈模型(RiskChainModel),根據不同行業(yè)場景提出不同風險分級。德國電力電子與信息技術協會提出VCIO模型,指導使用者對應用場景風險等級作出判斷。三是后發(fā)國家立法注重與已有法律框架的互操作性?!都幽么笕斯ぶ悄芎蛿祿ā妨⒎ㄎ募赋觯摲ò冈陉P鍵定義和概念、采取以風險為基礎的監(jiān)管路徑等方面,均注重與人工智能領域的國際規(guī)范相銜接,包括歐盟《人工智能法案》、經濟合作與發(fā)展組織《人工智能原則》和美國NIST《人工智能風險管理框架》等。四是在傳統(tǒng)法律框架下探索有效、靈活的執(zhí)法手段。例如美國注重利用傳統(tǒng)立法,例如反歧視法、消費者權益保護法、競爭法等現有法規(guī),來打擊詐騙、虛假宣傳、欺騙性廣告、不公平競爭等行為,并采取相應處罰措施,甚至要求公司刪除根據不正當數據訓練出的算法。21大模型治理藍皮書—從規(guī)則走向實踐(2023年)來源13:中國信息通信研究院根據斯坦福HAI報告數據整理圖32016-22年81個選定國家立法程序中提及人工智能的次數來源:中國信息通信研究院根據斯坦福HAI報告數據整理圖42016-22年127個選定國家人工智能相關立法數量三、聚焦大模型治理核心議題規(guī)則數據來源:斯坦福HAI《2023人工智能指數報告》22大模型治理藍皮書—從規(guī)則走向實踐(2023年)如何構建高質量數據集,如何更新知識產權制度以激勵創(chuàng)新,如何實現價值對齊等問題,是大模型帶來的新興問題挑戰(zhàn)?;诖?,本章設定四大議題予以回應。(一)數據治理規(guī)則1.構建高質量數據集高質量訓練數據是大模型發(fā)展的基礎。數據作為新型生產要素,是人工智能技術創(chuàng)新和產業(yè)應用的基礎。在大模型時代,數據質量的重要性大幅提升。當前,以模型為中心的傳統(tǒng)開發(fā)模式逐漸式微,巨量優(yōu)質數據堆疊對模型表現的提升效果遠優(yōu)于微小的算法改動,因此數據成為大模型開發(fā)的核心要素。以GPT為例,GPT-1只使用了4629MB文本數據,GPT-2使用了40GB從Reddit爬取并篩選的文本,而GPT-3用了至少45TB的純文本,GPT-4的數據需求量更隨著模型參數的躍升而顯著增加。我國高質量中文數據集尤為匱乏,當前用于大模型訓練的英文文本較中文文本更為規(guī)范、豐富,針對中文文本的標注規(guī)范、質量把控、成果激勵等均有不足。對于數據質量差而帶來的負面影響,“1-10-100”數據法則指出,如果最初用于驗證數據的成本是1美元,則糾正錯誤數據則需10美元,可能導致的業(yè)務成本增加將達100美元。在大模型開發(fā)中,這種負面影響將因模型改進對數據依賴性增強而呈指數放大,除影響企業(yè)成本、收入外,還將增加數據生態(tài)系統(tǒng)的復雜性,最終可能導致模型訓練失敗。數據流通共享是建立高質量數據集的前提。高質量數據集需要經歷數據資源化、數據共享、交易流通與分析應用等數據價值化過程;23大模型治理藍皮書—從規(guī)則走向實踐(2023年)尤其是其中的流通共享環(huán)節(jié),有利于充分發(fā)揮數據可無損地被重復利用的潛在價值。14各主要經濟體制定促進數據流通共享的框架法規(guī)。2023年3月,美白宮OSTP正式發(fā)布《國家戰(zhàn)略:推進隱私保護的數據共享與分析》15,旨在通過技術手段推動公共和私營部門數據共享,實現“負責任地利用隱私保護的數據共享與分析來造福個人和社會”的愿景。16歐盟《人工智能法案》提出,歐盟委員會建立的歐洲共同數據空間以及促進企業(yè)之間和與政府之間的公共數據共享,將有助于為人工智能系統(tǒng)的訓練、驗證和測試提供可信的、可問責的和非歧視性的高質量數據訪問。為充分利用歐盟本土數據,2022年3月,美國積極推動與歐盟達成“歐盟-美國數據隱私框架(DPA)”,該框架于2023年7月被歐盟委員會批準通過,使美國公司可以在新的監(jiān)管要求下,在美國和歐盟之間自由傳輸個人數據。為促進商業(yè)數據流通共享,中國在《反不正當競爭法(修訂草案征求意見稿)》第十八條提出“獲取、使用或者披露與公眾可以無償利用的信息相同的數據”,不屬于其所稱對商業(yè)數據的不正當獲取或使用。但目前數據的流通共享仍存在一些阻礙。數據權屬的界定問題、權責不清問題、平臺經濟生態(tài)封閉問題等成為降低數據要素市場供需匹配效率、阻礙數據流通共享的重要原因。在我國,數據要素入場交易仍存在多重壁壘,全國各地雖已建設或建成諸多數據交易平臺,但實際交易流量與活躍參見/s/S8VmeOHh7CB1yIOjapwyqw.參見/s/_B8mE5swyAxDR2Lh1cVnFQ.參見/articles/crs-congress-should-consider-data-privacy-in-generative-ai-regulation/.24大模型治理藍皮書—從規(guī)則走向實踐(2023年)度偏低;數據市場交易主體及模式也較為單一,數據資源挖掘能力和供需關系匹配能力較弱。17數據標注是提升數據集質量的重要環(huán)節(jié)。一是數據標注是大模型開發(fā)訓練的關鍵環(huán)節(jié)。初始數據通常是雜亂無章、不具有直接使用價值的,因此需要對數據進行不同形式的標注,方可滿足模型訓練的質量要求。作為大模型開發(fā)與訓練不可或缺的上游環(huán)節(jié),數據標注的工作高效性、標準一致性與結果準確性,將直接影響有效數據集的生產速度、適用范圍與質量水平。二是當前數據加工產業(yè)高速發(fā)展,大模型推動數據標注在產業(yè)應用模式上迅速革新。當前,隨著數據要素市場化配置進程加速、生產力度加大,數據標注產業(yè)迎來快速發(fā)展階段,2021年我國數據標注行業(yè)市場規(guī)模已達到43.3億元。18數據標注在產業(yè)應用上正經歷著從外包手動標注到一體化數據處理的模式變革。過去,多數公司委托外包公司或眾包平臺,對數據集進行手動標注,以提升數據集質量;后來,隨著大模型對數據需求的提升,單靠人力已無法滿足數據供給的效率要求,一體化的數據處理平臺、算法工具鏈開始發(fā)展起來,并在行業(yè)中得到了廣泛的應用。三是數據標注規(guī)范逐步完善?!渡墒饺斯ぶ悄芊展芾頃盒修k法》第八條要求,在生成式人工智能技術研發(fā)過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規(guī)則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升遵法守法意識,監(jiān)督指導標注人員規(guī)范開展標注工作。此外,我國出臺參見陳蕾、薛欽源:《著力構建高質量數據要素市場》,載《中國社會科學報》2023年第3期。參見/s/JGc-iPFDESgTz9riM7MTug.25大模型治理藍皮書—從規(guī)則走向實踐(2023年)《人工智能面向機器學習的數據標注規(guī)程》《大同市促進數據呼叫(標注)產業(yè)發(fā)展的若干政策》等相關政策標準,細化數據標注規(guī)范。合成數據成為未來大模型訓練重要數據來源。合成數據是通過計算機模擬技術或者算法創(chuàng)建、生成的,在數學、物理或者統(tǒng)計學上可以反映真實世界數據屬性的自標注信息。MIT科技評論將AI合成數據列為2022年10大突破性技術之一。第一,合成數據誕生于高質量數據集匱乏的大背景之下。當前社會中充斥著大量如聊天記錄等連續(xù)性弱、邏輯性差、訓練作用有限的低質量數據,造成了有效數據的稀缺;GPT-3的開發(fā)文檔揭露,其對純文本數據進行質量過濾后僅可獲1.27%有效數據。此外,在隱私保護、知識產權、信息壟斷等因素作用下,特殊行業(yè)的高質量數據難以獲取,即使獲取也時常無法進入訓練集使用。專家警告,ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”;更有研究在探討了數據短缺的可能性后預測,按照目前的模型增長速度,到2026年左右,高質量NLP數據將會不足以支持訓練。19第二,合成數據在生產效率提升、獲取成本降低、數據質量提升、隱私/安全問題規(guī)避等方面具有顯著優(yōu)勢。在效率上,合成數據可以自動產生,緩解真實數據集增速有限的問題。在成本上,合成數據既能在采集方面節(jié)省數據采集團隊、數據回傳系統(tǒng)和數據篩選系統(tǒng),也因其自標注的特征在圖片標注上僅需花費人工標注約1%的成本。在質量上,合成數據為定向生產數據、定制大模型特征提供了可能,有利于保證數據的均衡性,解決真實數據長尾特參見PabloVillalobos,JaimeSevilla,LennartHeim,TamayBesiroglu,MariusHobbhahn,AnsonHo.Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning.arXive-prints.26大模型治理藍皮書—從規(guī)則走向實踐(2023年)征導致的無法針對邊緣案例進行大模型訓練的問題,在AI訓練中發(fā)揮較真實數據同樣甚至更好的效果。20在隱私與安全上,合成數據避免了基于真實數據常見的用戶隱私問題與國家安全問題,對于金融、醫(yī)療等數據開放度低、壟斷性強的領域具有重要意義。21第三,當前,合成數據在全球范圍內的應用場景日益多元,產業(yè)細分化程度逐漸提升,未來的人工智能或將依賴合成數據進行訓練。合成數據早期主要應用于計算機視覺領域,借此解決自動駕駛汽車、機器人、安防、制造業(yè)等行業(yè)中真實數據難以獲取的問題。例如,騰訊開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標注的各種交通場景數據,助力自動駕駛系統(tǒng)開發(fā)。目前,合成數據正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產業(yè)領域拓展應用。微軟、OpenAI、Cohere等公司,紛紛轉向使用合成數據作為解決方案,以降低數據成本,推動AI技術的發(fā)展。在此需求之下,針對各種應用情景的合成數據創(chuàng)業(yè)公司應運而生,產業(yè)整體正在向更細分化、專業(yè)化的方向發(fā)展。Gartner預測,2024年用于訓練AI的數據中有60%將是合成數據,到2030年合成數據將徹底取代真實數據,成為訓練人工智能的主要數據來源。2.數據隱私保護各國探索在現有的個人信息保護框架下應對大模型帶來的隱私風險。一是在人工智能立法中援引已有的個人信息保護法律規(guī)則。例如,歐盟《人工智能法案》第45條要求,在人工智能系統(tǒng)全生命周參見/2022/synthetic-data-ai-improvements-1103.參見曹建峰、陳楚儀:《AIGC浪潮下,合成數據關乎人工智能的未來》,載《新經濟導刊》2022年第4期,第25-31頁。27大模型治理藍皮書—從規(guī)則走向實踐(2023年)期中,應當保障個人數據權利,要求數據收集和處理符合《通用數據保護條例》的規(guī)定。我國《生成式人工智能服務管理暫行辦法》第七條規(guī)定,生成式人工智能服務提供者應當使用具有合法來源的數據依法開展預訓練、優(yōu)化訓練等訓練數據處理活動,遵守《個人信息保護法》等法律。二是出臺解釋性或指引性規(guī)則保障數據隱私。法國數據保護監(jiān)管機構CNIL發(fā)布《人工智能:國家信息與自由委員會(CNIL)行動計劃》指出,未來幾個月將重點關注ChatGPT等大模型技術,開發(fā)隱私友好型人工智能系統(tǒng)、開發(fā)審計和控制人工智能的手段、探索最佳實踐等。224月,英國信息專員辦公室(ICO)發(fā)布開發(fā)或使AIGC的指南文件,列明了ICO重點關注的八大領域,包括處理個人數據的合法依據、數據保護影響評估、限制不必要處理等內容。新加坡個人數據保護委員會(PDPC)研究生成式人工智能對新加坡《個人數據保護法》的影響,發(fā)布《關于在人工智能推薦與決策系統(tǒng)中使用個人數據的建議指南草案》。23三是積極探索監(jiān)管沙盒等創(chuàng)新治理手段。挪威數據保護監(jiān)管機構嘗試對處理個人信息的人工智能企業(yè)進行沙盒測試,在安全可控的環(huán)境中測試人工智能處理個人信息的影響。24訓練數據的合法性基礎是個人信息保護的焦點問題。訓練數據的來源包括企業(yè)直接收集、網絡抓取、使用開源數據集和通過商業(yè)途徑參見《人工智能:國家信息與自由委員會(CNIL)的行動計劃》,il.fr/en/artificial-intelligence-action-plan-cnil參見《關于在人工智能推薦與決策系統(tǒng)中使用個人數據的建議指南草案》,.sg/-/media/Files/PDPC/PDF-Files/Legislation-and-Guidelines/Public-Consult-on-Proposed-AG-on-Use-of-PD-in-AI-Recommendation-and-Systems-2023-07-18-Draft-Advisory-Guidelines.pdf參見《挪威DPA關于在Ruter參與AI監(jiān)管沙盒的最終報告》,https://www.datatilsynet.no/en/regulations-and-tools/sandbox-for-artificial-intelligence/reports/ruter-exit-report-on-track-with-artificial-intelligence/going-forward/.28大模型治理藍皮書—從規(guī)則走向實踐(2023年)獲取等途徑。企業(yè)直接收集數據應取得使用數據的合法性基礎。當超出原有目的,將有關個人信息用作模型訓練時,如何取得相應的合法性基礎?對此,百度等開發(fā)大模型的廠商在其隱私協議中指出,在使用用戶的個人信息前,會對個人信息進行匿名化或去標識化處理,以達到無法識別具體個人的程度。25OECD在今年2月份發(fā)布的《推進人工智能的可問責原則》的數字經濟文件中強調,無論是在用于訓練的數據集中還是在終端用戶可以訪問的數據集中,應當進行敏感數據和個人數據的識別。26如模型涉及提取人臉、聲紋等敏感個人信息用于人臉識別、對比、關聯與挖掘,在訓練數據獲取前需通過產品端上單獨的彈窗、協議或其他單獨的授權頁面等“選擇加入”(opt-in)的方式獲得個人信息主體的單獨同意。通過商業(yè)途徑獲得授權的訓練數據,應要求交易方提供語料合法性證明。美國加州《刪除法》(TheDeleteAct)提出應允許個人要求數據經紀商刪除其個人信息,減少公民個人信息在數據交易中泄露的可能。27從采買、外部采集等外部渠道獲取的敏感個人信息用于模型訓練的目的,需要和個人信息權利主體單獨簽署《個人信息授權書》等相關授權文件,文件中需明確寫明收集的敏感個人信息的類型以及使用的場景與目的,不得超出授權的范圍對敏感個人信息進行使用。網絡抓取訓練數據應合法進行。澳大利亞信息專員辦公室聯合其他11個國家的數據和隱私保護機構,發(fā)布《關于數據抓取和隱私保護的聯合聲明》,旨在說明社交媒體公參見《文心一言個人信息保護規(guī)則》,/talk/protectionrule/android.參見《推進人工智能的可問責原則》,/docserver/2448f04b-en.pdf?expires=1699552106&id=id&accname=guest&checksum=F7E1FC3A212BF83F1BF2AB818C22EE3F.參見Trahan,Edwards,Cassidy,OssoffReintroduceBicameralBilltoReininDataBrokers,/news/documentsingle.aspx?DocumentID=2934.29大模型治理藍皮書—從規(guī)則走向實踐(2023年)司和個人網站如何保護個人信息免受非法抓取,以滿足監(jiān)管需求。28開源數據集的使用應當遵守開源協議或者取得相應授權文件。202310月,全國信安標委發(fā)布《生成式人工智能服務安全基本要求》(征求意見稿)第5條規(guī)定,生成式人工智能服務的提供者應當對生成式人工智能的語料來源進行評估,通過開源協議獲得的語料應當遵守開源協議或者相應授權文件。使用包含個人信息的語料時,獲得對應個人信息主體的授權同意,或滿足其他合法使用該個人信息的條件。專欄1:金融領域考慮數據安全而謹慎應用大模型服務根據彭博社在今年二月的報道,美國銀行、花旗集團、德意志銀行、高盛集團和富國銀行等多家金融機構在不同程度上限制類似ChatGPT等大模型產品的應用。富國銀行的發(fā)言人表示,其在評估ChatGPT等應用的安全性之前,將繼續(xù)限制其在本機構的應用。2920233月20日,OpenAI開源代碼庫出現漏洞,導致1.2%ChatGPT付費用戶的姓名、賬戶信息、聊天記錄等數據泄露,引發(fā)全球數據安全和隱私憂慮。由于金融業(yè)對身份信息、金融資產、交易記錄、信用歷史等數據流動的合規(guī)要求較高,在數據安全和隱私保護方面面臨巨大挑戰(zhàn),金融機構對于大模型在其業(yè)務中的應用顯得更為謹慎。202210月,中國人民銀行發(fā)布并實施《金融領域科技倫理指引》,提出金融機構應當嚴格采取防護措施,嚴防隱私泄露,保護數據主體權利不受侵害。參見《關于數據抓取和隱私保護的聯合聲明》,.au/newsroom/global-expectations-of-social-media-platforms-and-other-sites-to-safeguard-against-unlawful-data-scraping.參見/news/articles/2023-11-16/apple-plans-to-adopt-rcs-texting-standard-in-truce-with-android.30大模型治理藍皮書—從規(guī)則走向實踐(2023年)透明度和可問責是個人信息保護的重要制度保障。透明度方面,今年7月,美國聯邦貿易委員會(FTC)對OpenAI啟動新的民事調查質詢(CivilInvestigativeDemand),在此次質詢文本中,FTC主要圍繞大模型產品設計了49個問題,其中特別包括了原始訓練數據和數據隱私保護政策,要求OpenAI披露相關信息,提供相關說明。美國參議院召開聽證會討論《人工智能兩黨立法框架》,框架要求AI開發(fā)和部署人員必須遵守與系統(tǒng)透明度相關的責任要求,包括披露AI系統(tǒng)的訓練數據。30問責方面,OECD在今年2月份發(fā)布的《推進人工智能的可問責原則》的數字經濟文件中提到,在人工智能生命周期的不同階段采取不同技術相關和流程相關的方法來增加人工智能的透明度和可問責性。31英國政府于2023年3月發(fā)布的《人工智能監(jiān)管:支持創(chuàng)新的方法》中,將問責和管理原則列為其五項核心原則之一。同時,該原則也是英國數據監(jiān)管機關在監(jiān)管人工智能使用和生成個人數據方面的重點關注。32以刪除權為代表的個人信息權益實現面臨實踐困境。美國國會研究處發(fā)布的《生成式人工智能與數據隱私:入門指南》指出,目前,大多數領先的聊天機器人和其他人工智能模型并不提供讓用戶刪除其個人信息的選項。國會可能會考慮要求公司為用戶提供退出數據收集的選項(Opt-out),或要求公司提供機制,讓用戶能夠從現有數據參見《人工智能兩黨立法框架》,/imo/media/doc/09072023bipartisanaiframework.pdf.參見《推進人工智能的可問責原則》,/science-and-technology/advancing-accountability-in-ai_2448f04b-en.參見《人工智能監(jiān)管:支持創(chuàng)新的方法》,.uk/government/publications/ai-regulation-a-pro-innovation-approach.31大模型治理藍皮書—從規(guī)則走向實踐(2023年)集中刪除他們的數據,或者規(guī)定個人數據的最大保留期限。332023年10月26日,歐洲數據保護組織聯盟(CEDPO)發(fā)布《生成式人工智能:數據保護的影響》報告強調,數據主體請求修改或者刪除原始訓練數據集中的個人信息可能會影響模型的準確性。不僅如此,要求刪除已嵌入模型中的訓練數據往往會增加企業(yè)的時間與金錢成本。因此,其建議采用匿名技術和數據最小化的實踐在維護個人信息權利和保持人工智能生成模型的整體實用性之間取得平衡34。面對用戶刪除權的訴求,OpenAI在其隱私協議中表示將會根據用戶請求盡量“刪除”模型中用戶的個人信息。35用戶交互信息帶來的隱私問題受到關注。用戶有意或無意輸入的個人信息可能會被用來進行訓練,從而進入模型的參數并泄露在其他用戶生成的內容中。OpenAI等廠商在其大模型服務的協議中規(guī)定用戶與大模型產品交互的內容會被用來進行大模型的訓練36,而在OpenAI根據意大利數據保護機構修訂的隱私政策中,規(guī)定為所有的用戶提供了不保留交互記錄的選項。37(二)知識產權保護1.輸入端:訓練數據版權治理規(guī)則探索為更好地釋放作品數據價值,世界主要經濟體積極為人工智能訓練提供版權制度保障。韓國、日本、以色列等國家持開放態(tài)度。2022年12月,以色列司法部發(fā)布意見書明確,受版權作品可用于機器學參見《生成式人工智能與數據隱私:入門指南》,/product/pdf/R/R47569.參見《生成式人工智能:數據保護的影響》,https://cedpo.eu/generative-ai-the-data-protection-implications/.參見OpenAI《隱私政策》第4條,/policies/privacy-policy.參見《OpenAI隱私政策》,/policies/privacy-policy.參見《ChatGPT:OpenAI重新在意大利開放平臺,保證給歐洲的用戶和非用戶更多的透明度和更多的權利》,https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9881490.32大模型治理藍皮書—從規(guī)則走向實踐(2023年)習。2023年2月,韓國發(fā)布《新增長4.0推進計劃》指出,為促進人工智能服務創(chuàng)新發(fā)展,需推動版權法修訂,允許在數據分析中使用版權作品。5月,日本政府人工智能戰(zhàn)略委員會發(fā)布草案規(guī)定,人工智能訓練數據不受版權法限制,因此被稱為人工智能“訓練天堂”。美國現有規(guī)定提供了一定的解釋空間。美國在2017年《人工智能未來法案》中表明了其對大模型開發(fā)和數據共享的支持立場38。司法領域中,2023年9月,作為ChatGPT發(fā)布以來首起關于大模型訓練“合理使用”的案例,美國法院在ThomsonReutersEnterpriseCenterv.RossIntelligenceInc.一案指出,人工智能訓練使用版權作品是否滿足作為合理使用關鍵判定因素的轉換性使用,主要取決于人工智能復制目的是為學習語言模式還是重復作品的創(chuàng)新性成果39。目前我國對此則持有保守態(tài)度。網信辦等七部門發(fā)布《生成式人工智能服務管理暫行辦法》規(guī)定,大模型服務提供者應當依法開展預訓練、優(yōu)化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型;不得侵害他人依法享有的知識產權?!吨鳈喾ā返?4條中列舉的合理使用原則的具體情形,也無法將大規(guī)模機器學習行為涵蓋在內,在我國大模型訓練過程未經許可利用版權作品存在一定侵權風險?!吨鳈喾ā妨⒎康牟粌H在于賦予著作權人專有權以激勵作品的創(chuàng)作,促進創(chuàng)新和文化繁榮;更在于平衡社會公共利益與相關主體的利益訴求,促進知識公眾傳播并保障公眾獲取知識的權利。為作品參見《人工智能未來法案》第4節(jié)b.1.e.參見ThomsonReutersEnterpriseCenterGMBHandWestPublishingCorp.,v.RossIntelligenceInc.,MemorandumOpinion,Sep.25,2023,CaseNo.1:20-cv-613-SB.33大模型治理藍皮書—從規(guī)則走向實踐(2023年)數據挖掘使用提供合理使用空間的立法例,主要存在以下考量:一是展現開放姿態(tài),吸引人工智能企業(yè)。為避免侵權賠償而需投入大量金錢以獲取授權,生成人工智能系統(tǒng)開發(fā)運營商可能將運營基地轉移到允許使用版權作品進行訓練的國家。二是提高訓練數據集質量。出于對高昂許可費用和潛在侵權風險的擔心,生成式人工智能系統(tǒng)的開發(fā)運營商往往選擇公共領域的作品或者經由協議獲得的有限作品進行訓練。規(guī)模和質量有限的數據集會導致模型出現“算法偏見”“內容毒性”等問題。三是提供良性競爭環(huán)境,避免行業(yè)壟斷。授權的高昂費用導致進一步擴大生成人工智能系統(tǒng)開發(fā)運營商之間的差距,最終導致“贏者通吃”不公平的競爭環(huán)境甚至行業(yè)壟斷。為抵消版權過度保護可能產生的壁壘效用,可以在兼顧社會公眾利益、科技創(chuàng)新發(fā)展和著作權保護的基礎上,構建更加開放的合理使用制度。2.輸出端:人工智能生成物知識產權保護進路展望生成式人工智能基于深度學習等技術實現了人類所理解的知識生產方式的顛覆,并在文化市場與工業(yè)應用中展現了巨大商業(yè)價值。其獨立創(chuàng)作、多元主體參與的知識生產方式不僅給以人類為中心構建的知識產權制度本身帶來了沖擊,而且也給司法實踐帶來了新問題。人工智能輸出端的治理不僅在于精準賦權以避免公地悲劇,更在于市場主體之間的利益平衡以保障人工智能產業(yè)健康發(fā)展。生成式人工智能的發(fā)展超出各國知識產權制度立法預期,人工智能生成內容可版權性與可專利性存在較大爭議。2023年9月,經濟合作與發(fā)展組織(OECD)發(fā)布報告《七國集團(G7)生成式人工智34大模型治理藍皮書—從規(guī)則走向實踐(2023年)能廣島進程:達成G7生成式人工智能共識》,報告指出:生成式人工智能對知識產權帶來了挑戰(zhàn)。國家層面正在調查完全或部分由生成式人工智能創(chuàng)建的內容的知識產權法律地位問題。英國重視人工智能生成物的知識產權保護問題,并做出了積極的嘗試。英國《版權、外觀設計和專利法》明確提及計算機生成作品的文學、戲劇、音樂或藝術作品。美國當前實踐并不認可人工智能生成物知識產權客體屬性。美國聯邦巡回上訴法院認為人工智能無法成為發(fā)明人,從而駁回人工智能生成技術方案的專利申請。美國版權局《版權登記指南》同樣指出,只有由人類創(chuàng)作的內容才有資格成為作品,不會登記沒有人類作者的任何創(chuàng)造性投入或干預隨機或自動運行的內容為作品。我國司法實踐對人工智能生成物可版權性存在不同見解。在“菲林訴百度案”中,二審法院認為作品的作者范圍應當限于自然人,人工智能生成的作品不能構成著作權法上的作品40。在“騰訊訴盈訊案”中,法院認為相關人員個性化安排與選擇對案涉人工智能生成物具有決定作用,具有一定的獨創(chuàng)性,構成文字作品41。面臨大模型所帶來的價值沖突,需作為“技術之子”的知識產權制度積極回應。一是對人工智能生成物法律屬性予以明確。知識產權客體并未明確排除人工智能生成物,其在一定程度上滿足作品與發(fā)明構成要件,但是也存在著主體適格、思想價值等質疑。二是厘定權屬分配以保障利益公平。目前人工智能生成物的權屬分配尚不明晰,英國在《版權、外觀設計和專利法》中,將計算機生成作品的版權授予參見北京知識產權法院民事判決書,(2019)京73民終2030號。參見廣東省深圳市南山區(qū)人民法院民事判決書,(2019)粵0305民初14010號。35大模型治理藍皮書—從規(guī)則走向實踐(2023年)“在作品創(chuàng)作過程中進行了必要安排的人”,但司法實踐中對“必要安排的人”尚存爭議。OpenAI公司則在《共享和發(fā)布政策》中提出ChatGPT共同創(chuàng)作的內容歸屬于用戶。三是對相關權利行使作出適當限制。例如,人工智能作品相較于人類作品具備生產效率高、迭代迅速的優(yōu)勢,針對人工智能生成物的權利保護期限是否應當合理調整。(三)倫理問題治理超越人類控制是大模型的典型倫理風險。大模型潛在的失控風險性,很大程度來源于大模型的“智能涌現”能力,使大模型可能超越人類控制,生成具有各類倫理風險、不服從人類價值觀的內容。價值對齊是人工智能倫理治理的重要解決方案。價值對齊即要求人工智能系統(tǒng)的能力和行為與人類的價值觀、真實意圖、利益以及倫理原則相一致,確保人類與人工智能協作過程中的安全與信任,是讓大模型更加安全、可靠和實用的核心議題。大模型價值對齊的實現,需要多種對齊技術和監(jiān)管治理措施的結合。通過對訓練數據的有效干預,從根源層面消除數據蘊含的倫理安全風險;通過人類反饋強化學習(RLHF)、模型可解釋性等技術,在模型訓練和學習過程中,從模型層面讓人工智能理解和遵從人類的價值、偏好與倫理原則;通過對抗測試和內容過濾工具,從使用層面發(fā)現模型的潛在倫理安全問題,過濾可能存在倫理風險的模型輸出。利用上述多種技術和治理措施的36大模型治理藍皮書—從規(guī)則走向實踐(2023年)結合,從人工智能開發(fā)和使用流程多個層面上實現價值對齊,創(chuàng)建安全、可靠、實用的人工智能模型。專欄2:醫(yī)療領域人工智能大模型存在的偏見風險2019年發(fā)表在《科學》雜志上的一項具有里程碑意義的研究發(fā)現,一種用于預測1億多人醫(yī)療需求的算法對黑人患者存在偏見。該算法依靠醫(yī)療支出來預測未來的醫(yī)療需求。但由于歷史上黑人患者獲得醫(yī)療服務的機會較少,他們往往花費較少。因此,根據該算法,黑人患者的病情必須嚴重得多,才會被推薦接受額外護理。42如果大模型的訓練數據集中存在樣本不平衡、歧視、偏見、歪曲表述等內容,由此產生的模型可能會無意中學習和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論