版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
II版權(quán)聲明本指南由云計算開源產(chǎn)業(yè)聯(lián)盟可信開源合規(guī)計劃開源人工智能治理工作組撰寫,限于撰寫組時間、知識局限以及技術(shù)、社會發(fā)展迭代等因素,內(nèi)容恐有疏漏,煩請各位讀者不吝指正。在編寫過程中得到多家單位的大力支持,在此特別致謝中國信息通信研究院、中興通訊股份有限公司、中國平安人壽保險股份有限公司、東方證券股份有限公司、中國光大銀行股份有限公司、北京抖音信息服務(wù)有限公司、百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司、天翼數(shù)字生活科技有限公司、亞信科技(中國)有限公司、深圳開源互聯(lián)網(wǎng)安全技術(shù)有限公司、鼎道智聯(lián)(北京)科技有限公司、北京大學(xué)人工智能研究院AI安全與治理中心、北京大學(xué)武漢人工智能研究院、OpenSDV汽車軟件開源聯(lián)盟、開源社、重慶中科汽車軟件創(chuàng)新中心、上海市錦天城律師事務(wù)所等單位的各位專家,感謝各位秉承開源精神,協(xié)同共創(chuàng),最終完成本指南的撰寫工作。陳岱源、王帥、張小豐、陶冶、劉東威、孫珊珊、李夢歡、馬紅偉、沈楊、洪燁、梁堯。近年來,開源模式與人工智能技術(shù)加速融合,有力地打破了閉源人工智能技術(shù)壟斷、加速人工智能大模型技術(shù)持續(xù)創(chuàng)新、拓展大模型應(yīng)用路徑、重塑人工智能產(chǎn)業(yè)生態(tài),同時開源大模型的創(chuàng)新發(fā)展和應(yīng)用還為個人、企業(yè)和國家的發(fā)展提供更為廣闊的發(fā)展天地。然而,大模型技術(shù)在給人類帶來生活方式轉(zhuǎn)變和生產(chǎn)方式革新的同時,也引入了安全、合規(guī)等多方面風(fēng)險挑戰(zhàn),甚至可能對人類社會的可持續(xù)發(fā)展帶來負(fù)面影響。大模型開源增加了人工智能系統(tǒng)風(fēng)險暴露和被惡意利用的可能性,開源許可模式的應(yīng)用也使得人工智能技術(shù)利用的合規(guī)風(fēng)險更加復(fù)雜,開源大模型的可得性亦可能加劇開源大模型濫用風(fēng)險。為保障開源大模型技術(shù)健康有序發(fā)展,充分釋放人工智能技術(shù)效能,相關(guān)政策或法規(guī)紛紛出臺,除人工智能治理宏觀監(jiān)管要求外,越來越多的國家政府開始關(guān)注開源大模型的針對性、包容性監(jiān)管。在具體風(fēng)險治理層面,企業(yè)也開始探索構(gòu)建開源大模型綜合性治理體系,并建立開源大模型風(fēng)險防控機(jī)制,以最大化開源大模型應(yīng)用實(shí)效。本指南結(jié)合中國信通院開源研究工作,分析總結(jié)開源大模型發(fā)展態(tài)勢,重點(diǎn)圍繞開源大模型應(yīng)用風(fēng)險及治理動態(tài)、治理措施展開研究,為企業(yè)安全、合規(guī)、高效應(yīng)用開源大模型提供參考。 I 1 1 3 6 8(一)開源語言大模型開啟百家爭鳴新紀(jì)元 8 11 14 16(一)開源大模型應(yīng)用或?qū)е掳踩L(fēng)險升級 17(二)開源大模型應(yīng)用或面臨多重規(guī)制要求 20(三)開源模式或加劇大模型技術(shù)濫用風(fēng)險 28 29 30(二)歐盟立法謀求人工智能監(jiān)管主導(dǎo)權(quán),開源大模型得有條件義務(wù)豁免 31(三)美國人工智能監(jiān)管增強(qiáng)化趨勢明顯,國防領(lǐng)域率先探索開源大模型影響 33 34 46(一)開源大模型治理體系構(gòu)建 47(二)開源大模型風(fēng)險防控建議 49 77V 3 53 71 72 73 74 74 76 9 12 15 21 35 54 701開源作為一種開放、無邊界的新型協(xié)作模式,從開源軟件到開源硬件,再到開放數(shù)據(jù)、開源大模型,開源的應(yīng)用范疇不斷拓展,但開放和可復(fù)制的核心原則始終未變。較之于閉源大模型,開源不僅重塑了人工智能產(chǎn)業(yè)生態(tài),開源大模型的發(fā)展和應(yīng)用更為個人、企業(yè)、國家提供了更為廣闊的發(fā)展天地。(一)從軟件到大模型,開源的“變”與“不變”開源思想興起于軟件開發(fā)領(lǐng)域,軟件開源核心在于源代碼開放。“開源”(OpenSource)概念根植于上世紀(jì)五十年代以來自由開放的計算機(jī)文化,并隨著開源軟件促進(jìn)會(OpenSourceInitiativeAssociation,OSI)經(jīng)典開源定義的確立,逐漸形成共識。在傳統(tǒng)軟件行業(yè),源代碼凝結(jié)了創(chuàng)作者的設(shè)計思想、實(shí)現(xiàn)方法和具體表達(dá),因此軟件開源的核心集中體現(xiàn)在源代碼的開放、可獲取。歷經(jīng)數(shù)十年的發(fā)展,開源已成為現(xiàn)代軟件產(chǎn)業(yè)的主流開發(fā)模業(yè)代碼庫中包含開源軟件,并且商業(yè)代碼庫中77%的代碼直接源自開源軟件。1開源模式應(yīng)用場景不斷拓展,大模型開源形式多元。隨著數(shù)字時代的到來和全球互聯(lián)的加深,開源模式在不同場景的應(yīng)用過程中逐漸衍生出開放數(shù)據(jù)、開源大模型等多種概念形態(tài),成為人工智能技術(shù)創(chuàng)integrity/resources/analyst-reports/open-s2新、開放、共享、可持續(xù)發(fā)展的源頭活水。不同于傳統(tǒng)軟件的源代碼開源,實(shí)踐中圍繞大模型相關(guān)技術(shù),形成了開源模型框架、開源模型代碼、開源參數(shù)權(quán)重、開源工具庫以及開源訓(xùn)練數(shù)據(jù)等多但單一元素的公開和可獲取可能并不足以支持使用者復(fù)現(xiàn)模型效果,實(shí)現(xiàn)開源“授之以漁”的根本目的。開源大模型定義逐漸清晰,開放性和可復(fù)制性的基本原則一以貫之。為促進(jìn)開源思想在人工智能技術(shù)領(lǐng)域的貫徹和落實(shí),避免部分開發(fā)者假借開源之名,行限制技術(shù)共享之實(shí),OSI組織凝聚各方共識,探索開源AI定義,為用戶和開發(fā)者提供判定AI模型是否開源的概念框架。根據(jù)當(dāng)前定義,2開源人工智能系統(tǒng)需滿足以下四個條件:一是允許公眾出于任何目的使用系統(tǒng),無需征得許可;二是允許公眾研究系統(tǒng)的工作原理并檢查其組件;三是允許公眾出于任何目的修改系統(tǒng),包括更改其輸出;四是允許公眾出于任何目的共享系統(tǒng)供他人使用,無論是否經(jīng)過修改。與開源軟件定義的基本原則一致,該定義明確了開源大模型框架、權(quán)重、代碼以及訓(xùn)練數(shù)據(jù)等核心元素的開放性和可復(fù)制性,以確保開源大模型能夠獲得持續(xù)更新和改進(jìn)。開放性是開源大模型獲取社區(qū)貢獻(xiàn)的前提。開源大模型的開放性是指將大模型開發(fā)和訓(xùn)練的方法論、進(jìn)展和技術(shù)成果向社會開放,而不對公眾的訪問、復(fù)制、檢查加以限制。3開源大模型可開放的內(nèi)容包括模型原理、參數(shù)權(quán)重、源代碼和具體的訓(xùn)練數(shù)據(jù),不同模型開放的2TheOpenSourceAIDefinition-1.0,網(wǎng)絡(luò)地址:https://3M.A.PetersandP.Roberts,VirtuesofRoutledge,2015.3內(nèi)容有所差異。依據(jù)OSI組織的相關(guān)定義4,開源大模型須在OSI認(rèn)證的許可協(xié)議或條款下向公眾公開“適合修改的形式”,包括模型權(quán)重和參數(shù),訓(xùn)練和運(yùn)行AI系統(tǒng)的全部源代碼,以及有關(guān)訓(xùn)練數(shù)據(jù)的詳細(xì)信息,而不強(qiáng)制要求開源大模型公開全部的原始訓(xùn)練數(shù)據(jù)。實(shí)踐中,不同大模型的開放程度存在較大差異,基于斯坦福大學(xué)基礎(chǔ)模型研究中心發(fā)布的AI系統(tǒng)訪問等級,從完全封閉到完全開放之間存在可復(fù)制性是開源大模型研究、應(yīng)用的重要基石??蓮?fù)制性意味著使用者可在相同或不同的環(huán)境和條件下,獨(dú)立運(yùn)行大模型并復(fù)現(xiàn)開源大模型的技術(shù)效果,是對開源大模型進(jìn)行科學(xué)研究、技術(shù)驗證和創(chuàng)新應(yīng)用的能力基礎(chǔ)。在人工智能大模型領(lǐng)域,實(shí)現(xiàn)可復(fù)制性的前提在于模型開發(fā)者盡可能提供完整的數(shù)據(jù)集、代碼、模型參數(shù)等模型開發(fā)和訓(xùn)練的相關(guān)信息,從而供使用者驗證模型性能、應(yīng)用運(yùn)行結(jié)果,從數(shù)據(jù)、代碼和架構(gòu)等層面對模型加以改進(jìn)和創(chuàng)新,最終推動技術(shù)的進(jìn)步和革新。例子完全封閉托管訪問開放模型API開放微調(diào)API開放權(quán)重有使用限制的開放權(quán)重、數(shù)據(jù)和代碼無使用限制的開放權(quán)重、數(shù)據(jù)和代碼FamingoGPT-4GPT-3.5Lama2BLOOM2GPT-Neox(Googe)(Infection)(OpenAI)(OpenAI)(Meta)(Bigscience)(EeutherAI)開放基礎(chǔ)模型4TheOpenSourceAIDefinition-1.0,網(wǎng)絡(luò)地址:http5RishiBommasanietal.,“ConsiderationsforGoverningOpenF/issue-brief-considerations-governing-open-foundation-models,最后訪問日期:2024年4往往傾向于封鎖創(chuàng)新技術(shù),以謀求長期的市場競爭優(yōu)勢。開源開放破除了閉源大模型專有技術(shù)依賴問題,激發(fā)市場創(chuàng)新活力。用戶可免費(fèi)獲取開源大模型并根據(jù)不同應(yīng)用場景和個性化需求做自適應(yīng)定制,有效減少了對于高成本商業(yè)技術(shù)或單一技術(shù)廠商的依賴,避免部分人工智能技術(shù)廠商利用先發(fā)優(yōu)勢封閉技術(shù)、壟斷市場。如Meta公司推出開源大模型LLaMA2,有力打破了大語言模型長期被OpenAI、谷歌等商業(yè)巨頭壟斷的局面。同時開源大模型允許廣泛的社區(qū)參與和眾創(chuàng)協(xié)作,大大提升技術(shù)迭代速度和創(chuàng)新效率,刺激閉源人工智能技術(shù)突破、提升,促進(jìn)良性市場競爭并增強(qiáng)市場多樣性。開源大模型是AI應(yīng)用觸達(dá)的破加速器”。開源開放顯著降低了大模型的部署及應(yīng)用門檻,使得人工智能技術(shù)得以廣泛應(yīng)用于金融、醫(yī)學(xué)、教育、能源、法律等領(lǐng)域。如基于開源大模型LLaMA的行業(yè)模法律領(lǐng)域的LAWGPT,教育領(lǐng)域的Taoli大模型等,均通過人工智能技術(shù)賦能相關(guān)產(chǎn)業(yè)轉(zhuǎn)型升級。此外,大模型開源還有助于促進(jìn)人工智能技術(shù)在欠發(fā)達(dá)地區(qū)的普及和交流,提升資源受限地區(qū)和群體的數(shù)字發(fā)展機(jī)會。如基于Qwen1.5訓(xùn)練開發(fā)的開源語言模型Sailor,專注于東南亞地區(qū)的多樣化語言環(huán)境,促進(jìn)了人工智能技術(shù)在小語種地區(qū)的落地和應(yīng)用。開源是AI科技創(chuàng)新的破催化劑”。圍繞成熟的開源大模型項目,5往往會形成活躍的開源社區(qū),社區(qū)成員可以通過民主、開放的形式共同進(jìn)行項目的開發(fā)和維護(hù)工作,從而形成一個強(qiáng)大的知識網(wǎng)絡(luò)以優(yōu)化大模型的產(chǎn)品體驗。6開源社區(qū)不僅有益于積累技術(shù)經(jīng)驗和推進(jìn)模型迭代,更為大模型技術(shù)的發(fā)展提供了多樣化的技術(shù)路線儲備,避免大自然語言處理技術(shù)領(lǐng)域占據(jù)主流地位,但仍有眾多開源項目在不斷探索RNN算法的優(yōu)化和改進(jìn)方向,以期在該領(lǐng)域?qū)崿F(xiàn)技術(shù)突破。開源是AI商業(yè)模式的破孵化器”。開源大模型的有助于幫助企業(yè)快速構(gòu)建商業(yè)生態(tài),推動人工智能技術(shù)從實(shí)驗室走向市場,加速人工智能技術(shù)的商業(yè)化進(jìn)程。目基本形成了開源和閉源相結(jié)合的商業(yè)模式。其中,Meta、百川智能、360等企業(yè)傾向于借助開源社區(qū)以提升模型質(zhì)量并快速打造自己的產(chǎn)品和生態(tài)。而OpenAI、百度、華為等具有先發(fā)優(yōu)勢的企業(yè)雖采取閉源戰(zhàn)略發(fā)展其核心大模型產(chǎn)品,但也積極參與開源生態(tài)的建設(shè),如百度構(gòu)建飛槳社區(qū)、華為開放昇騰資源等。此外,隨著使用者定制化需求的增加,開源大模型研發(fā)企業(yè)逐漸從以“產(chǎn)品”為賣點(diǎn)轉(zhuǎn)向以“服務(wù)”為賣點(diǎn),7幫助企業(yè)構(gòu)筑符合其應(yīng)用場景的垂類大模型,并針對該企業(yè)可吸引第三方開發(fā)者和企業(yè)圍繞其開源產(chǎn)品構(gòu)建應(yīng)用程序和服務(wù),以提升企業(yè)的品牌形象和模型的行業(yè)影響力,進(jìn)而圍繞其具有影6響力的開源模型制定技術(shù)標(biāo)準(zhǔn),并采取發(fā)布專出售相關(guān)培訓(xùn)等方式拓展盈利渠道。開源是AI風(fēng)險治理的破探照燈”。閉源大模型因缺乏透明度,安全合規(guī)風(fēng)險事件時有發(fā)生。如ClearviewAI從互聯(lián)網(wǎng)上收集了數(shù)十億張圖片來訓(xùn)練其閉源AI系統(tǒng),后該公司便因未經(jīng)同意收集和使用個人數(shù)據(jù)而招致法律訴訟和道德爭議。較之于閉源大模型,開源大模型框架、參數(shù)、算法、數(shù)據(jù)以及其他技術(shù)細(xì)節(jié)都公開可見,因此研究人員和開發(fā)者可對代碼進(jìn)行充分審查以識別其潛在安全漏洞和算法瑕疵。合規(guī)層面,開源大模型訓(xùn)練數(shù)據(jù)的公開允許第三方機(jī)構(gòu)和公眾檢查數(shù)據(jù)的來源和使用方式,進(jìn)一步敦促模型訓(xùn)練方更好地理解和遵守數(shù)據(jù)使用相關(guān)法律法規(guī)和標(biāo)準(zhǔn),保障數(shù)據(jù)權(quán)利人的基本權(quán)益。倫理層面,開源大模型允許第三方開發(fā)者直接查看和理解模型的內(nèi)部工作原理,極大地提升了模型的可解釋性,有助于揭示模型潛在的偏見、歧視或其他倫理問題。此外,較之于商業(yè)基礎(chǔ)模型的開發(fā)團(tuán)隊,開源社區(qū)的技術(shù)人員具有更為豐富的文化背景,有助于確保模型充分考慮、尊重不同文化群體的需求和價值觀。開源引導(dǎo)用戶從消費(fèi)者轉(zhuǎn)變?yōu)閯?chuàng)造者,為個體提供個性化表達(dá)渠道。隨著人工智能技術(shù)的顛覆性發(fā)展,大模型不再只是生產(chǎn)工具,更是個體提升自我、表達(dá)自我的重要渠道。8就閉源大模型而言,終端用7戶和大模型企業(yè)之間是“消費(fèi)者-生產(chǎn)者”的關(guān)系,用戶無法了解模型生成內(nèi)容的原理和具體細(xì)節(jié),僅能單向被動接受“算法黑箱”所提供的輸出內(nèi)容,而無法體現(xiàn)其創(chuàng)作風(fēng)格和表達(dá)習(xí)慣。開源大模型則允許用戶利用自己的日常數(shù)據(jù)實(shí)現(xiàn)模型的定制化,個人用戶可以通過開源大模型實(shí)現(xiàn)高度個性化的AI應(yīng)用,以作為個人自我表達(dá)的延伸。例如,藝術(shù)家和設(shè)計師可將個人作品作為輸入,對開源模型如StableDiffusion進(jìn)行再訓(xùn)練,以定制具備其個人風(fēng)格的大模型,并協(xié)助其進(jìn)行新的藝術(shù)創(chuàng)作。開源降低AI技術(shù)研發(fā)和應(yīng)用門檻,為企業(yè)提供低成本、高效率解決方案。大模型技術(shù)效果的實(shí)現(xiàn)高度依賴海量數(shù)據(jù)和充足的算力資源,中小企業(yè)難以從零開始完成模型框架設(shè)計、訓(xùn)練數(shù)據(jù)收集、基礎(chǔ)模型預(yù)訓(xùn)練等工作。開源大模型通過將已經(jīng)完成初步訓(xùn)練的基礎(chǔ)模型公開,幫助應(yīng)用企業(yè)理解現(xiàn)有模型的工作原理,并支持應(yīng)用企業(yè)在此基礎(chǔ)上針對個性場景進(jìn)行深度定制開發(fā)和數(shù)據(jù)定向訓(xùn)練。此外,開源大模型促進(jìn)了不同領(lǐng)域之間的交叉融合和創(chuàng)新,各行業(yè)企業(yè)可以自由對其進(jìn)行修改和擴(kuò)展,從而創(chuàng)造出更多具有創(chuàng)新性的應(yīng)用和產(chǎn)品。開源匯聚人工智能相關(guān)知識和資源,為國家前沿科技和智能產(chǎn)業(yè)發(fā)展提供有力驅(qū)動。開源作為一種新型協(xié)作模式,有助于實(shí)現(xiàn)全球人才、技術(shù)、算力、產(chǎn)業(yè)鏈等寶貴資源的有效整合。大模型開放社區(qū)可提供從基礎(chǔ)設(shè)施、軟件與數(shù)據(jù)環(huán)境、算法框架到智能模型的全棧AI技術(shù)棧以及強(qiáng)大的算力支持和學(xué)習(xí)資源,為開發(fā)者和愛好者提供平等參與的機(jī)會,促進(jìn)技術(shù)普及化,有效激發(fā)創(chuàng)新活力。同時,跨學(xué)科、8跨領(lǐng)域的知識融合,為人工智能領(lǐng)域的技術(shù)難題攻關(guān)提供新的思路和方法,助力人工智能技術(shù)實(shí)現(xiàn)持續(xù)迭代和不斷創(chuàng)新。此外,企業(yè)的參與為開源大模型技術(shù)研發(fā)和眾創(chuàng)提供必要資金支持和技術(shù)貢獻(xiàn),依托開源大模型形成的成熟商業(yè)模式也將反哺開源大模型社區(qū)和技術(shù)的縱深發(fā)展,促進(jìn)創(chuàng)新鏈和產(chǎn)業(yè)鏈深度融合、技術(shù)供給和市場需求互動演進(jìn),全面提升國家在前沿科技和智能產(chǎn)業(yè)方面的競爭力。近年來,開源模式在語言大模型領(lǐng)域迎來了爆發(fā)式發(fā)展,開源語快速進(jìn)步為多模態(tài)大模型以及Agent的發(fā)展、成熟奠定堅實(shí)基礎(chǔ),并且開源模式也在持續(xù)推動大模型技術(shù)的迭代創(chuàng)新和應(yīng)用落地。語言大模型作為人工智能技術(shù)的重要分支,與開源模式深度融合并得以廣泛運(yùn)用。語言大模型即基于大規(guī)模語料庫訓(xùn)練的,可執(zhí)行文本總結(jié)、翻譯、情感分析等廣泛任務(wù)的人工智能模型,是專注于自然語言處理的重要人工智能技術(shù)領(lǐng)域。語言大模型發(fā)展初期,大多數(shù)性能強(qiáng)大的語言大模型僅能通過付費(fèi)API訪問,而其工作方式和工作原理卻鮮為人知。同時,語言大模型的預(yù)訓(xùn)練階段需耗費(fèi)大量資源和高額成本。為促進(jìn)模型健壯性的提升,處理偏見等有害生成內(nèi)容,并推動語言大模型創(chuàng)新,開源模式成為產(chǎn)業(yè)界的優(yōu)選方案。早期的開源語言大模型包括GPT-NeoX-20B、開源預(yù)訓(xùn)練Transformer(OPT)語言模型以及BLOOM等,這些開源語言大模型在性能上較之于閉源大模9型仍有較大差距,但LLaMA等高質(zhì)量開源預(yù)訓(xùn)練語言大模型的發(fā)布則大力推動了開源語言大模型質(zhì)量的飛躍和數(shù)量的激增。目前,國內(nèi)外開源語言大模型已形成百家爭鳴之勢,大量性能優(yōu)越的開源大模型,如OpenAI的GPT、MistralAI的Mixtral、Microsoft的Phi、Google的LaMDA及Gemini、DeepMind的Gopher、xAI的Grok、MLLaMA等以及智譜AI的GLM、阿里巴巴的通義千問、科大訊飛的星火、零一萬物的Yi等得到快速發(fā)展和廣泛應(yīng)用。專欄1經(jīng)典開源語言大模型解析1.通義千問Qwenl模型簡介Qwen是阿里巴巴集團(tuán)Qwen團(tuán)隊基于QWenLMHeadModel模型架構(gòu)研發(fā)的大語言模型和大型多模態(tài)模型系列,目前已升級至Qwen2.5版本,無論是語言模型還是多模態(tài)模型,均在大規(guī)模多語言和多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并通過高質(zhì)量數(shù)據(jù)進(jìn)行后期微調(diào)以貼近人類偏好。l關(guān)鍵技術(shù)原理通義千問的模型架構(gòu)基于增強(qiáng)的Transformer結(jié)構(gòu),采用了旋轉(zhuǎn)位置嵌入(RoPE)和無偏置的RMSNorm技術(shù),使用FlashAttention來加速訓(xùn)練過程,并采用SwiGLU激活函數(shù)以提高模型的性能。l軟硬件依賴軟件:Qwen大模型目前支持主流的Linux、MacOS、Windows操作系統(tǒng),運(yùn)行前需安裝transformers(4.40.0+)、Python(3.8+)、PyTorch(2.2+)等組件,也可通過OLLaMA等模型部署框架快速在本地安裝。硬件:當(dāng)前通義千問的基礎(chǔ)模型已經(jīng)穩(wěn)定訓(xùn)練了大規(guī)模高質(zhì)量且多樣化的數(shù)據(jù),覆蓋多語言(當(dāng)前以中文和英文為主總量高達(dá)3萬億token。對于較小規(guī)模的模型如Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B,推薦使用具有至少16GB顯存的GPU,如V100、P100或T4等,對于更大規(guī)模的模型如Qwen2-72B,則需要使用具有80GB顯存以上的A100GPU。2.LLaMAl模型簡介LLaMA(LargeLanguageModelMetaAI)是MetaAI發(fā)布的開四種版本。LLaMA系列開源大模型的訓(xùn)練數(shù)據(jù)集皆來源于公開數(shù)據(jù)集,以確保其開源兼容性和可復(fù)現(xiàn)性。目前LLaMA已升級至3.1l關(guān)鍵技術(shù)原理LLaMA3采用了典型的Decoder-only的Transformer架構(gòu),與LLaMA2類似,但進(jìn)行了一些改進(jìn),如使用RoPE(旋轉(zhuǎn)嵌入)作為位置編碼方案,以及分組查詢注意力(GroupedQueryAttention,GQA)機(jī)制來提高推理速度。l軟硬件依賴軟件:LLaMA3大模型支持主流的Linux、MacOS、Windows操作系統(tǒng),用戶可通過命令行或OLLaMA等模型部署框架快速在本地安裝,運(yùn)行前需安裝transformers(4.40.0+)、Python(3.7+)、PyTorch(2.2+)等必要關(guān)聯(lián)組件。處理器和內(nèi)存:建議使用具有至少8核CPU進(jìn)行高效后端操作和數(shù)據(jù)預(yù)處理。對于模型訓(xùn)練和推理,尤其是70B參數(shù)模型,推薦使用多個強(qiáng)大的GPU,最好是支持CUDA架構(gòu)的NvidiaGPU,而70B模型則建議32GB或更多才能滿足基本運(yùn)行需求。存儲:需要足夠的存儲空間來存儲模型和相關(guān)數(shù)據(jù)集,對于像70B這樣的大型模型,建議使用TB級的SSD存儲,以確??焖俚臄?shù)據(jù)訪問。Transformer開源框架和BERT開源模型大力推動多模態(tài)模型發(fā)展,開源多模態(tài)大模型漸成生態(tài)。多模態(tài)模型,也稱作跨模態(tài)模型,是指在模型的輸入域、輸出域涉及一種以上模態(tài)數(shù)據(jù)的人工智能模型,可廣泛應(yīng)用于文本和圖像的語義理解、圖像描述、視覺定位、對話問答、視覺問答、視頻的分類和識別、音頻的情感分析和語音識別等場景。不同于單一模態(tài),多模態(tài)學(xué)習(xí)旨在通過不同模態(tài)數(shù)據(jù)的有實(shí)現(xiàn)全面、準(zhǔn)確的決策。21世紀(jì)以來,深度學(xué)習(xí)技術(shù)的興起,尤其是Transformer開源框架和BERT開源模型顯著推動了多模態(tài)模型的快速發(fā)展,9極大地促進(jìn)了AI技術(shù)的跨領(lǐng)域融合,為人工智能生態(tài)注入新活力和新動力。目前主流的多模態(tài)大模型多以Transformer為基礎(chǔ),該框架通過自注意力機(jī)制(Self-AttentionMechanism)、多頭注意力(Multi-HeadAttention)等技術(shù)實(shí)現(xiàn)了對于全局信息的高效捕獲,顯著提高了模型的表達(dá)力。此外,BERT開源模型自2019年以來也逐漸被應(yīng)用至多模態(tài)領(lǐng)域,該模型通過預(yù)訓(xùn)練學(xué)習(xí)到的深層次語言表示,可作為多模態(tài)模型中文本模態(tài)數(shù)據(jù)的有力特征提取器,以幫助模型更好地理解和處理與圖像、視頻等其他模態(tài)相關(guān)的文本信息。同時,BERT的預(yù)訓(xùn)練和遷移學(xué)習(xí)方法也可應(yīng)用于多模態(tài)模型,以提高模型性能和適用性。在開源基礎(chǔ)架構(gòu)和模型技術(shù)的引領(lǐng)下,多模態(tài)模型領(lǐng)域也涌現(xiàn)出眾多開源項目,包括CLIP、DALL-E、專欄2經(jīng)典開源多模態(tài)大模型解析1.CLIP(ContrastiveLanguage-ImagePretraining)l模型簡介CLIP是OpenAI推出的一款多模態(tài)大模型,可理解和關(guān)聯(lián)圖像和文本,其核心思想在于通過對比學(xué)習(xí),將圖像和文本映射到同一個向量空間,從而使得模型可以處理圖像分類、圖像搜索、文本生成等任務(wù)。此外,CLIP可實(shí)現(xiàn)零樣本學(xué)習(xí),并可通過對比學(xué)習(xí),生成高效的圖像和文本表示,用于多種下游任務(wù)。/s/hc6iYl關(guān)鍵技術(shù)原理對比學(xué)習(xí):CLIP采用對比學(xué)習(xí)策略,同步訓(xùn)練圖像和文本編碼器,將具有相同語義內(nèi)容的圖像與文本映射到同一向量空間內(nèi),并通過增強(qiáng)正確圖像-文本配對之間的相似度并降低錯誤配對之間的相似度,實(shí)現(xiàn)了精準(zhǔn)的語義匹配。Transformer架構(gòu):CLIP的文本編碼器使用Transformer模型,圖像編碼器使用類似ResNet的卷積神經(jīng)網(wǎng)絡(luò),并最終通過線性變換將兩者的輸出映射至同一空間。l軟硬件依賴軟件依賴:CLIP基于PyTorch框架,兼容大多數(shù)深度學(xué)習(xí)庫和硬件依賴:CLIP需要GPU支持,尤其是在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練時,建議使用高性能GPU(如NVIDIAA100)。2.Flamingol模型簡介Flamingo是由DeepMind發(fā)布的多模態(tài)模型,能夠處理文本、圖像和視頻等多種模態(tài)的數(shù)據(jù)。該模型擅長多模態(tài)內(nèi)容的生成和推理,并具有強(qiáng)大的視頻處理能力。Transformer架構(gòu):Flamingo使用多層Transformer編碼器處理文本和圖像模態(tài),視頻處理則通過時序卷積或Transformer實(shí)現(xiàn)。多模態(tài)聯(lián)合學(xué)習(xí):Flamingo通過聯(lián)合訓(xùn)練不同模態(tài)的數(shù)據(jù),使其在不同模態(tài)之間共享表示,進(jìn)行跨模態(tài)推理。l軟硬件依賴軟件依賴:Flamingo基于TensorFlow或JAX框架,要求支持大規(guī)模并行計算。硬件依賴:Flamingo對GPU和TPU的依賴較大,特別是在視頻處理任務(wù)中。大模型賦能Agent能力增效,開源模式加速Agent創(chuàng)新應(yīng)用。Agent(智能體)是一種能夠感知環(huán)境、做出決策并采取行動的智能系統(tǒng),通常具備自主性、適應(yīng)性、交互性和學(xué)習(xí)能力四大特征,即能夠在無人類干預(yù)的情況下獨(dú)立完成任務(wù)、根據(jù)周圍環(huán)境和用戶反饋不斷調(diào)整自身行為、與其他智能體或人類進(jìn)行溝通和協(xié)作,同時還能通過持續(xù)學(xué)習(xí)提升自身性能。Agent的發(fā)展歷經(jīng)符號規(guī)則、統(tǒng)計學(xué)習(xí)、深度學(xué)習(xí)等階段,并隨著大模型技術(shù)的快速發(fā)展迎來了基于大模型的突破式解決方案,越來越多的研發(fā)人員開始采用大語言模型作為Agent的認(rèn)知核心,并借助多模態(tài)感知和多元工具應(yīng)用等方式來拓展其感知和行動空間。通過引入大語言模型深度學(xué)習(xí)新范式,思維鏈推理以及先進(jìn)的自然語言理解技術(shù)賦予了Agent強(qiáng)大的學(xué)習(xí)與知識遷移能力,使得開發(fā)廣泛適用且高效的Agent成為現(xiàn)實(shí),推進(jìn)人類不斷接近通用人工智能。10與其他人工智能領(lǐng)域技術(shù)相似,開源模式同樣在極大程度上促進(jìn)了Agent技術(shù)的創(chuàng)新發(fā)展和應(yīng)用觸達(dá),LangChain、TaskMatrix.AI、CogView、AutoGPT、OpenAssistant等開源Agent相關(guān)項目通過代碼、框架或工具的公開可獲取,有效降低了Agent技術(shù)的研究和應(yīng)用門檻,推動其發(fā)展和應(yīng)用。專欄3經(jīng)典開源Agent解析1.LangChainLangChain是一個用于構(gòu)建可編程Agent的開源框架,LangChain的架構(gòu)設(shè)計高度模塊化,開發(fā)者可以根據(jù)需求靈活選擇和組合不同組件。此外,LangChain還支持與多個開源語言模型的集成,使其成為開發(fā)大模型Agent的理想選擇。LangChain的核心在于將語言模型的生成能力與外部工具結(jié)合,以實(shí)現(xiàn)復(fù)雜任務(wù)的自動化。此外,LangChain開源項目十分活躍,有大量插件和擴(kuò)展可l關(guān)鍵技術(shù)原理語言模型與工具集成:LangChain通過結(jié)合大型語言模型(如GPT-3、BERT等)與外部工具(如搜索引擎、的多功能化。任務(wù)規(guī)劃與執(zhí)行:Agent能夠根據(jù)用戶輸入進(jìn)行任務(wù)規(guī)劃,調(diào)用適當(dāng)?shù)墓ぞ咄瓿扇蝿?wù)。l軟硬件依賴軟件依賴:LangChain基于Python,兼容大多數(shù)深度學(xué)習(xí)框架硬件依賴:LangChain對硬件要求不高,常用于輕量級任務(wù)的自動化執(zhí)行。2.TaskMatrix.AITaskMatrix.AI是由微軟亞洲研究院推出的一個多模態(tài)任務(wù)Agent,可通過自然語言指令執(zhí)行復(fù)雜的任務(wù),如網(wǎng)頁操作、數(shù)據(jù)處理等。該項目支持復(fù)雜任務(wù)執(zhí)行并支持多模態(tài)處理,同時針對中文語境進(jìn)行了優(yōu)化,適用于國內(nèi)的應(yīng)用場景。l關(guān)鍵技術(shù)原理多模態(tài)融合:TaskMatrix.AI將語言、圖像和操作指令結(jié)合起來,使得模型能夠在復(fù)雜的多模態(tài)環(huán)境中工作。強(qiáng)化學(xué)習(xí):TaskMatrix.AI通過強(qiáng)化學(xué)習(xí),可在多步任務(wù)中不斷優(yōu)化決策,提高任務(wù)執(zhí)行的效率和準(zhǔn)確性。l軟硬件依賴軟件依賴:TaskMatrix.AI基于微軟的深度學(xué)習(xí)框架,集成了多種API和工具。硬件依賴:TaskMatrix.AI需要較高性能的GPU支持,特別是在多模態(tài)任務(wù)中。大模型技術(shù)在給人類帶來生活方式轉(zhuǎn)變和生產(chǎn)方式革新的同時,也引入了安全、合規(guī)等多方面風(fēng)險挑戰(zhàn),并對人類社會的可持續(xù)發(fā)展一定程度上增加了風(fēng)險暴露的可能性和被惡意利用的概率,開源許可模式的應(yīng)用使得人工智能技術(shù)利用的合規(guī)風(fēng)險更加復(fù)雜,開源大模型的可得性還可能加劇人工智能技術(shù)的濫用風(fēng)險。安全層面,開源大模型應(yīng)用主要面臨傳統(tǒng)信息系統(tǒng)安全風(fēng)險以及算法缺陷所誘發(fā)的新型安全風(fēng)險。開源大模型信息系統(tǒng)安全性面臨多重復(fù)雜風(fēng)險。一是大模型開源招致更高入侵風(fēng)險。較之于閉源大模型,開源大模型代碼等信息公開可獲取,使得信息系統(tǒng)可能面臨更高入侵風(fēng)險,攻擊者可能利用漏洞未經(jīng)授權(quán)訪問大模型信息系統(tǒng),導(dǎo)致敏感數(shù)據(jù)泄露或被篡改、服務(wù)中斷、關(guān)鍵基礎(chǔ)設(shè)施受損等,影響個人、企業(yè)、社會甚至國家的安全。然而,閉源大模型信息系統(tǒng)所面臨安全風(fēng)險嚴(yán)重程度不亞于開源大模型,閉源大模型的保密性限制了外部審查,AI系統(tǒng)安全漏洞難以被及時發(fā)現(xiàn),并可能被廣泛應(yīng)用于企業(yè)各信息系統(tǒng)中,一旦漏洞暴露便增加了被攻擊者利用的風(fēng)險,從而可能導(dǎo)致更嚴(yán)重的安全事件。二是開源大模型系統(tǒng)安全問題處理面臨兼容性和社區(qū)支持等不確定因素。在大模型開源項目中,不同分支和分叉在功能特性和安全性能上的差異可能導(dǎo)致跨系統(tǒng)兼容性問題,從而顯著提升開源大模型系統(tǒng)集成和維護(hù)的復(fù)雜性。此外,開源項目的更新和漏洞修復(fù)高度依賴于開源社區(qū)參與者的積極貢獻(xiàn)。若項目維護(hù)活動不夠活躍,或者開源社區(qū)缺乏足夠的開發(fā)維護(hù)人員,開源大模型項目將在較長時間內(nèi)保持脆弱狀態(tài),存在嚴(yán)重安全隱患。三是開源大模型依賴復(fù)雜性加劇供應(yīng)鏈攻擊風(fēng)險。開源大模型的開發(fā)和部署通常依賴于大量第三方軟件包和依賴庫資源,依賴項中的安全問題將可能通過供應(yīng)鏈攻擊的方式迅速影響到整體信息系統(tǒng)。如國內(nèi)360、騰訊等企業(yè)安全團(tuán)隊曾多次發(fā)現(xiàn)TensorFlow、PyTorch等開源深度學(xué)習(xí)框架及其依賴庫的安全漏洞,攻擊者可利用相關(guān)漏洞造成任意代碼執(zhí)行、拒絕服務(wù)攻擊、信息泄露等危害。開源人工智能算法風(fēng)險問題顯著。一是開源大模型算法依然存在可解釋性問題。盡管開源大模型的代碼、參數(shù)和訓(xùn)練方法公開透明,但由于模型內(nèi)部多層次的非線性數(shù)據(jù)處理和海量參數(shù)的復(fù)雜交互,大模型的決策路徑和工作機(jī)制仍屬黑盒模式11,如此可能導(dǎo)致輸出結(jié)果難以預(yù)測和確切歸因,如有異常難以快速修正和溯源追責(zé)。二是開源大模型算法魯棒性弱。魯棒性是指大模型技術(shù)在面對復(fù)雜的數(shù)據(jù)環(huán)境時,保持性能穩(wěn)定和輸出結(jié)果準(zhǔn)確的能力。較之于閉源大模型,開源大模型的應(yīng)用環(huán)境更加的多元和復(fù)雜,同時開源大模型通常為通用性模型,因此在復(fù)雜場景下或特定用例中,開源大模型可能表現(xiàn)出輸出內(nèi)容不準(zhǔn)確、做出錯誤判斷或行為、服務(wù)中斷或性能下降等問題。根據(jù)FlagEval大模型評測平臺測評結(jié)果,在內(nèi)容擾動魯棒https://zhuanlan.zh性評測和格式擾動魯棒性評測中,開源大模型LLaMA-2-7B的擾動后總平均準(zhǔn)確率不到40%。三是大模型算法開源易引發(fā)對抗性攻擊和反向工程。攻擊者可通過獲取、研究公開算法,設(shè)計輸入數(shù)據(jù)以誤導(dǎo)模型算法對于依賴模型進(jìn)行關(guān)鍵決策系統(tǒng)而言,如身份驗證系統(tǒng)、欺詐檢測系統(tǒng)、自動駕駛汽車的感知系統(tǒng)等,對抗性攻擊尤其危險。同時,若攻擊者通過注入惡意數(shù)據(jù)以影響模型的訓(xùn)練過程,將導(dǎo)致生成存在偏見或不可信結(jié)果的模型。相較于閉源大模型對攻擊者的黑盒輸出,基于開源大模型的應(yīng)用極易繼承白盒對抗性攻擊的安全漏洞,從而引發(fā)嚴(yán)重的安全風(fēng)險。此外,開源大模型的公開性也使得攻擊者更易通過分析或復(fù)制模型算法來盜用知識或進(jìn)行模型復(fù)制。四是開源大模型算法仍然可能存在價值觀和意識形態(tài)風(fēng)險。一方面,人工智能大模型訓(xùn)練基于大量數(shù)據(jù),然而數(shù)據(jù)的標(biāo)注人員文化背景差異巨大,并可能從認(rèn)知和感知層面無意識地將主觀偏好和隱性偏過程中會基于經(jīng)驗和主觀判斷進(jìn)行參數(shù)選擇,并致力于目標(biāo)函數(shù)的最優(yōu)化以提升對主流趨勢的預(yù)測精度,而將少數(shù)群體數(shù)據(jù)視為異常值或噪聲,可能最終導(dǎo)致該部分群體受到算法的不公平對待12。此外,當(dāng)前人工智能算法不足以獨(dú)立識別和抵制偏見數(shù)據(jù),因此在與外部環(huán)境的互動過程中,用戶輸入的偏見可能會通過人工智能系統(tǒng)自我加強(qiáng)的反饋循環(huán)被不斷復(fù)制和放大,進(jìn)而加劇現(xiàn)有的社會歧視13。根據(jù)聯(lián)合國教科文組織《大型語言模型中對婦女和女童的偏見》報告分析,開源大模型仍然是性別偏見的重災(zāi)區(qū),如在LLaMA2生成的內(nèi)容中,女性從事家務(wù)勞動的頻率是男性的4倍。另一方面,境外開源大模型與國內(nèi)環(huán)境和內(nèi)容安全要求并不完全符合,即使經(jīng)過再訓(xùn)練仍然無法完全去除其原生數(shù)據(jù)價值傾向,這類模型可能更容易生成違背社會主義核心價值觀、危害國家安全和利益、損害國家形象,宣揚(yáng)恐怖主義、極端主義,宣揚(yáng)民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規(guī)禁止的內(nèi)容。合規(guī)層面,開源大模型應(yīng)用面臨多重監(jiān)管要求和法律規(guī)制,本文主要圍繞開源許可、訓(xùn)練數(shù)據(jù)以及大模型生成物三大業(yè)界關(guān)注重點(diǎn)議題解析開源大模型合規(guī)風(fēng)險。大模型開源許可協(xié)議種類繁多,許可協(xié)議本身潛藏諸多風(fēng)險。開源許可協(xié)議可謂開源大模型應(yīng)用、發(fā)展的法律基石。目前全球最大開源大模型托管平臺HuggingFace上匯聚超百萬開源大模型項目,涉及七十余個開源許可協(xié)議,可大致分為三類:通用型開源軟知識共享許可協(xié)議、新型人工智能許可協(xié)議。1)寬松型開源軟件許可協(xié)議如Apache-2.0、MIT等在開源大模型項目中適用熱度最高,該類許可協(xié)議僅為被許可方設(shè)定較低限度義務(wù)限制,因此廣受商業(yè)公司歡迎。但該類許可協(xié)議的許可對象一般為軟件產(chǎn)品(或源代碼和二進(jìn)制代碼)及相關(guān)文件,對于開源大模型項目中的部分元素,如模型參數(shù)、訓(xùn)練數(shù)據(jù)集等可能難以完全覆蓋,因此使用該類開源許可協(xié)議下的開源大模型項目可能存在一定風(fēng)險問題。2)知識共享系列許可協(xié)議僅包含版權(quán)許可,但當(dāng)前人工智能領(lǐng)域?qū)@麛?shù)量激增,開源大模型項目涉及專利方案可能性較大,因此應(yīng)用知識共享許可協(xié)議下的開源大模型或潛藏較高專利風(fēng)險。3)新型人工智能許可協(xié)議主要包括RAIL(ResponsibleAIPubsLicenses)系列許可協(xié)議及Meta的LLAMA2、StabilityAI等許可協(xié)議,此類許可協(xié)議多超出了OSI的經(jīng)典開源定義范疇,增加了使用范圍、規(guī)模、用戶類型等方面的限制。同時,該類許可協(xié)議在一定程度上代表著協(xié)議制定方或模型發(fā)布方的立場或價值觀,部分條款在不同社會條件和文化背景下解釋和適用可能略有差異。1以2以3456以DeepSeek-7實(shí)驗室/8實(shí)驗室/9meta-meta-70B-Instructmistralai/Mixtral-8x22B-GemmaTermsofUseGemmaTermsofUseblelm-2-12b-議pt2nlp/Sheared-e開源大模型許可協(xié)議條款復(fù)雜,適用面臨多層限制。首先,開源許可協(xié)議可謂使用者使用、修改、分發(fā)開源大模型項目的權(quán)利來源,一旦使用者違反開源軟件許可協(xié)議相關(guān)規(guī)定,該授權(quán)即告終止,后續(xù)任何基于該開源大模型項目的利用行為都可能構(gòu)成侵權(quán),因此使用者基于開源大模型項目進(jìn)行復(fù)制、修改、運(yùn)行、分發(fā)等操作的合規(guī)前提在于忠實(shí)遵循開源許可協(xié)議的規(guī)定,包括遵循歸屬要求及再分發(fā)要求人往往難以負(fù)擔(dān),因此當(dāng)前開源大模型的發(fā)布方多為商業(yè)公司。該類公司出于商業(yè)考量或社會責(zé)任,可能在開源許可協(xié)議中添加部分特殊條款,如LLaMA3.1和通義千問2明確活躍用戶達(dá)到閾值需另行申請商業(yè)許可、LLaMA2許可協(xié)議包含用于訓(xùn)練其他大模型的限制、LLaMA3.1明確了衍生大模型命名的限制、RAIL系列及LLaMA3.1包含使用場景的限制等。再次,同一大模型項目可能源組件,若不同開源組件存在開源許可協(xié)議兼容性問題,將最終導(dǎo)致使用者無法同時滿足所有開源許可協(xié)議的義務(wù)要求,因而引發(fā)合規(guī)問題。最后,不同國家或地區(qū)對于開源許可協(xié)議條款的法律解釋和執(zhí)行方式也可能存在差異。目前,我國在“羅盒訴風(fēng)靈案”中突破性地認(rèn)可GPL-3.0開源許可協(xié)議具有合同性質(zhì),并將其作為判斷侵權(quán)行為的邏輯起點(diǎn),體現(xiàn)了開源社群規(guī)范對法律規(guī)范的影響力。14因此,使用者除了應(yīng)當(dāng)遵守開源許可協(xié)議本身的要求外,還需確保其使用符合所在國家或地區(qū)的相關(guān)法律規(guī)定和要求。同時,許可協(xié)議條款也可能會隨時間變化,進(jìn)而使用者應(yīng)持續(xù)跟蹤開源許可協(xié)議的變動情況并更新對應(yīng)的使用策略。大模型的訓(xùn)練和優(yōu)化涉及大量數(shù)據(jù),開閉源大模型訓(xùn)練數(shù)據(jù)合規(guī)風(fēng)險存在眾多相似之處。一是數(shù)據(jù)來源合法性問題。開閉源大模型訓(xùn)其他模型輸入的數(shù)據(jù)等。無論通過何種途徑獲取,需首先確保訓(xùn)練數(shù)據(jù)來源合法。1)對于開放數(shù)據(jù)集而言,使用開放數(shù)據(jù)集不僅需遵循其開源許可協(xié)議義務(wù)要求,還需考察其許可協(xié)議的傳染性和兼容性,避免導(dǎo)致模型中的其他元素被迫開源或許可協(xié)議難以履行。同時開放數(shù)據(jù)集中還可能包含侵權(quán)數(shù)據(jù),不加甄別的使用將可能招引法律風(fēng)險,如曾用于LLaMA等開源大模型訓(xùn)練的開放數(shù)據(jù)集Books3中包含大量未授權(quán)書籍,在部分國家訓(xùn)練和應(yīng)用可能引發(fā)侵權(quán)糾紛。2)自采數(shù)據(jù)多通過爬蟲等技術(shù)抓取互聯(lián)網(wǎng)數(shù)據(jù),若不加以人工干預(yù),相關(guān)爬蟲技術(shù)可能違反網(wǎng)絡(luò)爬蟲排除協(xié)議(robot協(xié)議)等聲明文件要求,繞過目標(biāo)網(wǎng)站的防護(hù)措施爬取數(shù)據(jù),進(jìn)而導(dǎo)致知識產(chǎn)權(quán)侵權(quán)、不正當(dāng)競爭等法律問題,情節(jié)嚴(yán)重者還可能觸犯刑法。3)商采數(shù)據(jù)需謹(jǐn)慎關(guān)注數(shù)據(jù)來源合法性以及數(shù)據(jù)可交易性,以避免發(fā)生合規(guī)風(fēng)險。4)應(yīng)用使用者輸入數(shù)據(jù)應(yīng)先通過用戶協(xié)議等方式獲取使用者授權(quán),否則將可能導(dǎo)致對于使用者知識產(chǎn)權(quán)、商業(yè)秘密以及個人隱私的侵犯。5)使用其他模型輸入的數(shù)據(jù)需遵循相關(guān)模型的許可要求,如LLaMA2許可協(xié)議明確禁止利用生成數(shù)據(jù)訓(xùn)練其他大模型,違反相關(guān)協(xié)議規(guī)定將可能導(dǎo)致著作權(quán)侵權(quán)。二是數(shù)據(jù)及隱私風(fēng)險。若訓(xùn)練數(shù)據(jù)中包含個人敏感數(shù)據(jù),未得合法授權(quán)或未經(jīng)適當(dāng)處理、管控,將可能違反數(shù)據(jù)隱私等法律法規(guī)的要求。三是數(shù)據(jù)偏見和歧視風(fēng)險。訓(xùn)練數(shù)據(jù)本身或在收集、處理的過程中可能存在無法準(zhǔn)確反映現(xiàn)實(shí)或含有系統(tǒng)性偏見的問題,進(jìn)而導(dǎo)致人工智能輸出結(jié)果存在歧視和偏見,加劇社會不公,帶來法律及倫理上的風(fēng)險。知識產(chǎn)權(quán)侵權(quán)風(fēng)險問題是開閉源大模型的共同隱憂。生成物在數(shù)據(jù)輸入和內(nèi)容輸出階段都可能涉及著作權(quán)侵權(quán)問題。在數(shù)據(jù)輸入階段,機(jī)器學(xué)習(xí)需將原始數(shù)據(jù)轉(zhuǎn)碼為結(jié)構(gòu)化數(shù)據(jù),該過程涉及對原有數(shù)據(jù)內(nèi)容的調(diào)整,包括格式轉(zhuǎn)換、整理刪除和匯總等,可能構(gòu)成對著作權(quán)人翻譯權(quán)、改編權(quán)和匯編權(quán)的侵犯。15內(nèi)容輸出階段主要涉及三方面侵權(quán)風(fēng)險:一是復(fù)制權(quán)侵權(quán),即生成內(nèi)容若與受版權(quán)保護(hù)的作品在基本表達(dá)上相同或相似且未經(jīng)授權(quán),可能構(gòu)成侵權(quán);二是改編權(quán)侵權(quán),生成物在保留原作品表達(dá)的同時產(chǎn)生了實(shí)質(zhì)性差異,可能觸及改編權(quán)的邊界;三是信息網(wǎng)絡(luò)傳播權(quán)侵權(quán),若生成物被上傳或傳播于互聯(lián)網(wǎng),將可能侵犯著作權(quán)人的信息網(wǎng)絡(luò)傳播權(quán)。16此外,大模型生成物還可能涉及商標(biāo)侵權(quán)和專利侵權(quán)問題。生成物中包含的圖像、文字或標(biāo)志與他人商標(biāo)相似或相同,會構(gòu)成商標(biāo)侵權(quán)。同時,若人工智能生成的創(chuàng)新設(shè)計、技術(shù)方案或產(chǎn)品形態(tài)已被他人申請了專利,未經(jīng)許可擅自實(shí)施將可能會構(gòu)成專利侵權(quán)。大模型生成物還可能構(gòu)成人格權(quán)侵權(quán)乃至刑事犯罪。若大模型生成物未經(jīng)授權(quán)使用了他人特定形象、聲音或其他個人特征,或擅自使用自然人的形象來創(chuàng)設(shè)虛擬人物,可能侵犯該人物的肖像權(quán)、姓名權(quán)或隱私權(quán)等人格權(quán)利。如知名影星ScarlettJohansson對OpenAI提出指控,控訴OpenAI語音助手人工智能產(chǎn)品未經(jīng)授權(quán)模仿其聲音。此外,人工智能生成物若包含貶損、侮辱或誹謗他人的信息,將可能構(gòu)成名譽(yù)權(quán)侵權(quán),情節(jié)嚴(yán)重者將可能構(gòu)成刑事犯罪。開源大模型生成物侵權(quán)法律責(zé)任歸屬不明風(fēng)險突出。閉源大模型的所有權(quán)和使用權(quán)較為明確,且通常配有完善的生成物歸屬和侵權(quán)歸責(zé)協(xié)議,以確保相關(guān)風(fēng)險發(fā)生時,可快速識別責(zé)任主體。因此,用戶在使用閉源大模型服務(wù)時,對于生成物致?lián)p或侵權(quán)的責(zé)任歸屬,具有較高預(yù)見性。如微軟創(chuàng)立了版權(quán)承諾保護(hù)機(jī)制,承諾為使用其生成式人工智能編碼工具Copilot的用戶面臨的侵權(quán)索賠進(jìn)行賠償。而開源大模型的貢獻(xiàn)方數(shù)量眾多,此外,開源大模型通常未明確開源大模型生成物侵權(quán)責(zé)任承擔(dān)方,因此相關(guān)風(fēng)險發(fā)生時,可能面臨責(zé)任歸屬不開源模式大大降低了人工智能技術(shù)的使用門檻,但另一方面,可得性的增加將可能加劇大模型的不當(dāng)使用風(fēng)險,進(jìn)而對個人以及社會的可持續(xù)發(fā)展造成影響。開源大模型不當(dāng)應(yīng)用或加深信息繭房、固化認(rèn)知偏見。早在20世紀(jì)初,美國學(xué)者凱斯·桑斯坦便基于對互聯(lián)網(wǎng)信息傳播的考察提出“信息繭房”概念。隨著人工智能的到來,與閉源大模型功能原理相似,開源大模型也可通過與用戶的交互對話,分析預(yù)測用戶的價值觀和認(rèn)知偏好,并基于該分析結(jié)果輸出與用戶價值理念相似的信息和答過度依賴大模型提供的信息,將導(dǎo)致用戶無法獲取在訓(xùn)練數(shù)據(jù)集中代表性不足的“小眾”觀點(diǎn)或信息,從而限制個體在多元信息環(huán)境中形成全面認(rèn)知。開源大模型過度應(yīng)用或?qū)е履芰ν嘶⒆璧K個人發(fā)展。開源模式降低了人工智能應(yīng)用的技術(shù)門檻,但若長期應(yīng)用和過度依賴則可能減少用戶學(xué)習(xí)和鍛煉專業(yè)技能的機(jī)會,導(dǎo)致用戶應(yīng)對困難與挑戰(zhàn)的自主思考和創(chuàng)新能力下降,被動接受模型提供的解決方案還將造成用戶信息篩選能力以及決策判斷能力的退化。美國智庫布魯金斯學(xué)會刊文指出,GPS導(dǎo)航和智能手機(jī)讓人類更容易遺忘地址和電話號碼,ChatGPT也將可能導(dǎo)致人類記憶和批判能力的下降。同時,對于人工智能技術(shù)及服務(wù)的過度應(yīng)用還可能逐漸改變?nèi)祟惖慕涣鞣绞胶颓楦畜w驗,導(dǎo)致社交技能的退化、情感體驗的漠化以及語言表達(dá)的鈍化。開源大模型惡意利用或促進(jìn)黑客攻擊民主化。開源加速人工智能技術(shù)應(yīng)用落地,使得萬千行業(yè)因此受益,但也給了不法分子更多可乘之機(jī)。目前,人工智能濫用案例時有發(fā)生,開源模式更是進(jìn)一步降低人工智能技術(shù)惡意應(yīng)用門檻,甚至利用有害語料庫對開源大模型加以訓(xùn)練,專門用于網(wǎng)絡(luò)犯罪、詐騙等非法行為非法大模型也數(shù)見不鮮。如基于開源語言大模型構(gòu)建,并去除安全和道德限制的非法大模型FraudGPT支持自動化編寫欺騙性短信、釣魚郵件和釣魚網(wǎng)站代碼,并提供高質(zhì)量詐騙模板和黑客技術(shù)學(xué)習(xí)資源,使得人工智能技術(shù)武器化和民主化,據(jù)悉,F(xiàn)raudGPT的用戶數(shù)在短短數(shù)月內(nèi)便超過了先進(jìn)的國家網(wǎng)絡(luò)戰(zhàn)部隊黑客數(shù)量。17為避免人工智能技術(shù)發(fā)展陷入科林格里奇困境18,平衡風(fēng)險治理和創(chuàng)新引導(dǎo),聯(lián)合國等國際組織以及各國家政府紛紛出臺相關(guān)政策或相關(guān)組織皆對開源大模型生態(tài)構(gòu)建及創(chuàng)新發(fā)展給予高度重視。此外,18注:科林格里奇困境(Collingridge'sDilemma)是英國技術(shù)哲學(xué)家大衛(wèi)·之,如果控制過晚,已經(jīng)成為整個經(jīng)濟(jì)和社會結(jié)構(gòu)的一部分,就可能走向失控,再來在風(fēng)險治理方面,國際組織及國家政府也開始探索人工智能監(jiān)管措施,除有例外規(guī)定外,開源大模型作為人工智能子類,同等適用人工智能相關(guān)規(guī)制規(guī)則。然而,《歐盟人工智能法案》等法律法規(guī)已從開源特殊性角度出發(fā),明確了開源大模型的差異化監(jiān)管規(guī)則,未來針對開源大模型的精細(xì)化、包容性監(jiān)管或成為趨勢。(一)國際組織高度重視開源大模型發(fā)展,積極探索全球聯(lián)合國政策助力凝聚開源大模型發(fā)展共識。2020年6月,聯(lián)合國秘書長安東尼斯·古特雷斯發(fā)布《數(shù)字合作路線圖:執(zhí)行數(shù)字合作高級別小組的建議》,明確了開放共享人工智能模型不僅可有效減少能源和人力資源的重復(fù)消耗,還能促進(jìn)優(yōu)質(zhì)教育的發(fā)展、加深人類對于地球系統(tǒng)及其他生態(tài)系統(tǒng)的了解,并提出為提升互聯(lián)網(wǎng)連接的優(yōu)勢,各行為主體都須推廣開放人工智能模型。此外,2023年底,聯(lián)合國人工智能高級別顧問委員會發(fā)布《以人為本的人工智能治理》臨時報告也強(qiáng)調(diào)開源數(shù)據(jù)和模型共享是利用人工智能造福人類的重要因素。人工智能風(fēng)險問題成全球關(guān)注焦點(diǎn)。一是聯(lián)合國強(qiáng)調(diào)提升人工智能治理國際協(xié)同性。聯(lián)合國在統(tǒng)一全球人工智能治理共識、提升人工智能治理措施跨國互操作性、消弭全球數(shù)字鴻溝等方面發(fā)揮著不可替代的作用。如在聯(lián)合國教科文組織的倡導(dǎo)下,聯(lián)合國193個會員國一致通過首個人工智能倫理全球協(xié)議——《人工智能倫理問題建議書》。該建議書結(jié)合人工智能系統(tǒng)全生命周期倫理影響和各會員國發(fā)展差異,確立了人工智能發(fā)展的價值觀、原則和行動指南。此外,2024年9月,聯(lián)合國人工智能高級別顧問委員會發(fā)布《以人為本的人工智能包括通過成立國際人工智能科學(xué)小組、開展人工智能治理政策對話及標(biāo)準(zhǔn)交換等方式建立共同理解、構(gòu)建協(xié)同性治理方法,以應(yīng)對人工智能在全球范圍內(nèi)帶來的挑戰(zhàn)和機(jī)遇。促進(jìn)國際社會穩(wěn)定和公平發(fā)展。二是區(qū)域間國家組織探索人工智能治理方向。北約積極回應(yīng)近年來人工智能領(lǐng)域的快速發(fā)展。北約于2024年7月10日更新其《智能戰(zhàn)略》,戰(zhàn)略明確了四大優(yōu)先發(fā)展領(lǐng)域,包括制定和執(zhí)行符合國際法規(guī)及標(biāo)準(zhǔn)的倫理準(zhǔn)則、建立覆蓋北約成員國的統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和數(shù)據(jù)交換協(xié)議、促進(jìn)人工智能與量子計算等信息技術(shù)的融合發(fā)展、構(gòu)建多元化AI生態(tài)系統(tǒng)。經(jīng)合組織呼吁構(gòu)建負(fù)責(zé)任人工智能系統(tǒng)。經(jīng)濟(jì)合作與發(fā)展組織于2019年5月通過全球首個人工智能主題政府間標(biāo)準(zhǔn),并于2024年5月進(jìn)行了修訂。該修訂版以創(chuàng)新、可信和人權(quán)為主線,呼吁構(gòu)建負(fù)責(zé)任的人工智能系統(tǒng),包括增強(qiáng)人工智能系統(tǒng)的透明度和可解釋性等,并建議在國家政策和國際合作中重點(diǎn)關(guān)注中小企業(yè)的人工智能發(fā)展環(huán)境。發(fā)展中國家關(guān)注人工智能技術(shù)的可及性。2023年9月,77國集團(tuán)和中國發(fā)布《關(guān)于“當(dāng)前發(fā)展挑戰(zhàn):科學(xué)、技術(shù)和創(chuàng)新的作用”的哈瓦那宣言》,呼吁發(fā)展開放科學(xué),并為發(fā)展中國家提供可負(fù)擔(dān)的可靠連接,確保人工智能可被可靠、公平的開發(fā)、接入和使用。(二)歐盟立法謀求人工智能監(jiān)管主導(dǎo)權(quán),開源大模型得歐盟建立全球首部人工智能監(jiān)管立法,平衡AI風(fēng)險治理和開源上第一部人工智能領(lǐng)域的綜合性立法由此誕生。該法案以預(yù)防人工智能危害為主要原則,覆蓋了人工智能產(chǎn)業(yè)全生命周期,并且根據(jù)人工智能系統(tǒng)的風(fēng)險等級設(shè)立了不同的監(jiān)管要求,同時采取監(jiān)管沙盒等創(chuàng)新性、適應(yīng)性監(jiān)管措施,以平衡風(fēng)險監(jiān)管和技術(shù)發(fā)展。此外,《歐盟人工智能法案》還給予開源大模型更多包容,明確了在非高風(fēng)險環(huán)境中免費(fèi)或用于科學(xué)研究和開發(fā)目的而投入使用的開源AI系統(tǒng)可豁免部分合規(guī)義務(wù)。19同時,該法案對于開源大模型的定義門檻較低,在要求注明來源并遵循類似分發(fā)條款的前提下開放共享模型代碼及相關(guān)數(shù)據(jù)即可被視為開源。該系列規(guī)定也為開源大模型的繁榮發(fā)展?fàn)I造了良好的政策環(huán)境。歐盟產(chǎn)品責(zé)任法案與時俱進(jìn),充分考慮開源特殊性。為適應(yīng)數(shù)字時代的發(fā)展,歐盟委員會修訂了《產(chǎn)品責(zé)任指令》,該法案擴(kuò)大了產(chǎn)品的定義范圍,明確將人工智能系統(tǒng)包含在內(nèi),同時新指令簡化了索賠者的舉證責(zé)任,允許索賠者基于產(chǎn)品缺陷而非過錯來追究產(chǎn)品提供同時,該法案明確將在商業(yè)活動的過程之外開發(fā)或提供的免費(fèi)且開源的軟件排除在產(chǎn)品責(zé)任的適用范圍之外,因為該類產(chǎn)品并未投放至市場,以最大程度保護(hù)開源創(chuàng)新與研究。(三)美國人工智能監(jiān)管增強(qiáng)化趨勢明顯,國防領(lǐng)域率先美國人工智能監(jiān)管日趨呈漸進(jìn)化、增強(qiáng)化趨勢。早期,奧巴馬政等文件回應(yīng)人工智能引發(fā)的倫理、安全以及數(shù)據(jù)隱私等挑戰(zhàn),而未將人工智能作為獨(dú)立監(jiān)管領(lǐng)域。2019年,特朗普政府簽發(fā)行政令《保持美國在人工智能領(lǐng)域的領(lǐng)導(dǎo)地位》,以確保美國在AI研發(fā)及相關(guān)領(lǐng)域主要依靠區(qū)域性監(jiān)管和行業(yè)自律等方式開展人工智能治理工作布局。202023年10月,拜登政府簽署行政令《安全、可靠和可信開發(fā)和使用人工智能》,人工智能治理關(guān)注焦點(diǎn)從偏見隱私、研發(fā)創(chuàng)新轉(zhuǎn)向更年立法會議上,包括波多黎各、維爾京群島和華盛頓特區(qū)在內(nèi)的多個地方政府提出人工智能立法法案,并有31個地方政府通過相關(guān)決議或立法。如2024年8月,加利福尼亞州通過了《前沿人工智能模型安全與創(chuàng)新法案》,該法案為開發(fā)者設(shè)立了一系列創(chuàng)新性的安全要求和義務(wù),旨在維護(hù)前沿人工智能模型開發(fā)和使用過程中的公共安全。美國國防考量開源大模型潛在影響。美國國防部正在積極推動人工智能技術(shù)的廣泛應(yīng)用,并通過商業(yè)創(chuàng)新以推進(jìn)其人工智能戰(zhàn)略,但在該過程中,開源大模型的創(chuàng)新潛能和濫用風(fēng)險成為美國國防工業(yè)是否應(yīng)用開源大模型的重要分歧點(diǎn)。目前,在針對開源大模型風(fēng)險及治理的廣泛討論中缺乏國防安全層面的考量,因此,未來美國國防部將對開源大模型的影響進(jìn)行量化評估,包括開閉源大模型用例對比以及開源大模型的應(yīng)用數(shù)據(jù)等。中國人工智能監(jiān)管規(guī)則框架逐漸確立,開源大模型同等適用。人工智能發(fā)展早期,我國便高度強(qiáng)調(diào)開源開放發(fā)展原則,布局人工智能發(fā)展格局。2017年,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確倡導(dǎo)開源共享理念,促進(jìn)創(chuàng)新資源在全球范圍內(nèi)的優(yōu)化配置。隨著人工智能技術(shù)的快速發(fā)展,2020年,國家標(biāo)準(zhǔn)化管理委員會等五部門聯(lián)合印發(fā)《國家新一代人工智能標(biāo)準(zhǔn)體系建設(shè)指南》,提出人工智能標(biāo)準(zhǔn)體系的八大維度,并明確重點(diǎn)開展開源框架安全標(biāo)準(zhǔn)研制,通過標(biāo)準(zhǔn)指導(dǎo)確立了人工智能技術(shù)的規(guī)制方向。同期,《個人信息保護(hù)法》、《數(shù)據(jù)安全法》等法律法規(guī)相繼發(fā)布,為人工智能應(yīng)用中的數(shù)據(jù)保護(hù)等重點(diǎn)風(fēng)險提供防治方向。近期,大模型數(shù)量實(shí)現(xiàn)爆發(fā)式增長,人工智能應(yīng)用風(fēng)險逐漸暴露,中國開始聚焦人工智能確立相關(guān)監(jiān)管規(guī)則。如《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》建立了事前事中事后的算法推薦服務(wù)監(jiān)管措施,《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》明確了深度合成服務(wù)的監(jiān)督管理職責(zé)、服務(wù)提供者的責(zé)任等內(nèi)容,《生成式人工智能服務(wù)管理暫行辦法》明確提出對生成式人工智能服務(wù)實(shí)行包容審慎和分類分級監(jiān)管原則。上述法律法規(guī)屬于人工智能領(lǐng)域的一般性因此開源大模型應(yīng)當(dāng)同等適用。各地方政府高度支持開源大模型發(fā)展,立法草案充分體現(xiàn)開源創(chuàng)新保護(hù)。自2022年底至今,各地方政府陸續(xù)出臺開源與大模型、開源與相關(guān)軟硬件、開源與算法、開源與訓(xùn)練數(shù)據(jù)等開源與人工智能相關(guān)的規(guī)范文件,以鼓勵、加強(qiáng)、完善開源人工智能生態(tài)構(gòu)建,促進(jìn)開源與人工智能的協(xié)同發(fā)展。此外,2024年5月10日,國務(wù)院公布2024年度立法工作計劃,明確“預(yù)備提請全國人大常委會審議人工智能法草案”,我國開創(chuàng)性人工智能領(lǐng)域綜合性立法也將正式開啟。目前,業(yè)界專家學(xué)者已匯聚共識,起草了《中華人民共和國人工智能法了關(guān)鍵人工智能監(jiān)管和特殊應(yīng)用領(lǐng)域人工智能監(jiān)管,后者則引入人工智能管理負(fù)面清單制度。此外,兩個版本的立法草案都高度重視開源大模型的發(fā)展和治理,鼓勵促進(jìn)開源生態(tài)建設(shè),并明確了開源大模型提供者的責(zé)任減免規(guī)則。表5地方政府開源人工智能相關(guān)規(guī)范《廣東省新一廣3.加強(qiáng)人工智能操作系統(tǒng)代人工智能創(chuàng)東學(xué)技術(shù)廳,新發(fā)展行動計省廣東省工劃(2022-2025業(yè)和信息有自主知識產(chǎn)權(quán)的通用人端人工智能操作系統(tǒng)和開實(shí)人工智能發(fā)展的軟件基訓(xùn)練和終端執(zhí)行的開發(fā)框放技術(shù)網(wǎng)絡(luò)和開源社區(qū)建決策等人工智能基礎(chǔ)解決智能應(yīng)用領(lǐng)域構(gòu)建基于開源開放技術(shù)的公共數(shù)據(jù)資服務(wù)平臺等各類通用開源克無人系統(tǒng)核心智能芯片業(yè)鏈上下游企業(yè)開放核心新型傳感器數(shù)據(jù)集開源共業(yè)共性平臺技術(shù)和醫(yī)療共享資源庫,推動上下游企推動醫(yī)療數(shù)據(jù)資源和平臺持人工智能優(yōu)勢企業(yè)和科研院所建設(shè)面向行業(yè)共性自主核心軟硬件開源開放源開放與保護(hù)政策體系和進(jìn)重點(diǎn)領(lǐng)域數(shù)據(jù)信息依法動人工智能龍頭企業(yè)基于傳感器等自主核心軟硬件業(yè)聯(lián)盟聯(lián)合研發(fā)基于國產(chǎn)自主建設(shè)技術(shù)開源和開放立人工智能安全性測試模同,建設(shè)綜合測試驗證環(huán)工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)建設(shè)南京自主可控人工智能計算中練平臺,在科研大模型研試的過程中為人工智能企企業(yè)建設(shè)線上數(shù)據(jù)集交易逐步形成高質(zhì)量的行業(yè)公開發(fā)者社區(qū),匯聚海量算《北京市通用人工智能產(chǎn)業(yè)北京北京市經(jīng)化局,北京術(shù)委員會,(七)培育軟件開發(fā)新范加強(qiáng)工業(yè)軟件與大模型融模型+互聯(lián)網(wǎng)新軟件新服《北京市加快建設(shè)具有全球影響力的人工智能創(chuàng)新策源年)》京政發(fā)〔2023〕14號北京2.引領(lǐng)人工智能關(guān)鍵核心點(diǎn)突破分布式高效深度學(xué)超大規(guī)模模擬計算等基礎(chǔ)效低成本訓(xùn)練與推理等關(guān)5.加強(qiáng)自主開源深度學(xué)習(xí)升深度學(xué)習(xí)框架在超大規(guī)模模型訓(xùn)練和多端多平臺推理部署等方面的核心能與人工智能芯片開展廣泛智能國產(chǎn)軟硬件技術(shù)的深8.構(gòu)建高效協(xié)同的大模型構(gòu)建完整大模型技術(shù)創(chuàng)新工智能開放生態(tài)技術(shù)創(chuàng)新國產(chǎn)軟硬件的人工智能訓(xùn)逐步形成自主可控的人工《北京市促進(jìn)通用人工智能創(chuàng)新發(fā)展的若研究大模型高效并行訓(xùn)練技術(shù)和認(rèn)知推理、指令學(xué)推理的高效壓縮和端側(cè)部《深圳市加快推動人工智能高質(zhì)量發(fā)展高水平應(yīng)用行動深圳辦公廳,深政府辦公廳器人、智能網(wǎng)聯(lián)汽車等領(lǐng)造基于國內(nèi)外芯片和算法點(diǎn)企業(yè)持續(xù)研發(fā)和迭代商具身智能機(jī)器人的研發(fā)和廣東省人形機(jī)器人制造業(yè)《杭州市人民政府辦公廳關(guān)于加快推進(jìn)人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展的實(shí)施〔2023〕55號杭州新生態(tài)。推進(jìn)MaaS新模態(tài)通用大模型關(guān)鍵技術(shù)攻術(shù)和算法開源開放,形成賦能產(chǎn)業(yè)生態(tài)。展多模態(tài)通用大模型研發(fā)并向中小企業(yè)開放模型應(yīng)權(quán)威第三方評測機(jī)構(gòu)評測性能達(dá)到國內(nèi)領(lǐng)先的通用杭成功落地的優(yōu)秀專用模型,按照不超過研發(fā)成本30%的標(biāo)準(zhǔn)給予牽頭研發(fā)高校院所和第三方機(jī)構(gòu)圍繞模型開發(fā)搭建開源開放),數(shù)據(jù)、應(yīng)用協(xié)同的產(chǎn)業(yè)生《促進(jìn)人工智能創(chuàng)新發(fā)展政寧夏寧夏回族研究大模型高效并行訓(xùn)練技術(shù)和認(rèn)知推理、指令學(xué)推理的高效壓縮技術(shù)和端給予不超過項目總研發(fā)投放及檢驗檢測的創(chuàng)新服務(wù)平臺,參考平臺軟硬件投綜合貢獻(xiàn)度較高的開放平《武漢市人民政府辦公廳關(guān)于印發(fā)武漢建設(shè)國家人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)實(shí)施方案號武漢動頭部企業(yè)聯(lián)合多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟組建創(chuàng)新型創(chuàng)新算法開發(fā)與開源開“紫東太初”多模態(tài)大模型訓(xùn)練模型架構(gòu)設(shè)計與優(yōu)化模態(tài)大模型通用人工智能企業(yè)在漢布局垂直領(lǐng)域模具有影響力的垂直行業(yè)模直行業(yè)模型解決方案服務(wù)《上海市促進(jìn)智能機(jī)器人產(chǎn)業(yè)高質(zhì)量創(chuàng)新發(fā)展行動方案化委員會,委員會,上財政局,上局4、重點(diǎn)攻關(guān)具身智能等先化學(xué)習(xí)訓(xùn)練構(gòu)建機(jī)器人運(yùn)知識庫和數(shù)據(jù)采集平臺的器人運(yùn)行環(huán)境與機(jī)器人感現(xiàn)人形機(jī)器人面向場景應(yīng)能等前沿技術(shù)與機(jī)器人融《上海市推動型創(chuàng)新發(fā)展若干措施(2023-號化委員會,委員會,上會,中共上9.推進(jìn)大模型應(yīng)用生態(tài)建型開源社區(qū)和協(xié)作平臺建海市委網(wǎng)員會辦公大模型技術(shù)賦能生產(chǎn)性互聯(lián)濟(jì)和信息化委員會,結(jié)合支持生產(chǎn)性互聯(lián)網(wǎng)服鏈城市數(shù)字基礎(chǔ)設(shè)施體系3.夯實(shí)通用大模型基礎(chǔ)能具有國際競爭力的通用大據(jù)聯(lián)盟持續(xù)開源高質(zhì)量數(shù)模型行業(yè)應(yīng)用創(chuàng)新生態(tài)空網(wǎng)服務(wù)平臺領(lǐng)域的大模型相關(guān)應(yīng)用及解決方案納入符合條件的專業(yè)人才予以《浙江省人民政府辦公廳關(guān)于加快人工智能產(chǎn)業(yè)發(fā)展的型領(lǐng)域自主可控開源社區(qū)號模型即服務(wù)(MaaS)新范框架研發(fā)攻關(guān)和代碼托管進(jìn)人工智能領(lǐng)域開源軟件服務(wù)機(jī)器人產(chǎn)業(yè)集群高質(zhì)量發(fā)展行動計劃重慶研院所前瞻布局人形機(jī)器靈巧臂—手建模和控制技形機(jī)器人技能提升和智能自由貿(mào)易試驗區(qū)臨港新片區(qū)集聚發(fā)展人工智能產(chǎn)業(yè)若干號鼓勵構(gòu)建高效協(xié)同的大模支持分布式高效深度學(xué)習(xí)億參數(shù)以上且落地三個及以上實(shí)際應(yīng)用場景的深度年度支持金額不超過100萬元,資助周期不超過3治區(qū)工業(yè)和信息化廳寧夏回2024年大數(shù)據(jù)產(chǎn)業(yè)試點(diǎn)示范寧夏寧夏回族業(yè)和信息化廳,寧夏智能通用大模型和行業(yè)應(yīng)設(shè)人工智能大模型領(lǐng)域自主可控開源社區(qū)和創(chuàng)新平署、語料數(shù)據(jù)等大模型服進(jìn)人工智能大模型產(chǎn)業(yè)發(fā)展〔2024〕4號北京聯(lián)合頭部企業(yè)開展大模型產(chǎn)品研發(fā)水平和行業(yè)賦能育一批人工智能大模型垂《北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)關(guān)于生產(chǎn)業(yè)創(chuàng)新高地的若干政策》〔2024〕10號北京北京經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管理委13.打造人工智能公共服務(wù)硬件協(xié)同創(chuàng)新與適配驗證能軟硬件行業(yè)解決方案測建設(shè)人工智能開源開放平開源深度學(xué)習(xí)框架研發(fā)攻關(guān)和代碼托管鏡像平臺建《廣東省人民政府辦公廳印發(fā)廣東省關(guān)于人工智能賦能千行百業(yè)若干號廣東省7.建設(shè)大模型開源社區(qū)。建設(shè)原創(chuàng)性基礎(chǔ)大模型資示人工智能的開源服務(wù)體《北京市推動“人工智能+”北京北京市發(fā)委員會,北和信息化局,北京市委員會,中關(guān)村科技建設(shè)運(yùn)營北京算力互聯(lián)互開放并匯聚高價值行業(yè)數(shù)大模型訓(xùn)練提供算力、數(shù)持基礎(chǔ)大模型在各行業(yè)領(lǐng)控的基礎(chǔ)大模型為底座加速訓(xùn)練細(xì)分行業(yè)垂類大模型,完善大模型應(yīng)用工具型和數(shù)據(jù)集托管云服務(wù)平臺,促進(jìn)開發(fā)者分享和協(xié)開源大模型的應(yīng)用風(fēng)險不僅影響廣泛,還體現(xiàn)出高度的復(fù)雜關(guān)聯(lián)性和生成漸進(jìn)性,因此,企業(yè)需構(gòu)建統(tǒng)一的開源大模型治理體系,以統(tǒng)籌開展開源大模型風(fēng)險防控工作。開源大模型治理需要企業(yè)構(gòu)建專門的治理組織,該類組織通常是一個跨部門、多角色的協(xié)作體系,旨在確保企業(yè)使用開源大模型時的合規(guī)性、安全性、高效性和創(chuàng)新性。以下是企業(yè)開源大模型治理組織可能包含的主要角色和職責(zé)分工。一是開源大模型治理委員會。治理委員會負(fù)責(zé)制定開源大模型的使用策略、合規(guī)標(biāo)準(zhǔn)、風(fēng)險管理政策等,并監(jiān)控相關(guān)政策實(shí)施情況,進(jìn)行定期修訂。治理委員會一般由企業(yè)高管、法務(wù)專家、技術(shù)專家等關(guān)鍵角色組成,以確保決策的全面性和權(quán)威性。性能優(yōu)化等工作,該團(tuán)隊相關(guān)人員需具備深厚的技術(shù)背景和創(chuàng)新能力,以確保開源大模型應(yīng)用滿足企業(yè)的業(yè)務(wù)需求。運(yùn)維團(tuán)隊主要負(fù)責(zé)開源大模型的部署、監(jiān)控、故障排查和性能調(diào)優(yōu),該團(tuán)隊人員需要具備豐富的運(yùn)維經(jīng)驗和快速響應(yīng)能力,以確保模型穩(wěn)定運(yùn)行。三是安全和合規(guī)部門。安全團(tuán)隊主要負(fù)責(zé)對開源大模型進(jìn)行安全評估、漏洞掃描和應(yīng)急響應(yīng),保障模型的安全性,此外還需密切關(guān)注安全動態(tài),以及時應(yīng)對潛在的安全威脅。合規(guī)團(tuán)隊負(fù)責(zé)審查開源許可協(xié)議條款,確保企業(yè)使用開源大模型符合相關(guān)法律法規(guī)和內(nèi)部合規(guī)要求。合規(guī)團(tuán)隊人員還需關(guān)注開源社區(qū)的動態(tài)和法律法規(guī)的變化,及時調(diào)整企業(yè)的合規(guī)策略。四是社區(qū)與協(xié)作部門。社區(qū)與協(xié)作團(tuán)隊負(fù)責(zé)推動與開源社區(qū)的聯(lián)系和合作,組織參與社區(qū)活動,貢獻(xiàn)代碼或改進(jìn)建議,提升企業(yè)在開源社區(qū)中的影響力。此外,該團(tuán)隊一般還負(fù)責(zé)與其他企業(yè)或研究機(jī)構(gòu)的合作洽談,以推動開源大模型的技術(shù)創(chuàng)新和應(yīng)用落地。五是支撐部門。培訓(xùn)與發(fā)展團(tuán)隊主要負(fù)責(zé)為員工提供相關(guān)技術(shù)培訓(xùn)和合規(guī)培訓(xùn),提高員工使用和維護(hù)開源大模型的能力。該團(tuán)隊需關(guān)注員工的發(fā)展需求,以制定個性化的培訓(xùn)計劃。項目管理團(tuán)隊負(fù)責(zé)開源大模型相關(guān)項目的整體規(guī)劃、進(jìn)度控制和質(zhì)量管理,該類團(tuán)隊需要與各相關(guān)部門緊密合作,以確保項目的順利進(jìn)行和高質(zhì)量完成。六是其他相關(guān)部門。根據(jù)企業(yè)的具體情況和實(shí)際需求,開源治理組織還可能包括數(shù)據(jù)科學(xué)家、產(chǎn)品經(jīng)理、市場營銷人員等相關(guān)角色,相關(guān)角色將在各自的領(lǐng)域內(nèi)為開源大模型的治理和應(yīng)用提供支持。企業(yè)面向開源大模型的治理機(jī)制明確了開源大模型治理的規(guī)則和原則,旨在確保企業(yè)高效、合規(guī)、安全的使用開源大模型。以下是開源大模型治理機(jī)制的主要組成部分。一是制定開源大模型治理政策與合規(guī)框架。企業(yè)應(yīng)制定明確的開源大模型使用政策,明確開源大模型的選用標(biāo)準(zhǔn)、使用范圍、貢獻(xiàn)流程、風(fēng)險評估及合規(guī)要求等。同時企業(yè)應(yīng)明確開源大模型的合規(guī)性審核流程,確保企業(yè)使用的開源大模型符合其開源許可協(xié)議的義務(wù)要求,且不違反相關(guān)法律法規(guī)和企業(yè)內(nèi)部規(guī)定。二是構(gòu)建風(fēng)險管理機(jī)制。在安全風(fēng)險管理方面,企業(yè)需對開源大模型進(jìn)行定期的安全風(fēng)險評估,識別并修復(fù)潛在的安全漏洞。在供應(yīng)鏈風(fēng)險管理方面,企業(yè)需審查開源大模型依賴的第三方組件和庫,確保其安全性和穩(wěn)定性。在應(yīng)急響應(yīng)方面,企業(yè)應(yīng)制定針對開源大模型安全事件的應(yīng)急響應(yīng)計劃,確保相關(guān)緊急安全事件時能夠迅速應(yīng)對。三是開展技術(shù)治理與運(yùn)維。首先,企業(yè)應(yīng)使用版本控制系統(tǒng)管理開源大模型的版本更新,確保代碼的可追溯性和可管理性。其次,企業(yè)應(yīng)實(shí)施CI/CD流程,自動化構(gòu)建、測試和部署過程,提高開發(fā)效率并根據(jù)實(shí)際情況進(jìn)行優(yōu)化調(diào)整。四是參與社區(qū)活動與貢獻(xiàn)。企業(yè)應(yīng)構(gòu)建開源社區(qū)貢獻(xiàn)機(jī)制,鼓勵員工積極參與開源社區(qū),與開發(fā)者交流、分享經(jīng)驗,共同推動開源大模型的發(fā)展,并在符合開源許可協(xié)議要求的前提下,向開源項目貢獻(xiàn)代碼或改進(jìn)建議,提升企業(yè)在開源社區(qū)的影響力。五是加強(qiáng)知識產(chǎn)權(quán)管理。在使用開源大模型時,應(yīng)進(jìn)行必要的專利檢索和審查,以避免侵犯他人的專利權(quán)。此外,在對外貢獻(xiàn)時,企業(yè)應(yīng)確保對開源大模型的修改和分發(fā)符合版權(quán)法規(guī),維護(hù)企業(yè)的合法六是建立健全培訓(xùn)與文化建設(shè)。企業(yè)應(yīng)提供開源大模型主題技術(shù)培訓(xùn)和風(fēng)險防控培訓(xùn),提高員工使用、維護(hù)開源大模型的能力及風(fēng)險防控意識。此外,在內(nèi)部積極倡導(dǎo)、推廣開源文化,鼓勵員工積極參與開源項目,形成開放、協(xié)作的工作氛圍。目前開源大模型項目不勝枚舉,質(zhì)量也層次不齊,因此企業(yè)在選用開源大模型項目時,需首先對社區(qū)及項目的穩(wěn)定性、成熟度、活躍度等進(jìn)行評估,以確保擬采用開源大模型項目可長期穩(wěn)定運(yùn)行,從而降低相關(guān)技術(shù)應(yīng)用風(fēng)險及運(yùn)維風(fēng)險。其一,企業(yè)宜進(jìn)行項目代碼質(zhì)量和文檔完整性評估。開源大模型的代碼質(zhì)量和文檔完整性是開源大模型項目評估的基礎(chǔ),如果質(zhì)量較低或文檔不完整,會直接影響項目的可用性和可維護(hù)性。因此開源大模型使用企業(yè)應(yīng)評估代碼的規(guī)范性,注釋的詳細(xì)程度以及文檔包括部署指南的全面性等。高質(zhì)量的代碼和詳盡的文檔意味著項目的成熟度較高,可以幫助開源大模型使用企業(yè)快速上手并減少潛在的錯誤。其二,企業(yè)宜進(jìn)行項目更新頻率和活躍度評估。開源大模型項目的更新頻率和社區(qū)活躍度是評估其生命力和持續(xù)發(fā)展能力的重要指標(biāo),較低頻次的更新和低活躍度的社區(qū)可能意味著項目無法得到及時的漏洞修復(fù)和新功能的引入。開源大模型應(yīng)用企業(yè)可以通過查看項目的提交歷史、發(fā)布日志和社區(qū)討論來評估其活躍度,以評估項目的穩(wěn)其三,企業(yè)宜進(jìn)行項目貢獻(xiàn)者評估。開源大模型項目的成功很大程度上依賴于社區(qū)的貢獻(xiàn)者質(zhì)量和數(shù)量,豐富且高質(zhì)量的貢獻(xiàn)者群體可以確保項目的持續(xù)發(fā)展和有效管理。開源大模型使用企業(yè)應(yīng)關(guān)注項目的貢獻(xiàn)者數(shù)量、質(zhì)量以及活躍度,如是否有明確的領(lǐng)導(dǎo)者、是否有足夠的貢獻(xiàn)者等以評估開源大模型項目是否可得到持續(xù)、有力的支持。其四,企業(yè)宜進(jìn)行社區(qū)治理結(jié)構(gòu)評估。治理結(jié)構(gòu)是指社區(qū)內(nèi)部成員之間權(quán)利與責(zé)任的分配方式,以及決策流程和協(xié)調(diào)機(jī)制的集合。開源大模型使用企業(yè)應(yīng)深入了解開源社區(qū)的治理結(jié)構(gòu)和決策流程,包括項目的領(lǐng)導(dǎo)者和核心貢獻(xiàn)者以及其他成員之間的權(quán)責(zé)分配、決策的集中度等。如在一個高度去中心化的社區(qū)中個別成員的離開可能不會對整體造成太大影響,而在一個中心化程度較高的社區(qū)中關(guān)鍵人物的缺失可能導(dǎo)致項目陷入困境。因此,治理結(jié)構(gòu)的評估有助于使用企業(yè)理解項目的構(gòu)成、方向和決策過程。企業(yè)可從開源大模型應(yīng)用全生命周期進(jìn)行開源大模型安全風(fēng)險——模型引入階段:企業(yè)在開源大模型引入階段應(yīng)做好安全準(zhǔn)備工作,包括制定開源大模型安全指導(dǎo)政策、組建開源大模型安全團(tuán)隊以及采購或開發(fā)開源大模型安全檢測工具或平臺等。此外,在進(jìn)行開源大模型選型時,企業(yè)應(yīng)評估項目是否存在已知的安全隱患和漏洞,并了解項目在數(shù)據(jù)保護(hù)、隱私安全和系統(tǒng)穩(wěn)定性方面的表現(xiàn)。同時,針對算法安全風(fēng)險,企業(yè)可基于模型公開的測評數(shù)據(jù)或自主進(jìn)行模型魯棒性測評、模型“幻覺”測評以及模型偏見性測評等模型內(nèi)生安全測評,以評估大模型的算法安全性是否滿足公司相關(guān)政策?!P筒渴?優(yōu)化階段:若企業(yè)采用新數(shù)據(jù)進(jìn)行模型優(yōu)化,宜在數(shù)據(jù)收集和處理階段采取必要安全措施,包括數(shù)據(jù)分類與保護(hù)、數(shù)據(jù)脫敏、數(shù)據(jù)源審核、差分隱私和同態(tài)加密等,并針對數(shù)據(jù)集開展違法不良數(shù)據(jù)檢測、數(shù)據(jù)投毒污染檢測、數(shù)據(jù)隱私檢測以及數(shù)據(jù)多樣性檢企業(yè)可構(gòu)建安全對齊數(shù)據(jù)集,包括構(gòu)建正樣本數(shù)據(jù),以幫助模型更好構(gòu)建外部對齊數(shù)據(jù),為模型輸出建立法律和道德約束。21在算法優(yōu)化方面,企業(yè)可通過提示詞語義增強(qiáng)和結(jié)構(gòu)增強(qiáng)、調(diào)整算法模型結(jié)構(gòu)、擴(kuò)充多樣化的訓(xùn)練數(shù)據(jù)集等方式增強(qiáng)大模型的魯棒性,提升算法抵抗大模型后門檢測能力,以及時發(fā)現(xiàn)異常行為?!P驮侔l(fā)布/對外提供服務(wù)階段:企業(yè)在利用開源大模型提供服務(wù)階段應(yīng)通過安全檢測手段,如在大模型應(yīng)用過程中持續(xù)檢測是否存在提示注入攻擊、對抗攻擊和隱私攻擊,以及時預(yù)警和處理。同時,針對模型生成內(nèi)容,可通過自動化或人工方式進(jìn)以防止模型生成違法不良信息。此外,企業(yè)還應(yīng)通過水印技術(shù)標(biāo)識人工智能合成內(nèi)容,以降低大模型生成虛假信息或誤導(dǎo)性信息的有害性。企業(yè)若計劃對外開源優(yōu)化后的大模型,還應(yīng)進(jìn)行充分的代碼審查和安全測試以確保模型的安全性。3.合規(guī)風(fēng)險防控建議在許可協(xié)議合規(guī)方面,企業(yè)使用開源大模型的合規(guī)流程一般包含——模型引入階段:企業(yè)應(yīng)先做好合規(guī)準(zhǔn)備工作,包括制定開源大模型合規(guī)管理指導(dǎo)政策、組建合規(guī)專業(yè)團(tuán)隊、開發(fā)或采購開源大模型代碼檢測及合規(guī)管理工具與平臺、開展開源大模型合規(guī)培訓(xùn)等。其次,在進(jìn)行開源大模型選型時,企業(yè)首先應(yīng)確保開源大模型來源合法結(jié)合未來使用方式和使用場景判斷擬引入開源大模型是否滿足公司合規(guī)政策。同時,企業(yè)應(yīng)對開源大模型的知識產(chǎn)權(quán)情況進(jìn)行審慎包括進(jìn)行相關(guān)專利的檢索等,以避免發(fā)生法律糾紛。最后,企業(yè)應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度工程合同糾紛處理合同學(xué)習(xí)班3篇
- 二零二五年度房地產(chǎn)租賃合同擔(dān)保風(fēng)險控制策略3篇
- 二零二五年度影視制作公司演員雇傭合同模板3篇
- 蛋糕生產(chǎn)課程設(shè)計書
- 二零二五年度房貸轉(zhuǎn)按揭合同打印樣本2篇
- 二零二五年度合同負(fù)債科目界定與審計準(zhǔn)則合同3篇
- 海南職業(yè)技術(shù)學(xué)院《腫瘤放射治療學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度文化衍生品定制合同協(xié)議3篇
- 海南衛(wèi)生健康職業(yè)學(xué)院《計算機(jī)輔助設(shè)計三維圖形》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年醫(yī)療設(shè)備檢測與認(rèn)證服務(wù)協(xié)議3篇
- 山東省煙臺市2025屆高三上學(xué)期期末學(xué)業(yè)水平診斷政治試卷(含答案)
- 2025北京石景山初二(上)期末數(shù)學(xué)真題試卷(含答案解析)
- 商場停車場管理制度
- 北師大版四年級下冊數(shù)學(xué)課件第1課時 買文具
- 青貯產(chǎn)品銷售合同樣本
- 2024年冷庫倉儲服務(wù)協(xié)議3篇
- 中國轎貨車的車保養(yǎng)項目投資可行性研究報告
- 人工智能在體育訓(xùn)練中的應(yīng)用
- 2024-2030年中國液態(tài)金屬行業(yè)市場分析報告
- 住宅樓智能化系統(tǒng)工程施工組織設(shè)計方案
- 高二上學(xué)期數(shù)學(xué)北師大版(2019)期末模擬測試卷A卷(含解析)
評論
0/150
提交評論