中國人工智能系列白皮書:大模型技術_第1頁
中國人工智能系列白皮書:大模型技術_第2頁
中國人工智能系列白皮書:大模型技術_第3頁
中國人工智能系列白皮書:大模型技術_第4頁
中國人工智能系列白皮書:大模型技術_第5頁
已閱讀5頁,還剩161頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

委 1 1 5 7 9 9 13 13 14 14 15 15 17 20 22 23 25 25 25 27 29 31 32 32 33 35 37 37 40 40 49 53 56 56 59 62 62 64 65 66 67 68 68 70 70 71 72 72 73 74 74 75 75 75 76 76 76 78 78 79 81 81 82 84 84 87 90 91 92 93 94 95 97 1161解由于梯度消失而導致的深層網絡難以訓練的問題[1],為神經網絡的有效學習提供了重要的優(yōu)化途徑。此后,深度學習在計算機視覺的“標注數據監(jiān)督學習”的任務特定模型,到“無標注數據預訓練+標注數據微調”的預訓練模型,再到如今的“大規(guī)模無標注數據預訓練+指令微調+人類對齊”的大模型,經歷了從小數據到大數據,從小21)統(tǒng)計語言模型:統(tǒng)計語言模型主要基于馬爾可夫假設建模文2)神經語言模型:針對統(tǒng)計語言模型存在的問題,神經語言模型主要通過神經網絡(MLP[7]、RNN[8])建模目標詞匯與上下文詞模型基于傳統(tǒng)的循環(huán)神經網絡(LSTM)[12]構建,存在長距離序列3下,可以僅通過提示詞或少數樣例(In-contextle(ReinforcementLearningfromHumanFeedback,RLHF)[4證了擴大模型參數規(guī)模的有效性(擴展法則并且探索了基于自然模型效果,提出了基于“上下文學習”的任務解決方法;CodeX[25]力;InstructGPT[21]基于人類反饋的強化學習技術(RLHF能夠強化對于人類指令的遵循能力和人類偏好的對齊能力;ChatGPT與InstructGPT的技術原理相似,進一步引入了對話數據進行學習,從而加強了多輪對話能力;GPT-4[26]能夠處理更長的上下文窗口,具5表明在多模態(tài)大模型中引入基于人類知識的自然語言能夠帶來模型大模型服務平臺正向個人開放及商業(yè)落地應用延伸,不同公司互地面向公眾開放的大模型服務平臺,用戶可以通過API訪問不同的該系列模型通過無監(jiān)督預訓練、基于人類反饋的強化學習和ConstitutionalAI技術基于百度文心大模型的知識增強語言大模型,提供APP、網頁版、訓練優(yōu)化。6提供了分桶梯度、通信計算重疊、跳過同步等技術,支持大規(guī)模的分布式集群抽象成邏輯上的超級設備,支持動靜態(tài)圖靈活轉換,以數據+模型混合并行提升性能;DeepSpeed[29]是微軟推出的大模型訓練框型的生成能力。Baichuan系列模型由百川智能開發(fā),支持中英雙語,使用高質量訓練數據,在多個基準測試上表現優(yōu)秀,該系列模型還開邏輯推理等方面的能力。CPM[33][34]系列采用經典的語言模型自回型+軍事可以增強軍事情報和決策能力,可以實現實時戰(zhàn)場翻譯,快改進態(tài)勢感知等;大模型+教育可以賦予教育教材新式更個性化、更智能;大模型+金融可以幫助金融機構降本增效,讓7金融服務更有溫度;大模型+醫(yī)療可以賦能醫(yī)療機構診療全過程??偞竽P偷耐ㄓ眯允蛊浔徽J為是可以成為未來人工智能應用中的情景學習能力[19][37]等方面有待展開深入研究,為大模型的大規(guī)模89將模型在大規(guī)模無標注數據上進行自監(jiān)督訓練得到預訓練模型,2)將模型在下游各種自然語言處理任務上的小規(guī)模有標注數據進行微環(huán)神經網絡(RecurrentNeuralNetwork,RNN)和長讓模型能夠理解序列中的順序信息,引入了位置編碼。標準Transformer架構的位置編碼方式是使用正弦和余弦函數的方法。對數,那么編碼的第j個元素為sin(i/10000j/d);如果j是奇數,那么編碼的第j個元素為cos(i/10000j/d)。網絡層,這兩部分通過殘差連接和層歸一化操作連接起來,組成部分。它包含一個查詢矩陣Q∈n×dk,一個鍵矩陣K∈m×dk和一列的特征矩陣和具有序列長度為m的鍵-值序列的特征矩陣分別為Xq,三個矩陣Q、K、V由三個線性變換得到被稱為自注意力機制,因為三個矩陣Q、K、V都來自于前一層的相能力。多頭注意力的計算方式如下:使用了多個查詢矩陣Q(i),鍵矩陣K(i)和值矩陣V(i),最終輸出為H∈dv×do,它是通過將一系列Hi進行Hi=Attention(Q(i),K(i),V(i))=Attention(XqWq(i),XkvWk(i),XkvWv(i)),派生出來的,而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中2)全連接前饋層,在注意力層之后的全連接前饋層由兩個線性變換和一個非線性激活函數組成。將輸入矩陣表示為bdf置為do,df設置為di的4倍。FFN作用包活:在每個注意力模塊之后引入了非線性激活函數σ(.),這有助于增3)殘差連接和層歸一化,在每個注意力層和每個全連接前饋層化(LayerNormalization)技術,這有助于在模型非常深時保留信息歸一化層定義為LayerNorm(X+f(X))。現有的語言大模型幾乎全部是以Transformer模型作為基礎架角度,語言大模型架構大致可以分為三類[36]:掩碼語言建模(MaskedLanguageModeling,MLM)是基于Transformer編碼器的雙向模型,其中BERT[11]和RoBERTa[41]是其中典型代表。這類模型通過掩碼語言建模任務進行預訓練,BERT記[CLS]和[SEP],并且隨機用[MASK]標記替換原始序列的條件概率,即讓模型執(zhí)行“完型填空”任務。而[CLS]的最終表示自回歸語言模型在訓練時通過學習預測序列中的下一個詞來建的優(yōu)化目標為最大化對序列中每個位置的下一個詞的條件概率的預模型,即同時使用編碼器-解碼器結構,代表性模型包括T5[42]和BART[43]。這兩個模型都采用文本片段級別的掩碼語言模型作為主要的預訓練任務,即隨機用單個[MASK]特殊標記替換文本中任意模型可以形式化地表示為最大化在給定掩碼的字符序列的情況下目對語言大模型的預訓練。一種是在預訓練中設計高效的優(yōu)化任務目使用1000倍至10000倍較少計算資源訓練的小模型可靠地預測訓練穩(wěn)定性、顯存利用等方面進行優(yōu)化。比如,Transformer其并行Transformer模型也是顯存密集型模型,輸入序列越長、占用的內存能的基礎上同時實現模型訓練速度、推斷速度和內存節(jié)約的大幅提升。針對自注意力顯存消耗大,斯坦福大學在Transformer中引入Transformers[46]和Pathways[47]架構、清華大學的MoEfication語言大模型由于在大規(guī)模通用領域數據預訓練通常缺乏對特指令微調(InstructionTuning)[21],是一種可以幫助語言大模型(1)指令理解,指語言大模型準確理解人類語言指令的能力,多工作采用多任務提示方式對基于指令描述的大量任務集上對語言(2)指令數據獲取,指如何構建包含多樣性的任務指令數據。指令數據構建常見有三種方式:i)基于公開人工標注數據構建,代言大模型生成新的指令描述和問題,然后再輸入到模型讓其輸出回假信息、追求錯誤目標或產生有偏見的內容[5]。其根本原因在于,與對人類價值的對齊,InstructGPT提出了一種基于人類反饋的微調并僅微調該引入部分的參數。如適配器(Adapter)方法,旨將小規(guī)旨在原模型指定模型中部分參數為可訓練參數,并固定模型其他參參數化方法:將原模型或部分模型參數重參數化到低維度參數空間繞參數高效微調的開源工具也被研發(fā),代表種更輕量級的下游任務適配方法。特別地,LoRA[54]已廣泛應用于通過大規(guī)模文本數據預訓練之后的語言大模型具備了作為通用GPT-3[16]中首次提出上下文提示,并發(fā)現GPT-3在少樣本提使之看起來更像是在語言大模型預訓練過程中解決的問題[10]。指令不同領域和任務上的適應性和穩(wěn)定性。少樣本提示也存在一些挑特殊形式的少樣本提示,在問題中隱含地包含了目標任務和格式信思維鏈(Chain-of-Thought,CoT)[58]。推理的過程通常涉及模型的多步推理能力,被鼓勵語言大模型生成解決問題的中間推理(falsepremise)的簡單性常識性問題時,如類似“太陽有幾只眼器和搜索引擎交互獲取互聯(lián)網信息在長文本問答上實現非常強的能支持瀏覽器實時信息獲取、代碼解釋器、PDF閱讀等能力,截至8擴展語言大模型能力的方法,統(tǒng)一稱為增廣語言模型(Augmented提出了工具學習(ToolLearning)框架[24],指在讓模Transformer的編碼器。按照模型結構的不同,面向理解任務的多模Transformer)層將文本和圖像特征進行融合,最后所得到文本-圖像特流結構的另一個代表是OpenAI公司的CLIP[65]模零樣本(zero-shot)分類能力。另一個與CLIP類型的代表性方法另一代表性方法UNITER[69],則采用了一種多任務的多模態(tài)預訓練容的理解?,F有的面向理解任務的多模態(tài)大模型大多都以上面兩類結構為3D、分子結構等多種模態(tài)內容的生成應用。目前常用的方法主要是發(fā)布的一個基于4億圖文對訓練的圖像生成模型,通過采用型的圖像生成模型是北京智源研究院所的CogView模型[75](如圖模型是最主流的方案,例如,典型方法GI多模態(tài)大模型,統(tǒng)一了圖像/視頻的描述和問答等視覺語言任務,它圖3-2CogView[75]模型架表達,再采用擴散模型來建模圖像隱特征分布。另一典型擴散模型性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中,練一個獨立的映射模型將CLIP模型的文本特征映射到圖像特征空型直接編碼文本信息,然后直接用該文本編碼來生成圖像;同時,Transformer編碼器通過雙向的注意力機制來學習對數據的理解時具備這兩種能力從而可以在更廣泛的下游任務上應用,可以聯(lián)合Transformer編碼器與解碼器,設計能夠兼顧理解與生成任務的多模于針對訓練任務與數據的不同采用不同的輸入文本與輸出文本的構型UnifiedVLP[81],它的主要特點是編碼器和解碼器共享同一個Transformer網絡。該方法通過設大模型的語義對齊,通常利用大規(guī)模弱關聯(lián)的跨模態(tài)數據(如圖像-文本、視頻-文本、音頻-文本數據等基于條件文本生成任務進行過將場景圖中的知識實體和關系進行掩碼后要求模型預測所掩碼位等多種任務。另一個代表性模型KOSMOS-1[86],它將一個基于將圖像、視頻等感知模塊與LLaMA[87]等開源的語言大模型對接,從而實現類似GPT-4的多模態(tài)理解能力。其中的一個典型模型是ChatBridge[88],它使用多個并行的感知模塊用來處理包括圖片、音構模型顯得尤為重要。具體來說,可以通過引入編碼器-解碼器結構以視覺-語言數據的聯(lián)合學習為例,多模態(tài)大模型常用的自監(jiān)督序列中的某些單詞或標記會被替換為特殊的掩預訓練模型被要求根據可見的多模態(tài)上下文來預測這些被遮蔽的單中的部分區(qū)域會被隱藏或被替換為特殊的掩碼標記[M訓練模型被要求在僅看到其余圖像內容與文本等其他模態(tài)信息的情練方式促使模型學習圖像的視覺特征、多模態(tài)上下文信息和語義關-文本匹配任務是旨在實現圖像與文本的全局對齊。通常給定圖文對多模態(tài)大模型的最終目標是適配并提升特定下游任務上的性能2)聯(lián)合提示學習的模型微調適配:設計契合上游預訓練適配器層,使得模型可以在不同任務之間共享通用預訓練模型的表網頁版、API接口等多種形式的開放服務,并通過開放插件機制、AI技術(包含監(jiān)督訓練和強化學習)進行訓練,旨在改進模型的有PaLM[17]系列語言大模型由Google開發(fā)。其初始版本于2022種PaLM的改進版本。Med-PaLM[89]是PaLM540B在醫(yī)療數據上包括添加數學與邏輯能力、添加代碼能力、支持更多語言等。2023到V2.0版,對于代碼和多模態(tài)能力進行了提升。同時還聯(lián)合重磅發(fā)布了國內首款支持大模型訓練私有化的全國產化產品的產品體系以及廣泛的應用場景使得通義千問更具可落地性和市場BigScienceMPT-InstructHelixFold-SingleVIMER-UMS,VIMER-UFO使用了高效的數據并行和流水線并行技術,以加速模型的訓練和擴模型:Falcon-7B,Falcon-40B,以及Falcon-180B。三個模型都是在參數,并在1萬億字符上進行了訓練。在發(fā)布后的兩個月里,其在HuggingFace的開源語言大模型排行榜上排名第一。該系列最新的模型在推理、編碼、熟練度和知識測試等各種任務中表現出色,在Pythia[91]系列模型是由非營利性人工智能實驗室EleutherAI發(fā)的一系列生成式語言大模型。該系列有16個不同參數量的模型種不同的模型尺寸。一套是直接在Pile上訓練的,另一套則在經過字符。由于Pythia系列模型在相同架構基礎上涵蓋多個不同尺寸,T5[42]模型是由GoogleBrain團隊英文網頁文本數據的大規(guī)模語料庫。T5模型還探索了不同規(guī)模的模技術,基于keys和queriesGPT-Neo[93]系列模型是由EleutherAI開發(fā)的預訓練語言大模GPT-Neo項目的一個獨特之處在于其強調開源開發(fā)和社區(qū)參與。OPT[94]模型是由MetaAI發(fā)布的一款decoder-only模型,與原因和動機,為研究社區(qū)的使用和進一步研究提供了重要的參考資2019年,百度將大規(guī)模知識與海量數據融合學習的方法,在超開源首個中文預訓練大模型。ERNIE[96]自發(fā)布以來在語言理使用INT4進行量化并且不會明顯影響模型效果。通過優(yōu)化,的中文和英文benchmark上均取得同尺寸最好的效果,其基于Baichuan-13B在Baichuan-7B的基礎上進一步擴大參數量到13040%,是當前開源13B尺寸下訓練數據量最多的模型。其支持中英了部署的機器資源需求。Baichuan2-7B和Baichuan2-13B,均基于CPM系列模型由北京智源人工智能研究院和清華大學的合作研等類型。在多個公開的中文數據集上的實驗表明,CPM-1在對話、練模型訓練的計算開銷對應用的使用限制。CPM-3是基于預訓練技術,在零樣本和少樣本場景中表現出色。CPM-Bee的是一個完全開源、允許商用的百億參數中英文基座模型。它采用鵬程·盤古α[100]由以鵬城實驗室為首的技術團隊聯(lián)合協(xié)作開閱讀理解等,并且擁有很強的小樣本學習能力。鵬程.盤古α收集了--開發(fā)的多模態(tài)大模型。其中,KOSMOS-1是在大規(guī)模多模態(tài)數據集和訓練目標對模型進行訓練,并在此基礎上新增了對圖像局部區(qū)域版,可實現多模態(tài)大模型的訓練和評估。OpenFlamingo使用交叉注BLIP-2[82]通過一個輕量級的查詢轉換器彌補了模態(tài)之間的差生成學習。BLIP-2在各種視覺語言任務上實現了最先進的性能,盡管與現有方法相比,可訓練的參數明顯更少。例如,BLIP-2模型在InstructBLIP[103]的特點是設計了一種視覺語言指令微調方法,導圖像編碼器提取不同的視覺特征。這樣的好處在于對于同一張圖力與圖像能力結合。其利用視覺編碼器和語言大模型Vicuna[109]進行結合訓練。具體地,MiniGPT-4使用一個投影層來將來自BL調階段進行多模態(tài)指令微調以提高其生成可靠性和整體可用性。LlaMA-AdapterV2[105]是一種參數高效的視覺指令模型。具體習參數組,引入了圖像-文本對和指令跟隨數據的聯(lián)合訓練范式。該ChatBridge[88]是一個新型的多模態(tài)對話模型,利用語言的表達習能力,接下來是多任務的指令微調,使其與用戶的意圖對齊。文圖像-文本對進行預訓練。這種方法使視覺信息能夠很好地與Qwen-VL[111]是支持中英文等多種語言的視覺語言模型。Qwen-VL以通義千問70億參數模型Qw了具備基本的圖文識別、描述、問答及對話能力之外,Qwen-VL還地模型副本和本地優(yōu)化器,支持多機多卡的分布式訓DDP都顯著快于DP,能達到略低于卡數的加速比,但要求每塊開始支持FSDP技術,可以更加高效的將部分使用完畢的參數移至以通過定義操作和變量在數據流圖上構建自己的神經網絡模型。此Learning)是我國較早開源開放、自主研發(fā)、功能完備的產業(yè)級深度等,既包含網絡復雜、稠密參數特點的計算機視覺(CV)自然語言處理(NLP)模型訓練場景,又覆蓋了有著龐大的Embedding層模MindSpore:MindSpore[114]是一款適用于端邊云全深度學習訓練/推理框架。MindSpore能很好匹配昇騰處理器算力,等。Jittor在框架層面也提供了許多優(yōu)化功能,如算子融合、自動混OneFlow:OneFlow[116][116]能夠較好適用于多機多卡訓練場景,是國內較早發(fā)布的并行計算框架。OneFlow會把整個分布式集設備。最新版本的OneFlow和TensorFlo兼容了PyTorch,支持數據+模Colossal-AI:“夸父”(Colossal-AI[117]提供了一系列并行組機PyTorch代碼快速擴展到并行計算機集群上,無需關心并行編程Transformer架構的巨型語言模型。針對Transformer進行了專門的DeepSpeed[29]的超大規(guī)模模型訓練工具,其中包含了一種新的顯存GPT3、PaLM[17]和GLaM[120]模型在訓練數據構造時都使用了基于少量樣本提示(Few-shot這種類型的提示需要標注人員設RM數據集,對同一個輸入,模型會給出多PPO數據集,沒有任何人類標簽,用作強當前已經出現一批大模型數據集,涵蓋多種模態(tài)。代表性主要標注的方向包含helpful和har圖片-文本多模COCO[134]Conceptual[136]視頻-文本多模AI模型相比,非常依賴分布式技術提升效率。因此,大模型開發(fā)的挑戰(zhàn)集中體現在基于深度學習框架對各類分布式并行策略進行本地點優(yōu)化、混合精度浮點優(yōu)化[79]等方法、降低梯度計算過數據并行[143]:數據并行是每個處理器存儲全量的模型參數、但需要設計高效的并行算法和通信機制來確保計算的正確性和高效的“組內參數切片+組間數據”并行,可以更合理地分配機內和機間的硬件資源異構性,進一步發(fā)展出了端到端自適應分布式訓練架構模型稀疏化[149][150][151]:這種方法通過將模型中的某些神經模型參數共享:部分大型模型如ALBERT[152]采用了權重共享量化[149][153][154]:量化是一種將預訓練模型中的權重從浮點數轉換為低位數的技術。通常情況下,量化的精度可被降低到8位混合并行推理,實現對模型結構和計算硬件的自動感知(AutomatedHardwareAwareness協(xié)同優(yōu)化模型推理效率自動計算圖融合優(yōu)化:以非侵入的方式自動匹配高性能融合算這種計算特點,可以通過協(xié)同硬件開展優(yōu)化,研發(fā)LLM.INT8()[67]A100,以及谷歌的TPU(TensorProcessingUni能規(guī)格各不相同。大模型除了對訓練芯片的計算性能有一定的要求間表示(IntermediateRepresentation,IR)對接硬件的代碼生成器(Field-ProgrammableGateArray)加速也是一種重要的硬件加速技另外,云服務也為大模型訓練提供了強大的計算能力和存儲資對已經硬件進行全面適配,另一方面需要開展極致的軟硬件協(xié)同優(yōu)和少樣本學習能力,可以快速掌握新的任務,實現對不同領域、不同數計算文檔和查詢的相關性,召回最相關的TopK候選文檔,然后再采以索引為核心的“索引—召回—精排”檢索架構被廣泛應用在各種信中國科學院自動化研究所基于自主研發(fā)的音視頻理解大模型“聞?!焙腿B(tài)預訓練模型“紫東太初”[157],聯(lián)合新數據與大模型驅動的多任務統(tǒng)一學習體系,實現了對全媒體數據的統(tǒng)一市-園區(qū)-商圈-社區(qū)-網點級別的智能計算與研判,為線上線下數實融DNA遠端交互進行基因表達和染色質狀態(tài)預測的神經網絡架構DNA序列預測基因表達的準確性。為進一步研究美國哈佛醫(yī)學院和英國牛津大學的研究人員合作開發(fā)出一款可可以協(xié)助用戶撰寫各類文檔,實現文檔創(chuàng)作、編輯和總結等功能,用戶只需用自然語言提出需求,Copilot即可以快速生成或修改文檔內在影視行業(yè),大模型技術為內容制作和影視創(chuàng)作帶來了新的變模型能夠較好地因材施教,為學生提供全方位知識支持。8月,好未來識整合能力可滿足學生動態(tài)需求,實現個性化學習,與教師共同提金融發(fā)布國內首個零售金融大模型“天鏡”,具有知識匯集、喚醒數據價值等應用場景,可助力零售金融機構實現智能客服、精準營銷、風險控制等能力。在模型訓練規(guī)模不斷擴大的背景下,金融行業(yè)大模發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學考試和開放式問答上達到專理解醫(yī)學多模態(tài)數據,并根據個性化診療需求進行智能決策。醫(yī)療大計過程中,設計師需要花費很長的時間設計衣服并進行線上樣款測訓練,對EverydayRobots將大模型常用的自監(jiān)督訓練方式以及預訓練-微調的訓練部署方式延時刻的觀測/正運動學,預測上一時刻的動作/逆運動學)以及一個長級學術期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)會成為人類威脅的環(huán)境”。OpenAI首席執(zhí)險應該與流行病和核戰(zhàn)爭等其他大規(guī)模風險一樣,成為全球優(yōu)先議型的安全監(jiān)管。習近平總書記在多次會議中指出,“要重視通用人工一代人工智能治理原則——發(fā)展負責任的人工智能》指出,“人工智智能標準體系建設指南》指出,“重點開展人工智能安全術語、人工問題?!钡劝l(fā)布的《生成式人工智能服務管理暫行辦法》指出,“國家堅持發(fā)(1)辱罵仇恨:模型生成帶有辱罵、臟字臟話、仇恨言論等不(3)違法犯罪:模型生成的內容涉及到違法、犯罪的觀點、行(4)敏感話題:對于一些敏感和具有爭議性的話題,模型輸出(6)心理傷害:模型輸出與心理健康相關的不安全的信息,包(7)隱私財產:模型生成涉及到暴露用戶或第三方的隱私和財(8)倫理道德:模型生成的內容認同和鼓勵了違背道德倫理的標簽。由于模型的黑箱特性,這種攻擊難以檢測。比如在ChatGPT為攻擊者創(chuàng)造了新的攻擊途徑[167]。因此,迫切需要研究魯棒的分大模型訪問外部資源時引發(fā)的安全漏洞。大模型與外部數據、無意間學習并模仿數據中的價值觀。其次是有監(jiān)督微調(Supervised更具體的任務要求并調整其輸出,使之更接近人類對特定任務的期c.數據掩碼(DataMasking數據掩碼是一種將敏感信息部分過從人類反饋中學習來構建更有用、更準確和更安全的對話智能體(河貍)項目[170],提供了一種可復現的RLHF基準,并公開了近端策略優(yōu)化分析其穩(wěn)定訓練及其在大模型人類對齊中的作用機理,并發(fā)布大模型人類對齊技術報告與開源核心代碼,以推動中文全、負責任和合乎道德的人工智能的發(fā)展和部署,清華大學于2023導模型出錯,包含目標劫持、Prompt泄露、賦予特殊的角色后發(fā)布指令、不安全/不合理的指令主題、隱含不安全觀點的詢問、以及反面誘導?;谠摽蚣?,平臺對GPT系列、ChatGLM等主流大模型進行了安全評估,并發(fā)現指令攻擊更有可能暴露所有模型的安全問們或提供有關實施恐怖主義行為的實用指導。為了識別這些風險,險的能力,其次判斷模型多大程度上可能使用這些能力造成傷害[172]。該框架指出大模型的極端風險評估將成為安全人工智能研發(fā)在各種社會決策場景中的能力和道德行為,一項典型的評測基準是再到模型高效適配,大模型技術引起機器學習范式的一系列重要革的應用中的潛在漏洞,探討攻擊的傳遞方式以及可能造成的各種威入多種控制手段可一定程度上減少不良內容的產生、緩解上述問題[175],但依然有辦法使得該類先進大模型生成錯誤或極具風險的內6RecurrentNeuralNetworkLangua66BERTBidirectionalEncoderRepresentat6EmbeddingsfromLanguage66ReinforcementLearningfromHumanF777NSPGeneralLanguageUnderstandinZeROZeroRedundancyOptiASICApplication-SpecificIntegratedCirField-ProgrammableGatewithneuralnetworks.Science,2006,313(5786):504-507.deepconvolutionalneuralnetworks.CommunicationsoftheACM,2017,modelinginspeechrecognition:Thesharedviewsoffourresearchgroups.IEEESignalprocessingmagazine,informationprocessingsystems,2013,R.(2023).AsurveyarXiv:2303.18223.ProceedingsoftheIEEE,1976,64(4):532-5model.Advancesinneuralinfbasedlanguagemodel.Interwordrepresentations."Proc.ofNAACLunderstandingbygenerativepre-training.2018.[11]DevlinJ,ChangMW,LeeK,etbidirectionaltransformersforlanguageunderstanding.arXivpreprint[12]SundermeyerM,SchlüterR,NeyH.LSTMneuralnetworkslanguagemodeling.Interspeech.2012,194-197.Advancesinneuralinformationprocessingsystems,20languagemodels.arXivpreprintarXiv:2001.08modelingwithpathways[J].arXivpreprintarXiv:2languagemodels.arXivpreprintarXiv:2206.07LanguageModelsSecretlyPerformGradientDescentasarXivpreprintarXiv:2212.1055zero-shotlearners.arXivpreprintarXiv:2109.instructionswithhumanfeedback.AdvancesProcessingSystems,2elicitsreasoninginlargelanguagemodels.arXivpsolvingwithlargelanguagemodels[J].arXivprearXivpreprintarXiv:2304trainedoncode.arXivpreprintarXiv:2107.03374,/papers/gpt-4.pdf.processingsystems,32.Abadi,M.,Agarwal,A.,Barham,P.Chen,Z.,Citro,C.,...&Zhenrmfromindustfwithover100billionparameters.InProceedingsofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining(pp.3505-3506).fine-tunedchatmodels[J].arXivpreprintarXiv:23largelanguagemodelwithstate-of-the-artperformance[R].Technical[32]ZengA,LiuX,DuZ,etal.Glm-130b:Anopenbilingualpre-trainedmodel[J].arXivpreprintarXiv:2210.02414,2[33]ZhangZ,HanX,ZhouH,Chinesepre-trainedlanguagemodel[J].AIOpen,2021,2pre-trainedlanguagemodels[J].AIOpen,2021,2:216-224.[35]車萬翔,竇志成,馮巖松,等.大模型時代的自然語言處理:挑systematicsurveyofpromptingmethodsinnatura[37]AkyürekE,SchuurmansD,And[38]陶建華,傅睿博,易江燕,王成龍,汪濤.語音偽造與鑒偽的發(fā)展與挑[39]陶建華.加強深度合成算法安全科研攻關推進深度合成服務綜合治理.https://mp.weixifparameterefficientmethodsforprpreprintarXiv:2203.06904,202pretrainingapproach.arXivpreprintarXiv:1907.[42]RaffelC,ShazeerN,RobertsA,etal.Exploringlearningwithaunifiedtext-to-textTransformer[JSequence-to-SequencePre-trainingforNaturalLanguaTranslation,andComprehension[C]//ProceedingsofACL.2020:TransformerforLargeLanguageModels[J].memory-efficientexaparametermodelswithsarXiv:2101.03961,2021.[47]Google.IntroducingPathways:Anext-generatihttps://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/.layersaremixturesofexperts[J].arXivpreprintarXiv:2110.01786,2[49]HeJ,QiuJ,ZengA,etal.Fastmoe:Afastmixturesystem[J].arXivpreprintarXiv:2zero-shotlearners.arXivpreprintarXiv:2109.declarativeinstructionsoninstructionmetalearningthroughthelensofgeneralization[J].arXivpreprintarXiv:2212.12017,202languagemodels[J].arXivpreprintarXiv:2106.09FrameworkforPrompt-learning[C]//ProceedingsoftheACL:SystemParameter-efficientAdaptationofPre-trainedModels[J].aadaptingtransformers[C]//ProceedingsoftheEMNLP.202InformationProcessingSystems,[59]HanX,ZhangZ,DingN,etal.Pre-trainedmodels:Past,presefuture[J].AIOpen,2021,question-answeringwithhumanfeedback[J].webinteractionwithgInformationProcessingSystems,2022[62]OpenAI.ChatGPTPlugi/blog/chatgpt-plugins.[63]MialonG,DessìR,LomeliM,etal.Augmentedlanguagemodels:asurvey[J].arXivpreprintarXiv:[64]LuJ,BatraD,ParikhD,etal.Vilbert:Prvisiolinguisticrepresentationsforvision-and-languagetasks[J].Advancesinneuralinformationprocessingsystems,201modelsfromnaturallanguagesupervision[C]//Inteonmachinelearning.PMLR,2021:8748-8763.representationlearningwithnoisytextsupeConferenceonMachineLearning.PMLR,2021:4904-4916.NeuralInformationProcessingSystems,2021,34:Visual-LinguisticRepresentations[C]//InterLearningRepresentatrepresentationlearning[C]//ComputerVision-ECCV2020:16thEuropeanConference,Glasgow,UK,August23-28,2020,Proceediandlanguagerepresentationlearning[C]//ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019:7464-representations[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognitioforcomputervisiongeneration[C]//InternationalConferenceonMachineLearninghigh-fidelityimageswithvq-vae-2[J].Advprocessingsystems,2019,32.generationviatransformers[J].AdvancesinNeuralTransformerforVisionandLanguagsynthesiswithlatentdiffusionmodelsconferenceon[78]RameshA,DhariwalP,NicholA,etal.HierarchidiffusionmodelswithdeeplanguageunderstandiNeuralInformationProcessingSystems,2022,35:[80]ChoJ,LeiJ,TanH,etal.generation[C]//InternationalConferenceonMachineLearnpre-trainingforimagecaptioningandvqa[C]//PconferenceonartificialintelligeLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels.ArXiv./abs/23sthroughscenegraphs[C]//PrftheAAAIConferenceonArtificialIntelligence.2021,35(4):3208-321symbolicknowledgeforopen-domainknowledge-basedvqa[C]//ProceedingsoftheIEEE/CVFmodelforfew-shotlearning[J].ProcessingSystems,2022Aligningperceptionwithlanguagemodels[J].arXivpreprintarXiv:2302.14045,202foundationlanguagemodels[J].arXivpreprintarXiv:23BridgingModalitieswithLargeLanguageModelasaLanguageCatalyarXiv:2305.16103.clinicalknowledge[J].arXivpreprintarXiv:221multimodallanguagemodel[J].arXivpreprintarXiv:2303.03378Hallahan,M.A.Khan,S.Purohit,U.S.Prashanth,E.Raffetal.,“Pythia:Asuiteforanalyzinglargelanguagemodelsacrosstrainingandscaling,”arXivpreprintarXiv:2304.01373,languagemodel.arXivpreprintarXiv:2211.05100.“OPT:openpre-trainedtransformerlanguagemodels,”CoRR,vol.abs/2205.01068,2022.preprintarXiv:2108.12409(2021).(2019).Ernie:Enhancedrepresentationthintegration.arXivpreprintarXiv:1904.09223.Large-scaleknowledgeenhancedpre-trainingforlanguageunderstanding“ERNIE3.0:Large-scaleknowledgeenhancedpre-trainingforlanguageunderstandingandgeneration,”CoRR,vol.abs/2107withautoregressiveblankinP-tuningv2:Prompttuningcanbecomparabletofine-tuninguniversallyacrossscalesandtasks.arXivpreprintarXiv:2110.07602.autoregressivepretrainedChineselanguagemodelswithauto-parallelcomputation[J].arXivpreprintarXiv:2104.1LargeLanguageModeOpen-SourceFrameworkforTrainingLargeAutoregressiveVision-LanguageModels[J].arXivpreprinInstructblip:Towardsgeneral-purposevision-languagemodelswithinstructiontuning.arXivpreprintarXiv:2305.LargeLanguageModels.ArXiv./abs/Parameter-EfficientVisualIns[106]RohitGirdhar,AlImagebind:OneembeddingspacetobinarXiv:2305.05665.acrossLanguages[J].arXivpreprintarXiv:230impressinggpt-4with90%*chatgptqualitHuang,F.(2023).MPLUG-Owl:ModLanguageModelswithMultimodalVision-LanguageModelwithVersatileAbilities[J]arXiv:2308.12966,20distributedsystems.arXivpreprintarXiv:1603.04467.rmfromindustfgraphexecution.ScienceChinaInformationSc(2021).Oneflow:Redesignthedistributeddeepscratch.arXivpreprintarXiv:2110.(2021).Colossal-AI:Aunifieddeparalleltraining.arXivpreprintarXiv:2110.14883.Catanzaro,B.(2019).Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelism.arXivpreprintarXiv:1909.08053.https://intro-llm.github.io/,20modelswithmixture-of-experts[C]//InteMachineLearning.PMLR,2022:5547-5569.Methods,analysis&insightsfromtraininggopher[J].arXivpreprintinstructionswithhumanfeedback[J].AProcessingSystems,2Omni-ModalityFoundationModelandDataset[J].arXivpr[124]BainM,NagraniA,VarolG,etal.imageencoderforend-to-endretrieval[C]//ProceedingsoftheIEEE/CVFbooks[C]//ProceedingsoftheIEEEinternationafdiversetextforlanguagemodeling[J].arXivassistantwithreinforcementlearningfromhumanfeeinstruction-followingllamamodel[J/OL].GitHubrepository,2023./tatsu-lab/stanford_alpa[129]static-hh.https://huggingface.co/datasets/Dahoas/static-hh,2023[130]ShareGPT.https:/[131]zhihu_rlhf_3k.https://huggingface.co/datasets/liyucheng/zhihu_rlhf_[132]BeaverTails.https://humillioncaptionedphotographs[J].Advancesinneuralinformationobjectsincontext[C]//Conference,Zurich,Switzerland,September6-12,2014,Proceedings,languageandvisionusingcrowdsourceddenseimageannotations[J].Internationaljournalofcomputervision,2017,123:32-73.web-scaleimage-textpre-trainingtorecognizelong-tailvisualconcepts[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.“Coyo-700m:Image-textpairdataset,”/kakaobrain/coyo-dataset,2022.text-videoembeddingbywatchinghundrclips[C]//ProceedingsoftheIEEE/CVFinternacomputervision.2019:2630-2knowledgemodels[J].AdvancesinNeuralInformationProcessingSystems,2021,34:23634-23651.video-languagerepresentationwithlarge-scalevideotranscriptions[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognomni-perceptionpretrainingmodelandDemocratizing{Billion-Scale}modeltraining[C]/single-program-multiple-datacomputationalmodelneuralnetworksusingpipelineparallelism[J].Advancesiinformationprocessingsystems,[145]NarayananD,ShoeybiM,CasperJ,etal.Efficientlarge-scalelanguagemodeltrainingongpucmegatron-lm[C]//ProceedingsoftheInternational

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論