中國人工智能系列白皮書：大模型技術(shù)

上傳人：策*** IP屬地：山西上傳時間：2024-11-01 格式：DOCX 頁數(shù)：166 大?。?.37MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩161頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

委 1 1 5 7 9 9 13 13 14 14 15 15 17 20 22 23 25 25 25 27 29 31 32 32 33 35 37 37 40 40 49 53 56 56 59 62 62 64 65 66 67 68 68 70 70 71 72 72 73 74 74 75 75 75 76 76 76 78 78 79 81 81 82 84 84 87 90 91 92 93 94 95 97 1161解由于梯度消失而導(dǎo)致的深層網(wǎng)絡(luò)難以訓(xùn)練的問題[1]，為神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)提供了重要的優(yōu)化途徑。此后，深度學(xué)習(xí)在計算機視覺的“標注數(shù)據(jù)監(jiān)督學(xué)習(xí)”的任務(wù)特定模型，到“無標注數(shù)據(jù)預(yù)訓(xùn)練+標注數(shù)據(jù)微調(diào)”的預(yù)訓(xùn)練模型，再到如今的“大規(guī)模無標注數(shù)據(jù)預(yù)訓(xùn)練+指令微調(diào)+人類對齊”的大模型，經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù)，從小21）統(tǒng)計語言模型：統(tǒng)計語言模型主要基于馬爾可夫假設(shè)建模文2）神經(jīng)語言模型：針對統(tǒng)計語言模型存在的問題，神經(jīng)語言模型主要通過神經(jīng)網(wǎng)絡(luò)（MLP[7]、RNN[8]）建模目標詞匯與上下文詞模型基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（LSTM）[12]構(gòu)建，存在長距離序列3下，可以僅通過提示詞或少數(shù)樣例（In-contextle(ReinforcementLearningfromHumanFeedback,RLHF)[4證了擴大模型參數(shù)規(guī)模的有效性（擴展法則并且探索了基于自然模型效果，提出了基于“上下文學(xué)習(xí)”的任務(wù)解決方法；CodeX[25]力；InstructGPT[21]基于人類反饋的強化學(xué)習(xí)技術(shù)（RLHF能夠強化對于人類指令的遵循能力和人類偏好的對齊能力；ChatGPT與InstructGPT的技術(shù)原理相似，進一步引入了對話數(shù)據(jù)進行學(xué)習(xí)，從而加強了多輪對話能力；GPT-4[26]能夠處理更長的上下文窗口，具5表明在多模態(tài)大模型中引入基于人類知識的自然語言能夠帶來模型大模型服務(wù)平臺正向個人開放及商業(yè)落地應(yīng)用延伸,不同公司互地面向公眾開放的大模型服務(wù)平臺,用戶可以通過API訪問不同的該系列模型通過無監(jiān)督預(yù)訓(xùn)練、基于人類反饋的強化學(xué)習(xí)和ConstitutionalAI技術(shù)基于百度文心大模型的知識增強語言大模型，提供APP、網(wǎng)頁版、訓(xùn)練優(yōu)化。6提供了分桶梯度、通信計算重疊、跳過同步等技術(shù),支持大規(guī)模的分布式集群抽象成邏輯上的超級設(shè)備,支持動靜態(tài)圖靈活轉(zhuǎn)換,以數(shù)據(jù)+模型混合并行提升性能；DeepSpeed[29]是微軟推出的大模型訓(xùn)練框型的生成能力。Baichuan系列模型由百川智能開發(fā),支持中英雙語,使用高質(zhì)量訓(xùn)練數(shù)據(jù),在多個基準測試上表現(xiàn)優(yōu)秀，該系列模型還開邏輯推理等方面的能力。CPM[33][34]系列采用經(jīng)典的語言模型自回型+軍事可以增強軍事情報和決策能力，可以實現(xiàn)實時戰(zhàn)場翻譯，快改進態(tài)勢感知等；大模型+教育可以賦予教育教材新式更個性化、更智能；大模型+金融可以幫助金融機構(gòu)降本增效，讓7金融服務(wù)更有溫度；大模型+醫(yī)療可以賦能醫(yī)療機構(gòu)診療全過程?？偞竽Ｐ偷耐ㄓ眯允蛊浔徽J為是可以成為未來人工智能應(yīng)用中的情景學(xué)習(xí)能力[19][37]等方面有待展開深入研究，為大模型的大規(guī)模89將模型在大規(guī)模無標注數(shù)據(jù)上進行自監(jiān)督訓(xùn)練得到預(yù)訓(xùn)練模型，2）將模型在下游各種自然語言處理任務(wù)上的小規(guī)模有標注數(shù)據(jù)進行微環(huán)神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork,RNN）和長讓模型能夠理解序列中的順序信息，引入了位置編碼。標準Transformer架構(gòu)的位置編碼方式是使用正弦和余弦函數(shù)的方法。對數(shù)，那么編碼的第j個元素為sin(i/10000j/d);如果j是奇數(shù)，那么編碼的第j個元素為cos(i/10000j/d)。網(wǎng)絡(luò)層，這兩部分通過殘差連接和層歸一化操作連接起來，組成部分。它包含一個查詢矩陣Q∈n×dk，一個鍵矩陣K∈m×dk和一列的特征矩陣和具有序列長度為m的鍵-值序列的特征矩陣分別為Xq，三個矩陣Q、K、V由三個線性變換得到被稱為自注意力機制，因為三個矩陣Q、K、V都來自于前一層的相能力。多頭注意力的計算方式如下：使用了多個查詢矩陣Q(i)，鍵矩陣K(i)和值矩陣V(i)，最終輸出為H∈dv×do，它是通過將一系列Hi進行Hi=Attention(Q(i),K(i),V(i))=Attention(XqWq(i),XkvWk(i),XkvWv(i)),派生出來的，而鍵矩陣K和值矩陣V是從編碼器的最后一層的輸出中2）全連接前饋層，在注意力層之后的全連接前饋層由兩個線性變換和一個非線性激活函數(shù)組成。將輸入矩陣表示為bdf置為do，df設(shè)置為di的4倍。FFN作用包活：在每個注意力模塊之后引入了非線性激活函數(shù)σ(.)，這有助于增3）殘差連接和層歸一化，在每個注意力層和每個全連接前饋層化（LayerNormalization）技術(shù)，這有助于在模型非常深時保留信息歸一化層定義為LayerNorm(X+f(X))?，F(xiàn)有的語言大模型幾乎全部是以Transformer模型作為基礎(chǔ)架角度，語言大模型架構(gòu)大致可以分為三類[36]：掩碼語言建模（MaskedLanguageModeling,MLM）是基于Transformer編碼器的雙向模型，其中BERT[11]和RoBERTa[41]是其中典型代表。這類模型通過掩碼語言建模任務(wù)進行預(yù)訓(xùn)練，BERT記[CLS]和[SEP]，并且隨機用[MASK]標記替換原始序列的條件概率，即讓模型執(zhí)行“完型填空”任務(wù)。而[CLS]的最終表示自回歸語言模型在訓(xùn)練時通過學(xué)習(xí)預(yù)測序列中的下一個詞來建的優(yōu)化目標為最大化對序列中每個位置的下一個詞的條件概率的預(yù)模型，即同時使用編碼器-解碼器結(jié)構(gòu)，代表性模型包括T5[42]和BART[43]。這兩個模型都采用文本片段級別的掩碼語言模型作為主要的預(yù)訓(xùn)練任務(wù)，即隨機用單個[MASK]特殊標記替換文本中任意模型可以形式化地表示為最大化在給定掩碼的字符序列的情況下目對語言大模型的預(yù)訓(xùn)練。一種是在預(yù)訓(xùn)練中設(shè)計高效的優(yōu)化任務(wù)目使用1000倍至10000倍較少計算資源訓(xùn)練的小模型可靠地預(yù)測訓(xùn)練穩(wěn)定性、顯存利用等方面進行優(yōu)化。比如，Transformer其并行Transformer模型也是顯存密集型模型，輸入序列越長、占用的內(nèi)存能的基礎(chǔ)上同時實現(xiàn)模型訓(xùn)練速度、推斷速度和內(nèi)存節(jié)約的大幅提升。針對自注意力顯存消耗大，斯坦福大學(xué)在Transformer中引入Transformers[46]和Pathways[47]架構(gòu)、清華大學(xué)的MoEfication語言大模型由于在大規(guī)模通用領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練通常缺乏對特指令微調(diào)(InstructionTuning)[21]，是一種可以幫助語言大模型（1）指令理解，指語言大模型準確理解人類語言指令的能力，多工作采用多任務(wù)提示方式對基于指令描述的大量任務(wù)集上對語言（2）指令數(shù)據(jù)獲取,指如何構(gòu)建包含多樣性的任務(wù)指令數(shù)據(jù)。指令數(shù)據(jù)構(gòu)建常見有三種方式：i）基于公開人工標注數(shù)據(jù)構(gòu)建，代言大模型生成新的指令描述和問題，然后再輸入到模型讓其輸出回假信息、追求錯誤目標或產(chǎn)生有偏見的內(nèi)容[5]。其根本原因在于，與對人類價值的對齊，InstructGPT提出了一種基于人類反饋的微調(diào)并僅微調(diào)該引入部分的參數(shù)。如適配器（Adapter）方法，旨將小規(guī)旨在原模型指定模型中部分參數(shù)為可訓(xùn)練參數(shù)，并固定模型其他參參數(shù)化方法：將原模型或部分模型參數(shù)重參數(shù)化到低維度參數(shù)空間繞參數(shù)高效微調(diào)的開源工具也被研發(fā)，代表種更輕量級的下游任務(wù)適配方法。特別地，LoRA[54]已廣泛應(yīng)用于通過大規(guī)模文本數(shù)據(jù)預(yù)訓(xùn)練之后的語言大模型具備了作為通用GPT-3[16]中首次提出上下文提示，并發(fā)現(xiàn)GPT-3在少樣本提使之看起來更像是在語言大模型預(yù)訓(xùn)練過程中解決的問題[10]。指令不同領(lǐng)域和任務(wù)上的適應(yīng)性和穩(wěn)定性。少樣本提示也存在一些挑特殊形式的少樣本提示，在問題中隱含地包含了目標任務(wù)和格式信思維鏈（Chain-of-Thought，CoT）[58]。推理的過程通常涉及模型的多步推理能力，被鼓勵語言大模型生成解決問題的中間推理（falsepremise）的簡單性常識性問題時，如類似“太陽有幾只眼器和搜索引擎交互獲取互聯(lián)網(wǎng)信息在長文本問答上實現(xiàn)非常強的能支持瀏覽器實時信息獲取、代碼解釋器、PDF閱讀等能力，截至8擴展語言大模型能力的方法，統(tǒng)一稱為增廣語言模型（Augmented提出了工具學(xué)習(xí)（ToolLearning）框架[24]，指在讓模Transformer的編碼器。按照模型結(jié)構(gòu)的不同，面向理解任務(wù)的多模Transformer）層將文本和圖像特征進行融合，最后所得到文本-圖像特流結(jié)構(gòu)的另一個代表是OpenAI公司的CLIP[65]模零樣本（zero-shot）分類能力。另一個與CLIP類型的代表性方法另一代表性方法UNITER[69]，則采用了一種多任務(wù)的多模態(tài)預(yù)訓(xùn)練容的理解?，F(xiàn)有的面向理解任務(wù)的多模態(tài)大模型大多都以上面兩類結(jié)構(gòu)為3D、分子結(jié)構(gòu)等多種模態(tài)內(nèi)容的生成應(yīng)用。目前常用的方法主要是發(fā)布的一個基于4億圖文對訓(xùn)練的圖像生成模型，通過采用型的圖像生成模型是北京智源研究院所的CogView模型[75]（如圖模型是最主流的方案，例如，典型方法GI多模態(tài)大模型，統(tǒng)一了圖像/視頻的描述和問答等視覺語言任務(wù)，它圖3-2CogView[75]模型架表達，再采用擴散模型來建模圖像隱特征分布。另一典型擴散模型性方法有OpenAI的DALL-E2[78]與谷歌的Imagen[79]。其中，練一個獨立的映射模型將CLIP模型的文本特征映射到圖像特征空型直接編碼文本信息，然后直接用該文本編碼來生成圖像；同時，Transformer編碼器通過雙向的注意力機制來學(xué)習(xí)對數(shù)據(jù)的理解時具備這兩種能力從而可以在更廣泛的下游任務(wù)上應(yīng)用，可以聯(lián)合Transformer編碼器與解碼器，設(shè)計能夠兼顧理解與生成任務(wù)的多模于針對訓(xùn)練任務(wù)與數(shù)據(jù)的不同采用不同的輸入文本與輸出文本的構(gòu)型UnifiedVLP[81]，它的主要特點是編碼器和解碼器共享同一個Transformer網(wǎng)絡(luò)。該方法通過設(shè)大模型的語義對齊，通常利用大規(guī)模弱關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)（如圖像-文本、視頻-文本、音頻-文本數(shù)據(jù)等基于條件文本生成任務(wù)進行過將場景圖中的知識實體和關(guān)系進行掩碼后要求模型預(yù)測所掩碼位等多種任務(wù)。另一個代表性模型KOSMOS-1[86]，它將一個基于將圖像、視頻等感知模塊與LLaMA[87]等開源的語言大模型對接，從而實現(xiàn)類似GPT-4的多模態(tài)理解能力。其中的一個典型模型是ChatBridge[88]，它使用多個并行的感知模塊用來處理包括圖片、音構(gòu)模型顯得尤為重要。具體來說，可以通過引入編碼器-解碼器結(jié)構(gòu)以視覺-語言數(shù)據(jù)的聯(lián)合學(xué)習(xí)為例，多模態(tài)大模型常用的自監(jiān)督序列中的某些單詞或標記會被替換為特殊的掩預(yù)訓(xùn)練模型被要求根據(jù)可見的多模態(tài)上下文來預(yù)測這些被遮蔽的單中的部分區(qū)域會被隱藏或被替換為特殊的掩碼標記[M訓(xùn)練模型被要求在僅看到其余圖像內(nèi)容與文本等其他模態(tài)信息的情練方式促使模型學(xué)習(xí)圖像的視覺特征、多模態(tài)上下文信息和語義關(guān)-文本匹配任務(wù)是旨在實現(xiàn)圖像與文本的全局對齊。通常給定圖文對多模態(tài)大模型的最終目標是適配并提升特定下游任務(wù)上的性能2）聯(lián)合提示學(xué)習(xí)的模型微調(diào)適配：設(shè)計契合上游預(yù)訓(xùn)練適配器層，使得模型可以在不同任務(wù)之間共享通用預(yù)訓(xùn)練模型的表網(wǎng)頁版、API接口等多種形式的開放服務(wù)，并通過開放插件機制、AI技術(shù)（包含監(jiān)督訓(xùn)練和強化學(xué)習(xí)）進行訓(xùn)練，旨在改進模型的有PaLM[17]系列語言大模型由Google開發(fā)。其初始版本于2022種PaLM的改進版本。Med-PaLM[89]是PaLM540B在醫(yī)療數(shù)據(jù)上包括添加數(shù)學(xué)與邏輯能力、添加代碼能力、支持更多語言等。2023到V2.0版，對于代碼和多模態(tài)能力進行了提升。同時還聯(lián)合重磅發(fā)布了國內(nèi)首款支持大模型訓(xùn)練私有化的全國產(chǎn)化產(chǎn)品的產(chǎn)品體系以及廣泛的應(yīng)用場景使得通義千問更具可落地性和市場BigScienceMPT-InstructHelixFold-SingleVIMER-UMS，VIMER-UFO使用了高效的數(shù)據(jù)并行和流水線并行技術(shù)，以加速模型的訓(xùn)練和擴模型:Falcon-7B，F(xiàn)alcon-40B，以及Falcon-180B。三個模型都是在參數(shù)，并在1萬億字符上進行了訓(xùn)練。在發(fā)布后的兩個月里，其在HuggingFace的開源語言大模型排行榜上排名第一。該系列最新的模型在推理、編碼、熟練度和知識測試等各種任務(wù)中表現(xiàn)出色，在Pythia[91]系列模型是由非營利性人工智能實驗室EleutherAI發(fā)的一系列生成式語言大模型。該系列有16個不同參數(shù)量的模型種不同的模型尺寸。一套是直接在Pile上訓(xùn)練的，另一套則在經(jīng)過字符。由于Pythia系列模型在相同架構(gòu)基礎(chǔ)上涵蓋多個不同尺寸，T5[42]模型是由GoogleBrain團隊英文網(wǎng)頁文本數(shù)據(jù)的大規(guī)模語料庫。T5模型還探索了不同規(guī)模的模技術(shù)，基于keys和queriesGPT-Neo[93]系列模型是由EleutherAI開發(fā)的預(yù)訓(xùn)練語言大模GPT-Neo項目的一個獨特之處在于其強調(diào)開源開發(fā)和社區(qū)參與。OPT[94]模型是由MetaAI發(fā)布的一款decoder-only模型，與原因和動機，為研究社區(qū)的使用和進一步研究提供了重要的參考資2019年，百度將大規(guī)模知識與海量數(shù)據(jù)融合學(xué)習(xí)的方法，在超開源首個中文預(yù)訓(xùn)練大模型。ERNIE[96]自發(fā)布以來在語言理使用INT4進行量化并且不會明顯影響模型效果。通過優(yōu)化，的中文和英文benchmark上均取得同尺寸最好的效果，其基于Baichuan-13B在Baichuan-7B的基礎(chǔ)上進一步擴大參數(shù)量到13040%，是當前開源13B尺寸下訓(xùn)練數(shù)據(jù)量最多的模型。其支持中英了部署的機器資源需求。Baichuan2-7B和Baichuan2-13B，均基于CPM系列模型由北京智源人工智能研究院和清華大學(xué)的合作研等類型。在多個公開的中文數(shù)據(jù)集上的實驗表明，CPM-1在對話、練模型訓(xùn)練的計算開銷對應(yīng)用的使用限制。CPM-3是基于預(yù)訓(xùn)練技術(shù)，在零樣本和少樣本場景中表現(xiàn)出色。CPM-Bee的是一個完全開源、允許商用的百億參數(shù)中英文基座模型。它采用鵬程·盤古α[100]由以鵬城實驗室為首的技術(shù)團隊聯(lián)合協(xié)作開閱讀理解等，并且擁有很強的小樣本學(xué)習(xí)能力。鵬程.盤古α收集了--開發(fā)的多模態(tài)大模型。其中，KOSMOS-1是在大規(guī)模多模態(tài)數(shù)據(jù)集和訓(xùn)練目標對模型進行訓(xùn)練,并在此基礎(chǔ)上新增了對圖像局部區(qū)域版，可實現(xiàn)多模態(tài)大模型的訓(xùn)練和評估。OpenFlamingo使用交叉注BLIP-2[82]通過一個輕量級的查詢轉(zhuǎn)換器彌補了模態(tài)之間的差生成學(xué)習(xí)。BLIP-2在各種視覺語言任務(wù)上實現(xiàn)了最先進的性能，盡管與現(xiàn)有方法相比，可訓(xùn)練的參數(shù)明顯更少。例如，BLIP-2模型在InstructBLIP[103]的特點是設(shè)計了一種視覺語言指令微調(diào)方法，導(dǎo)圖像編碼器提取不同的視覺特征。這樣的好處在于對于同一張圖力與圖像能力結(jié)合。其利用視覺編碼器和語言大模型Vicuna[109]進行結(jié)合訓(xùn)練。具體地，MiniGPT-4使用一個投影層來將來自BL調(diào)階段進行多模態(tài)指令微調(diào)以提高其生成可靠性和整體可用性。LlaMA-AdapterV2[105]是一種參數(shù)高效的視覺指令模型。具體習(xí)參數(shù)組，引入了圖像-文本對和指令跟隨數(shù)據(jù)的聯(lián)合訓(xùn)練范式。該ChatBridge[88]是一個新型的多模態(tài)對話模型，利用語言的表達習(xí)能力，接下來是多任務(wù)的指令微調(diào)，使其與用戶的意圖對齊。文圖像-文本對進行預(yù)訓(xùn)練。這種方法使視覺信息能夠很好地與Qwen-VL[111]是支持中英文等多種語言的視覺語言模型。Qwen-VL以通義千問70億參數(shù)模型Qw了具備基本的圖文識別、描述、問答及對話能力之外，Qwen-VL還地模型副本和本地優(yōu)化器，支持多機多卡的分布式訓(xùn)DDP都顯著快于DP，能達到略低于卡數(shù)的加速比，但要求每塊開始支持FSDP技術(shù)，可以更加高效的將部分使用完畢的參數(shù)移至以通過定義操作和變量在數(shù)據(jù)流圖上構(gòu)建自己的神經(jīng)網(wǎng)絡(luò)模型。此Learning）是我國較早開源開放、自主研發(fā)、功能完備的產(chǎn)業(yè)級深度等，既包含網(wǎng)絡(luò)復(fù)雜、稠密參數(shù)特點的計算機視覺（CV）自然語言處理（NLP）模型訓(xùn)練場景，又覆蓋了有著龐大的Embedding層模MindSpore：MindSpore[114]是一款適用于端邊云全深度學(xué)習(xí)訓(xùn)練/推理框架。MindSpore能很好匹配昇騰處理器算力，等。Jittor在框架層面也提供了許多優(yōu)化功能，如算子融合、自動混OneFlow：OneFlow[116][116]能夠較好適用于多機多卡訓(xùn)練場景，是國內(nèi)較早發(fā)布的并行計算框架。OneFlow會把整個分布式集設(shè)備。最新版本的OneFlow和TensorFlo兼容了PyTorch，支持數(shù)據(jù)+模Colossal-AI：“夸父”（Colossal-AI[117]提供了一系列并行組機PyTorch代碼快速擴展到并行計算機集群上，無需關(guān)心并行編程Transformer架構(gòu)的巨型語言模型。針對Transformer進行了專門的DeepSpeed[29]的超大規(guī)模模型訓(xùn)練工具，其中包含了一種新的顯存GPT3、PaLM[17]和GLaM[120]模型在訓(xùn)練數(shù)據(jù)構(gòu)造時都使用了基于少量樣本提示（Few-shot這種類型的提示需要標注人員設(shè)RM數(shù)據(jù)集，對同一個輸入，模型會給出多PPO數(shù)據(jù)集，沒有任何人類標簽，用作強當前已經(jīng)出現(xiàn)一批大模型數(shù)據(jù)集，涵蓋多種模態(tài)。代表性主要標注的方向包含helpful和har圖片-文本多模COCO[134]Conceptual[136]視頻-文本多模AI模型相比，非常依賴分布式技術(shù)提升效率。因此，大模型開發(fā)的挑戰(zhàn)集中體現(xiàn)在基于深度學(xué)習(xí)框架對各類分布式并行策略進行本地點優(yōu)化、混合精度浮點優(yōu)化[79]等方法、降低梯度計算過數(shù)據(jù)并行[143]：數(shù)據(jù)并行是每個處理器存儲全量的模型參數(shù)、但需要設(shè)計高效的并行算法和通信機制來確保計算的正確性和高效的“組內(nèi)參數(shù)切片+組間數(shù)據(jù)”并行，可以更合理地分配機內(nèi)和機間的硬件資源異構(gòu)性，進一步發(fā)展出了端到端自適應(yīng)分布式訓(xùn)練架構(gòu)模型稀疏化[149][150][151]：這種方法通過將模型中的某些神經(jīng)模型參數(shù)共享：部分大型模型如ALBERT[152]采用了權(quán)重共享量化[149][153][154]：量化是一種將預(yù)訓(xùn)練模型中的權(quán)重從浮點數(shù)轉(zhuǎn)換為低位數(shù)的技術(shù)。通常情況下，量化的精度可被降低到8位混合并行推理，實現(xiàn)對模型結(jié)構(gòu)和計算硬件的自動感知（AutomatedHardwareAwareness協(xié)同優(yōu)化模型推理效率自動計算圖融合優(yōu)化：以非侵入的方式自動匹配高性能融合算這種計算特點，可以通過協(xié)同硬件開展優(yōu)化，研發(fā)LLM.INT8()[67]A100，以及谷歌的TPU（TensorProcessingUni能規(guī)格各不相同。大模型除了對訓(xùn)練芯片的計算性能有一定的要求間表示（IntermediateRepresentation，IR）對接硬件的代碼生成器（Field-ProgrammableGateArray）加速也是一種重要的硬件加速技另外，云服務(wù)也為大模型訓(xùn)練提供了強大的計算能力和存儲資對已經(jīng)硬件進行全面適配，另一方面需要開展極致的軟硬件協(xié)同優(yōu)和少樣本學(xué)習(xí)能力,可以快速掌握新的任務(wù),實現(xiàn)對不同領(lǐng)域、不同數(shù)計算文檔和查詢的相關(guān)性，召回最相關(guān)的TopK候選文檔，然后再采以索引為核心的“索引—召回—精排”檢索架構(gòu)被廣泛應(yīng)用在各種信中國科學(xué)院自動化研究所基于自主研發(fā)的音視頻理解大模型“聞海”和三模態(tài)預(yù)訓(xùn)練模型“紫東太初”[157],聯(lián)合新數(shù)據(jù)與大模型驅(qū)動的多任務(wù)統(tǒng)一學(xué)習(xí)體系,實現(xiàn)了對全媒體數(shù)據(jù)的統(tǒng)一市-園區(qū)-商圈-社區(qū)-網(wǎng)點級別的智能計算與研判，為線上線下數(shù)實融DNA遠端交互進行基因表達和染色質(zhì)狀態(tài)預(yù)測的神經(jīng)網(wǎng)絡(luò)架構(gòu)DNA序列預(yù)測基因表達的準確性。為進一步研究美國哈佛醫(yī)學(xué)院和英國牛津大學(xué)的研究人員合作開發(fā)出一款可可以協(xié)助用戶撰寫各類文檔,實現(xiàn)文檔創(chuàng)作、編輯和總結(jié)等功能，用戶只需用自然語言提出需求,Copilot即可以快速生成或修改文檔內(nèi)在影視行業(yè)，大模型技術(shù)為內(nèi)容制作和影視創(chuàng)作帶來了新的變模型能夠較好地因材施教,為學(xué)生提供全方位知識支持。8月,好未來識整合能力可滿足學(xué)生動態(tài)需求,實現(xiàn)個性化學(xué)習(xí),與教師共同提金融發(fā)布國內(nèi)首個零售金融大模型“天鏡”,具有知識匯集、喚醒數(shù)據(jù)價值等應(yīng)用場景,可助力零售金融機構(gòu)實現(xiàn)智能客服、精準營銷、風(fēng)險控制等能力。在模型訓(xùn)練規(guī)模不斷擴大的背景下,金融行業(yè)大模發(fā)Med-PaLM[89]醫(yī)療大模型,其在醫(yī)學(xué)考試和開放式問答上達到專理解醫(yī)學(xué)多模態(tài)數(shù)據(jù),并根據(jù)個性化診療需求進行智能決策。醫(yī)療大計過程中，設(shè)計師需要花費很長的時間設(shè)計衣服并進行線上樣款測訓(xùn)練，對EverydayRobots將大模型常用的自監(jiān)督訓(xùn)練方式以及預(yù)訓(xùn)練-微調(diào)的訓(xùn)練部署方式延時刻的觀測/正運動學(xué)，預(yù)測上一時刻的動作/逆運動學(xué)）以及一個長級學(xué)術(shù)期刊《自然》(Nature)雜志正刊發(fā)表了華為云盤古大模型研發(fā)會成為人類威脅的環(huán)境”。OpenAI首席執(zhí)險應(yīng)該與流行病和核戰(zhàn)爭等其他大規(guī)模風(fēng)險一樣，成為全球優(yōu)先議型的安全監(jiān)管。習(xí)近平總書記在多次會議中指出，“要重視通用人工一代人工智能治理原則——發(fā)展負責(zé)任的人工智能》指出，“人工智智能標準體系建設(shè)指南》指出，“重點開展人工智能安全術(shù)語、人工問題。”等發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》指出，“國家堅持發(fā)（1）辱罵仇恨：模型生成帶有辱罵、臟字臟話、仇恨言論等不（3）違法犯罪：模型生成的內(nèi)容涉及到違法、犯罪的觀點、行（4）敏感話題：對于一些敏感和具有爭議性的話題，模型輸出（6）心理傷害：模型輸出與心理健康相關(guān)的不安全的信息，包（7）隱私財產(chǎn)：模型生成涉及到暴露用戶或第三方的隱私和財（8）倫理道德：模型生成的內(nèi)容認同和鼓勵了違背道德倫理的標簽。由于模型的黑箱特性，這種攻擊難以檢測。比如在ChatGPT為攻擊者創(chuàng)造了新的攻擊途徑[167]。因此，迫切需要研究魯棒的分大模型訪問外部資源時引發(fā)的安全漏洞。大模型與外部數(shù)據(jù)、無意間學(xué)習(xí)并模仿數(shù)據(jù)中的價值觀。其次是有監(jiān)督微調(diào)（Supervised更具體的任務(wù)要求并調(diào)整其輸出，使之更接近人類對特定任務(wù)的期c.數(shù)據(jù)掩碼（DataMasking數(shù)據(jù)掩碼是一種將敏感信息部分過從人類反饋中學(xué)習(xí)來構(gòu)建更有用、更準確和更安全的對話智能體（河貍）項目[170]，提供了一種可復(fù)現(xiàn)的RLHF基準，并公開了近端策略優(yōu)化分析其穩(wěn)定訓(xùn)練及其在大模型人類對齊中的作用機理，并發(fā)布大模型人類對齊技術(shù)報告與開源核心代碼，以推動中文全、負責(zé)任和合乎道德的人工智能的發(fā)展和部署，清華大學(xué)于2023導(dǎo)模型出錯，包含目標劫持、Prompt泄露、賦予特殊的角色后發(fā)布指令、不安全/不合理的指令主題、隱含不安全觀點的詢問、以及反面誘導(dǎo)。基于該框架，平臺對GPT系列、ChatGLM等主流大模型進行了安全評估，并發(fā)現(xiàn)指令攻擊更有可能暴露所有模型的安全問們或提供有關(guān)實施恐怖主義行為的實用指導(dǎo)。為了識別這些風(fēng)險，險的能力，其次判斷模型多大程度上可能使用這些能力造成傷害[172]。該框架指出大模型的極端風(fēng)險評估將成為安全人工智能研發(fā)在各種社會決策場景中的能力和道德行為，一項典型的評測基準是再到模型高效適配，大模型技術(shù)引起機器學(xué)習(xí)范式的一系列重要革的應(yīng)用中的潛在漏洞，探討攻擊的傳遞方式以及可能造成的各種威入多種控制手段可一定程度上減少不良內(nèi)容的產(chǎn)生、緩解上述問題[175]，但依然有辦法使得該類先進大模型生成錯誤或極具風(fēng)險的內(nèi)6RecurrentNeuralNetworkLangua66BERTBidirectionalEncoderRepresentat6EmbeddingsfromLanguage66ReinforcementLearningfromHumanF777NSPGeneralLanguageUnderstandinZeROZeroRedundancyOptiASICApplication-SpecificIntegratedCirField-ProgrammableGatewithneuralnetworks.Science,2006,313(5786):504-507.deepconvolutionalneuralnetworks.CommunicationsoftheACM,2017,modelinginspeechrecognition:Thesharedviewsoffourresearchgroups.IEEESignalprocessingmagazine,informationprocessingsystems,2013,R.(2023).AsurveyarXiv:2303.18223.ProceedingsoftheIEEE,1976,64(4):532-5model.Advancesinneuralinfbasedlanguagemodel.Interwordrepresentations."Proc.ofNAACLunderstandingbygenerativepre-training.2018.[11]DevlinJ,ChangMW,LeeK,etbidirectionaltransformersforlanguageunderstanding.arXivpreprint[12]SundermeyerM,SchlüterR,NeyH.LSTMneuralnetworkslanguagemodeling.Interspeech.2012,194-197.Advancesinneuralinformationprocessingsystems,20languagemodels.arXivpreprintarXiv:2001.08modelingwithpathways[J].arXivpreprintarXiv:2languagemodels.arXivpreprintarXiv:2206.07LanguageModelsSecretlyPerformGradientDescentasarXivpreprintarXiv:2212.1055zero-shotlearners.arXivpreprintarXiv:2109.instructionswithhumanfeedback.AdvancesProcessingSystems,2elicitsreasoninginlargelanguagemodels.arXivpsolvingwithlargelanguagemodels[J].arXivprearXivpreprintarXiv:2304trainedoncode.arXivpreprintarXiv:2107.03374,/papers/gpt-4.pdf.processingsystems,32.Abadi,M.,Agarwal,A.,Barham,P.Chen,Z.,Citro,C.,...&Zhenrmfromindustfwithover100billionparameters.InProceedingsofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining(pp.3505-3506).fine-tunedchatmodels[J].arXivpreprintarXiv:23largelanguagemodelwithstate-of-the-artperformance[R].Technical[32]ZengA,LiuX,DuZ,etal.Glm-130b:Anopenbilingualpre-trainedmodel[J].arXivpreprintarXiv:2210.02414,2[33]ZhangZ,HanX,ZhouH,Chinesepre-trainedlanguagemodel[J].AIOpen,2021,2pre-trainedlanguagemodels[J].AIOpen,2021,2:216-224.[35]車萬翔,竇志成,馮巖松,等.大模型時代的自然語言處理：挑systematicsurveyofpromptingmethodsinnatura[37]AkyürekE,SchuurmansD,And[38]陶建華,傅睿博,易江燕,王成龍,汪濤.語音偽造與鑒偽的發(fā)展與挑[39]陶建華.加強深度合成算法安全科研攻關(guān)推進深度合成服務(wù)綜合治理.https://mp.weixifparameterefficientmethodsforprpreprintarXiv:2203.06904,202pretrainingapproach.arXivpreprintarXiv:1907.[42]RaffelC,ShazeerN,RobertsA,etal.Exploringlearningwithaunifiedtext-to-textTransformer[JSequence-to-SequencePre-trainingforNaturalLanguaTranslation,andComprehension[C]//ProceedingsofACL.2020:TransformerforLargeLanguageModels[J].memory-efficientexaparametermodelswithsarXiv:2101.03961,2021.[47]Google.IntroducingPathways:Anext-generatihttps://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/.layersaremixturesofexperts[J].arXivpreprintarXiv:2110.01786,2[49]HeJ,QiuJ,ZengA,etal.Fastmoe:Afastmixturesystem[J].arXivpreprintarXiv:2zero-shotlearners.arXivpreprintarXiv:2109.declarativeinstructionsoninstructionmetalearningthroughthelensofgeneralization[J].arXivpreprintarXiv:2212.12017,202languagemodels[J].arXivpreprintarXiv:2106.09FrameworkforPrompt-learning[C]//ProceedingsoftheACL:SystemParameter-efficientAdaptationofPre-trainedModels[J].aadaptingtransformers[C]//ProceedingsoftheEMNLP.202InformationProcessingSystems,[59]HanX,ZhangZ,DingN,etal.Pre-trainedmodels:Past,presefuture[J].AIOpen,2021,question-answeringwithhumanfeedback[J].webinteractionwithgInformationProcessingSystems,2022[62]OpenAI.ChatGPTPlugi/blog/chatgpt-plugins.[63]MialonG,DessìR,LomeliM,etal.Augmentedlanguagemodels:asurvey[J].arXivpreprintarXiv:[64]LuJ,BatraD,ParikhD,etal.Vilbert:Prvisiolinguisticrepresentationsforvision-and-languagetasks[J].Advancesinneuralinformationprocessingsystems,201modelsfromnaturallanguagesupervision[C]//Inteonmachinelearning.PMLR,2021:8748-8763.representationlearningwithnoisytextsupeConferenceonMachineLearning.PMLR,2021:4904-4916.NeuralInformationProcessingSystems,2021,34:Visual-LinguisticRepresentations[C]//InterLearningRepresentatrepresentationlearning[C]//ComputerVision-ECCV2020:16thEuropeanConference,Glasgow,UK,August23-28,2020,Proceediandlanguagerepresentationlearning[C]//ProceedingsoftheIEEE/CVFinternationalconferenceoncomputervision.2019:7464-representations[C]//ProceedingsoftheIEEE/CVFconferenceoncomputervisionandpatternrecognitioforcomputervisiongeneration[C]//InternationalConferenceonMachineLearninghigh-fidelityimageswithvq-vae-2[J].Advprocessingsystems,2019,32.generationviatransformers[J].AdvancesinNeuralTransformerforVisionandLanguagsynthesiswithlatentdiffusionmodelsconferenceon[78]RameshA,DhariwalP,NicholA,etal.HierarchidiffusionmodelswithdeeplanguageunderstandiNeuralInformationProcessingSystems,2022,35:[80]ChoJ,LeiJ,TanH,etal.generation[C]//InternationalConferenceonMachineLearnpre-trainingforimagecaptioningandvqa[C]//PconferenceonartificialintelligeLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels.ArXiv./abs/23sthroughscenegraphs[C]//PrftheAAAIConferenceonArtificialIntelligence.2021,35(4):3208-321symbolicknowledgeforopen-domainknowledge-basedvqa[C]//ProceedingsoftheIEEE/CVFmodelforfew-shotlearning[J].ProcessingSystems,2022Aligningperceptionwithlanguagemodels[J].arXivpreprintarXiv:2302.14045,202foundationlanguagemodels[J].arXivpreprintarXiv:23BridgingModalitieswithLargeLanguageModelasaLanguageCatalyarXiv:2305.16103.clinicalknowledge[J].arXivpreprintarXiv:221multimodallanguagemodel[J].arXivpreprintarXiv:2303.03378Hallahan,M.A.Khan,S.Purohit,U.S.Prashanth,E.Raffetal.,“Pythia:Asuiteforanalyzinglargelanguagemodelsacrosstrainingandscaling,”arXivpreprintarXiv:2304.01373,languagemodel.arXivpreprintarXiv:2211.05100.“OPT:openpre-trainedtransformerlanguagemodels,”CoRR,vol.abs/2205.01068,2022.preprintarXiv:2108.12409(2021).(2019).Ernie:Enhancedrepresentationthintegration.arXivpreprintarXiv:1904.09223.Large-scaleknowledgeenhancedpre-trainingforlanguageunderstanding“ERNIE3.0:Large-scaleknowledgeenhancedpre-trainingforlanguageunderstandingandgeneration,”CoRR,vol.abs/2107withautoregressiveblankinP-tuningv2:Prompttuningcanbecomparabletofine-tuninguniversallyacrossscalesandtasks.arXivpreprintarXiv:2110.07602.autoregressivepretrainedChineselanguagemodelswithauto-parallelcomputation[J].arXivpreprintarXiv:2104.1LargeLanguageModeOpen-SourceFrameworkforTrainingLargeAutoregressiveVision-LanguageModels[J].arXivpreprinInstructblip:Towardsgeneral-purposevision-languagemodelswithinstructiontuning.arXivpreprintarXiv:2305.LargeLanguageModels.ArXiv./abs/Parameter-EfficientVisualIns[106]RohitGirdhar,AlImagebind:OneembeddingspacetobinarXiv:2305.05665.acrossLanguages[J].arXivpreprintarXiv:230impressinggpt-4with90%*chatgptqualitHuang,F.(2023).MPLUG-Owl:ModLanguageModelswithMultimodalVision-LanguageModelwithVersatileAbilities[J]arXiv:2308.12966,20distributedsystems.arXivpreprintarXiv:1603.04467.rmfromindustfgraphexecution.ScienceChinaInformationSc(2021).Oneflow:Redesignthedistributeddeepscratch.arXivpreprintarXiv:2110.(2021).Colossal-AI:Aunifieddeparalleltraining.arXivpreprintarXiv:2110.14883.Catanzaro,B.(2019).Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelism.arXivpreprintarXiv:1909.08053.https://intro-llm.github.io/,20modelswithmixture-of-experts[C]//InteMachineLearning.PMLR,2022:5547-5569.Methods,analysis&insightsfromtraininggopher[J].arXivpreprintinstructionswithhumanfeedback[J].AProcessingSystems,2Omni-ModalityFoundationModelandDataset[J].arXivpr[124]BainM,NagraniA,VarolG,etal.imageencoderforend-to-endretrieval[C]//ProceedingsoftheIEEE/CVFbooks[C]//ProceedingsoftheIEEEinternationafdiversetextforlanguagemodeling[J].arXivassistantwithreinforcementlearningfromhumanfeeinstruction-followingllamamodel[J/OL].GitHubrepository,2023./tatsu-lab/stanford_alpa[129]static-hh.https://huggingface.co/datasets/Dahoas/static-hh,2023[130]ShareGPT.https:/[131]zhihu_rlhf_3k.https://huggingface.co/datasets/liyucheng/zhihu_rlhf_[132]BeaverTails.https://humillioncaptionedphotographs[J].Advancesinneuralinformationobjectsincontext[C]//Conference,Zurich,Switzerland,September6-12,2014,Proceedings,languageandvisionusingcrowdsourceddenseimageannotations[J].Internationaljournalofcomputervision,2017,123:32-73.web-scaleimage-textpre-trainingtorecognizelong-tailvisualconcepts[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.“Coyo-700m:Image-textpairdataset,”/kakaobrain/coyo-dataset,2022.text-videoembeddingbywatchinghundrclips[C]//ProceedingsoftheIEEE/CVFinternacomputervision.2019:2630-2knowledgemodels[J].AdvancesinNeuralInformationProcessingSystems,2021,34:23634-23651.video-languagerepresentationwithlarge-scalevideotranscriptions[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognomni-perceptionpretrainingmodelandDemocratizing{Billion-Scale}modeltraining[C]/single-program-multiple-datacomputationalmodelneuralnetworksusingpipelineparallelism[J].Advancesiinformationprocessingsystems,[145]NarayananD,ShoeybiM,CasperJ,etal.Efficientlarge-scalelanguagemodeltrainingongpucmegatron-lm[C]//ProceedingsoftheInternational

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中國人工智能系列白皮書：大模型技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

中國人工智能系列白皮書：大模型技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔