大模型輕量化技術(shù)_第1頁
大模型輕量化技術(shù)_第2頁
大模型輕量化技術(shù)_第3頁
大模型輕量化技術(shù)_第4頁
大模型輕量化技術(shù)_第5頁
已閱讀5頁,還剩224頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大模型輕量化技術(shù)大模型輕量化技術(shù)張鵬大語言模型輕量化的技術(shù)需求大語言模型輕量化的技術(shù)概覽大語言模型輕量化技術(shù)的詳細講解大語言模型輕量化技術(shù)的未來展望專欄2關(guān)鍵共性技術(shù)念表征和深度語義分析的核心技術(shù)語言模型背景專欄2關(guān)鍵共性技術(shù)念表征和深度語義分析的核心技術(shù)ll語言模型是自然語言處理任務(wù)中的核心技自然語言處理信息檢索數(shù)字媒宣多模態(tài)內(nèi)容理解算力資源消耗大可解釋性差語言模型的發(fā)展歷史和關(guān)鍵難題如何構(gòu)建語義概率空間聯(lián)合概率:p(w1,w2...wi)↓總體思路:用輕量化的方式解決大模型實際應(yīng)用部署過程中遇到的問題大模型參數(shù)規(guī)模196196ms/tokenParam:~1800Param:~1800B73ms/token540B170B11BGPT540B170B11BGPT-3ChatGPT/GPT40.3BBERTPaLM2018.102019.102020.052022.102023.032018.10大語言模型涌現(xiàn)大模型輕量化目標輕量化技術(shù)體積更小跑的更快大模型輕量化的細粒度解析⊕⊕Self-Attention(GroupedMulti-QueryAttention)⊕⊕Self-Attention(GroupedMulti-QueryAttention)withKVCacheRMSNormRMSNormFeedForwardRotaryPositionEmbeddingEmbedding參數(shù)量占比較大,對存儲及顯存計算造成壓力多頭注意力計算造成大量的計算成本,影響計算速度,參數(shù)量占比較大。此外,KVCache部分使QKV作為中間表示存于內(nèi)存中,也會對存儲造成壓力影響效果,占據(jù)一定的參數(shù)量大模型輕量化技術(shù)的意義大模型輕量化技術(shù)為模型在實際應(yīng)用和發(fā)展中帶來更多便利和機遇手機端側(cè)大模型應(yīng)用:將大模型應(yīng)用于移動端,進行家居控制硬件模型壓縮推理加速硬件模型壓縮推理加速智能駕駛艙應(yīng)用:將大模型應(yīng)用于智能車倉,提升個性化服務(wù)應(yīng)用:將大模型應(yīng)用于智能車倉,提升個性化服務(wù)醫(yī)療文書患者管理醫(yī)療文書大模型決策輔助醫(yī)師培訓決策輔助工業(yè)大模型工業(yè)大模型應(yīng)用:解決生產(chǎn)效率問題等大語言模型輕量化的技術(shù)需求大語言模型輕量化的技術(shù)概覽大語言模型輕量化技術(shù)的詳細講解大語言模型輕量化技術(shù)的未來展望輕量化技術(shù)總覽大模型輕量化技術(shù)化化激活量化參數(shù)量化結(jié)構(gòu)化稀疏參數(shù)共享矩陣參數(shù)共享矩陣分解分解硬件加速非結(jié)構(gòu)化稀疏標標本報告來源于三個皮匠報告站(www.sjb.com),由用戶Id107695下載,文檔Id180385,下載日期輕量化相關(guān)理論LLaMA3-8BLLaMA3-70B>16GB>145GBLLaMA3-8BLLaMA3-70B>16GB>145GB模型參數(shù)數(shù)量模型大小>降低浮點運算數(shù)(FLOPs)輕量化相關(guān)理論>顯存(GPUMemory)減少顯存占用可降低對顯卡設(shè)備的要求,增加訓練批次大小,減少訓練時間。較小的內(nèi)存占用有助于在內(nèi)存受限的設(shè)備上高效運行模型。u輕量化模型評估指標參數(shù)壓縮比(CompressionRate):輕量化后模型的參數(shù)占原始參數(shù)的比例>>吞吐量(Throughput)單位時間內(nèi)模型輸出token的數(shù)量高吞吐量表示模型能夠更高效地處理大批量數(shù)samplethroughput=輕量化相關(guān)理論u輕量化模型評估指標推理時間延遲>推理速度(Inference推理時間延遲>推理速度(InferenceSpeed)模型每次推理所需的時間,通常以毫秒(ms)為單位。高推理速度對于實時應(yīng)用和用戶體驗非常>延遲(Latency)低延遲對于實時應(yīng)用(如語音識別、自動駕駛)尤為重要。在LLM推理中,計算公式如下:T=Tio+Tattention+Tffn輕量化相關(guān)理論u輕量化模型評估指標適?任務(wù)ACC適?任務(wù)ACC分類任務(wù)),PPL生成任務(wù)BLEU文本生成F1分類任務(wù)EM信息抽取…………壓縮后模型在各類任務(wù)上的表現(xiàn),如精等。維持壓縮后模型的推理效果是輕量化的重要的目標之一。大語言模型輕量化的技術(shù)需求大語言模型輕量化的技術(shù)概覽大語言模型輕量化技術(shù)的詳細講解大語言模型輕量化技術(shù)的未來展望輕量化技術(shù)總覽大模型輕量化技術(shù)化化激活量化參數(shù)量化結(jié)構(gòu)化稀疏參數(shù)共享矩陣參數(shù)共享矩陣分解分解硬件加速非結(jié)構(gòu)化稀疏標標量化技術(shù)u量化基本理論存儲時量化Jr7存儲時量化Jr7原矩陣WFP16量化矩陣WINT8內(nèi)存需求小,占用位寬低以INT8對稱量化為例,在存儲權(quán)重參數(shù)時,將16位浮點數(shù)組成的矩陣WFP16經(jīng)量化存儲為8位整數(shù)矩陣為WINT8:其中,round()為近似取整函數(shù),scale為縮放因子:WINT8內(nèi)所有值均為[?127,127]內(nèi)的整數(shù)。量化技術(shù)u量化基本理論解量化過程7在推理時7FP16=WINT8.scale解量化后的矩陣FP16相對于原矩陣WFP16有一定計算時QLinearLinear解量化QLinearLinear量化矩陣WINT8解量化矩陣W-FP16量化技術(shù)u低比特量化的難點異常值原矩陣XFP16量化+解量化當大模型參數(shù)量大于6.7B時,經(jīng)激活層生成的矩陣當大模型參數(shù)量大于6.7B時,經(jīng)激活層生成的矩陣X存在占總參數(shù)量0.1%量化技術(shù)浮點類型混合精度量化技術(shù)普通量化方法為直接對w和x分別做量化普通量化方法為直接對w和x分別做量化,由于異常Y=X·WSmoothQuant方法利用w矩陣的參數(shù)分布均勻,無異常值的特點,從數(shù)學等價的角度出發(fā),令w矩陣“代償”一部分異常值的影響,實現(xiàn)了w和x的高精度INT8量化技術(shù)?業(yè)界常用的量化工具通用通用>量化感知訓練●LLM-QAT●QLoRA●TensorRT-LLM…端側(cè)端側(cè)…FrantarE,AshkboosS,HoeflerT,eKimS,HooperC,GholamiA,etal.SqueezerLLM:D稀疏化技術(shù)Du參數(shù)稀疏化隨著模型參數(shù)量的增大,訓練一個巨大的生成式模型,需要很大的GPU內(nèi)存,并且產(chǎn)生巨大的計算量。大模型稀疏化通過減少參數(shù)的密集度來加快計算速度和減少存儲成本。(1)非結(jié)構(gòu)化稀疏尋找一種方法來確定模型中哪些參數(shù)對模型的輸出貢獻較小或不重要,然后將這些參數(shù)設(shè)置為零或進行其他形式的刪減。這樣可以在保持模型性能的前提下,大幅減少模型的參數(shù)數(shù)量。(2)結(jié)構(gòu)化稀疏基于結(jié)構(gòu)式的稀疏策略對參數(shù)進行剪枝或置零,以充分利用參數(shù)的稀疏性來加速計算過程。例如,在矩陣乘法等運算中,跳過零值參數(shù)的計算,從而提高計算效率。0000ll00直接移除權(quán)重矩陣中最不重要的權(quán)重值,使得它們變?yōu)榱憔矸e核或者神經(jīng)元等結(jié)構(gòu)單元稀疏化技術(shù)稀疏注意力機制通過限制注意力計算的范圍稀疏注意力機制通過限制注意力計算的范圍,減少了不必要的計算。例如,使用局部注意力或分塊稀疏注意力來降低計算量??梢栽诩せ詈瘮?shù)層面上引入稀疏性,例如使用ReLU激活函數(shù)自然產(chǎn)生的零值。稀疏化技術(shù)結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會導致模型準確率的大結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會導致模型準確率的大幅下降,而采用非結(jié)構(gòu)化稀疏則可非結(jié)構(gòu)化稀疏產(chǎn)生的問題由于GPU中的張量核專門設(shè)計用于加速稠密矩陣乘法計算的專用單元,對非結(jié)構(gòu)化稀疏矩陣乘法計算的效率較低,因此會造成模型推理速度稀疏化技術(shù)u非結(jié)構(gòu)化稀疏將稀疏矩陣分成多個大小固定的Tiles用數(shù)組TileOffsets存儲每個Tile的非零元素的數(shù)量用數(shù)組NonZeros依次存儲每個Tile的非零元素NonZeros中的每個N都存儲著非零元素值與其位置稀疏化技術(shù)u非結(jié)構(gòu)化稀疏解決方案:Flash-LLM提出了一種雙緩沖計算重疊的計算流水線。優(yōu)勢:采用這種新的流水線進行有效提升了模型推理的效率。雙緩沖計算重疊的計算流水線計算重疊:可以看出每次迭代時,都會在一個緩沖區(qū)加載數(shù)據(jù),另一個緩沖區(qū)計稀疏化技術(shù)Flash-LLM與多個baselines計算性能的對比結(jié)果的模型吞吐量對比2個GPU的模型吞吐量對比知識蒸餾u知識蒸餾基礎(chǔ)理論StudentStudent模型較小的、輕量化的模型Teacher模型性能較好、復雜度較高的模型知識蒸餾(KnowledgeDistillation)旨在將知識從大型復雜模型(教師模型)轉(zhuǎn)移到更小更簡單的模型(學生模型使得學生模型能夠在性能上接近教師模型,同時具有較少的計算資源需求,從而實現(xiàn)模型壓縮。知識蒸餾的核心公式為蒸餾損失函數(shù):L=aLCP+(1-a)LXP其中i7E是學生模型的交叉熵損失,ikD是學生模型與教師模型軟標簽之間的蒸餾損失。知識蒸餾u大語言模型的知識蒸餾黑盒知識蒸餾黑盒(Black-Box)知識蒸餾中,學生模型只黑盒知識蒸餾黑盒(Black-Box)知識蒸餾中,學生模型只能訪問教師模型的輸出(閉源大模型而無法直接訪問教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)或中間層的激活值。其中黑盒知識蒸餾又分為“思維鏈蒸餾”、“上下文學習蒸餾”以及“指令遵循蒸餾”三種方法。白盒(White-Box)知識蒸餾中,學生模型不僅可以訪問教師模型的輸出,還可以訪問教師模型的內(nèi)部結(jié)構(gòu)、參數(shù)和中間層的激活值(開學生模型可以直接學習教師模型的中間層特征或特定參數(shù),從而獲得更豐富的知識。GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識蒸餾u大語言模型的知識蒸餾GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識蒸餾u大語言模型的知識蒸餾教師指導的采樣:在采樣y時混合教師和學生模型的分布。GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.知識蒸餾MiniLLM方法在不同體量大模型上的實驗結(jié)果與其他知識蒸餾方法相比,MiniLLM方法學到了MiniLLM方法在各種小規(guī)模的學生模型上達到超GuY,DongL,WeiF,etal.GuY,DongL,WeiF,etal.低秩分解u基本理論原始數(shù)據(jù)可能有極多的維度,難以儲存與使用我們希望實現(xiàn)數(shù)據(jù)壓縮,只保留原數(shù)據(jù)投影?向投影?向?qū)?shù)據(jù)向方差最大的方向投影從而得到最具代表性的特征通過這種方式可以實現(xiàn)數(shù)據(jù)的壓縮例如左圖中,將二維數(shù)據(jù)降為一維低秩分解u基本理論將原始矩陣分解為左右奇異矩陣與特征值矩陣左右將原始矩陣分解為左右奇異矩陣與特征值矩陣左右奇異矩陣的行列代表原矩陣中的成分對應(yīng)的特征值大小則代表相應(yīng)成分的信息量刪除奇異矩陣中不重要的成分實現(xiàn)數(shù)據(jù)的壓縮例如左圖中,僅維度為r的部分被保留其中r被稱為分解矩陣的秩,它代表了原矩陣中被保留的成分多少。通過將模型參數(shù)轉(zhuǎn)為低秩形式,我們可以保留50%的矩陣秩,即可壓縮超過20億的低秩分解u基本理論x——分解結(jié)構(gòu)更為復雜的大模型參數(shù)xTucker分解可以被視作一種高階PCA.將張量分解為核心張量在每個mode上與矩陣的乘積≈ACCsBTensorTrain分解將一個N階張量分解成了2個二階張量和N-2個三階張量的乘積,σ1σTensorTrain分解將一個N階張量分解成了2個二階張量和N-2個三階張量的乘積,// ///r1///r2…rN-1rN低秩分解計算誤差u基本理論計算誤差原參數(shù)矩陣W參數(shù)矩陣W’矩陣分解技術(shù)分解張量分解張量A裁剪分解張量B’分解張量B’維低秩分解張量網(wǎng)絡(luò)u基本理論張量網(wǎng)絡(luò)h1h1h2--裁剪r1r2 hN混合張量分解技術(shù)參數(shù)效果速度平衡低秩分解方法應(yīng)用參數(shù)效果速度平衡低秩分解方法應(yīng)用FFNTransformer編碼器混合張量分解技術(shù)缺點:高秩情況下,參數(shù)壓縮效果有限。低秩場景中,效果無法保證。缺點:在高秩情況下,復雜度較高,影響速度。在低秩場景中,速度快但難以適應(yīng),影響效果?;旌蠌埩糠纸饧夹g(shù)Hypoformer方法在Transformer模型上推理速度、預測效果以及參數(shù)規(guī)模的實驗結(jié)果分析Ratio是參數(shù)壓縮比,S(pi)為樹莓派設(shè)備上速度提升倍數(shù),S(Intel)為CPU設(shè)備上速度提升倍數(shù)。在不同的壓縮倍數(shù)下,它在準確率和推理速度上都具有明顯的優(yōu)勢。參數(shù)壓縮,速度提升,保持性能。語素增強的低秩近似技術(shù) 通過形態(tài)素分割和張量積實現(xiàn)的單詞嵌入壓縮單詞維度>>形態(tài)素維度單詞數(shù)量>>形態(tài)素數(shù)量型參數(shù)總量的語素增強的低秩近似技術(shù)MorphTE方法在詞嵌入矩陣模塊上的計算與實驗分析形態(tài)素矩陣形態(tài)素矩陣賓-濱賓Morpheme:構(gòu)成一個詞的基本單位詞表矩陣保持原模型的有效性參數(shù)壓縮比例超過20倍為形態(tài)素賦予意義,詞表矩陣保持原模型的有效性參數(shù)壓縮比例超過20倍低維向量:張量積單詞嵌入的基本單元通過少數(shù)量的、低維的語素向量通過少數(shù)量的、低維的語素向量替代原始的詞向量表示矩陣,保持了模型性能,從而減少模型參數(shù)語素增強的低秩近似技術(shù) LORA:LOW-RANKADAPTATION微調(diào)成本高A、B為可訓練矩陣微調(diào)成本高A、B為可訓練矩陣用于在微調(diào)中學習權(quán)重變化LoRA已經(jīng)成為大模型時代最常用的模型微調(diào)方例如,近期的研究將LoRA與MoE架構(gòu)結(jié)合,使一部分LoRA專注于利用世界知識來解決下游任務(wù),以減輕世界知識邊緣遺忘。參數(shù)共享Multi-headAttentionMHAGrouped-QueryAttentionGQAMulti-headAttentionMHAGrouped-QueryAttentionGQAMulti-QueryAttentionMQA就像讓幾個朋友共同用同一個資源,不用每個人都從頭開始找。這種共享資源的方式大大減少了需要處理的內(nèi)容,從而節(jié)省了資源。KV-cache核心思想:將之前計算的鍵和值存儲起來,當處理新的KV-cache核心思想:將之前計算的鍵和值存儲起來,當處理新的輸入時,可以直接利用這些已緩存的鍵和值,而不是重新計算整個序列的鍵和值。效率提升:減少重復計算,特別是在處理長序列時,可以顯著提高處理速度;實時性增強:適用于實時更新的場景,如在線學習或流式處理,可快速響應(yīng)新數(shù)據(jù)。多查詢注意力(Multi-QueryAtten分組查詢注意力(Grouped-QueryAttention,GQA)參數(shù)共享MQA和GQA在不同數(shù)據(jù)集上推理速度、預測效6.29倍,但在多個數(shù)據(jù)集上出現(xiàn)性能的小幅衰減。力后模型的平均推理時間縮短了5-6倍,同時模型的平均性能幾乎不變。的平均推理時間加速了約5.39倍,在多個數(shù)據(jù)集上出現(xiàn)性能的輕微衰減。與MQA相比,GQA保持了更高的性能表現(xiàn)。結(jié)合硬件特點的技術(shù)uFlashAttention結(jié)合硬件特點的技術(shù)并行解碼策略可減少7.2%的推理時間,提升吞吐量,不影響模型效果Computing(82%Time)Sampling(10%Time)Detokenize(8%Time)ReturnTokenizerComputingreturnComputingSamplingreturnSamplingSamplingreturnComputingComputingreturnComputingSamplingreturnSamplingSamplingreturnComputingComputing Return遞歸解碼階段,可以將Detokenize和下一個token的Computing計算在CPU和GPU上并行計算,掩蓋掉前面生成單詞的Detokenize的時間各類輕量化方法總結(jié)壓縮方案最高壓縮率是否需要額外訓練可否自由控制壓縮比例可優(yōu)化結(jié)構(gòu)可否加速模型效果可否聯(lián)合使用量化32倍通常不需要否全部參數(shù)是位寬低時顯著變差是稀疏化是是全部參數(shù)是稀疏率變大時顯著變差是知識蒸餾是是全部參數(shù)是屬于輔助增強算法是參數(shù)共享有限通常不需要是層級結(jié)構(gòu)塊狀結(jié)構(gòu)否多層共享效果顯著變差是低秩近似是是全部參數(shù)一些低階的分解方案可加速效果保持能力較強是大語言模型輕量化的技術(shù)需求大語言模型輕量化的技術(shù)概覽大語言模型輕量化技術(shù)的詳細講解大語言模型輕量化技術(shù)的未來展望量子計算u大模型輕量化的新研究路徑經(jīng)典計算機架構(gòu)上的?模型輕量化技術(shù)量?計算架構(gòu)上的輕量化技術(shù)萬能(通用)近似性定理神經(jīng)?神經(jīng)?絡(luò)能夠逼近任意復雜度的連續(xù)函數(shù)\激活隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長的傅里葉序列表表達能力大量的參數(shù)和有限的表示精度量子隱式神經(jīng)表征\激活隨神經(jīng)網(wǎng)絡(luò)參數(shù)線性增長的傅里葉序列表表達能力大量的參數(shù)和有限的表示精度探索數(shù)據(jù)重上傳量子線路的指數(shù)級增長的傅里葉序列擬合能力量子優(yōu)勢隨量子比特數(shù)量指數(shù)增長的傅里葉序列表達能力更少的參數(shù)和更精確的表示量子優(yōu)勢隨量子比特數(shù)量指數(shù)增長的傅里葉序列表達能力更少的參數(shù)和更精確的表示JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征step1:step2:step3:推導分析數(shù)據(jù)重上傳電路的頻譜量子層擴展頻譜分析數(shù)據(jù)重上傳電路的頻譜量子層擴展頻譜 結(jié)論1)數(shù)據(jù)重上傳量子線路的本質(zhì)是傅里葉級數(shù):fx=∑k,Jak,JeiΛk一ΛJ.x線性層擴展頻譜和調(diào)整頻率((3d?1)L+1)dx線性層擴展頻譜和調(diào)整頻率JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征變分量子線路作為激活函數(shù)插入每層網(wǎng)絡(luò)JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC量子隱式神經(jīng)表征JiamingZhao,WenboQiao,JiamingZhao,WenboQiao,PengZhang*,etal.QuantumImplicitNeuralRepresentations.IC未來展望小型化體型龐大小型化微型個人電腦20微型個人電腦20世紀第一臺通用計算機??量子化0體型龐大量子AI模型大語言模型請批評指正請批評指正LLMLLM稀疏輕量化技術(shù)/壓縮三大 /壓縮三大 o在輕量化三大要素中,低秩近似方法尤其是高階的方法,可實現(xiàn)較高的壓縮率及較優(yōu)的模型效果,然而計算速度方面的優(yōu)勢并不凸顯。o稀疏化技術(shù)具備較強降低計算成本與速度的能力。探索低秩近似與稀疏化補充結(jié)合稀疏化的背景在Transformer上的稀疏化 03在大模型上的稀疏化 稀疏輕量化背景?Transformer時代前的稀疏化技術(shù)發(fā)展20世紀八九十年代在神經(jīng)網(wǎng)絡(luò)中,LeCun等人提出了OptimalBrainDamage方法,該方法通過剪枝不重要的權(quán)重來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)(LeCunetal.,1989)。Hassibi和Stork提出了OptimalBrainSurgeon方法,通過更精確的權(quán)重修剪索拉開了后續(xù)稀疏輕量化技術(shù)發(fā)展的大門。稀疏輕量化背景?Transformer時代前的稀疏化技術(shù)發(fā)展20世紀末Olshausen和Field的研究表明,稀疏編碼通過學習稀疏表示可以有效壓縮信息,使其在神經(jīng)科學和計算機視覺中得到了廣泛應(yīng)用(Olshausen&Field,1997)。這些技術(shù)推動了稀疏輕量化技術(shù)的廣泛應(yīng)用。稀疏輕量化背景?Transformer時代前的稀疏化技術(shù)發(fā)展21世紀初2000年代,壓縮感知理論的提出推動了稀疏輕量化的發(fā)展。研究表明,通過較少采樣重構(gòu)信號,可以在不顯著損失信息的情況下大幅降低計算量模型剪枝技術(shù)被提出,通過移除冗余參數(shù),在保持模型性能的同時顯著降低以上發(fā)展為Transformer網(wǎng)絡(luò)的稀疏化奠定了基礎(chǔ)稀疏輕量化背景?稀疏化基本類型——參數(shù)稀疏大模型稀疏化通過減少參數(shù)的密集度來減少計算成本和存儲成本。主要分為結(jié)構(gòu)稀疏化和非稀疏化兩種。0000DDll00稀疏化三大要點:稀疏輕量化背景?稀疏化基本類型——參數(shù)稀疏結(jié)構(gòu)化與非結(jié)構(gòu)化的對比非結(jié)構(gòu)化:非結(jié)構(gòu)化稀疏在保持模型精度方面往往優(yōu)于結(jié)構(gòu)化稀疏;剪枝后的稀疏性沒有規(guī)則性,使得硬件難以高效利用,可能導致不規(guī)則的內(nèi)存訪問,影響計算效率。稀疏輕量化背景?稀疏化基本類型——中間表示稀疏中間表示的稀疏化通過引入激活函數(shù)等方式。使模型的中間表示部分元素稀疏化為0,減少采用如聚類等方式,直接減少中間表稀疏輕量化背景?稀疏化基本類型——結(jié)合自適應(yīng)計算策略大模型的自適應(yīng)計算輕量化旨在通過動態(tài)分配計算資源以優(yōu)化模型性能和效率。根據(jù)輸入數(shù)據(jù)的復雜度和模型的推理需求,自適應(yīng)地調(diào)整計算路徑,從而在保證精度的前提下減少計算開銷。自適應(yīng)激活策略:gi(x)為門控函數(shù),用于選擇性激活對應(yīng)的子網(wǎng)絡(luò)fi(x)。早停策略:根據(jù)輸入數(shù)據(jù)的復雜度動態(tài)決定網(wǎng)絡(luò)層的深度,在滿足一定條件時提前終止計算。稀疏輕量化背景?大模型稀疏化的過去和現(xiàn)在——關(guān)注點主要關(guān)注預訓練階段的稀疏化更關(guān)注參數(shù)與訓練速度生成式大模型稀疏化的更關(guān)注什么?主要普遍行業(yè)更關(guān)注微調(diào)與推理的計算成本更關(guān)注吞吐量、帶寬及顯存等受限的成本非結(jié)構(gòu)稀疏結(jié)構(gòu)化稀疏稀疏輕量化背景非結(jié)構(gòu)稀疏結(jié)構(gòu)化稀疏MoE+LoRA微調(diào)稀疏混合型稀疏化非結(jié)構(gòu)稀疏端側(cè)稀疏化結(jié)構(gòu)化稀疏大模型稀疏化的過去基于大模型稀疏化的過去基于Transformer等基礎(chǔ)組件的工作大規(guī)模模型的稀疏化實踐稀疏化的背景在Transformer上的稀疏化 03在大模型上的稀疏化 Attention計算稀疏本章脈絡(luò)Attention計算稀疏結(jié)構(gòu)化剪枝結(jié)構(gòu)型稀疏大模型稀疏化非結(jié)構(gòu)稀疏非結(jié)構(gòu)化剪枝大模型稀疏化的過去——Transformer時代?結(jié)構(gòu)化剪枝——挑戰(zhàn)結(jié)構(gòu)性稀疏一般存在兩個問題結(jié)構(gòu)化稀疏由于限制了剪枝元素的選擇自由,會導致模型效果的下降;進行結(jié)構(gòu)化稀疏的最后一步需要進行微調(diào),微調(diào)全模型會產(chǎn)生大量的計算成本。大模型稀疏化的過去——Transformer時代1.基于Fisher信息矩陣對角化的掩碼搜索,以確定各層修剪比例;2.基于層內(nèi)相互作用的掩碼重排列以確定各層的修剪位置,找到最優(yōu)二值掩碼;掩碼量<<模型參數(shù)量大模型稀疏化的過去——Transformer時代Hessian矩陣難以精確構(gòu)建,因此將其近似為Fisher信息矩陣對角化。幫助評估每個參數(shù)塊對損失函數(shù)的二階敏感性當損失函數(shù)為負對數(shù)似然時每層的輸出大模型稀疏化的過去——Transformer時代每層的輸出最優(yōu)二值掩碼:Fisher塊對角近似與熱啟動貪婪搜索相結(jié)合,以避免由于不同掩碼變量間存在的相互關(guān)系導致的性能下降。掩碼微調(diào):非零變量被調(diào)整為任意實數(shù)值,通過線性最小二乘法進行逐層重構(gòu),以使剪枝后的模型恢復其準確性。大模型稀疏化的過去——Transformer時代與其他蒸餾方法的時間比較應(yīng)用于具有不同F(xiàn)LOPs約束的BERTBASE和DistilBERT的準確性。在僅降低1%效果的約束下,滿足約束條件的最大延遲加速大模型稀疏化的過去——Transformer時稀疏代稀疏自注意機制:需要計算輸入文本序列中任意兩個單詞之間的關(guān)聯(lián)。注意力機制加速二次復雜度大模型稀疏化的過去——Transformer時代?稀疏化Transformer——結(jié)構(gòu)化稀疏稀疏因式分解結(jié)合空洞自注意力0(N;)→0(NN)指標都達到最低大模型稀疏化的過去——Transformer時代?局部稀疏化——結(jié)構(gòu)化稀疏局部窗口稀疏化+部分全局注意力O(N;)→O(n×(w+g))在text8和enwik8的實驗顯示同等參數(shù)下獲得到更好的效果大模型稀疏化的過去——Transformer時代?動態(tài)路由算法——結(jié)構(gòu)化稀疏動態(tài)路由稀疏化以更少的計算成本獲得到更好的效果大模型稀疏化的過去——Transformer時代?神經(jīng)聚類方法——結(jié)構(gòu)化稀疏IjI=Argmax(u,:j)XS,I,=sort(X,I)輸入序列神經(jīng)聚類過程大模型稀疏化的過去——Transformer時代神經(jīng)聚類注意力:對每組查詢(Query)、鍵(Key)和值(Value)塊進行并行的注意力機制計算。Complexity:N2→O(NN)ModelOZMi=Attention(QMi,KMi,VMi)ZM=Blockconcat(ZM1,…Complexity:N2→O(NN)ModelO大模型稀疏化的過去——Transformer時代(1)翻譯任務(wù)(2分類任務(wù)(3)時間測試(4)顯存測試Thelongerthesequence,themorenoticeabletheefficiencyimprovement大模型稀疏化的過去——Transformer時代?FFN與Attention稀疏策略——非結(jié)構(gòu)化稀疏Transformer模型的問題:訓練和微調(diào)計算成本高昂;在FFN層中,每個塊只允許一個浮點數(shù)非零,論文提出了一個基于低秩分解思想的控制器,最終輸出一個獨熱編碼:解碼時間加速20倍yS,m=∑ixiDi,SEi,m的方式計算輸出。同時可以結(jié)合二維卷積層來解碼時間加速20倍大模型稀疏化的過去——Transformer時代?Somethoughts可以看到在Transformer組件上的稀疏化工作大多是需要再次進行訓練,在超大模型規(guī)模下,這種稀疏成本是難以讓人接受的。如何將現(xiàn)有方法與大模型解耦,類似于控制器的學習改裝為LoRA的形式,減少稀疏化技術(shù)實現(xiàn)本身的時間成本,也是大模型稀疏化主要關(guān)注的問題。稀疏化的背景在Transformer上的稀疏化在大模型上的稀疏化 本章脈絡(luò)表示稀疏表示稀疏端側(cè)稀疏端側(cè)稀疏稀疏化+低秩近似LLM稀疏化技術(shù)化大語言模型的參數(shù)量更多,不同參數(shù)剪枝元素間存在大量的依賴性關(guān)系化大語言模型的參數(shù)量更多,不同參數(shù)剪枝元素間存在大量的依賴性關(guān)系,貿(mào)然剪枝會造成模型效果下降。挑戰(zhàn)挑戰(zhàn)參數(shù)塊間存在依賴性關(guān)系MLP型分組Attention型分組層型分組LoRA微調(diào)剪枝LLM稀疏化技術(shù)LoRA微調(diào)剪枝重要性估計>重要性估計方面:利用損失的偏差來度量來移除對模型預測影響最小的組,公式計算了行剪枝;利用LoRA的方式對剪枝后的模型進行微調(diào):LLM稀疏化技術(shù)在參數(shù)量、MACs及延遲等多個輕量化性能指標上都展現(xiàn)了有益的效果;>傳統(tǒng)的剪枝方法在較小稀疏率LLM-Pruner能進行更高倍壓縮;符合LLMscalinglaw。?早停策略——結(jié)構(gòu)稀疏化LLM稀疏化技術(shù)?早停策略——結(jié)構(gòu)稀疏化判斷推理是否該提前終止?這是一種不需要犧牲帶寬的LLM加速方法;?在LLM推理過程中,可以對簡單實例使用淺層,對困難實例使用深層;?對LLM的特征進行統(tǒng)計分析并選擇logits構(gòu)建特征,采用高效的SVM和CRF等方法來促進提前退出策略;FanFanS,JiangX,LiX,etal.Notalllayersofllmsarenecessaryduringinference[J].LLM稀疏化技術(shù)?Somethoughts早停思想本身是基于一種普適性的啟發(fā),具備不同復雜度的輸入所需要的層數(shù)是有差別的,現(xiàn)有的方法通過引入外部“控制器”的方式實現(xiàn)早停判斷是否可以通過擴散模型一些自適應(yīng)控制計算的方式(ChengLu,2022LLM稀疏化技術(shù)?SparseGPT——非結(jié)構(gòu)性稀疏挑戰(zhàn):在巨型LLM上,一次性剪枝方法通常需要花費大量的時間來計算完整的最優(yōu)解?;贠BS更新方法的理論,當修剪某一參數(shù)時,此時調(diào)整其他column對應(yīng)的權(quán)重,并且局部更新Hessian矩陣,將會彌補剪枝該參數(shù)造成的誤差。LLM稀疏化技術(shù)?SparseGPT——非結(jié)構(gòu)性稀疏相較于其他方法,在較高稀疏率下能保持模型的效果50%的稀疏率下仍能保持較優(yōu)的效果LLM稀疏化技術(shù)?表示稀疏化——非結(jié)構(gòu)性稀疏替代ReLU,用Top-K函數(shù)實現(xiàn)稀疏化比密集模型更出色的推理最優(yōu)縮放律在激活率50%左右時,能達到與源模型相近的結(jié)果LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏緩存區(qū)的激活狀態(tài)被清除有后續(xù)標記以及隨后的生成過程保持丟棄狀態(tài)LLM稀疏化技術(shù)現(xiàn)ScalingLaw的趨勢隨著稀疏率的增加CacheMemory逐漸降低LLM稀疏化技術(shù)?Somethoughts以上方法傾向于選擇值較小的元素進行稀疏化操作,進一步能否通過觀察數(shù)據(jù)分布,通過數(shù)據(jù)分布的特點提出更合理的稀疏化策略也是一種有效的思路。LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏觀察:在計算注意力得分時,僅有一小部分標記對結(jié)果的貢獻最大。(1)這些標記往往與其他標記有較強的關(guān)聯(lián)性,它們頻繁地與其他標記一起出現(xiàn)2)移除它們會導致顯著的性能下降。LLM稀疏化技術(shù)?KV表示稀疏化——非結(jié)構(gòu)性稀疏提出了Heavy-HittersOracle(H2O是一種動態(tài)子模優(yōu)化算法,能夠動態(tài)平衡最近的標記和Heavy-Hitters標記。具體而言,其提出了一種KVcache驅(qū)逐策略,每一步都增加最新的token及驅(qū)逐一個token。該方法被定義為了一個動態(tài)子模量的問題,經(jīng)理論推導驗證這種貪婪驅(qū)逐策略得到的集合理論上是接近最理想集合狀態(tài)的:LLM稀疏化技術(shù)在接近100%(95%)時的稀出現(xiàn)顯著下降。將三大主流推理系統(tǒng)DeepSpeedZero-Inference、HuggingFaceAccelerate和FlexGen的吞吐量提升了最多29倍、29倍和3倍。在相同的批量大小下,H2O可以將延遲減少最多1.9倍。LLM稀疏化技術(shù)?Somethoughts能否建模更高階的動態(tài)子模優(yōu)化算法,設(shè)計KVcache驅(qū)逐策略來進一步提升模型效果。LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏參數(shù)存儲在閃存中產(chǎn)生的問題參數(shù)存儲在閃存中產(chǎn)生的問題由于大模型的參數(shù)量巨大,端側(cè)的DRAM容量模型參數(shù)存儲在閃存中。在模型推理時,如若需要使用相關(guān)參數(shù),則從閃存中讀取參數(shù)并使LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏窗口化實現(xiàn)原理:窗口化技術(shù)通過設(shè)定一個“窗口”,將推理過程中一部分神經(jīng)元的激活狀態(tài)保留在DRAM中,而不是每次都從閃存中重新加載這些神經(jīng)元的數(shù)據(jù)。顯著減少了與閃存之間的數(shù)據(jù)傳輸。處理的token列表處理的token列表LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏在讀取數(shù)據(jù)量讀取連續(xù)存儲在一起的參數(shù)的速度會遠遠快于讀取分散存儲的參數(shù)。FFN神經(jīng)元激活特點:在FFN中,第i個神經(jīng)元的激活與上投影層的第i列和下投影層的第i行是相關(guān)的。當其激活時,則需要連續(xù)列進行讀取。同一內(nèi)存中,方便連續(xù)讀取。行列捆綁示意圖LLM稀疏化技術(shù)吞吐量提高一倍吞吐量提高一倍,將整體延遲降低一半顯著減少不同設(shè)置下的端到端延遲顯著減少不同設(shè)置下的端到端延遲LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏智能手機中部署LLM的問題智能手機的內(nèi)存容量有限,模型參數(shù)存儲在因為智能手機功能較弱,異構(gòu)硬件和存儲設(shè)LLM推理的常見瓶頸。限制了LLM的推理速LLM稀疏化技術(shù)?端側(cè)稀疏化技術(shù)——非結(jié)構(gòu)化稀疏神經(jīng)元權(quán)重:PowerInfer-2拋棄了矩陣結(jié)構(gòu),進而采用神經(jīng)元為單位存儲模型權(quán)重。神經(jīng)元粒度的推理:作,神經(jīng)元簇可以在計算過程中動態(tài)地由多個激活的神經(jīng)元組成,神經(jīng)元的數(shù)量由計算單元的計算能力決定。以此可以減少神經(jīng)元權(quán)重的讀取次數(shù)。CPU動態(tài)使用閃存和DARM的神經(jīng)元LL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論