2025DeepSeek-R1Kimi1.5及類強推理模型開發(fā)解讀_第1頁
2025DeepSeek-R1Kimi1.5及類強推理模型開發(fā)解讀_第2頁
2025DeepSeek-R1Kimi1.5及類強推理模型開發(fā)解讀_第3頁
2025DeepSeek-R1Kimi1.5及類強推理模型開發(fā)解讀_第4頁
2025DeepSeek-R1Kimi1.5及類強推理模型開發(fā)解讀_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

DeepSeek-R1Kimi1.5及 DeepSeek-R1ZeroR1PipelineDeepSeek-V3BaseDeepSeek-R1ZeroR1DeepSeek-R1背后的Insights&Takeaways:RLDeepSeek-R1STaR-basedMethodsvsRL-basedMethods強推理路徑對比(DS-R1Kimi-1.5o-.PRM&MCTS強推理下的安全:形式化驗證FormalVerification審計對齊Deliberative補充拓展:DeepSeek-V3DeepSeek-R1開創(chuàng)RL加持下強推理慢思考范式新邊 OpenAIo1開啟后訓練Post-Training時代下的RL新范式:后訓練擴展律Post-TrainingScalingDS-R1獨立發(fā)現(xiàn)了一些通往o1路上的核心理念,并且效果還好到受到了OpenAIDeepSeekR1-ZeroR1的出現(xiàn)再次證明了R1-Zero從基礎模型開始構建,完全依賴強化學習,而不使用人類專家標注的監(jiān)督微調(diào)DeepSeek-R1開創(chuàng)RL加持下強推理慢思考范式新邊 得益于強大的推理能力與長文本思考能力,DeepSeekR1在復雜任務上表現(xiàn)卓越,成為開源領域的又一里程碑,標志著開源社區(qū)在與閉源大模型(如OpenAIo1系列)的競爭中邁出了關鍵性一步。DeepSeek-R1在數(shù)學代碼DeepseekR1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217。在MATH-500上,獲得的驚人成績,表現(xiàn)與OpenAI-o1-1217相當。在編碼相關的任務中表現(xiàn)出專家水平,在Codeforces上獲得了2029Elo評級,在競賽中表現(xiàn)優(yōu)于96.3%的人類參與者MMLU\MMLU-Pro\GPQADiamond等STEM-related榜單上取得良好表現(xiàn)R1AI-DrivenResearch在長文本依賴任務如FRAMEs和事實性推斷任務Simple-QA上表現(xiàn)突出回顧:Pre-TrainingScaling Pre-TrainingScalingLaws預訓練模型上廣泛觀察到的現(xiàn)象,協(xié)調(diào)了計算量C、模回顧:Post-TrainingScaling Post-TrainingScalingLawsSelf-PlayLLMInference的計算量回顧:Post-TrainingScaling 為什么我們需要后訓練Scaling-Law ScalingUp帶來的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL的Post-Training將會成為下一個突破點。式方法和擴大參數(shù)規(guī)模,那么在數(shù)學推理任務上帶來的收益不會太大。所以需要尋找額外的ScalingLaws[1]。 Large-ScaleReasoning-OrientedDeepSeek-R1技術剖析:DeepSeek-R1 Large-ScaleReasoning-Oriented DeepSeek-R1Zero:無需監(jiān)督微調(diào)SFT,純強化學習驅(qū)動的強推理模 Rule-BasedRule-Based DeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero:無需監(jiān)督微調(diào)SFT,純強化學習驅(qū)動的強推理模 獎勵建模:基于規(guī)則的獎勵(Rule-BasedReward):準確率獎勵+格式獎勵準確率獎勵AccuracyRewards:判斷答案是否是正確的格式獎勵FormatRewards:規(guī)勸模型生成答案的過程是<think>和沒有使用RewardModel,因為ORM和PRM等基于神經(jīng)網(wǎng)絡的都可能遭受reward而retrainingrewardmodel訓練模板:選擇最簡單的ThinkingProcess,直接觀察到最直接的RL過程下的表現(xiàn)(Rule-BasedRewardDeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero:無需監(jiān)督微調(diào)SFT,純強化學習驅(qū)動的強推理模 推理為中心大規(guī)模強化學習:組相對策略優(yōu)化(GRPO)+瞄準Reasoning推理任務自我迭代提升Self-Evolution:隨著訓練步數(shù)的增長,模型的thinkingresponselength逐漸增加(對應著test-timecomputationincreasing)Ahamoment: RLLong-CoTDeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero的關鍵啟 DeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero的關鍵啟 跳過SFT階段,直接運用純強化學習拓展推理能力邊界需要足夠強的基座模型:基座模型(DeepSeek-V3Base)超過了某個質(zhì)量和能力閾值(671B在14.8T高質(zhì)量Token上訓練)(基座模型知識幫助突破推理上界,也有一些工作利用小模型復現(xiàn)AhaMoment得益于大規(guī)模RL和高質(zhì)量推理數(shù)據(jù));大規(guī)模強化學習加持:GRPO對于強化學習訓練的優(yōu)化;規(guī)則化獎勵:繞過獎勵攻陷問題,但是得益于(Self-AutomatedVerificationandAnnotation)DeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero的關鍵啟示:舉例-自動化標記和驗 示例輸入:編寫python代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42自動化驗證方法:利用軟件檢查代碼補全判斷是否為完整代碼執(zhí)行Python代碼檢查運行情況判斷是否為可運行代碼調(diào)用外部模塊構建額外的檢測單元甚至可以更進一步,測量執(zhí)行時間以上均可以作為小批量訓練(Mini-Batch)和連續(xù)訓練過程中的獎勵信號DeepSeek-R1技術剖析:DeepSeek-R1 DeepSeek-R1Zero的關鍵啟示:舉例-自動化標記和驗 示例輸入:編寫python代碼,該代碼采用數(shù)字列表,按排序順序返回,在開始時添加42基于規(guī)則進行驗證,并在Mini-Batch中提供獎勵信號;DeepSeek-R1技術Pipeline總 DeepSeek-R1Zero的問題:Research能否在Zero基礎上兼顧推理性能的同時,提升模型的幫助性和安全性?例如產(chǎn)生Clear&CoherentCoT并且展現(xiàn)出通用能力的模型能否利用一些高質(zhì)量反思數(shù)據(jù)集做ColdStart從而加速RL的收斂或幫助提升推理表現(xiàn)DeepSeek-R1技術Pipeline總 200k200k(Writing\Role-Play600k(Rule-based+Generative獎勵Rule-BasedCold雙重驗證Cold雙重驗證全領域RL全領域RLAll-ScenariosRL–規(guī)則獎勵(Rule-basedReward)(Reward

IntermediateModel

StageI:推理鏈可讀 StageII:通用能力&安全DeepSeek-R1技術Pipeline總 冷啟動Cold數(shù)據(jù)準備:few-shotlongcotdata,詳細帶反思和驗證的數(shù)據(jù)集雙重驗證:由人類注釋者和R1-zero生成的高質(zhì)量鏈式思考IntermediateModelStageI:IntermediateModelStageI:冷啟動Cold雙重驗證成效:提供一些HumanPrior\顯著提升了語言的語義連貫性、可讀性和基本推理能力。推理為中心RLReasoning-Oriented增加了大規(guī)模的RL訓練過程:和DeepSeek-R1Zero基本一致,主要是提升Reasoning的能力,包括coding\mathematics\logicreasoning等帶有明確解答過程的問題語言一致性獎勵:引入languageconsistencyreward衡量長推理鏈可讀性(通過計算CoT過程中目標語言的占比)推理準確率獎勵:結合accuracyofreasoningtasksandrewardlanguage成效:通過GRPO,模型在AIME2024等數(shù)學基準上取得了顯著提升,pass@1從15.6%提高到71.0%。此外,模型能夠自發(fā)延長推理鏈條,展現(xiàn)出更強的邏輯連貫性。DeepSeek-R1技術Pipeline總 StageII:通用能力&全領域RLStageII:通用能力&全領域RLAll-Scenarios(Reward(Rule-based200k(Writing\Role-Play600k(Rule-based+Generative獎勵當上一個階段的RL收斂之后,再進行和之前Cold-Start的數(shù)據(jù)不同,這部分SFT主要是負責全領域600k推理任務:(1)基于規(guī)則的獎勵(2)利用批判模型融合生成式獎勵200k通用任務(writing\role-playing\general-成效:使模型在推理能力不減的前提下,語言表現(xiàn)更為自然,適應性更為廣泛。全領域RLRLforall進一步提升除了reasoning能力之外幫助性和安全性對于reasoningdata,可以用基于規(guī)則的獎勵對于generaldata,成效:最終版本的R1還具備更安全的交互性能。DeepSeek-R1Takeaways技術亮點總結:Part PureRLtoDevelopReasoning社區(qū)的復現(xiàn)都涉及蒸餾和搜索,而DS-R1Zero跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強化學需要足夠強的基座模型:基座模型(DeepSeek-V3Base)訓練步數(shù)的增長,模型的thinkingresponselength(test-timecomputationDeepSeek-R1技術剖析:背后的教師模型DeepSeek- 基座模型(DeepSeek-V3Base)超過了某個質(zhì)量和能力閾值(671B在14.8T高質(zhì)量Token上訓練SystemI的足夠好的PriorDistribution直覺,后期RLDeepSeek-V3低成本(5,576,000美元)MoE671B激活37BMulti-headLatentAttentionMLA)2048H800計算~54DeepSeek-R1技術剖析:RL加持下的Length泛化&推理范式涌 大規(guī)模RL的加持下,DeepSeek-R1Zero如何控制來保證最后的response長度能夠穩(wěn)定上升,可能會出現(xiàn)反復重復驗證、或者驗證時間過晚的情況;(REINFORCE系列更快;PPO訓練穩(wěn)定但是慢)DS-R1Zero長度涌現(xiàn)現(xiàn) 社區(qū)復現(xiàn)結果 社區(qū)復現(xiàn)結果DeepSeek-R1技術剖析:GRPO賦能RL- 大幅度降低RL訓練的計算成本RL訓練中,評論模型需要與策略模型具有相同的大小,增加計算資源的消耗。而GRPO算法利用群組內(nèi)的相對信息來估計基線,避免了使用CriticModel的需要。FromPPOtoPPOActor-Critic算法被廣泛運用于Post-Training其中,????和??????????分別表示當前策略模型和舊策略模型,q,o是從問題數(shù)據(jù)集和舊策略??????????采樣的輸入和輸出????是基于廣義優(yōu)勢估計(GAE)計算的優(yōu)勢值,依賴于獎勵序列{??≥t習的價值函數(shù)????。因此,PPO需要同時訓練策略模型和價值函數(shù)。為避免獎勵模型的過度優(yōu)化,DeepSeek-R1技術剖析:GRPO賦能RL- FromPPOto言,對于每個問題,GRPO從舊策略??????????中采樣一組輸出,并通過最大化以下目標優(yōu)化策略模型:DeepSeek-R1技術剖析:GRPO賦能RL- FromPPOto基于結果監(jiān)督的GRPO:對于每個問題q,從舊策略模型??????????采樣一組輸出{??1??2,??3????},獎勵模型為:????????????1,????????????2,…,????????????????????????1,????????????2,…,????????????????????????1,????????????2,…,????????????

,…

}其中

????????基于結果監(jiān)督的GRPO優(yōu)勢值估計基于過程監(jiān)督的GRPO優(yōu)勢值估計DeepSeek-R1Takeaways總結Part DS-R1Zero跳過監(jiān)督微調(diào)SFT階段,展現(xiàn)出大規(guī)模強化學習的潛力。這種自主學習的方式,不僅為了充分釋放GRPO的潛力并確保訓練穩(wěn)定性,DeepSeekR1的訓練中采用了四階段的交替迭代流程:“監(jiān)督微調(diào)(SFT)強化學習(RL)SFTRL”,有效解決了傳統(tǒng)強化學有效地加速RLDeepSeek-R1Takeaways總結Part 基于群組的相對策略優(yōu)化(GRPO)RL訓練的計算成本\格式獎勵:用于強制模型將推理過程放置在特定的標簽內(nèi),用<think</think標簽來包裹推理過程,使用<answer>和</answer>標簽來包裹最終答案。DeepSeek-R1社會和經(jīng)濟效 +optEiergR技術對比討論:KimiK1.5 K1.5專注于用長文本CoT解決推理時ScalingRL探索:Kimik1.5的核心思想是利用強化學習,讓模型通過試錯(探索)來學習解決問題的能長文本CoTRL:RL應用于長文本CoT隱式規(guī)劃:通過增加上下文長度,讓模型在生成CoT長文本到短文本:通過長文本CoT模型來指導短文本CoT模型的訓練,從而在有限的計算資源下獲KimiK1.5Main KimiK1.5Long2Short技術對比討論:KimiK1.5 四個階段PretrainingSFTLong-CoTSFTRLPromptSetCurationRLDiverseCoverage:涵蓋STEMcodinggeneralreasoningBalancedDifficulty涵蓋不同的complexityAccurateEvaluability能夠被Verifiersrewardhackingsuperficialpatterns的行為Long-CoT用PromptEngineering造了一個高質(zhì)量LongCoTwarmup包含了準確的verifiedreasoningpathsforbothimageandtext涵蓋了planningevaluationreflectionexploration技術對比討論:KimiK1.5 In-ContextRL的角度出發(fā),直接訓練模型approximatePlanning的過程(例如將中statevalue等信息都視為Language策略優(yōu)化:建模成ContextualBandit用REINFORCEOverthinking的行為:可能會導致更好的表現(xiàn),但是會帶來traininginference課程學習(CurriculumLearning):根據(jù)問題的難度,先讓模型學習容易的例子,再逐漸引入優(yōu)先采樣(PrioritizedSampling):根據(jù)問題的難度或模型對問題的掌握程度來調(diào)整采樣概率。技術對比討論:KimiK1.5 VisionData真實世界數(shù)據(jù)包括各個年級的科學問題,這些問題需要圖形理解和推理能力;還包括需要視覺感知和推理能合成視覺推理數(shù)據(jù)是人工生成的,包括程序化創(chuàng)建的圖像和場景,旨在提高特定的視覺推理技能,例如理解文本渲染數(shù)據(jù)Long2Short模型融合CoTCoT最短拒絕采樣;ShortRejectionSamplingDPO(DirectPreferenceOptimization)CoT模型生成的答案作為偏好數(shù)據(jù)來訓練ShortCoTLong2shortRLRLCoT技術對比討論:KimiK1.5vs.DeepSeek-R1 二者都關注RL的方法帶來的提升,MCTSPRM沒有被使用(RewardHacking的考慮 MCTS是一種Structure,A*Structure,人為加入InductiveBias強求LLM按照結構化先驗進PRM容易被RewardHackingValueKimiK1.5In-ContextRL的角度出發(fā),直接訓練模型approximatePlanning的過程(Search中statevalue等信息都視為LanguageDS-R1是從純RL入手,利用GPRORule-BasedRewardKimiK1.5Main DS-R1Main技術對比討論:KimiK1.5vs.DeepSeek-R1Comparison GRPO:利用同一問題下多個采樣輸出的平均獎勵作為基線,從而無需額外近似價值函數(shù)。這種機制KimiK1.5采用的變種MirrorDescent可以在保證學習穩(wěn)定性隨著測試階段算力和訓練階段探索算力的增加,根據(jù)后訓練ScalingLaw,模型的表現(xiàn)將持續(xù)得到改善。理想的數(shù)據(jù)構建應當覆蓋廣泛的類別,并且難度分級明確,這有利于實現(xiàn)類似課程學習的效果,逐步提高模型的能力。技術對比討論:強推理路徑–PureRLvsSTaR- 推理:[QuestionAnswer]Few-ShotExamples微調(diào)數(shù)據(jù)集[Question,Rationale,Answer]進行微調(diào)。迭代:Fine-tune從而防止過技術對比討論:強推理路徑–PureRLvsSTaR- 模型首先采樣潛在的推理路徑(rationale)的過程類似于RL中通過策略選擇動作(action),基于技術對比討論:強推理路徑–PureRLvsSTaR- STaR的核心思路是將思考過程建模到語言模型的NextTokenPrediction中,通過rStar-Math,SoS,Rule-BasedRewardforRLPureRL加持下,業(yè)界的技術實踐更多Focuson直接利用RL激活基座模型的推理潛力,通過構建rule-basedreward,額外加上RLData的設計,激活模型的內(nèi)部本身的RewardModel的一些嘗試如PRM,會遇到rewardhacking,value不準,難以泛技術對比討論:蒸餾vs強化學 DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現(xiàn)非常突出。這很大程度得益于R1模型足夠強大,發(fā)技術對比討論:蒸餾vs強化學 據(jù)中的Pattern,很難學習到數(shù)據(jù)背后的數(shù)學規(guī)律和MetaCoTSFT主要負責記憶而很難進行OOD泛化,基于ORM的RLLongCoTScalingupverifiablereward是longcot小模型(例如wen-math-7b)不容易recentivizelongcot的behavior(e.g.,ahamoment)在MATH場景下。wait,recheck,alternatively這些詞在rl訓練中沒有明顯增加技術對比討論:蒸餾vs強化學 OpenLong-COTLong-COTLong-COTTakeawaysfromRedStarLong-COT在有限數(shù)據(jù)下增強推理能力:小規(guī)模數(shù)據(jù)集(如1.3k個問題)展現(xiàn)了Long-COT更大規(guī)模和專業(yè)化模型提升性能:更大規(guī)模的模型(如14B、32B)以及經(jīng)過專業(yè)預訓練的模型(如數(shù)學預訓練和上下文長度擴展)在Long-COT訓練中表現(xiàn)更佳,優(yōu)于較小規(guī)模的模型(如7B)在保持正確推理路徑和處理復雜任務的能力。任務與語言之間的正遷移:Long-COT訓練不僅能提升數(shù)學任務的性能,還能對其他領域和語言產(chǎn)生正向影響,展現(xiàn)了其廣泛的適用性。此外,該方法具有良好的泛化性和魯棒性,在通用基礎任務和對齊評估中取得了相當或更優(yōu)的表現(xiàn)。強化學習的規(guī)?;嵘诵剩弘x線強化學習算法(DPO)和在線強化學習算法(PPO)均能有效增強模型性能。Long-COT強化多模態(tài)模型:將Long-COT方法應用于多模態(tài)大語言模型(MLLMs)可以顯著提升其性能,說明慢思考(slow-thinking)技術在多模態(tài)任務中的有效性。技術對比討論:蒸餾vs強化學習 KimiK1.5Long2ShortCoTCoT模型,本質(zhì)上是一種「蒸餾」,不過目標和策略更多樣,不僅要性能,token效率;更多地關注對教師模型推理策略的學習,而不僅是輸出。S1模型通過少成本獲得超過o1-preview高質(zhì)量推理數(shù)據(jù)構建:s1K數(shù)據(jù)集精心挑選了1000過難度、多樣性和質(zhì)量的嚴格篩選,并包含詳細的推理軌跡與答案。類似課程學習的效果。采樣策略優(yōu)化:預算強制法當模型生成的思考標記超過預設限制時,插入“end-of-thinkingtoken”若需要增加計算投入,則會暫時阻止end-of-thinkingtoken的出現(xiàn),并鼓勵更深入的探索。DeepSeek利用蒸餾R1的手段獲得了一系列小模型,表現(xiàn)非常突出。這很大程度得益于R1模型足夠強大,發(fā)現(xiàn)了相對依賴于強大的教師模型蒸餾過程通常針對特定任務或一組任務(例如代碼和數(shù)學問題)(例如通用任務)時適應性和泛化能力不足。技術對比討論:MCTS& 利用MCTS,將答案拆分成分句或Token通過MCTS可能會有以下的問題:TokenGenerationSpace更大,而不是像象棋一樣SearchSpacerelativelywell-defined一個相對成功的典范是rStar-Math[1],通過小模型達到OpenAIo1數(shù)學任務相當?shù)乃揭粋€作為策略模型PolicyModel另一個模型訓練成為基于偏好的過程獎勵模型(PPM)MCTS產(chǎn)生分步驗證的高質(zhì)量推理數(shù)據(jù),四輪自我迭代提升些步驟是正確的(正向步驟),哪些步驟是無關或錯誤的(負向步驟),可以用rankingloss訓練偏序技術對比討論:MCTS& 相比于利用MCTS造數(shù)據(jù),直接將MCTS應用于模型的訓練MCTSStructureA*StructureInductiveBias強求LLM按照人為的結構化先驗進行思不通過額外的StructureAlgorithmDistillation:將RLTrainingHistory序列直接建模到語言模型中,學習到Data-EfficientRL算法StreamofSearch:將搜索的過程轉(zhuǎn)化為自然語言序列預訓練模型,policyimprovementmethods(Advantage-InducedPolicyAlignment)和STaR,解決了heuristicsolvers技術對比討論:MCTS&PRM:PRM的實踐和反 DS-R1KimiK1.5都沒有進行明確的MCTS和PRMPRM決定當下的某一步是否正確是一個很難的task,但是用人工標注又難以scalingModel-BasedPRM可能會rewardhackingPRM還是更適合于reranktop-Nresponsesandassistguidedsearch在大規(guī)模RLPRM(Scaling曲線的斜率更大和自動形式化驗證的結合,提供Rule-Based之外輔助的RewardSignal,指導更密集 對于一些簡單的數(shù)學問題2+3?導致更好的表現(xiàn),但是會帶來training和如何合理的分配Test-TimeCompute,進行Long2Short DeepSeekR1ZeroR1在純文本模態(tài)上取得的優(yōu)異表現(xiàn)十分驚艷,這也不經(jīng)讓人期待:多模態(tài)場景加持下DeepseekR1深度推理模型將會是怎樣的表現(xiàn)? 擴展多模態(tài)強推理的可能路徑基于多模態(tài)模型做基座模型擴展到強推理場景,另一種是利用LLaVA的思路,在原來的強推理基座模型上進行額外的模塊擴展凍結除投影層Projector外所有模型參數(shù),對投影層Projector進行預訓練,使得投影層Projector能夠?qū)⒔?jīng)過視覺編碼器的視覺表征映射到語言表征空間。同時微調(diào)投影層Projector Agentic未來技術方向展望:長思維鏈可解釋 OpenAI:OpenAIo1o1-preview模型通過發(fā)現(xiàn)評估主機虛擬機上的Docker守護進程API,并利用它重未來技術方向展望:長思維鏈可解釋性 同時,CoT使監(jiān)督者更容易檢測模型是否遵循合理邏輯,并有助于AI然而,CoT并不能完全解決可解釋性問題,因為模型仍可能利用CoT進行欺騙性推理,即In-ContextScheming。型可能學會輸出符合人類期望的思維鏈,但實際推理過程可能與其展示的CoT當模型具備長期目標意識(InstrumentalReasoning)時,它可能會構造看似合理但實際上誤導性的CoT,以隱藏其真正的意圖。此外,CoT僅是文本輸出的一部分,并不代表模型的實際內(nèi)為了防止CoT變成偽裝工具,需要結合AI-Driven監(jiān)督機制、對比推理(ContrastivePrompting)和未來技術方向展望:模態(tài)擴展+模態(tài)穿透進一步拓展強推理邊 出發(fā)點:我們?nèi)绾卧谌B(tài)場景中,實現(xiàn)any-to-anymodels與人類意圖對齊Question:Whatmediumisthemanusingtospeak?BeforeAfterTheQuestion:Whatmediumisthemanusingtospeak?BeforeAfterThemanisspeakingaWrongIndirectCorrectDirectQuestion:Whathappensbeforethewomanstartsspinningaround?BeforeAfterBeforethewomanspinningaround,sheseenstandingThewomanwasinblackswimsuit,thentoleft,WrongWrongCorrectCorrectQuestion:Smallwhitetoiletsittinginasmallcornernexttoawall.Before AfterAlignmentStrangeRedundantCorrectClean 利用信息更豐富的多模態(tài)偏好數(shù)據(jù)實現(xiàn)更準確且細粒度的人類偏好對 (LearningfromLanguageFeedback)模態(tài)統(tǒng)一范式:從語言反饋中學習LearningfromLanguage BaseBase Align-DS-VARC(5-ARC-Challenge(5-shot)BigBench-Hard(3-Align-DS-VAlign-Anything: 數(shù)據(jù)、框架、算法、模型全開 未來技術方向展望:強推理賦能Agentic發(fā) 未來更多是能否利用強推理能力賦能Agent和具身智能OpenAIDeepResearchAnthropicPC需要依賴于強推理模型反思、長程規(guī)劃、ToolUse工具調(diào)用等能力銷對齊過程的可能性,這一概念我們稱之為逆向?qū)R(InverseAlignment)。我們進一步探究了: 從最簡單的彈簧系統(tǒng)建模,探究大模型內(nèi)在抗拒對齊長度變化量??成線性關系,即:??=?????,彈力系數(shù)??,彈力與其形變方向相反,表

??,而經(jīng)??;大模型被視作一種壓縮器,預訓練和對齊過程則是:利用模型對每階段的數(shù)據(jù)進行聯(lián)合壓縮;數(shù)據(jù)量上pre-training顯著多于post-training,型為提高整體壓縮率,傾向優(yōu)先保留預訓練部分的分布而抗拒微調(diào)對齊的分布,從而表現(xiàn)出模型彈性;訓練數(shù)據(jù)集??1的壓縮率變化顯著小于對齊數(shù)據(jù)集??2,且兩者之比與|????|/|????|同階;正向?qū)R(ForwardAlignmentvs逆向?qū)R(InverseAlignment)在幫助性、無害性和誠實性(3H(PathA相較于PathB

模型彈性(Elasticity)ElasticityIncreasewithModelParameterElasticityIncreasewithPre-trainingData模型彈性隨模型大小增大:隨著模型參數(shù)規(guī)模的增加,因負面數(shù)據(jù)微調(diào)導致的初始性能下降更快,而隨后的下降變得更慢;表明模型彈性隨模型參數(shù)大小增大而增強。模型彈性隨預訓練數(shù)據(jù)增大:隨預訓練數(shù)據(jù)量增加時,因負面數(shù)據(jù)微調(diào)導致的初始性能下降更快,而隨后的下降變得更慢;表明模型彈性隨預訓練數(shù)據(jù)量增多而增強。從胡克定律??=?????到大模型的彈性(而抗拒對齊①預訓練階段和對齊階段不應當各自獨立;如何確保對齊初始模型彈性系數(shù)更?。咕芨。?,彈性限度更大(對齊空間更大②模型評估應該更關注模型內(nèi)在表征的對齊;在對齊模型的評估中,我們應當增加額外評估維度,衡量對齊后的模型有多容易被逆對齊,進一步衡量其對齊程度;③從“表面”對齊到“深入”對齊,對齊范式需要改變;DeliberativeChallenges1)當前的大型語言模型(LLMs)容易被誘導泄露有害內(nèi)容;(2)拒絕合法請求(過度拒絕);(3)仍然容易受到越獄攻擊。LLMs 我們能否直接利用強推理能力學習安全規(guī)范以增強模型的安全性 DeliberativeStageI:SFT&DataStep1:Usingo-seriesmodelsgenerateresponsesthinkingprocessaboutsafecategory-basedGet(prompt,category,CoT,output)Step2:PromptaLLM(asaRM)toprovidescoresfor(prompt,category,CoT,output)pairs,givingascoreaboutrelevantsafetyspecifications.Get(prompt,category,CoT,output,score)Step3:Filterandremovesafetycategoryintheprompt,prompt,outputandthinkingprocessaboutsafetyGet(prompt,CoT,output)Step4:Supervisedfine-DeliberativeStage2:RLDataStep1:PromptaLLM(asajudgemodel,RM)toprovidesignalbasedonpromptcategoryandHidetheCoTprocessagainsttheRMtoavoidoptimizationofCoTwhichmayleadtodeception;Step2:UseRLmethods(suchasReFT)totrainmodellearnsaferandmorehelpfulgeneration.ComparisonofDeliberativeAlignmentandotherTrainingdataCAIorRLAIF:Thoughexistenceofspecifications,butonlabelsareused;knowledgeofthethemselvesislosttotheDeliberativeAlignment:SpecificationsissupervisedbyInferencetimeRLHForCAI:NoreasoningduringSelf-Refine:Reasoningoccursthroughstructuredfew-shotDeliberativeAlignment:ReasoningoverlearnedsafetyspecificationsoccursviaAlignmentLLMshavethepotentialtoreverseorundothealignmentprocess,aconceptwecallInverseDotheparametersoflanguagemodelsexhibitelasticity,therebyresistingSuper-Alignment&ScalableHowtoalignsystemssmarterthanhumansandhowtoalignthemontaskschallengingforhumanInspirationsfromdeliberatealignment:directlylearnguidelinesandtrytojumptheExampleExampleofAlignment≠≠形式化驗證起源于數(shù)學的形式化證明,例如與此同時,安全價值的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論