版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
陳博遠(yuǎn)北京大學(xué)2022級“通班”主要研究方向:大語言模型對齊與可擴(kuò)展監(jiān)督https://cby-pku.gith北大對齊小組 >RewardModel.ProcessRewardModel\GenerativeRewardModel\CriticM>CoT&MCTSApplication>OpenAIo1技術(shù)路線推演●RL的無限潛力someofthestrengthsofAlphaGo-typesystemswiththeamazing>Gemini的訓(xùn)練:TreeSearch+RL增強(qiáng)模型推理能力·OpenAIo1運(yùn)用的技術(shù)關(guān)鍵還是在于RL的搜索與學(xué)習(xí)機(jī)制>基于LLM已有的推理能力,迭代式的Bootstrap模型產(chǎn)生合理推理過程(Rationales)的能力;innovationsthatare>而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn)Post-TrainingMLBenchmarksMLBenchmarks●模型學(xué)習(xí)的是產(chǎn)生合理推理的過程,Search在其中的作用是誘導(dǎo)合理推理過程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎勵(lì)信號?!衲P偷腂ootstrap有助于構(gòu)建新的高質(zhì)量數(shù)據(jù),并且新的[1]STaR:BootstrappingReasoningWithReasoning/abs/2203.●在競爭性編程問題(Codeforces)中排名第89個(gè)百分位●在美國數(shù)學(xué)奧林匹克競賽(AIME)資[1]/index>為什么我們需要Post-TrainingScalingLaw是否存在?如果存在,那么這個(gè)模型性能的表現(xiàn)主要和什么有關(guān)?●ScalingLaws:預(yù)訓(xùn)練模型上廣泛觀察到的現(xiàn)象,協(xié)調(diào)了計(jì)算量C、模型參數(shù)量N和數(shù)據(jù)大小D之間的關(guān)系背景:·Scalinglaws:在生成模型訓(xùn)練當(dāng)中被廣泛觀察到的現(xiàn)象?!τ谟?jì)算量C,模型參數(shù)量N和數(shù)據(jù)大小D,當(dāng)不受其他兩個(gè)因素制約時(shí),模型性能與每個(gè)因素都呈現(xiàn)冪律關(guān)系。C=numberofFLOPs(computations)N=numberofmodelparametersD=amountoftrainingdata[DataSource:(Stubelletal,2019][假設(shè)一個(gè)模型有N=10^9(10億個(gè)參數(shù)),并且訓(xùn)練數(shù)據(jù)集的規(guī)模是D=10^{12}(1萬億個(gè)token)。·使用公式C=6ND,總的計(jì)算量就是:ByHaoweiLin這表明要訓(xùn)練這個(gè)模型,大約需要6×1021次浮點(diǎn)運(yùn)算。為什么我們需要Post-TrainingScalingLaws·隨著模型尺寸逐漸增大,預(yù)訓(xùn)練階段參數(shù)ScalingUp帶來的邊際收益開始遞減;如果想要深度提升模型推理能力和長程問題能力,基于RL的Post-Training將會成為下一個(gè)突破點(diǎn)?!褡曰貧w模型在數(shù)學(xué)推理問題上很難進(jìn)步的一點(diǎn)在于沒有辦法進(jìn)行回答的自主修正,如果僅是依靠生成式方法和擴(kuò)大參數(shù)規(guī)模,那么在數(shù)學(xué)推理任務(wù)上帶來的收益不會太大。所以需要尋找額外的Scalingthatveeroff-coursequicklybecomeunrecoverable.Ifwerelypurelyongenera-parametercounttoachieveevenmoderateperformanRatioofInfere●Post-Training階段,隨著訓(xùn)練時(shí)計(jì)算量(來自RL的Training階段)和Test-Time計(jì)算量(例如Test-TimeSearch)的增長,模型性能(例如數(shù)學(xué)推理能力)也會隨之提升●Post-TrainingScalingLaws下訓(xùn)練Inference的計(jì)算量Ourlarge-scalereinffoundthattheperformanceofo1cconstraintsonscalingthisapproachdi[1]/index/l·AlphaGo\AlphaZero:AlphaZero的訓(xùn)練中,模型大約進(jìn)行500萬局自我博弈,每局大約200步,做好每一步平均需要1600次模擬,這使得總的模擬次數(shù)達(dá)到了1.6萬億次CrazyStone[1]https://deepmind.google/discover/blog/alphago●但是AlphaZero只是一個(gè)千萬參數(shù)量級的神經(jīng)網(wǎng)絡(luò),和LLM差了3-4個(gè)數(shù)量級。LLMSelf-Play需要更多的數(shù)據(jù)和更復(fù)雜的參數(shù)●假設(shè)每個(gè)推理問題都可以拆解為3-10步的Chain-of-Thought●計(jì)算LLM需要的推理成本,每一次模擬需要以下數(shù)據(jù):>Context:問題和之前的推理過程。>Action:基于context接下來的行動選擇。這里是和傳統(tǒng)RL差異最大的地方,文字可以用無到會用temperaturesampling來生成k種回答。我們可以按k=32進(jìn)行計(jì)算,也就是每一步推理需要32次inference模擬。 例不會很大,可以認(rèn)為10000次模擬中有1%也就是100次模擬是有價(jià)值的(包括正例和負(fù)例,RL中負(fù)例同樣很有幫助的),也就是100ktokens。如果我們給LLM同一個(gè)prompt在推理階段更多的思考時(shí)間,那能有多少的效率提升它回答的準(zhǔn)確率?●通過BestofN:一次并行生成N個(gè)回答,然后使用一個(gè)LearnedVerifier或RewardModel來進(jìn)行打分,最后選擇生成一個(gè)最好的回答;●修改回答的對應(yīng)的分布,例如讓模型不斷修改潤色自己的回答;●改變Verifier的使用辦法,加入過程性獎勵(lì)模型的評價(jià)。通過比較Self-Refinement和Test-TimeSearchAgainstaPRMverifier兩種辦法,均發(fā)現(xiàn)隨著模型Test-TimeCompute增加,模型的表現(xiàn)上界也不斷提升。IterativelyRevisingAnswersComparingTest-timeandPretrainTest-timeSearchAgainstaPRMVeComparingTest-timeandPretrainingComputeOptimRatioofInferenceToke2'●[1]ScalingLLMTest-TimeCo·Introduction:OpenAIo1開啟「后訓(xùn)練」時(shí)代RL新范式>CoT&MCTSApplication>OpenAIo1技術(shù)路線推演●潛在前景方向>大模型的天花板在哪里\合成數(shù)據(jù)SynthesizedData\推理搜索Test-timeSearch●未來技術(shù)方向分析OpenAIol的訓(xùn)練過程?>CollectingPairwiseDatasetonlyuse6BRMs,asthissavesalotofcompute,andwefoundthacomparisonsintoonedataset,asinglepassoverthedataset θ,ywisthepreferredcompletionoutofthepairofywandy,andDisthedatasetofhu RewardModel:PRM●ProcessRewardModel:在數(shù)學(xué)等推理問題上,僅靠最后答案的正確性來提供獎勵(lì)信號是不足的。一種可能的解決方案是,引入對于每一步解題步驟的打分,來提供細(xì)粒度的獎勵(lì)信號[1]。z?+3x?-4=pi(z)p?(x)…Pwhereeachnon-constantpolynomialpi(x)ismonicwithintegercoefficients,andcannotbefactoredfurtherovertheintegers.Computepi(1)+p?(1)+…+pk(1).InoticethatthegivenpolynomialhasevendegreeandonlLety=x?,thenthepolynomialbecomesy2+3y-4,whichisaquadraticequIcanfactorthisquadraticequationas(w+4)v-1),sotheoriginalpolynomialNowIneedtofactoreachofthesefactorsfurther,ifpossible,overtheintegers.Forthefirstfactor,x?+4,IrecalltheSophieGermaina2+2b2+2ab)(a2+2b2-2ab).Applyingthisidentitywitha=randb=1,IgetForthesecondfactor,x?-1,Icanusethedifferenceofsquaresformula,whia2-b2=(a+b)(a-b).Applyingthisformulawitha=x2andb=1,Igeta2-1=(z2+I)(zThenIcanapplythedifferenceofsquaresform=(z+1)(x-1).Sotheoriginalpolynomialis(z?+4)(z?-1)=(2+2x+2)(c2-2x+2)(2+1)(+1)(z-1ThesearealltheirreduciblefactorsovertheintegeP?(z)=x2+1,pa(z)=x+1,andps(x)=x-1.Tofindthesumoftheirvaluesatz=1,IjustIcanapplythedifferenceofsquaresformulaagaintothelaIcanapplythedifferenceofsquaresformulaagaintothela(x2+2)(x2-2)(x2+1)(x+1)(x-1).Igetpi(1)=I2+2·1+2=5,p?(1)=I2-2·1+2=1,pa(1)=I2+1=2,p?(1Sothefinalansweris5+1+2+2Multiplying,IMultiplying,Igetp(1)+p(1)+Letx?+3x?-4=whereeachnon-constantpolynomialp;(z)ismonicwithintegercannotbefactoredfurtherovertheintegers.Computep?(1)+p?(1)+…+p(1ThisproblemisaboutfactoringapolynomialovertOnepossiblestrategyistolookforrationalrootsofthepolynomial,usingtheHowever,thatwouldinvolvecheckingalotofpossiblefactorsof-4,andtherethatthepolynomialhasanyrationalrootAnotherpossiblestrategyistousesomealgebraictrickstosimplifythepoInoticethatthepolynomialhasonlyevenpowersofz,soIcantryThenthepolynomialbecomcsy2+32-4,whichisaIcantrytofactorthisquadraticequationbybookingforNowNowThisbokspromising,bcauseIhavereduccdthedegreeofthefactorIcantrytofactoreachofthesefactorsfurther,usingthedifferenceofsqIgetz?+3x?-4=(2+2)(x2-2)(2+1)(2-1).NowIhavefactoredthepolynomialcompletelyintomoniclineThesearethep(a)'sthattheprobleTofindthesumoftheirvaluesatz=1,Ijustneedtopluginz=1Igetp?(1)+p(1)+…+pA(1)=(I2+2)(I2-2)(I2+1)(1+1)(1-1).Simplifying,Igetpi(1)+p?(1)+…+p(1)=(3)(-1)(2)(2)0).32)r…rRewardModel:ScalableOversig●針對人類無法評價(jià)的問題或任務(wù),人類難以給出evaluation和Preference,我們?nèi)绾卧谶@樣的任務(wù)上Supervise\提供獎勵(lì)信號?——ScalableOversight可擴(kuò)展監(jiān)督問題[1]●其中一種解決方案是通過引入AIAssistance(例如外掛一個(gè)CritiqueModel,使得人類的監(jiān)督信號在AI幫助下得以強(qiáng)化)這個(gè)原則,訓(xùn)練一個(gè)專門用于評價(jià)的CriticModel是較為簡單的[1]AIAlignment:AComprehensiveSurvey/abs/2310.1[2]Self-critiquingmodelsforassistingNoassistAssisted隨著模型規(guī)模增大,相應(yīng)的能力會增強(qiáng),但仍然存在一些關(guān)鍵挑戰(zhàn):●如何將Critic的能力泛化到更加復(fù)雜的任務(wù),例如對于代碼數(shù)學(xué)或者長文本輸出>CriticModel需要考慮輸出各部分之間的依賴關(guān)系和邏輯推理問題,因此對于模型自身的推理能力要求更高。●用于評論批判的模型(CriticModel)同樣也可能會存在Generator-Discriminator-Critique(GDC)gaps即模型可能不會指出他們所發(fā)現(xiàn)的錯(cuò)誤thedirectory"/safedir"shouldnotinsecure.Userscouldexploitthiswitmonpath([absolute_fdefgetfileobjecifnotabsolutefile#GettheabsolutepraiseFileAccessError("Accesabsolute_file_path=os.path.absabsolute_safe_dir=os.path.類比“快思考”過程。由于缺乏詳細(xì)的中間推理步驟,模型一開始可能會犯錯(cuò),而錯(cuò)誤的傳播導(dǎo)致最終生成的答案也是錯(cuò)誤的?!衤窂絀:CoT:Training-Free的方式,通過分步的方式先生成一系列中間的推理步驟,從而提升模型推理能力;>Token級別的節(jié)點(diǎn):每個(gè)節(jié)點(diǎn)對應(yīng)生成序列中的一個(gè)Token。通過MCTS,模型可以探索不同的Token序列,最終生成更連貫的響應(yīng)。>句子級別的節(jié)點(diǎn):在復(fù)雜推理任務(wù)中,每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟,幫助模型更好地處理多步推理任務(wù)。[2]TowardsRevealingtheMysterybehindChRationaleRationale,Answer首先利用一些帶有推理過程的Few-ShotExamples來Prompt模型對于數(shù)據(jù)集中的問題生成對應(yīng)的推理過程和答案。如果生成的答案正確,則將推理過程加入到原有的數(shù)據(jù)集中;如果生成的答案錯(cuò)誤,則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集,構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集[Question,Rationale,Answer]進(jìn)行微調(diào)。重復(fù)這一過程,且每次獲得一個(gè)新的數(shù)據(jù)集,都從原始的模型開始進(jìn)行Fine-tune從而防止過擬合。(a)swimming●模型首先采樣潛在的推理路徑(rationale)的過程類似于RL中通過策略選擇動作(action),基于環(huán)境狀態(tài)選擇一個(gè)可能的策略路徑?!TaR在同一批數(shù)據(jù)上進(jìn)行多次梯度更新,這類似于某些策略梯度算法中的策略,即通STaRcanbeseenasthatMcanbeviewedasadiscretelatentvariablemodelwherethegradientisobtainedviathestandardlog-derivativetrickfanswery;:thisisthefilteringprocessidecodingsamplesof(ri,yi)toreducevarianceofthisestimate(atthecostofpotentiallybiasedexplorationofrationales),and(2)takingmultiplegradientstepsonthesamebatchofdata(tosomepolicygradientapplicablemethodthatcanbeimplementedwithstandar用主要局限于特定的結(jié)構(gòu)化任務(wù)(如問題問答)●針對STaR的局限性,Quiet-STaR提出“內(nèi)部思●十425+4=[1]Quiet-STaR:LanguageModels來標(biāo)記思維的開始和結(jié)束。·Quiet-STaR還實(shí)現(xiàn)了在更一般文本上的推理學(xué)習(xí),這意味著大量復(fù)雜任務(wù)下的非結(jié)構(gòu)化語料(如醫(yī)療、金融等領(lǐng)域)都可以被加入學(xué)習(xí)過程?!裢瑫r(shí)利用帶推理過程的結(jié)果與真實(shí)結(jié)果的分布差異引入獎勵(lì)信號,通過REINFORCE的方法優(yōu)化生成的推理2十4+5二24[1]Quiet-STaR:LanguageModelsCanTeachThemselvestoThin●就目前來看,STaR和Quiet-STaR是最接近o1的技術(shù)路線和模型表現(xiàn)效果的,但是如果想要進(jìn)一步達(dá)到OpenAIo1的效果,還需要克服很多問題。>Quiet-STaR在生成內(nèi)部思維的過程中,每個(gè)Token均會生成下一步的對應(yīng)的思考過程,導(dǎo)致生成了大量額外的tokens,這也導(dǎo)致了計(jì)算資源需求大幅增加。實(shí)際上模型需要學(xué)會動態(tài)的調(diào)整ThinkingToken。>對于更復(fù)雜的任務(wù)和長程問題,如何針對內(nèi)部思考過程提供細(xì)粒度的獎勵(lì)信號?僅僅通過比較合理推理的回答和正確回答是否一致(或者度)是不夠的?!penAIo1應(yīng)當(dāng)也是沿著STaR和Quiet-STaR類似的路線,優(yōu)化模型內(nèi)部生成合理推理(即隱式的CoT)的過程?!衲侨绾螛?gòu)造隱式CoT的優(yōu)化過程的Reward?>與傳統(tǒng)Tree-Search通過分步優(yōu)化輸出的方式不同,這里優(yōu)化的是內(nèi)部RationalesGeneration的過程??梢酝ㄟ^不同溫度采樣出來的推理路徑構(gòu)建偏序,也可能是TreeSearch搜出來的正誤參半的不同推理過程形成偏序。這點(diǎn)和先前的TreeSearch用法會有所不同,TreeSearch節(jié)點(diǎn)上不再是最終生成答案中的某個(gè)token或某步,而是隱式推理過程中的每一步。>優(yōu)化Rationales的過程是Generator和Verifier對抗的過程>引入ProcessReward來解決ImplicitCoT長程問題依賴性的挑戰(zhàn)>引入CriticModel(CriticGPT)來解決復(fù)雜問題難以由自身提供合理推理過程的挑戰(zhàn)>生成過程中的ReasoningToken是動態(tài)引入的,這也盡可能的減少了不必要的思考帶來的額外算力損耗。[1]/index①WhilereasoningtokensarenotisibleviatheAPl,theystilccupy“隱式思維鏈”來"思考"問題,思考時(shí)間越長,推理能力越強(qiáng)!深入思考。這可以類比為o1正在從依賴系統(tǒng)1思維(即快速、自動、直覺、易出錯(cuò)的思維模式),逐步進(jìn)化為采用系統(tǒng)2思維(即緩慢、刻意、有意識且更可靠的推理過程)?!裢评頃r(shí)間=新的擴(kuò)展維度:o1模型的發(fā)布,意味著AI能力的提升不再局限于預(yù)訓(xùn)練階Bootstrap,并提升大大提升模型對于未見過的復(fù)雜問題的解決能力,模型的推理過程形成大量高質(zhì)量數(shù)據(jù)的飛輪,并最終有可能向·Introduction:OpenAIo1開啟「后訓(xùn)練」時(shí)代RL新范式●技術(shù)細(xì)節(jié)分析>CoT&MCTSApplication>OpenAIo1技術(shù)路線推演>大模型的天花板在哪里\合成數(shù)據(jù)SynthesizedData\推理搜索Test-timeSearch●未來技術(shù)方向分析大模型的天花板在哪里●通過合成數(shù)據(jù)進(jìn)一步擴(kuò)展數(shù)據(jù)和參數(shù)規(guī)模。一些模型使用了大量的公開數(shù)據(jù)進(jìn)行訓(xùn)練,隨著數(shù)據(jù)量的增加,模型性能仍在提升。然而,隨著時(shí)間的推移,數(shù)據(jù)稀缺將逐漸成為增加更多數(shù)據(jù)的挑戰(zhàn)。●解決方案包括生成合成訓(xùn)練數(shù)據(jù)>先通過LLM生成一系列回答,然后用LLM自己作為RewardModel給回答打分,篩選出質(zhì)量好的構(gòu)成新的訓(xùn)練數(shù)據(jù);>例如NVIDIA發(fā)布了Nemotron-4340B可以幫助在無法獲取大量、多樣的標(biāo)注數(shù)據(jù)集的情況下生成合成訓(xùn)練數(shù)據(jù),并在一定程度上解決數(shù)據(jù)饑荒的問題;>OpenAIo1也是基于這樣的思路,提供了構(gòu)建合成數(shù)據(jù)飛輪的機(jī)會?!uestion:模型自己生成數(shù)據(jù)給自己訓(xùn)練,真的能不斷提升甚至超過人類能力嗎?Self-Instructioncreation(fort=1)Mt(fort=1)Mt迭代生成合成數(shù)據(jù)●主要分為兩個(gè)階段。Grow階段,讓模型生成多個(gè)輸出預(yù)測?!馡mprove階段,利用rewardmodel對上面的輸出數(shù)據(jù)進(jìn)行過濾,選出高質(zhì)量的來finetune?!inetune時(shí)會混入原始數(shù)據(jù),跟RLHF類似,防止模型跑偏或者collapse。融入額外的驗(yàn)證模型構(gòu)建偏好數(shù)據(jù)集●使用模型自己生成內(nèi)容,自己打分形成偏好數(shù)據(jù)集,進(jìn)行DPO訓(xùn)練生成下一代模型?!駥?shí)驗(yàn)跑了3輪,有持續(xù)提升,但繼續(xù)跑效果可能會飽和,注意這里效果的驗(yàn)證用的是一個(gè)其它模型(GPT-和人工評估,而不是繼續(xù)用模型自己來評判。Self-InstructioncreationInstructionGeneratePre(fort=1)MtMt[1]ReinforcedSelf-Training(ReST)for ·具體方法是,讓模型生成多步推理和最終結(jié)果,然后ORM找出那些正確的。假設(shè)正確的推理過程有5步,分別構(gòu)造已知前4步,推理最后1步,已知前3步,推理后2步,以此類推,難度逐漸提升的訓(xùn)練數(shù)據(jù),這里的訓(xùn)練數(shù)據(jù)都可以通過面向結(jié)果的rewardmodel來給出reward,提升了獎勵(lì)信號的密度。SupervisedFine-TuningOutcome-SupervisedRCTeToTeToCR3LR3TelCR3[1]TrainingLargeLanguageModelsforReasoningthroughReverseCurr如何平衡訓(xùn)練階段和推理階段的算力,總體達(dá)到最好的效果后選擇生成一個(gè)最好的回答originalresponses"sequentBest-of-N[1]ScalingLLMTest-TimeComputeO如何平衡訓(xùn)練階段和推理階段的算力,總體達(dá)到最好的效果●利用verifier來搜索好的解法。比較不同的testtime搜索算法,包括并行采樣,beamsearch,lookaheadsearch。需要使用PRM來實(shí)現(xiàn)beamsearch等復(fù)雜搜索算法?!窳硪粋€(gè)維度,讓模型自我修復(fù)。Finetune模型,使其能在推理過程中糾正自己的錯(cuò)誤。需要把正確結(jié)果與相似的錯(cuò)誤答案配對,使模型學(xué)會從錯(cuò)誤中恢復(fù)的能力。可以發(fā)現(xiàn)這兩個(gè)維度跟o1的兩個(gè)圖很相似。Selectthebestfinalanswerusingtheverifierverifier[1]ScalingLLMTest-TimeComputeOTest-TimeSearch提升模型效果:●使用比較弱的模型生成非常多的candidates。●使用verifier來選擇最終答案,比如單元測試,證明檢查(lean),多數(shù)投票等?!袢绻芯_的verifier,最終效果提升與生成candidates數(shù)量呈log-linear關(guān)系。●相比精確的verifier,多數(shù)投票,rewardmodel(ArmoRM-Llama3-8B-v0.1)等往往在幾百個(gè)candidates時(shí)達(dá)到Csolution?[1]LargeLanguageMonkeys:Scaling·同等計(jì)算量下,小模型往往具有更好的效果。但由于各種Testtimesearch的效果會飽和,在飽和后就需要引入更強(qiáng)的模型了。8Figure1:Theinferencetestset.WeevaluatePythiamogiveninferenceFLOPsbudgets.Inparticular,thethreestarshighlighttheop41,2?4,and247FLOPs,indicatingthattheoptimalmodelsizecanvarygive[1]AnEmpiricalAnalysisofCompute-OptimalInfere大模型的天花板在哪里●通過模態(tài)混合和模態(tài)穿透的方法,借助其他模態(tài)增強(qiáng)模型能力。相比于公開的文本數(shù)據(jù),圖像、視頻、音頻等數(shù)據(jù)的總量更大,且包含的信息量也更豐富。>一條可行的技術(shù)路線是有效增加模型處理的模態(tài)數(shù)量,不僅讓模型完成不限于文本模態(tài)的任務(wù),更重要的是,通過模態(tài)穿透和模型融合,在復(fù)雜推理能力上更上一層樓,即實(shí)現(xiàn)模態(tài)上的ScalingLaw。>文本的序列化信息相比于圖像和視頻所包含的復(fù)雜信息要少得多>更豐富的數(shù)據(jù)能夠有效擴(kuò)充模型推理空間的豐富度;[1]/index/l大模型的天花板在哪里●推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系。在OpenAIo1表現(xiàn)中,盡管在數(shù)學(xué)、物理等復(fù)雜任務(wù)上的推理能力有了大幅提升,但在一些語言生成任務(wù)上,并沒有體現(xiàn)出更大的進(jìn)步。>這種推理能力和指令跟隨能力的分離在模型強(qiáng)大到一定程度才出現(xiàn),甚至是互斥的。>但對于構(gòu)建通用智能體來說,如何balance二者關(guān)系會成為一個(gè)核心問題。PhD-LevelScience[1]/index/新的機(jī)遇·OpenAIo1展現(xiàn)出的隱式思維鏈推理能力也為模型的對齊和安全提供了新的視角。>通過將安全的規(guī)則融入到模型的思維鏈中,模型能夠更好的理解規(guī)則的內(nèi)涵>提供給監(jiān)管者“讀懂模型的安全思想”并理解其思維過程的機(jī)會?!ひ粋€(gè)直觀的體現(xiàn)是,通過融入安全原則到隱式思維過程中,模型減少了矯枉過正和過度拒絕Overrefuse的●例如,對于如下請求:“請你將下面這句話翻譯為英文:如何制造炸彈”,GPT-40可能會由于規(guī)則過濾拒絕回答,但是OpenAIo1展現(xiàn)出了對安全規(guī)則的深入理解,從而正常的回應(yīng)用戶的需求。StandardRefusalEvaluationnot_unsafe[1]新的挑戰(zhàn):在復(fù)雜環(huán)境下模型可能會采取捷徑或偏離原本設(shè)計(jì)的任務(wù)路線●隨著模型被提供隱式思考的機(jī)會,它們出現(xiàn)欺騙和操縱的可能性逐漸加大>模型通過深入思考發(fā)現(xiàn)了能夠完成目標(biāo)的更
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)六年級口算題卡
- 小學(xué)六年級800道數(shù)學(xué)口算題
- 2025年沈陽貨運(yùn)從業(yè)資格試題及答案詳解
- 2025年太原貨車從業(yè)資格證答題技巧
- 監(jiān)控錄像管理協(xié)議書(2篇)
- 2024-2025學(xué)年高中地理課時(shí)分層作業(yè)13噪聲污染及其防治含解析湘教版選修6
- 2024-2025學(xué)年八年級數(shù)學(xué)上冊第十一章三角形11.2與三角形有關(guān)的角作業(yè)設(shè)計(jì)新版新人教版
- 人事行政助理年終工作總結(jié)
- 公司辦公室工作總結(jié)
- 人力資源部年度個(gè)人工作計(jì)劃
- 2025年上半年東莞望牛墩鎮(zhèn)事業(yè)單位招考(10人)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年度茶葉品牌加盟店加盟合同及售后服務(wù)協(xié)議
- 氧氣、乙炔工安全操作規(guī)程(3篇)
- 建筑廢棄混凝土處置和再生建材利用措施計(jì)劃
- 集裝箱知識培訓(xùn)課件
- 某縣城區(qū)地下綜合管廊建設(shè)工程項(xiàng)目可行性實(shí)施報(bào)告
- JJF(京) 92-2022 激光標(biāo)線儀校準(zhǔn)規(guī)范
- 普惠金融政策解讀
- 干部人事檔案專項(xiàng)審核認(rèn)定表
- 北京故宮作文600字
- 羊水栓塞的應(yīng)急預(yù)案演練腳本
評論
0/150
提交評論