




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1AccuracyAccuracy/Percentile(%)SeekR左元翻譯摘要本文介紹了我們的第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型,在沒(méi)有使用監(jiān)督微調(diào)(SFT)這個(gè)前置步驟的情況下,展示了卓越的推理能力。通過(guò)強(qiáng)化學(xué)習(xí),DeepSeek-R1-Zero自然而然的展現(xiàn)出了許多強(qiáng)大而有趣的推理行為。然而,它也面臨一些挑戰(zhàn),如可讀性差和多語(yǔ)言混合等問(wèn)題。為了解決這些問(wèn)題并進(jìn)一步提高推理性能,我們引入了DeepSeek-R1,該模型在強(qiáng)化學(xué)習(xí)之前結(jié)合了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)。DeepSeek-R1在推理任務(wù)中的表現(xiàn)與OpenAI-o1-1217相當(dāng)。為了支持研究社區(qū),我們開(kāi)源了DeepSeek-R1-Zero、DeepSeek-R1以及六個(gè)稠密模型(1.5B、7B、8B、14B、32B、70B),這六個(gè)稠密模型是使用DeepSeek-R1對(duì)Qwen和Llama蒸餾而來(lái)。DeepSeekDeepSeek-R1OpenAI-o1-1217DeepSeek-R1-32BOpenAI-o1-miniDeepSeek-V310080604020096.397.390.871.549.2CodeforcesGPQADiamondCodeforcesGPQADiamondAIME2024MATH-500MMLU圖1:BenchmarkperformanceofDeepSeek-R1.21簡(jiǎn)介31.1貢獻(xiàn) 31.2評(píng)估結(jié)果總結(jié) 42方法42.1概述 42.2DeepSeek-R1-Zero:在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí) 42.2.1強(qiáng)化學(xué)習(xí)算法 52.2.2獎(jiǎng)勵(lì)模型 52.2.3訓(xùn)練模板 52.2.4性能,自我進(jìn)化過(guò)程和DeepSeek-R1-Zero的“頓悟”時(shí)刻 62.3DeepSeek-R1:帶冷啟動(dòng)的強(qiáng)化學(xué)習(xí) 82.3.1冷啟動(dòng) 82.3.2推理導(dǎo)向的強(qiáng)化學(xué)習(xí) 92.3.3拒絕采樣和監(jiān)督微調(diào) 92.3.4針對(duì)所有場(chǎng)景的強(qiáng)化學(xué)習(xí) 92.4蒸餾:為小模型賦能推理能力 103實(shí)驗(yàn)103.1DeepSeek-R1的評(píng)估 113.2蒸餾模型的評(píng)估 124討論134.1蒸餾v.s.強(qiáng)化學(xué)習(xí) 134.2不成功的嘗試 135結(jié)論,局限性,和未來(lái)的工作1431簡(jiǎn)介近年來(lái),大語(yǔ)言模型(LLMs)正在經(jīng)歷快速的迭代和進(jìn)化,并正在逼近通用人工智能(AGI)。最近,后訓(xùn)練已成為完整訓(xùn)練流程中的一個(gè)重要組成部分。研究表明,它可以提高推理任務(wù)的準(zhǔn)確性,與社會(huì)價(jià)值觀保持對(duì)齊,并適應(yīng)用戶偏好,同時(shí)相較于預(yù)訓(xùn)練所需的計(jì)算資源相對(duì)較少。在推理能力方面,OpenAI的o1系列模型通過(guò)增加思維鏈推理過(guò)程的長(zhǎng)度,首次引入了推理時(shí)擴(kuò)展的方法。這種方法在數(shù)學(xué)、編程和科學(xué)推理等多種推理任務(wù)中,取得了顯著的進(jìn)步。然而,有效的測(cè)試時(shí)擴(kuò)展仍然是社區(qū)面臨的一個(gè)未解問(wèn)題。之前的一些研究探索了各種方法,包括基于過(guò)程的獎(jiǎng)勵(lì)模型、強(qiáng)化學(xué)習(xí),以及蒙特卡羅樹(shù)搜索和束搜索等搜索算法。然而,這些方法都未能實(shí)現(xiàn)與OpenAI的o1系列模型相當(dāng)?shù)耐ㄓ猛评硇阅堋T诒疚闹?,我們邁出了提升語(yǔ)言模型推理能力的第一步,也就是采用純粹的強(qiáng)化學(xué)習(xí)。我們的目標(biāo)是探索大語(yǔ)言模型在沒(méi)有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點(diǎn)關(guān)注它們通過(guò)純粹的強(qiáng)化學(xué)習(xí)過(guò)程的自我進(jìn)化。具體而言,我們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO作為強(qiáng)化學(xué)習(xí)框架,以提高模型在推理方面的性能。在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero自然而然的展現(xiàn)出了許多強(qiáng)大而有趣的推理行為。經(jīng)過(guò)數(shù)千步的強(qiáng)化學(xué)習(xí)訓(xùn)練,DeepSeek-R1-Zero在推理基準(zhǔn)測(cè)試中表現(xiàn)出色。例如,AIME2024的pass@1分?jǐn)?shù)從15.6%提高到71.0%,并且通過(guò)多數(shù)投票,分?jǐn)?shù)進(jìn)一步提升至86.7%,與OpenAI-o1-0912的表現(xiàn)相匹配。然而,DeepSeek-R1-Zero也面臨一些挑戰(zhàn),如可讀性差和多語(yǔ)言混合。為了解決這些問(wèn)題并進(jìn)一步提高推理性能,我們引入了DeepSeek-R1,該模型結(jié)合了少量冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練流程。具體而言,我們首先收集數(shù)千條冷啟動(dòng)數(shù)據(jù),用來(lái)微調(diào)DeepSeek-V3-Base模型。隨后,我們進(jìn)行以推理為導(dǎo)向的強(qiáng)化學(xué)習(xí),類(lèi)似于DeepSeek-R1-Zero。在強(qiáng)化學(xué)習(xí)過(guò)程接近收斂時(shí),我們通過(guò)對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練得到的檢查點(diǎn)進(jìn)行拒絕采樣來(lái)創(chuàng)建新的監(jiān)督微調(diào)(SFT)數(shù)據(jù),并結(jié)合來(lái)自DeepSeek-V3的監(jiān)督數(shù)據(jù),這些數(shù)據(jù)涉及寫(xiě)作、事實(shí)問(wèn)答和自我認(rèn)知等領(lǐng)域,然后重新訓(xùn)練DeepSeek-V3-Base模型。在使用新數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)后,將所有場(chǎng)景的提示詞考慮進(jìn)來(lái),對(duì)檢查點(diǎn)進(jìn)行額外的強(qiáng)化學(xué)習(xí)訓(xùn)練。經(jīng)過(guò)這些步驟,我們獲得了一個(gè)稱(chēng)為DeepSeek-R1的檢查點(diǎn),其性能與OpenAI-o1-1217相當(dāng)。我們進(jìn)一步探索從DeepSeek-R1到更小的稠密模型的蒸餾。以Qwen2.5-32B作為基礎(chǔ)模型,直接使用DeepSeek-R1對(duì)Qwen2.5-32B進(jìn)行蒸餾的效果優(yōu)于使用強(qiáng)化學(xué)習(xí)對(duì)Qwen2.5-32B進(jìn)行訓(xùn)練的效果。這表明,大型基礎(chǔ)模型(DeepSeek-R1)所發(fā)現(xiàn)的推理模式對(duì)于提高推理能力至關(guān)重要。我們已經(jīng)將蒸餾后的Qwen和Llama系列開(kāi)源。值得注意的是,我們的14B蒸餾模型在推理基準(zhǔn)測(cè)試中大幅超越了最先進(jìn)的開(kāi)源模型QwQ-32B-Preview,而蒸餾后的32B和70B模型則在稠密模型中的推理基準(zhǔn)測(cè)試中創(chuàng)下了新1.1貢獻(xiàn)后訓(xùn)練:對(duì)基礎(chǔ)模型進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)?我們直接使用強(qiáng)化學(xué)習(xí)對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練,而不依賴(lài)于監(jiān)督微調(diào)(SFT)作為前置步驟。這種方法使模型能夠探索思維鏈(CoT)以解決復(fù)雜問(wèn)題,從而發(fā)展出了DeepSeek-R1-Zero。DeepSeek-R1-Zero展現(xiàn)了自我驗(yàn)證、反思和生成長(zhǎng)思維鏈的能力,標(biāo)志著研究社區(qū)的一個(gè)重要里程碑。值得注意的是,在公開(kāi)發(fā)表的研究中,我們首次驗(yàn)證了大語(yǔ)言模型的推理能力可以?xún)H通過(guò)強(qiáng)化學(xué)習(xí)來(lái)激勵(lì),而無(wú)需使用監(jiān)督微調(diào)這一手段。這一突破為大語(yǔ)言模型領(lǐng)域未來(lái)的進(jìn)展鋪平了道路。?我們介紹了開(kāi)發(fā)DeepSeek-R1的流程。該流程包含兩個(gè)強(qiáng)化學(xué)習(xí)階段,旨在發(fā)現(xiàn)改進(jìn)的推理模式并與人類(lèi)偏好對(duì)齊,以及兩個(gè)監(jiān)督微調(diào)(SFT)階段,作為模型推理和非推理能力的基礎(chǔ)。我們相信,這一流程將通過(guò)創(chuàng)造更好的模型來(lái)惠及行業(yè)。蒸餾:小模型也可以很強(qiáng)大4?我們證明了大型模型的推理模式可以蒸餾到更小的模型中,從而在性能上優(yōu)于通過(guò)強(qiáng)化學(xué)習(xí)發(fā)現(xiàn)的小模型的推理模式。開(kāi)源的DeepSeek-R1及其API將使研究社區(qū)在未來(lái)能夠蒸餾出更優(yōu)秀的小模?利用DeepSeek-R1生成的推理數(shù)據(jù),我們對(duì)多個(gè)在研究社區(qū)廣泛使用的稠密模型進(jìn)行了微調(diào)。評(píng)估結(jié)果表明,蒸餾后的較小稠密模型在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。DeepSeek-R1-Distill-Qwen-7B在AIME中得分72.6%,在MATH-500中得分94.3%,在LiveCodeBench中得分57.2%。這些結(jié)果顯著優(yōu)于32B和70B檢查點(diǎn)開(kāi)源給社區(qū)。1.2評(píng)估結(jié)果總結(jié)DeepSeek-R1在AIME2024中達(dá)到了79.8%的Pass@1分?jǐn)?shù),稍微超過(guò)了OpenAI-o1-1217。在MATH-500中,它取得了令人印象深刻的97.3%分?jǐn)?shù),表現(xiàn)與OpenAI-o1-1217相當(dāng),并顯著優(yōu)于其他模型。(2)在與編程相關(guān)的任務(wù)中,DeepSeek-R1在代碼競(jìng)賽任務(wù)中表現(xiàn)出專(zhuān)家水平,獲得了2,029的Elo評(píng)級(jí),超過(guò)了96.3%的人類(lèi)參與者。在工程相關(guān)任務(wù)中,DeepSeek-R1的表現(xiàn)略?xún)?yōu)于DeepSeek-V3,這可能會(huì)在實(shí)際任務(wù)中幫助開(kāi)發(fā)者。盡管在這些基準(zhǔn)測(cè)試中的表現(xiàn)略低于OpenAI-o1-1217,DeepSeek-R1仍然超過(guò)了其他閉源模型,展示了其在教育任務(wù)中的競(jìng)爭(zhēng)優(yōu)勢(shì)。在事實(shí)基準(zhǔn)測(cè)試SimpleQA中,DeepSeek-R1超越了DeepSeek-V3,證明了其處理基于事實(shí)查詢(xún)的能力。在這個(gè)基準(zhǔn)測(cè)試中,OpenAI-o1也超過(guò)了4o,呈現(xiàn)出類(lèi)似的趨2.0上取得了87.6%的長(zhǎng)度控制勝率,在ArenaHard上的勝率為92.3%,展示了其智能處理非考試導(dǎo)向查詢(xún)的強(qiáng)大能力。此外,DeepSeek-R1在需要長(zhǎng)上下文理解的任務(wù)中表現(xiàn)優(yōu)異,顯著超越了DeepSeek-V3在長(zhǎng)上下文基準(zhǔn)測(cè)試中的表現(xiàn)。2方法2.1概述以往的研究在很大程度上依賴(lài)于大量的監(jiān)督數(shù)據(jù)來(lái)提升模型性能。在本研究中,我們證明了即使不使用監(jiān)督微調(diào)(SFT)作為冷啟動(dòng),推理能力也可以通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí)顯著提高。此外,通過(guò)加入少能還可以進(jìn)一步提升。在接下來(lái)的部分中,我們將介紹:(1)DeepSeek-R1-Zero,它直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,而不使用任何監(jiān)督微調(diào)數(shù)據(jù);(2)DeepSeek-R1,它從一個(gè)經(jīng)過(guò)數(shù)千個(gè)思維鏈(CoT)示例微調(diào)的檢查點(diǎn)開(kāi)始應(yīng)用強(qiáng)化學(xué)習(xí);(3)將DeepSeek-R1的推理能力蒸餾到小型密集模2.2DeepSeek-R1-Zero:在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)在推理任務(wù)中顯示出了顯著的有效性,這在我們之前的研究中得到了證明。然而,這些研究在很大程度上依賴(lài)于監(jiān)督數(shù)據(jù),而收集這些數(shù)據(jù)耗時(shí)較長(zhǎng)。在本節(jié)中,我們探討了大語(yǔ)言模型在沒(méi)有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點(diǎn)關(guān)注它們通過(guò)純粹的強(qiáng)化學(xué)習(xí)過(guò)程的自我進(jìn)化。我們5用戶和助理的一段對(duì)話。用戶問(wèn)一個(gè)問(wèn)題,助理解決它。助理首先在大腦中思考推理過(guò)程,然后為用戶提供答案。推理過(guò)程和答案需要包含在標(biāo)簽<think></think>和<answer></answer>中,例如<think>這里是推理過(guò)程</think><answer>這里是答案</answer>。用戶:提示詞。助手:表1:DeepSeek-R1-Zero的模板。提示詞在訓(xùn)練時(shí),將會(huì)被替換為特定的推理問(wèn)題。將首先簡(jiǎn)要概述我們的強(qiáng)化學(xué)習(xí)算法,然后展示一些令人興奮的結(jié)果,希望這能為社區(qū)提供有價(jià)值的見(jiàn)2.2.1強(qiáng)化學(xué)習(xí)算法GroupRelativePolicyOptimization(組相對(duì)策略?xún)?yōu)化)為了節(jié)省強(qiáng)化學(xué)習(xí)的訓(xùn)練成本,我們采用組相對(duì)策略?xún)?yōu)化(GRPO),該方法省略了通常與策略模型大小相同的評(píng)價(jià)模型,而是從組得分中估計(jì)基線。具目標(biāo)函數(shù)來(lái)優(yōu)化策略模型幾e:JGRPO(e)=E[q~P(Q),{oi}1~幾eold(O|q)]qAi=Ai=(1)(2)(3)2.2.2獎(jiǎng)勵(lì)模型獎(jiǎng)勵(lì)是訓(xùn)練信號(hào)的來(lái)源,決定了強(qiáng)化學(xué)習(xí)的優(yōu)化方向。為了訓(xùn)練DeepSeek-R1-Zero,我們采用了一種基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),主要由兩種類(lèi)型的獎(jiǎng)勵(lì)組成:?準(zhǔn)確性獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。例如,對(duì)于具有確定性結(jié)果的數(shù)學(xué)問(wèn)題,模型需要以指定格式(例如,放在框內(nèi))提供最終答案,從而實(shí)現(xiàn)可靠的基于規(guī)則的正確性驗(yàn)證。類(lèi)似地,對(duì)于LeetCode問(wèn)題,可以使用編譯器根據(jù)預(yù)定義的測(cè)試用例生成反饋。?格式獎(jiǎng)勵(lì):除了準(zhǔn)確性獎(jiǎng)勵(lì)模型,我們還采用格式獎(jiǎng)勵(lì)模型,要求模型將其思考過(guò)程放在‘<think>’和‘</think>’標(biāo)簽之間。在開(kāi)發(fā)DeepSeek-R1-Zero時(shí),我們沒(méi)有應(yīng)用結(jié)果或過(guò)程神經(jīng)獎(jiǎng)勵(lì)模型,因?yàn)槲覀儼l(fā)現(xiàn)神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中可能會(huì)遭遇獎(jiǎng)勵(lì)黑客問(wèn)題,并且重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的訓(xùn)練資源,這使整個(gè)訓(xùn)練流程變得更加復(fù)雜。2.2.3訓(xùn)練模板為了訓(xùn)練DeepSeek-R1-Zero,我們首先設(shè)計(jì)了一個(gè)簡(jiǎn)單的模板,指導(dǎo)基礎(chǔ)模型遵循我們指定的指令。如表1所示,該模板要求DeepSeek-R1-Zero首先生成推理過(guò)程,然后給出最終答案。我們故意將約束限制在這種結(jié)構(gòu)格式上,避免任何內(nèi)容特定的偏見(jiàn)——例如,強(qiáng)制要求反思性推理或推廣特定的解決問(wèn)題策略——以確保我們能夠準(zhǔn)確觀察模型在強(qiáng)化學(xué)習(xí)過(guò)程中的自然進(jìn)展。6ModelAIME2024MATH-500GPQADiamondLiveCodeBenchCodeForcespass@1cons@64pass@1pass@1pass@1ratingOpenAI-o1-mini63.680.090.060.053.8OpenAI-o1-091274.483.394.877.363.4DeepSeek-R1-Zero71.086.795.973.350.0表2:DeepSeek-R1-Zero和OpenAIo1系列模型在推理相關(guān)基準(zhǔn)測(cè)試中的比較。圖2:DeepSeek-R1-Zero的訓(xùn)練過(guò)程中,在AIME上的準(zhǔn)確性。針對(duì)每個(gè)問(wèn)題,我們采樣16個(gè)響應(yīng)并計(jì)算平均準(zhǔn)確性,來(lái)保證穩(wěn)定的評(píng)估。性能,自我進(jìn)化過(guò)程和DeepSeek-R1-Zero的“頓悟”時(shí)刻DeepSeek-R1-Zero的性能圖2展示了DeepSeek-R1-Zero在AIME2024基準(zhǔn)測(cè)試中整個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中的性能軌跡。如圖所示,隨著強(qiáng)化學(xué)習(xí)訓(xùn)練的推進(jìn),DeepSeek-R1-Zero的性能穩(wěn)步而持續(xù)地提升。值達(dá)到了與OpenAI-o1-0912相當(dāng)?shù)男阅芩健_@一顯著的改進(jìn)突顯了我們強(qiáng)化學(xué)習(xí)算法在優(yōu)化模型性能方面的有效性。表2提供了DeepSeek-R1-Zero與OpenAI的o1-0912模型在各種推理相關(guān)基準(zhǔn)測(cè)試中的比較分析。研究結(jié)果顯示,強(qiáng)化學(xué)習(xí)使DeepSeek-R1-Zero能夠在沒(méi)有任何監(jiān)督微調(diào)數(shù)據(jù)的情況下獲得強(qiáng)大的推理能力。這是一個(gè)值得注意的成就,因?yàn)樗鼜?qiáng)調(diào)了模型僅通過(guò)強(qiáng)化學(xué)習(xí)就能有效學(xué)習(xí)和泛化的能力。此外,通過(guò)使用多數(shù)投票,DeepSeek-R1-Zero的性能可以進(jìn)一步增強(qiáng)。例如,當(dāng)在AIME基準(zhǔn)上使用多數(shù)投票時(shí),DeepSeek-R1-Zero的性能從71.0%提升至86.7%,從而超越了OpenAI-o1-0912的性能。DeepSeek-R1-Zero在有無(wú)多數(shù)投票的情況下都能實(shí)現(xiàn)如此具有競(jìng)爭(zhēng)力的性能,突顯了其強(qiáng)大的基礎(chǔ)能力以及在推理任務(wù)中進(jìn)一步發(fā)展的潛力。DeepSeek-R1-Zero的自我進(jìn)化過(guò)程DeepSeek-R1-Zero的自我進(jìn)化過(guò)程是一個(gè)引人入勝的示例,展示了強(qiáng)化學(xué)習(xí)如何驅(qū)動(dòng)模型自主提升其推理能力。通過(guò)直接從基礎(chǔ)模型啟動(dòng)強(qiáng)化學(xué)習(xí),我們可以在沒(méi)有監(jiān)督7圖3:在強(qiáng)化學(xué)習(xí)過(guò)程中,DeepSeek-R1-Zero在訓(xùn)練集上響應(yīng)的平均長(zhǎng)度。DeepSeek-R1-Zero通過(guò)更多的思考時(shí)間自己學(xué)會(huì)了解決推理任務(wù)。微調(diào)階段影響的情況下,密切監(jiān)控模型的進(jìn)展。這種方法清晰地展示了模型隨時(shí)間演變的過(guò)程,特別是在處理復(fù)雜推理任務(wù)的能力方面。如圖3所示,DeepSeek-R1-Zero的思考時(shí)間在整個(gè)訓(xùn)練過(guò)程中持續(xù)改善。這種改善并不是外部調(diào)整的結(jié)果,而是模型內(nèi)部的內(nèi)在發(fā)展。通過(guò)利用延長(zhǎng)的測(cè)試時(shí)間計(jì)算,DeepSeek-R1-Zero自然獲得了解決日益復(fù)雜的推理任務(wù)的能力。這種計(jì)算范圍從生成數(shù)百到數(shù)千個(gè)推理標(biāo)記,使模型能夠更深入地探索和完善其思考過(guò)程。時(shí)間計(jì)算的增加,復(fù)雜行為的出現(xiàn)。例如,反思行為——模型重新審視和重新評(píng)估其之前的步驟——以及探索替代問(wèn)題解決方法的能力自發(fā)地產(chǎn)生。這些行為并不是顯式編程的,而是模型與強(qiáng)化學(xué)習(xí)環(huán)境互動(dòng)的結(jié)果。這種自發(fā)的發(fā)展顯著增強(qiáng)了DeepSeek-R1-Zero的推理能力,使其能夠更高效、更準(zhǔn)確地應(yīng)對(duì)更具挑戰(zhàn)性的任務(wù)。DeepSeek-R1-Zero的“頓悟”時(shí)刻在DeepSeek-R1-Zero的訓(xùn)練過(guò)程中觀察到的一個(gè)特別引人入勝的現(xiàn)象Zero學(xué)會(huì)通過(guò)重新評(píng)估其初始方法來(lái)為問(wèn)題分配更多的思考時(shí)間。這種行為不僅證明了模型推理能力的提升,也是強(qiáng)化學(xué)習(xí)如何導(dǎo)致意想不到且復(fù)雜結(jié)果的迷人示例。力量和美妙:我們并不是明確教導(dǎo)模型如何解決問(wèn)題,而是簡(jiǎn)單地為其提供正確的激勵(lì),模型便能自主問(wèn)題解決策略。“頓悟”時(shí)刻強(qiáng)有力地提醒我們,強(qiáng)化學(xué)習(xí)有潛力在人工系統(tǒng)中開(kāi)啟新的智能水平,為未來(lái)更自主和適應(yīng)性強(qiáng)的模型鋪平道路。DeepSeek-R1-Zero的缺陷盡管DeepSeek-R1-Zero展示了強(qiáng)大的推理能力,并自主發(fā)展出意想不到且強(qiáng)大的推理行為,但它仍面臨一些問(wèn)題。例如,DeepSeek-R1-Zero在可讀性差和多語(yǔ)言混合等挑戰(zhàn)上存在困難。為了使推理過(guò)程更加可讀并與開(kāi)放社區(qū)分享,我們探索了DeepSeek-R1,這是一種利用人類(lèi)友好的冷啟動(dòng)數(shù)據(jù)的強(qiáng)化學(xué)習(xí)方法。8問(wèn)題:如果a>1,則方程√a?√a+x=x的實(shí)數(shù)解的和等于響應(yīng):<think>通過(guò)移項(xiàng)將根號(hào)中的表達(dá)式獨(dú)立出來(lái):…等一下,等一下,等一下。這是個(gè)頓悟時(shí)刻,我要記一下..我們一步一步重新求值來(lái)檢查一下正確的和是否是···我們先從下面的等式開(kāi)始:首先,讓我們先將等式兩邊平方:接下來(lái),我可以再將等式兩邊平方,然后處理以下等式:···…表3:DeepSeek-R1-Zero中間版本的一個(gè)有趣的“頓悟”時(shí)刻。模型學(xué)會(huì)了以擬人化的語(yǔ)氣進(jìn)行重新思考。這對(duì)我們來(lái)說(shuō)也是一個(gè)頓悟時(shí)刻,讓我們見(jiàn)證了強(qiáng)化學(xué)習(xí)的力量與美感。2.3DeepSeek-R1:帶冷啟動(dòng)的強(qiáng)化學(xué)習(xí)受到DeepSeek-R1-Zero令人鼓舞的結(jié)果啟發(fā),產(chǎn)生了兩個(gè)自然的問(wèn)題:1.是否可以通過(guò)引入少量高質(zhì)量數(shù)據(jù)作為冷啟動(dòng),進(jìn)一步提高推理性能或加速收斂?2.我們?nèi)绾斡?xùn)練一個(gè)用戶友好的模型,使其不僅能生成清晰連貫的思維鏈(CoT),還能夠展現(xiàn)出強(qiáng)大為了解決這些問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)訓(xùn)練DeepSeek-R1的流程。該流程由四個(gè)階段組成,具體如下。2.3.1冷啟動(dòng)與DeepSeek-R1-Zero不同,為了防止基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)訓(xùn)練的早期處于不穩(wěn)定的冷啟動(dòng)階段,對(duì)于DeepSeek-R1,我們構(gòu)建并收集了一小部分思維鏈(CoT)數(shù)據(jù),來(lái)把模型微調(diào)成最初的強(qiáng)化學(xué)習(xí)演員。為了收集這些數(shù)據(jù),我們探索了幾種方法:使用長(zhǎng)思維鏈推理作為示例的少量提示,直接提示模型生成詳細(xì)的答案并進(jìn)行反思和驗(yàn)證,以人類(lèi)可讀的格式來(lái)收集DeepSeek-R1-Zero的輸出,以及通過(guò)人工標(biāo)注者對(duì)結(jié)果進(jìn)行后處理和精煉。在這項(xiàng)工作中,我們收集了數(shù)千條冷啟動(dòng)數(shù)據(jù),將DeepSeek-V3-Base微調(diào)成強(qiáng)化學(xué)習(xí)的起點(diǎn)。與DeepSeek-R1-Zero相比,冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)包括:?可讀性:DeepSeek-R1-Zero的一個(gè)主要限制是其內(nèi)容通常不適合人類(lèi)閱讀。響應(yīng)可能混合多種語(yǔ)言,或者缺乏markdown格式來(lái)突出顯示用戶的答案。相比之下,在為DeepSeek-R1創(chuàng)建冷啟動(dòng)數(shù)據(jù)時(shí),我們?cè)O(shè)計(jì)了一種可讀的模式,包括每個(gè)響應(yīng)末尾的摘要,并過(guò)濾掉不適合閱讀的響應(yīng)。在這里,我們將輸出格式定義為|special_token|<reasoning_process>|special_token|<summary>,其中推理過(guò)程是針對(duì)查詢(xún)的思維鏈(CoT),摘要用于總結(jié)推理結(jié)果。?潛力:通過(guò)精心設(shè)計(jì)帶有人類(lèi)先驗(yàn)的冷啟動(dòng)數(shù)據(jù)模式,我們觀察到相較于DeepSeek-R1-Zero更好的性能。我們相信,迭代訓(xùn)練是推理模型更好的方法。92.3.2推理導(dǎo)向的強(qiáng)化學(xué)習(xí)在使用冷啟動(dòng)數(shù)據(jù)對(duì)DeepSeek-V3-Base進(jìn)行微調(diào)后,我們應(yīng)用與DeepSeek-R1-Zero模型相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程。此階段重點(diǎn)提升模型的推理能力,特別是在編碼、數(shù)學(xué)、科學(xué)和邏輯推理等推理密集型任務(wù)中,這些任務(wù)涉及明確定義的問(wèn)題和清晰的解決方案。在訓(xùn)練過(guò)程中,我們觀察到思維鏈(CoT)常常表現(xiàn)出多種語(yǔ)言的混合,尤其是在強(qiáng)化學(xué)習(xí)提示涉及多種語(yǔ)言時(shí)。為了緩解語(yǔ)言混合的問(wèn)題,我們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練中引入了語(yǔ)言一致性獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)計(jì)算思維鏈中目標(biāo)語(yǔ)言單詞的比例。盡管消融實(shí)驗(yàn)表直接相加推理任務(wù)的準(zhǔn)確性和語(yǔ)言一致性獎(jiǎng)勵(lì)來(lái)形成最終獎(jiǎng)勵(lì)。然后,我們?cè)谖⒄{(diào)后的模型上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,直到其在推理任務(wù)上達(dá)到收斂。2.3.3拒絕采樣和監(jiān)督微調(diào)當(dāng)面向推理的強(qiáng)化學(xué)習(xí)收斂時(shí),我們利用生成的檢查點(diǎn)收集后續(xù)輪次的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。與最初主要關(guān)注推理的冷啟動(dòng)數(shù)據(jù)不同,此階段納入了來(lái)自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫(xiě)作、角色扮演和其他通用任務(wù)中的能力。具體而言,我們生成數(shù)據(jù)并按以下方式微調(diào)模型。推理數(shù)據(jù)我們策劃推理提示,并通過(guò)對(duì)上述強(qiáng)化學(xué)習(xí)訓(xùn)練的檢查點(diǎn)進(jìn)行拒絕采樣來(lái)生成推理軌跡。在前我們只包含了可以通過(guò)基于規(guī)則的獎(jiǎng)勵(lì)進(jìn)行評(píng)估的數(shù)據(jù)。然而,在這一階段,我們通過(guò)納入額外的數(shù)據(jù)來(lái)擴(kuò)展數(shù)據(jù)集,其中一些數(shù)據(jù)使用生成獎(jiǎng)勵(lì)模型,通過(guò)將真實(shí)答案和模型預(yù)測(cè)輸入DeepSeek-V3進(jìn)行判斷。此外,由于模型輸出有時(shí)混亂且難以閱讀,我們過(guò)濾掉了包含混合語(yǔ)言、長(zhǎng)段落和代碼塊的鏈推理。對(duì)于每個(gè)提示,我們采樣多個(gè)響應(yīng),僅保留正確的響應(yīng)。總共,我們收集了大約60萬(wàn)個(gè)與推理相關(guān)的訓(xùn)練樣本。無(wú)推理數(shù)據(jù)對(duì)于非推理類(lèi)數(shù)據(jù),例如寫(xiě)作、事實(shí)問(wèn)答、自我認(rèn)知和翻譯,我們采用DeepSeek-V3的流程,并復(fù)用部分DeepSeek-V3的監(jiān)督微調(diào)數(shù)據(jù)集。對(duì)于某些非推理任務(wù),我們會(huì)調(diào)用DeepSeek-V3生成提供思維鏈。最終,我們收集了大約20萬(wàn)個(gè)與推理無(wú)關(guān)的訓(xùn)練樣本。我們使用上述約80萬(wàn)個(gè)樣本的數(shù)據(jù)集對(duì)DeepSeek-V3-Base進(jìn)行了兩個(gè)周期的微調(diào)。2.3.4針對(duì)所有場(chǎng)景的強(qiáng)化學(xué)習(xí)為了進(jìn)一步使模型與人類(lèi)偏好對(duì)齊,我們實(shí)施了第二階段的強(qiáng)化學(xué)習(xí),旨在提高模型的有用性和無(wú)害性,同時(shí)增強(qiáng)其推理能力。具體來(lái)說(shuō),我們結(jié)合獎(jiǎng)勵(lì)信號(hào)和多樣化的提示分布來(lái)訓(xùn)練模型。對(duì)于推理類(lèi)數(shù)據(jù),我們遵循了DeepSeek-R1-Zero中概述的方法,該方法利用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的學(xué)習(xí)過(guò)程。對(duì)于通用數(shù)據(jù),我們采用獎(jiǎng)勵(lì)模型來(lái)捕捉復(fù)雜和微妙場(chǎng)景中的人類(lèi)偏好。我們?cè)贒eepSeek-V3流程的基礎(chǔ)上,采用了類(lèi)似的偏好對(duì)和訓(xùn)練提示分布。在有用性方面,我們專(zhuān)注于最終總結(jié),確保評(píng)估強(qiáng)調(diào)響應(yīng)對(duì)用戶的實(shí)用性和相關(guān)性,同時(shí)盡量減少對(duì)底層推理過(guò)程的干擾。在無(wú)害性方面,我們?cè)u(píng)估模型的整個(gè)響應(yīng),包括推理過(guò)程和總結(jié),以識(shí)別并減輕生成過(guò)程中可能出現(xiàn)的任何潛在風(fēng)險(xiǎn)、偏見(jiàn)或有害內(nèi)容。最終,通過(guò)整合獎(jiǎng)勵(lì)信號(hào)和多樣化的數(shù)據(jù)分布,我們能夠訓(xùn)練出一個(gè)在推理方面表現(xiàn)出色,同時(shí)優(yōu)先考慮有用性和無(wú)害性的模型。2.4蒸餾:為小模型賦能推理能力為了讓更高效的小模型像DeepSeek-R1具備推理能力,我們直接使用DeepSeek-R1整理的80萬(wàn)個(gè)樣本對(duì)開(kāi)源模型(如Qwen和Llama)進(jìn)行了微調(diào),具體細(xì)節(jié)見(jiàn)§2.3.3。我們的研究結(jié)果表明,這種直接的蒸餾方法顯著提升了小模型的推理能力。我們使用的基礎(chǔ)模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我們選擇Llama-3.3是因?yàn)槠渫评砟芰β詢(xún)?yōu)于Llama-3.1。對(duì)于蒸餾后的模型,我們僅使用了監(jiān)督微調(diào),并未加入強(qiáng)化學(xué)習(xí)階段,盡管引入強(qiáng)化學(xué)習(xí)可以顯著提升模型性能。我們的主要目標(biāo)是展示蒸餾技術(shù)的有效性,而將強(qiáng)化學(xué)習(xí)階段的探索留給更廣泛的研究3實(shí)驗(yàn)基準(zhǔn)測(cè)試我們?cè)谝韵禄鶞?zhǔn)上評(píng)估模型:MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、中國(guó)高中數(shù)學(xué)奧林匹克(CNMO2024)以及美國(guó)數(shù)學(xué)邀請(qǐng)賽2024(AIME2024)。除了標(biāo)準(zhǔn)基準(zhǔn)測(cè)試外,我們還使用大語(yǔ)言模型作為評(píng)判者對(duì)開(kāi)放式生成任務(wù)進(jìn)行評(píng)估。具體來(lái)說(shuō),我們遵循AlpacaEval2.0和Arena-Hard的原始配置,利用GPT-4-Turbo-1106作為評(píng)判者進(jìn)行成對(duì)比較。在這里,我們僅將最終總結(jié)提供給評(píng)估,以避免長(zhǎng)度偏差。eBench上的代表性結(jié)果。評(píng)估提示遵循DeepSeek-V3的設(shè)置,標(biāo)準(zhǔn)基準(zhǔn)測(cè)試(如MMLU、DROP、GPQADiamond和SimpleQA)使用simple-evals框架中的提示進(jìn)行評(píng)估。對(duì)于MMLU-Redux,我們采用Zero-Eval提示格式,并在零樣本設(shè)置下進(jìn)行評(píng)估。對(duì)于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示是少樣本的,我們略微修改了提示以適應(yīng)零樣本設(shè)置。少樣本中的思維鏈(CoT)可能會(huì)影響DeepSeek-R1的性能。其他數(shù)據(jù)集遵循其原始評(píng)估協(xié)議,并使用其創(chuàng)建者提供的默認(rèn)提示。對(duì)于代碼和數(shù)學(xué)基準(zhǔn)測(cè)試,HumanEval-Mul數(shù)據(jù)集涵蓋了八種主流編程語(yǔ)言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。LiveCodeBench上的模型性能使用思維鏈(CoT)格式進(jìn)行評(píng)估,數(shù)據(jù)收集時(shí)間為2024年8月至2025年1月。Codeforces數(shù)據(jù)集使用10場(chǎng)Div.2比賽的題目以及專(zhuān)家編寫(xiě)的測(cè)試用例進(jìn)行評(píng)估,隨后計(jì)算預(yù)期評(píng)測(cè)量。DeepSeek-R1的輸出在每個(gè)基準(zhǔn)測(cè)試中最多限制為32,768個(gè)token?;€模型我們對(duì)多個(gè)強(qiáng)基線模型進(jìn)行了全面評(píng)估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-OpenAIominiOpenAIo國(guó)大陸訪問(wèn)OpenAI-o1-1217的API較為困難,我們根據(jù)官方報(bào)告記錄了其性能。對(duì)于蒸餾模型,我們還比較了開(kāi)源模型QwQ-32B-Preview。評(píng)估設(shè)置我們將模型的最大生成長(zhǎng)度設(shè)置為32,768個(gè)token。我們發(fā)現(xiàn),使用貪心解碼來(lái)評(píng)估長(zhǎng)輸出推理模型會(huì)導(dǎo)致更高的重復(fù)率,并且不同檢查點(diǎn)之間的變異性較大。因此,我們默認(rèn)使用pass@k評(píng)估方成k個(gè)響應(yīng)(通常在4到64之間,取決于測(cè)試集大小)。然后,pass@1的計(jì)算公式為:pass@1=pi,其中pi表示第i個(gè)響應(yīng)的正確性。這種方法提供了更可靠的性能估計(jì)。對(duì)于AIME2024,我們還報(bào)告了使用64個(gè)樣本的共識(shí)(多數(shù)投票)結(jié)果,記為cons@64。3.1DeepSeek-R1的評(píng)估Benchmark(Metric)Claude-3.5-GPT-4oDeepSeekSonnet-10220513V3OpenAIOpenAIo1-minio1-1217DeepSeekR1Architecture#ActivatedParams#TotalParams------MoE37B671B------MoE37B671BMMLU(Pass@1)88.387.288.585.291.890.8MMLU-Redux(EM)88.988.089.186.7-92.9MMLU-Pro(EM)78.072.675.980.3-84.0DROP(3-shotF1)88.383.791.683.990.292.2IF-Eval(PromptStrict)EnglishGPQADiamond(Pass@1)86.584.386.184.8-83.365.049.959.160.075.771.5SimpleQA(Correct)28.438.224.97.047.030.1FRAMES(Acc.)72.580.573.376.9-82.5AlpacaEval2.0(LC-winrate)52.051.170.057.8-87.6ArenaHard(GPT-4-1106)85.280.485.592.0-92.3LiveCodeBench(Pass@1-COT)Codeforces(Percentile)CodeCodeforces(Rating)SWEVerified(Resolved)Aider-Polyglot(Acc.)38.932.936.253.863.465.920.323.658.793.496.696.37177591348202061202950.838.842.041.648.949.245.3049.632.961.753.3AIME2024(Pass@1)09.339.263.679.279.8MathMATH-500(Pass@1)78.374.690.290.096.497.3CNMO2024(Pass@1)1843.267.6-78.8CLUEWSC(EM)ChineseC-Eval(EM)C-SimpleQA(Correct)85.476.755.487.976.058.790.986.568.089.968.940.3---92.891.863.7表4:DeepSeek-R1與其他代表性模型的比較。對(duì)于教育導(dǎo)向的知識(shí)基準(zhǔn)測(cè)試,例如MMLU、MMLU-Pro和GPQADiamond,DeepSeek-R1相較于DeepSeek-V3展現(xiàn)出更優(yōu)越的表現(xiàn)。這一改進(jìn)主要?dú)w因于在STEM相關(guān)問(wèn)題上的準(zhǔn)確性提升,通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)取得了顯著的進(jìn)展。此外,DeepSeek-R1在FRAMES這一長(zhǎng)上下文依賴(lài)的問(wèn)答任務(wù)上表現(xiàn)出色,展現(xiàn)了其強(qiáng)大的文檔分析能力。這突顯了推理模型在AI驅(qū)動(dòng)的搜索和數(shù)據(jù)分析任務(wù)中的潛力。在事實(shí)基準(zhǔn)測(cè)試SimpleQA上,DeepSeek-R1超越了DeepSeek-V3,展示了其處理基于事實(shí)的查詢(xún)的能力。在這一基準(zhǔn)測(cè)試中,OpenAI-o1也超越了GPT-4o。然而,DeepSeek-R1在中文SimpleQA基準(zhǔn)測(cè)試中的表現(xiàn)遜色于DeepSeek-V3,主要是因?yàn)槠湓诎踩珡?qiáng)化學(xué)習(xí)后傾向于拒絕回答某些查詢(xún)。如果沒(méi)有安全強(qiáng)化學(xué)epSeekRDeepSeek-R1在IF-Eval上也取得了令人印象深刻的結(jié)果,該基準(zhǔn)旨在評(píng)估模型遵循格式指令的能力。這些改進(jìn)與在監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)訓(xùn)練的最后階段納入指令遵循數(shù)據(jù)有關(guān)。此外,在AlpacaEval2.0和ArenaHard上也觀察到了顯著的表現(xiàn),表明DeepSeek-R1在寫(xiě)作任務(wù)和開(kāi)放域問(wèn)答方面的優(yōu)勢(shì)。它顯著超越DeepSeek-V3的表現(xiàn)強(qiáng)調(diào)了大規(guī)模強(qiáng)化學(xué)習(xí)的泛化優(yōu)勢(shì),這不僅提升了推理能力,還改善了在多種領(lǐng)域的表現(xiàn)。為2,218個(gè)字符。這表明DeepSeek-R1在基于GPT的評(píng)估中避免了引入長(zhǎng)度偏差,進(jìn)一步鞏固了其在多個(gè)任務(wù)中的魯棒性。LiveCodeBench和Codeforces,也觀察到了類(lèi)似的趨勢(shì),推理為重點(diǎn)的模型在這些基準(zhǔn)測(cè)試中占據(jù)主導(dǎo)地位。在工程導(dǎo)向的編碼任務(wù)中,OpenAI-o1-1217在Aider上超越了DeepSeek-R1,但在SWEVerified上的表現(xiàn)相當(dāng)。我們相信,DeepSeek-R1在下一版本中的工程性能將有所提升,因?yàn)槟壳跋嚓P(guān)的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)仍然非常有限。3.2蒸餾模型的評(píng)估ModelAIME2024MATHQADiamondveCodeBenchpass@1cons@64pass@1pass@1pass@1ratingo34.649.959Claude-3.5-Sonnet-1022.78.3017OpenAI-o1-mini6.00.8QwQ-32B-Preview.00.6.541.9DeepSeek-R1-Distill-Qwen-1.5B.9.74DeepSeek-R1-Distill-Qwen-7B.5.849.1DeepSeek-R1-Distill-Qwen-14B7.9.1.1DeepSeek-R1-Distill-Qwen-32B72.6.31.2DeepSeek-R1-Distill-Llama-8B.449.0DeepSeek-R1-Distill-Llama-70B0.0.74.5.27.5表5:經(jīng)過(guò)DeepSeek-R1蒸餾過(guò)的模型和其它類(lèi)似的模型在推理相關(guān)任務(wù)上的基準(zhǔn)測(cè)試。如表5所示,簡(jiǎn)單地使用DeepSeek-R1的輸出來(lái)蒸餾DeepSeek-R1-7B,使得高效的DeepSeek-R1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下簡(jiǎn)寫(xiě)相同)在各方面超越了像GPT-4o-0513這樣的非推理模型。DeepSeek-R1-14B在所有評(píng)估指標(biāo)上超過(guò)了QwQ-32B-Preview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多數(shù)基準(zhǔn)測(cè)試中顯著超過(guò)了o1-mini。這些結(jié)果展示了蒸餾的強(qiáng)大潛力。此外,我們發(fā)現(xiàn)將強(qiáng)化學(xué)習(xí)應(yīng)用于這些蒸餾模型可以帶來(lái)顯著的進(jìn)一步提升。我們認(rèn)為這值得進(jìn)一步探索,因此在此僅展示簡(jiǎn)單的通過(guò)監(jiān)督微調(diào)來(lái)蒸餾模型的結(jié)果。4討論4.1蒸餾v.s.強(qiáng)化學(xué)習(xí)AIME2024MATH500GPQADiamondLiveCodeBenchModelpass@1cons@64pass@1pass@1pass@1QwQ-32B-Preview0.0.00.64.541.9DeepSeek-R1-Zero-Qwen-32B47.0.01.65.040.2DeepSeek-R1-Distill-Qwen-32B72.63.34.32.157.2表6:推理相關(guān)基準(zhǔn)測(cè)試中,經(jīng)過(guò)蒸餾的小模型和經(jīng)過(guò)強(qiáng)化學(xué)習(xí)的小模型的性能比較。DeepSeekR行蒸餾,小模型能夠取得令人印象深刻的結(jié)果。然而,仍然有一個(gè)問(wèn)題:模型是否可以通過(guò)本文討論的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練而不進(jìn)wenBBaseSTEM數(shù)據(jù),訓(xùn)練超過(guò)10K步,最終得到了DeepSeek-R1-Zero-Qwen-32B。實(shí)驗(yàn)結(jié)果如表6所示,經(jīng)過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練后,32B基礎(chǔ)模型的性能與QwQ-32B-Preview相當(dāng)。然而,從DeepSeek-R1蒸餾而來(lái)的DeepSeek-R1-Distill-Qwen-32B在所有基準(zhǔn)測(cè)試中表現(xiàn)顯著優(yōu)于DeepSeek-R1-Zero-Qwen-32B。因此,我們可以得出兩個(gè)結(jié)論:首先,將更強(qiáng)大的模型蒸餾為更小的模型能夠獲得優(yōu)異的結(jié)果,而依賴(lài)于本文提到的大規(guī)模強(qiáng)化學(xué)習(xí)的小模型則需要巨大的計(jì)算能力,甚至可能無(wú)法達(dá)到蒸餾的性能。其次,盡管蒸餾策略既經(jīng)濟(jì)又有效,但要超越智能的邊界,仍可能需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。4.2不成功的嘗試在開(kāi)發(fā)DeepSeek-R1的早期階段,我們也遇到了失敗和挫折。我們?cè)诖朔窒砦覀兊氖〗?jīng)驗(yàn),
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 寺廟文化交流合作協(xié)議合同
- 勞動(dòng)合同新規(guī):鼓勵(lì)無(wú)固定期限簽約
- 21《我不能失信》教學(xué)設(shè)計(jì)-2023-2024學(xué)年統(tǒng)編版語(yǔ)文三年級(jí)下冊(cè)
- 單位食堂轉(zhuǎn)讓合同范本
- 11 對(duì)人有禮貌 (教學(xué)設(shè)計(jì))2024-2025學(xué)年統(tǒng)編版(2024)道德與法治一年級(jí)上冊(cè)
- Module 6 Unit 2 She visited the Tianchi Lake (教學(xué)設(shè)計(jì)) -2023-2024學(xué)年外研版(三起)英語(yǔ)五年級(jí)下冊(cè)
- 經(jīng)營(yíng)書(shū)店合同范本
- Module 5 Unit1 Listening and speaking 教學(xué)設(shè)計(jì) 2024-2025學(xué)年外研版英語(yǔ)九年級(jí)上冊(cè)
- 11《百年孤獨(dú)(節(jié)選)》教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版高中語(yǔ)文選擇性必修上冊(cè)
- 3《我不拖拉》 教學(xué)設(shè)計(jì) -2023-2024學(xué)年道德與法治一年級(jí)下冊(cè)統(tǒng)編版
- PANTONE潘通色卡C面顏色
- 中藥的性能課件
- 平行四邊形的性質(zhì)說(shuō)課課件- 人教版八年級(jí)數(shù)學(xué)下冊(cè)
- 2022新教科版科學(xué)六年級(jí)下冊(cè)全一冊(cè)全部課件(含32課)
- 《數(shù)學(xué)物理方程》全冊(cè)配套課件
- 《煤礦安全規(guī)程》專(zhuān)家解讀(詳細(xì)版)
- 招聘面試流程sop
- 水資源保護(hù)知識(shí)競(jìng)賽試題及答案
- PCB制程漲縮系數(shù)操作指引
- 標(biāo)準(zhǔn) DB37T 3690.1-2019 液體菌種制備技術(shù)規(guī)程 第1部分:香菇規(guī)范
- 2021五年級(jí)道德與法治培優(yōu)輔差計(jì)劃3篇
評(píng)論
0/150
提交評(píng)論