![ChatGPT如何使用RLHF來克服GPT-3存在的問題_第1頁](http://file4.renrendoc.com/view/149713a39599eda52ab54ab0efd5df57/149713a39599eda52ab54ab0efd5df571.gif)
![ChatGPT如何使用RLHF來克服GPT-3存在的問題_第2頁](http://file4.renrendoc.com/view/149713a39599eda52ab54ab0efd5df57/149713a39599eda52ab54ab0efd5df572.gif)
![ChatGPT如何使用RLHF來克服GPT-3存在的問題_第3頁](http://file4.renrendoc.com/view/149713a39599eda52ab54ab0efd5df57/149713a39599eda52ab54ab0efd5df573.gif)
![ChatGPT如何使用RLHF來克服GPT-3存在的問題_第4頁](http://file4.renrendoc.com/view/149713a39599eda52ab54ab0efd5df57/149713a39599eda52ab54ab0efd5df574.gif)
![ChatGPT如何使用RLHF來克服GPT-3存在的問題_第5頁](http://file4.renrendoc.com/view/149713a39599eda52ab54ab0efd5df57/149713a39599eda52ab54ab0efd5df575.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
WordChatGPT如何使用RLHF來克服GPT-3存在的問題自ChatGPT發(fā)布以來,已經(jīng)吸引了無數(shù)人一探究竟。但ChatGPT實(shí)際上是如何工作的?盡管它內(nèi)部實(shí)現(xiàn)的細(xì)節(jié)尚未公布,我們卻可以從最近的研究中一窺它的基本原理。
ChatGPT是Open(AI)發(fā)布的(最新)語言模型,比其前身GPT-3有顯著提升。與許多大型語言模型類似,ChatGPT能以不同樣式、不同目的生成文本,并且在準(zhǔn)確度、敘述細(xì)節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。它代表了OpenAI最新一代的大型語言模型,并且在設(shè)計(jì)上非常注重交互性。
OpenAI使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的組合來調(diào)優(yōu)ChatGPT,其中的強(qiáng)化學(xué)習(xí)組件使ChatGPT獨(dú)一無二。OpenAI使用了「人類反饋強(qiáng)化學(xué)習(xí)」(RLHF)的訓(xùn)練方法,該方法在訓(xùn)練中使用人類反饋,以最小化無益、失真或偏見的輸出。
本文將剖析GPT-3的局限性及其從訓(xùn)練過程中產(chǎn)生的原因,同時(shí)將解釋RLHF的原理和理解ChatGPT如何使用RLHF來克服GPT-3存在的問題,最后將探討這種方法的局限性。
大型語言模型中的能力與一致性
「一致性vs能力」可以被認(rèn)為是「準(zhǔn)確性vs精確性」的更抽象的類比。
在(機(jī)器學(xué)習(xí))中,模型的能力是指模型執(zhí)行特定任務(wù)或一組任務(wù)的能力。模型的能力通常通過它能夠優(yōu)化其目標(biāo)函數(shù)的程度來評估。例如,用來預(yù)測股票市場價(jià)格的模型可能有一個(gè)衡量模型預(yù)測準(zhǔn)確性的目標(biāo)函數(shù)。如果該模型能夠準(zhǔn)確預(yù)測股票價(jià)格隨時(shí)間的變化,則認(rèn)為該模型具有很高的執(zhí)行能力。
一致性關(guān)注的是實(shí)際希望模型做什么,而不是它被訓(xùn)練做什么。它提出的問題是「目標(biāo)函數(shù)是否符合預(yù)期」,根據(jù)的是模型目標(biāo)和行為在多大程度上符合人類的期望。假設(shè)要訓(xùn)練一個(gè)鳥類分類器,將鳥分類為「麻雀」或「知更鳥」,使用對數(shù)損失作為訓(xùn)練目標(biāo),而最終目標(biāo)是很高的分類精度。該模型可能具有較低的對數(shù)損失,即該模型的能力較強(qiáng),但在測試集上的精度較差,這就是一個(gè)不一致的例子,模型能夠優(yōu)化訓(xùn)練目標(biāo),但與最終目標(biāo)不一致。
原始的GPT-3就是非一致模型。類似GPT-3的大型語言模型都是基于來自互聯(lián)網(wǎng)的大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,能夠生成類似人類的文本,但它們可能并不總是產(chǎn)生符合人類期望的輸出。事實(shí)上,它們的目標(biāo)函數(shù)是詞序列上的概率分布,用來預(yù)測序列中的下一個(gè)單詞是什么。
但在實(shí)際應(yīng)用中,這些模型的目的是執(zhí)行某種形式的有價(jià)值的認(rèn)知工作,并且這些模型的訓(xùn)練方式與期望使用它們的方式之間存在明顯的差異。盡管從數(shù)學(xué)上講,機(jī)器計(jì)算詞序列的統(tǒng)計(jì)分布可能是建模語言的高效選擇,但人類其實(shí)是通過選擇最適合給定情境的文本序列來生成語言,并使用已知的背景知識(shí)和常識(shí)來輔助這一過程。當(dāng)語言模型用于需要高度信任或可靠性的應(yīng)用程序(如對話系統(tǒng)或(智能)個(gè)人助理)時(shí),這可能是一個(gè)問題。
盡管這些基于大量數(shù)據(jù)訓(xùn)練的大模型在過去幾年中變得極為強(qiáng)大,但當(dāng)用于實(shí)際以幫助人們生活更輕松時(shí),它們往往無法發(fā)揮潛力。大型語言模型中的一致性問題通常表現(xiàn)為:
提供無效幫助:沒有遵循用戶的明確指示。
內(nèi)容胡編亂造:虛構(gòu)不存在或錯(cuò)誤事實(shí)的模型。
缺乏可解釋性:人們很難理解模型是如何得出特定決策或預(yù)測的。
內(nèi)容偏見有害:一個(gè)基于有偏見、有害數(shù)據(jù)訓(xùn)練的語言模型可能會(huì)在其輸出中出現(xiàn)這種情況,即使它沒有明確指示這樣做。
但具體來說,一致性問題源自何處?語言模型的訓(xùn)練方式本身就容易產(chǎn)生不一致嗎?
語言模型訓(xùn)練策略如何產(chǎn)生不一致?
Next-token-predic(ti)on和masked-language-modeling是用于訓(xùn)練語言模型的核心技術(shù)。在第一種方法中,模型被給定一個(gè)詞序列作為輸入,并被要求預(yù)測序列中的下一個(gè)詞。如果為模型提供輸入句子:
“Thecatsatonthe”
它可能會(huì)將下一個(gè)單詞預(yù)測為「mat」、「chair」或「floor」,因?yàn)樵谇懊娴纳舷挛闹?,這些單詞出現(xiàn)的概率很高;語言模型實(shí)際上能夠評估給定先前序列的每個(gè)可能詞的可能性。
masked-language-modeling方法是Next-token-prediction的變體,其中輸入句子中的一些詞被替換為特殊token,例如[MASK]。然后,模型被要求預(yù)測應(yīng)該插入到mask位置的正確的詞。如果給模型一個(gè)句子:
“The[MASK]satonthe”
它可能會(huì)預(yù)測MASK位置應(yīng)該填的詞是「cat」、「dog」。
這些目標(biāo)函數(shù)的優(yōu)點(diǎn)之一是,它允許模型學(xué)習(xí)語言的統(tǒng)計(jì)結(jié)構(gòu),例如常見的詞序列和詞使用模式。這通常有助于模型生成更自然、更流暢的文本,并且是每個(gè)語言模型預(yù)訓(xùn)練階段的重要步驟。
然而這些目標(biāo)函數(shù)也可能導(dǎo)致問題,這主要是因?yàn)槟P蜔o法區(qū)分重要錯(cuò)誤和不重要錯(cuò)誤。一個(gè)非常簡單的例子是,如果給模型輸入句子:
"The(Rom)anEm(pi)re[MASK]withthereignofAugustus."
它可能會(huì)預(yù)測MASK位置應(yīng)該填入「began」或「ended」,因?yàn)檫@兩個(gè)詞的出現(xiàn)概率都很高。
一般來說,這些訓(xùn)練策略可能會(huì)導(dǎo)致語言模型在一些更復(fù)雜的任務(wù)中出現(xiàn)不一致,因?yàn)橐粋€(gè)僅被訓(xùn)練來預(yù)測文本序列中的下一個(gè)詞的模型可能不一定會(huì)學(xué)習(xí)其含義的某些更高級(jí)表征。因此,該模型很難推廣到需要對語言更深入理解的任務(wù)。
研究人員正研究各種方法來解決大型語言模型中的一致性問題。ChatGPT基于最初的GPT-3模型,但為了解決模型的不一致問題,使用了人類反饋來指導(dǎo)學(xué)習(xí)過程,對其進(jìn)行了進(jìn)一步訓(xùn)練。所使用的具體技術(shù)就是前面提到的RLHF。ChatGPT是第一個(gè)將此技術(shù)用于實(shí)際場景的模型。
那ChatGPT是如何利用人類反饋來解決一致性問題的呢?
從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)
方法總體上包括三個(gè)不同步驟:
有監(jiān)督的調(diào)優(yōu):預(yù)訓(xùn)練的語言模型在少量已標(biāo)注的數(shù)據(jù)上進(jìn)行調(diào)優(yōu),以學(xué)習(xí)從給定的prompt列表生成輸出的有監(jiān)督的策略(即SFT模型);
(模擬)人類偏好:標(biāo)注者們對相對大量的SFT模型輸出進(jìn)行投票,這就創(chuàng)建了一個(gè)由比較數(shù)據(jù)組成的新數(shù)據(jù)集。在此數(shù)據(jù)集上訓(xùn)練新模型,被稱為訓(xùn)練回報(bào)模型(RewardModel,RM);
近端策略優(yōu)化(PPO):RM模型用于進(jìn)一步調(diào)優(yōu)和改進(jìn)SFT模型,PPO輸出結(jié)果是的策略模式。
步驟1只進(jìn)行一次,而步驟2和步驟3可以持續(xù)重復(fù)進(jìn)行:在當(dāng)前最佳策略模型上收集更多的比較數(shù)據(jù),用于訓(xùn)練新的RM模型,然后訓(xùn)練新的策略。接下來,將對每一步的細(xì)節(jié)進(jìn)行詳述。
步驟1:監(jiān)督調(diào)優(yōu)模型
第一步是收集數(shù)據(jù),以訓(xùn)練有監(jiān)督的策略模型。
數(shù)據(jù)收集:選擇一個(gè)提示列表,標(biāo)注人員按要求寫下預(yù)期的輸出。對于ChatGPT,使用了兩種不同的prompt來源:一些是直接使用標(biāo)注人員或研究人員準(zhǔn)備的,另一些是從OpenAI的API請求(即從GPT-3用戶那里)獲取的。雖然整個(gè)過程緩慢且昂貴,但最終得到的結(jié)果是一個(gè)相對較小、高質(zhì)量的數(shù)據(jù)集(大概有12-15k個(gè)數(shù)據(jù)點(diǎn)),可用于調(diào)優(yōu)預(yù)訓(xùn)練的語言模型。
模型選擇:ChatGPT的開發(fā)人員選擇了GPT-3.5系列中的預(yù)訓(xùn)練模型,而不是對原始GPT-3模型進(jìn)行調(diào)優(yōu)。使用的基線模型是(最新版)的(te)xt-davinci-003(通過對(程序代碼)調(diào)優(yōu)的GPT-3模型)。
為了創(chuàng)建像ChatGPT這樣的通用聊天(機(jī)器人),開發(fā)人員是在「代碼模型」而不是純文本模型之上進(jìn)行調(diào)優(yōu)。
由于此步驟的數(shù)據(jù)量有限,該過程獲得的SFT模型可能會(huì)輸出仍然并非用戶關(guān)注的文本,并且通常會(huì)出現(xiàn)不一致問題。這里的問題是監(jiān)督學(xué)習(xí)步驟具有高可擴(kuò)展性成本。
為了克服這個(gè)問題,使用的策略是讓人工標(biāo)注者對SFT模型的不同輸出進(jìn)行排序以創(chuàng)建RM模型,而不是讓人工標(biāo)注者創(chuàng)建一個(gè)更大的精選數(shù)據(jù)集。
第二步:訓(xùn)練回報(bào)模型
這一步的目標(biāo)是直接從數(shù)據(jù)中學(xué)習(xí)目標(biāo)函數(shù)。該函數(shù)的目的是為SFT模型輸出進(jìn)行打分,這代表這些輸出對于人類來說可取程度有多大。這強(qiáng)有力地反映了選定的人類標(biāo)注者的具體偏好以及他們同意遵循的共同準(zhǔn)則。最后,這個(gè)過程將從數(shù)據(jù)中得到模仿人類偏好的系統(tǒng)。
它的(工作原理)是:
選擇prompt列表,SFT模型為每個(gè)prompt生成多個(gè)輸出(4到9之間的任意值);
標(biāo)注者將輸出從最佳到最差排序。結(jié)果是一個(gè)新的標(biāo)簽數(shù)據(jù)集,該數(shù)據(jù)集的大小大約是用于SFT模型的精確數(shù)據(jù)集的10倍;
此新數(shù)據(jù)用于訓(xùn)練RM模型。該模型將SFT模型輸出作為輸入,并按優(yōu)先順序?qū)λ鼈冞M(jìn)行排序。
對于標(biāo)注者來說,對輸出進(jìn)行排序比從頭開始打標(biāo)要容易得多,這一過程可以更有效地?cái)U(kuò)展。在實(shí)踐中,所選擇的prompt的數(shù)量大約為30-40k,并且包括排序輸出的不同組合。
步驟3:使用PPO模型微調(diào)SFT模型
這一步里強(qiáng)化學(xué)習(xí)被應(yīng)用于通過優(yōu)化RM模型來調(diào)優(yōu)SFT模型。所使用的特定(算法)稱為近端策略優(yōu)化(PPO),而調(diào)優(yōu)模型稱為近段策略優(yōu)化模型。
什么是PPO?該算法的主要特點(diǎn)如下:
PPO是一種用于在強(qiáng)化學(xué)習(xí)中訓(xùn)練agent的算法。它被稱為「on-policy」算法,因?yàn)樗苯訉W(xué)習(xí)和更新當(dāng)前策略,而不是像DQN的「off-policy」算法那樣從過去的經(jīng)驗(yàn)中學(xué)習(xí)。PPO根據(jù)agent所采取的行動(dòng)和所獲得的回報(bào)不斷調(diào)整策略;
PPO使用「信任區(qū)域優(yōu)化」方法來訓(xùn)練策略,它將策略的更改范圍限制在與先前策略的一定程度內(nèi)以保證穩(wěn)定性。這與其它策略使用梯度方法形成鮮明對比,梯度方法有時(shí)會(huì)對策略進(jìn)行大規(guī)模更新,從而破壞策略的穩(wěn)定性;
PPO使用價(jià)值函數(shù)來估計(jì)給定狀態(tài)或動(dòng)作的預(yù)期回報(bào)。價(jià)值函數(shù)用于計(jì)算優(yōu)勢函數(shù),它代表預(yù)期收益和當(dāng)前收益之間的差異。然后使用優(yōu)勢函數(shù)通過比較當(dāng)前策略采取的操作與先前策略將采取的操作來更新策略。這使PPO可以根據(jù)所采取行動(dòng)的估計(jì)價(jià)值對策略進(jìn)行更明智的更新。
在這一步中,PPO模型由SFT模型初始化,價(jià)值函數(shù)由RM模型初始化。該環(huán)境是一個(gè)「banditenvironment」,它會(huì)產(chǎn)生隨機(jī)prompt并期望對prompt做出響應(yīng)。對于給定的prompt和響應(yīng),它會(huì)產(chǎn)生相應(yīng)的回報(bào)(由RM模型決定)。SFT模型會(huì)對每個(gè)token添加KL懲罰因子,以盡量避免RM模型的過度優(yōu)化。
性能評估
因?yàn)槟P褪歉鶕?jù)人工標(biāo)注的輸入進(jìn)行訓(xùn)練的,所以評估的核心部分也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球電子鎮(zhèn)痛泵行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國正照式CMOS制冷相機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球生活用紙頭膠行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國奧美沙坦酯氫氯噻嗪片行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球帆布繪畫套件行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國防靜電HPL架空地板行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025-2030全球ADAS清洗系統(tǒng)行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國TGV激光微孔設(shè)備行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國導(dǎo)熱平臺(tái)和導(dǎo)熱板行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國13C-尿素呼氣測試試劑盒行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 城市基礎(chǔ)設(shè)施修繕工程的重點(diǎn)與應(yīng)對措施
- GB 12710-2024焦化安全規(guī)范
- 【??途W(wǎng)】2024秋季校園招聘白皮書
- 2024-2025銀行對公業(yè)務(wù)場景金融創(chuàng)新報(bào)告
- 2025屆鄭州市高三一診考試英語試卷含解析
- 柔性機(jī)械臂的振動(dòng)控制
- DB34T 4510-2023 靜脈用藥調(diào)配中心潔凈區(qū)管理規(guī)范
- 【課件】免疫系統(tǒng)組成和功能(人教版2019選擇性必修1)
- 土力學(xué)與地基基礎(chǔ)(課件)
- IT系統(tǒng)災(zāi)備和容災(zāi)解決方案項(xiàng)目設(shè)計(jì)方案
- 青島版二年級(jí)數(shù)學(xué)下冊(六三制)全冊課件【完整版】
評論
0/150
提交評論