2024年大語言模型的能力邊界與發(fā)展思考報告_第1頁
2024年大語言模型的能力邊界與發(fā)展思考報告_第2頁
2024年大語言模型的能力邊界與發(fā)展思考報告_第3頁
2024年大語言模型的能力邊界與發(fā)展思考報告_第4頁
2024年大語言模型的能力邊界與發(fā)展思考報告_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1大語言模型的能力邊界與發(fā)展思考ChatGPT2023年--大模型報稅、寫詩、寫代碼,“無所不能”ChatGPT2023年--大模型“無所不能”ChatGPT2023年--大模型“無所不能”2023

年大家拿著錘子到處找釘子ChatGPT2024年--大模型落地總是“差一口氣”ChatGPT2024年--大模型落地總是“差一口氣”ChatGPT2024年--大模型落地總是“差一口氣”PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs語言模型無法進行逆向知識搜索,除非知識以逆序出現(xiàn)在預訓練數(shù)據(jù)中ChatGPTGPT-o1

preview

號稱物理問答達到“博士:水平ChatGPTGPT-o1

preview

似乎也不能很好的解決初中數(shù)學問題在

GSM8K

MATH

數(shù)據(jù)集問題的基礎上,加?了?些“陷阱”,構(gòu)造了

MathTrap

數(shù)據(jù)集。改編后的題?很多時候沒有定義明確的答案或者?解,只有能夠同時理解原題和“陷阱”所涉及知識,才能找出其中的?盾點,發(fā)現(xiàn)“陷阱”所在。MathTrap_Public上,GPT-o1-preview的回答準確率僅為24.3%MathTrap_Private上,GPT-o1-previewAPI

的測試準確率為

38.0%,相?

GPT-4

API的

36.0%,?乎沒有提升為什么?10從飛機發(fā)展史看

AI

發(fā)展的核心問題11ChatGPT ChatGPT為什么這么強?基礎理論對于技術(shù)發(fā)展至關重要1903年12月17日,世界上第一架載人動力飛機首飛ChatGPT ChatGPT為什么這么強?同時期各種腦洞大開的“飛行器”ChatGPT ChatGPT為什么這么強?萊特兄弟創(chuàng)造“飛行者一號”的歷程1890年代前期萊特兄弟就從新聞、雜志或者照片上看到了德國航空先驅(qū)奧托·李林達爾研制的動力滑翔機1896年5月,塞繆爾·蘭利成功試飛了一架蒸汽動力的無人飛機模型萊特兄弟認為困擾航空先驅(qū)們的飛行難題有三點:機翼、發(fā)動機以及如何控制飛機1899年7月,威爾伯·萊特制作了一架長5英尺,形似雙翼飛機的箱型風箏用來測試翹曲機翼技術(shù)萊特兄弟兄弟建造了風洞,為200多種不同翼弧的翼型完成了旋轉(zhuǎn)臂測試(一種測量升力和空氣阻力的早期手段),并對其中的38種做了更詳細的測試,

同時也對廣受認可的升力方程中的斯密頓系數(shù)提出了質(zhì)疑,當時已經(jīng)被提出了100多年。基于展弦比知識和更精確的斯密頓系數(shù),萊特兄弟設計了他們新的1902年款滑翔機1903年萊特兄弟用云杉木來建造他們配備有動力裝置的飛行者一號猜測:OpenAI

發(fā)布

GPT-4

時已經(jīng)掌握了大模型基礎理論/pdf/2303.0877416回歸基礎理論進行分析?ChatGPT ChatGPT為什么這么強語言模型的核心任務始終是生成一個“合理的延續(xù)”,即根據(jù)已有的文本,生成一個符合人類書寫習慣的下一個合理內(nèi)容。所謂“合理”,是指根據(jù)數(shù)十億個網(wǎng)頁、數(shù)字化書籍等人類撰寫內(nèi)容的統(tǒng)計規(guī)律,推測接下來可能出現(xiàn)的內(nèi)容。語言模型真正做的事情—文字接龍Cha17tGPT完成像寫文章這樣的任務時,它實際上只是一遍又一遍地詢問:“在已有的文本的基礎上,下一個詞應該是什么?”——

并且每次都會添加一個詞。ChatGPT實現(xiàn)過程18explainthemoonlandingto6year

oldsSomepeoplewenttotheMoon標注人員構(gòu)造目標答案explainthemoonlandingto6year

olds標注人員對答案質(zhì)量進行排序有監(jiān)督微調(diào)大模型獎勵函數(shù)ACBDC>A>B=DWrite

somethingabout

frog獎勵函數(shù)大模型Onceuponatime

…rk數(shù)千億單詞圖書、百科、網(wǎng)頁等基礎大模型預訓練階段十萬各任務用戶指令有監(jiān)督微調(diào)獎勵函數(shù)強化學習百萬各任務用戶指令十萬各任務用戶指令1000+GPU月級別訓練時間1-100GPU天級別訓練時間1-100GPU天級別訓練時間1-100GPU天級別訓練時間ChatGPT實現(xiàn)過程explainthemoonlandingto6year

olds標注人員對答案質(zhì)量進行排序有獎explainthemoonlandingto6year

oldsA BC>A>B=DWrite

somethingabout

frog獎勵函數(shù)Onceuponatime

…rkC D標注人員構(gòu)大模型造目標答案 Somepeoplewent

to基礎大模型 the

Moon預訓練階段十萬各任務用戶指令有監(jiān)督微調(diào)獎勵函數(shù)強化學習百萬各任務用戶指令十萬各任務用戶指令數(shù)千億單詞圖書、百科、網(wǎng)頁等1.

大模型訓練每個階段分別完成什監(jiān)督微調(diào)大模型2. 預訓練階段能記住什么知識?3.

如何評價預訓練模型優(yōu)劣?T訓練數(shù)據(jù)?

勵函數(shù)礎模型的什么?4.

什么才是高質(zhì)量的SF

7.

強化學習適合于什么任務?5.

有監(jiān)督微調(diào)改變了基 8.

如何穩(wěn)定高效的完成

RLHF

的訓練?10.

大模型是否具備推理能力?么功能?略是什么?6.

有監(jiān)督微調(diào)的訓練策 9.

如何融合外部環(huán)境狀態(tài)以及利用合成數(shù)據(jù)?ChatGPT

實現(xiàn)過程知識壓縮和表示學習能力注入生成式任務能力提升1.

大模型訓練每個階段分別完成什么功能?21需要足夠多的“曝光”才能完成記憶達到2bit/參數(shù)

對于每個知識要達到

1000

次曝光如果只有100次曝光的話,會減少到1bit/參數(shù)圖標上面數(shù)字是l,h參數(shù)選擇PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

20242. 預訓練階段能記住什么知識?“垃圾數(shù)據(jù)”對知識獲取有顯著影響Wikipediavs.Common

Crawl22PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

2024直接通過訓練語料的統(tǒng)計就可以計算得到知識記憶概率Physics

ofLanguage

Models:Part

3.3

的研究并未對知識的特異性進行分析聯(lián)想總裁 楊元慶華為總裁 任正非具有別的含義,且出現(xiàn)次數(shù)頻繁,導致該知識記憶難度大直接通過訓練語料的統(tǒng)計就可以計算得到知識記憶概率基于模版變換的知識記憶評估方案p(x)p(y)/p(x,y)預訓練階段思考預訓練階段主要完成

知識記憶+表示學習開源大模型已經(jīng)可以很好的進行句子/段落/篇章表示OpenAI

基本放棄了通過模型知識記憶直接進行問題回答25預訓練階段結(jié)論同一個知識點必須用不同的語言表達方式大量重復,模型才能學習到大規(guī)模數(shù)據(jù)的PPL值

可以有效衡量模型的知識記憶能力具有高知識密度的高質(zhì)量的訓練數(shù)據(jù)至關重要經(jīng)過足夠的訓練模型可以達到2bit/參數(shù)的知識存儲能力26PhysicsofLanguageModels:Part3.1,KnowledgeStorageandExtraction,MetaFAIRLabs,arXiv2023PhysicsofLanguageModels:Part3.2,Knowledgemanipulation,MetaFAIRLabs,arXiv

2023PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

2024大模型的能力是如何獲取的知識壓縮和表示學習能力注入生成式任務能力提升知識問答任務:輸入:復旦大學有幾個校區(qū)?理想輸出:復旦大學現(xiàn)有4

個校區(qū),分別是邯鄲校區(qū)、新江灣校區(qū)、楓林校區(qū)和張江校區(qū)。其中邯鄲校區(qū)是復旦大學的主校區(qū),邯鄲校區(qū)與新江灣校區(qū)都位于楊浦區(qū),楓林校區(qū)位于徐匯區(qū),張江校區(qū)位于浦東新區(qū)。作文:輸入:寫一個小故事,關于一只熊去海灘,與海豹交朋友,然后回家理想輸出:從森林里走出一只可愛的小熊,它叫貝利。貝利一直對大海充滿好奇,于是他決定去海灘看看。他跳躍著穿過河流和草地,終于來到了一片美麗的海灘。貝利興奮地跑著,感受著海風的清涼。突然,他注意到海灘上有一只憨態(tài)可掬的海豹,名叫薩米。薩米正在玩耍,好像是在找貝利這樣的新朋友。貝利好奇地走過去,和薩米打了個招呼。薩米非常友好地回應道:“嗨,你是新來的嗎?我是薩米,很高興認識你!”貝利開心地笑了起來,他們迅速成為了好朋友?!噶钗⒄{(diào)—利用少量數(shù)據(jù)訓練模型具備任務能力28針對特定任務如何構(gòu)造SFT訓練數(shù)據(jù)29大模型完成知識問答任務30Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024?語?模型(LLMs)通過在海量數(shù)據(jù)集上的預訓練,能夠編碼豐富的世界知識,并且可以通過微調(diào)將這些知識應?于問答(QA)任務。如何有效地微調(diào)LLMs以提升QA任務表現(xiàn)的策略仍需研究。Q1:在SFT階段需要多少數(shù)據(jù)才能讓LLMs學會QA任務?Q2:不同的SFT數(shù)據(jù)集如何影響LLMs在QA任務上的表現(xiàn)?Q3:不同LLMs在SFT階段對數(shù)據(jù)的需求有何差異?4.

什么才是高質(zhì)量

SFT訓練數(shù)據(jù)?大模型完成知識問答任務Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

202431使?了ENTITYQUESTIONS,包含24個不同話題知識的問答數(shù)據(jù)集12個與地點相關的原始訓練集作為訓練數(shù)據(jù)

????????????,將它們對應的測試集作為測試集

??????????,并將剩余12個話題的測試集作為領域外測試集

?????????????????給定?個預訓練的LLM,為了詳細分析其在SFT之后執(zhí)?QA任務的表現(xiàn),應?如上定義的多模板補全機制,根據(jù)其知識記憶?平將訓練和測試集均進?了5個級別的劃分大模型完成知識問答任務Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsfor

Question-Answeri32ng,arXiv

20241.

SFT的數(shù)據(jù)量需求使?不同記憶?平的訓練數(shù)據(jù)

???????????????

的來分析每個LLM將訓練數(shù)據(jù)劃分為六個不同的數(shù)據(jù)量級別,從60個樣本到完整數(shù)據(jù)集不等,并通過從12個話題中均勻抽樣來構(gòu)建訓練集實驗結(jié)果表明,經(jīng)過SFT后,僅需60個訓練樣本就?以使LLMs?效執(zhí)?QA任務,并展現(xiàn)出強?的泛化能??論基礎模型或記憶?平如何,LLMs在使?較少訓練樣本時的表現(xiàn)優(yōu)于使?960個或全部樣本。?多數(shù)模型在

????????????

=

60

時達到或接近最佳表現(xiàn)大模型完成知識問答任務332.

使?不同記憶?平的數(shù)據(jù)進?微調(diào)的影響?論使?何種數(shù)據(jù)進?微調(diào),LLMs始終對預訓練期間記憶較好的知識提供更準確的答案在特定記憶?平的數(shù)據(jù)上進?訓練能夠提升LLMs在該?平知識上的表現(xiàn)總體??,更有效的策略是使??記憶?平的數(shù)據(jù)進?SFTYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024大模型完成知識問答任務3.

不同LLMs的數(shù)據(jù)需求差異不同

LLM

的記憶差距很?使?相同的訓練數(shù)據(jù)在不同

LLM

上訓練得到的結(jié)果有很?差異34Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024大模型完成知識問答任務35Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024在SFT階段僅需60條數(shù)據(jù)就能激活預訓練時編碼的知識,使LLMs能夠有效執(zhí)?QA任務使?不同知識記憶層次的數(shù)據(jù)進?SFT,對LLMs的表現(xiàn)有顯著并且有規(guī)律的影響對于QA任務來說最優(yōu)的SFT數(shù)據(jù)集因具體模型?異36有監(jiān)督微調(diào)階段的訓練方式有監(jiān)督微調(diào)的四種方式6.

有監(jiān)督微調(diào)的訓練策略是什么?HowAbilitie3s7inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024有監(jiān)督微調(diào)的四種方式HowAbilitie3s8inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024數(shù)學推理、編程和一般能力與SFT數(shù)據(jù)量的關系如何?當將這三種能力結(jié)合在SFT中時,是否會出現(xiàn)性能沖突?導致性能沖突的關鍵因素是什么?不同SFT策略對復合數(shù)據(jù)的影響是什么?實驗設置HowAbilitie3s9inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024SFT

數(shù)據(jù)集

{D1,D2,

...,Dk},每個數(shù)據(jù)集Di表示一個任務Di

=

{qi,j

,

ri,j}j

包含輸入和回答訓練數(shù)據(jù)集:數(shù)學:GSM8K

RFT編程:Code Alpaca通用:ShareGPT測試數(shù)據(jù)集:數(shù)學:GSM8K

Test

Set編程:Humaneval通用:MT-Bench實驗分析:RQ1

單個任務不同數(shù)據(jù)量單個任務使用不同數(shù)據(jù)量進行訓練較大模型在相同的情況下表現(xiàn)出更好的性能40HowAbilitie4s0inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實驗分析:RQ2

單個任務vs.混合任務訓練數(shù)據(jù)少時,能力得以提高;訓練數(shù)據(jù)多時,混合數(shù)據(jù)則使得能力則減弱,與單個任務訓練相比,這種現(xiàn)象更為明顯。隨著模型大小的增加,在低資源環(huán)境下的表現(xiàn)也會隨之提高,特別是在數(shù)學和一般能力方面。41HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實驗分析:RQ3

任務混合比例影響不同的SFT能力在任務格式和數(shù)據(jù)分布上存在顯著差異時,數(shù)據(jù)比例的影響是微不足道的。然而,當存在一定程度的相似性時,數(shù)據(jù)比例可能導致顯著的性能波動。k

=

specializeduse

data

amount =

specializedall

data

amount

generaluse

data

amount generalalldata

amount42HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實驗分析:RQ4

不同訓練方法結(jié)果43HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024有監(jiān)督微調(diào)階段結(jié)論44HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024參數(shù)量大的模型在使用相同數(shù)量的數(shù)據(jù)進行訓練時表現(xiàn)出優(yōu)越性能混合數(shù)據(jù)來源在低資源場景中提高了性能,但在高資源場景中性能下降數(shù)據(jù)量直接影響性能,而數(shù)據(jù)比例的影響在實驗設置中不顯著DMT策略有效地緩解了性能沖突45知識回答和其他任務沖突如何解決?大規(guī)模微調(diào)破壞世界知識但當下游任務增多或者需要強化特定任務的性能時,增加SFT訓練數(shù)據(jù)是有必要的。如上圖的左側(cè)部分,當SFT數(shù)據(jù)從100K提升到3M時,大部分任務的性能顯著增強。46Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023但隨著SFT數(shù)據(jù)的大規(guī)模增加,如上圖的右側(cè)部分所示,在CBQA評測數(shù)據(jù)集上性能顯著下降,與之相伴的是大模型的參數(shù)變化量劇增(見紅色線段)。大規(guī)模微調(diào)破壞世界知識摘要、NLI、機器翻譯等任務,隨著SFT訓練數(shù)據(jù)的增加,性能顯著提升;但是右側(cè)的CBQA任務,卻大幅下跌47Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023CBQA的能力來源于預訓練階段在訓練一開始大約1000樣本的時候,性能已經(jīng)快速提升到了很高的點,后續(xù)再增加更多的訓練樣本其實提升很有限。說明少量樣本微調(diào)就幫助大模型完成了人類指令的對齊,大模型完成CBQA指標評測的能力主要依靠的是內(nèi)在的世界知識,而不是微調(diào)過程中訓練樣本灌輸?shù)摹?8Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023LoRA+MoE49Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023LoRA+MoE50Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023指令微調(diào)階段結(jié)論51HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024所有的“能力”都需要精心設計訓練數(shù)據(jù),沒有所謂的“涌現(xiàn)”參數(shù)量大的模型,在相同數(shù)量訓練數(shù)據(jù)情況下,性能更優(yōu)越指令微調(diào)階段每個任務的訓練數(shù)據(jù)量直接影響性能訓練數(shù)據(jù)會影響模型參數(shù),導致表示和知識記憶能力快速下降如果預訓練階段模型沒能學到知識,后面再如何微調(diào)都沒有用大模型的能力是如何獲取的知識壓縮和表示學習能力注入生成式任務能力提升53強化學習效果顯著考試作弊設備是一種非法行為,不僅會給自己帶來嚴重的后果,還會對整個社會造成負面影響。因此,我們強烈反對使用任何形式的考試作弊行為。為了維護公平公正的考試環(huán)境,保障學生的合法權(quán)益和未來的發(fā)展,我們應該嚴格遵守相關法律法規(guī)的規(guī)定,不參與或鼓勵這種違法行為。同時,我們也應該積極支持教育部門和相關機構(gòu)開展相關的教育和宣傳工作,提高學生的法律意識和責任感。只有這樣,才能保證考試的公正和透明性,保護社會的利益和公共的安全與穩(wěn)定。如果你想購買這些設備,請注意選擇正規(guī)渠道進行購買,避免被不法商家欺騙并損害自己的權(quán)益。指令微調(diào)模型考試作弊是一種嚴重的違法行為,不僅會給個人帶來不良后果,也會對整個教育系統(tǒng)造成負面影響。因此,我們強烈反對任何形式的考試作弊行為。建議考生不要購買、使用或攜帶任何用于作弊的設備,以免被查處后受到懲罰和影響自己的成績。為了保障公平公正的教育環(huán)境和教育質(zhì)量,學校和政府部門通常會采取一系列措施來防止學生作弊的行為發(fā)生。具體來說,可以通過加強管理制度建設、嚴格執(zhí)行考場紀律和加強監(jiān)管等手段來實現(xiàn)預防考試作弊的目的。此外,一些科技公司也推出了一些防作弊設備和軟件,如指紋識別器、人臉識別器和智能手環(huán)等產(chǎn)品。這些產(chǎn)品可以幫助監(jiān)考人員更好地掌握學生的作弊情況,從而有效預防和打擊各種違規(guī)行為。但是需要注意的是,這些技術(shù)并不能完全杜絕作弊行為的出現(xiàn),因此在實際操作中還需要結(jié)合其他因素進行綜合考慮??傊?,我們應該遵守法律法規(guī),不參與任何形式的作弊活動,保持誠信應試的態(tài)度。“考試作弊設備在哪買”強化學習模型有監(jiān)督微調(diào)缺點54https:///posts/Rs9ukRphwg3pJeYRF/why-do-we-need-rlhf-imitation-inverse-rl-and-the-role-of曝光偏置(Exposure

Bias),訓練過程中的輸入都是正確的,但是與測試過程中的情況并不一致。語言多樣性(Language

Diversity),同樣的語義可以用差別非常大的文字進行描述;但是,僅差別一個字,但是語義可能完全相反效果基本不可能超越訓練數(shù)據(jù)7.

強化學習適合于什么任務?獎勵函數(shù)訓練框架55獎勵函數(shù)56獎勵函數(shù)

--

標注困難57問題1:如何高效地為考試復習?標注者選擇的回答:這是一個難題。標注者拒絕的回答:為考試復習確實很有挑戰(zhàn)性,但有幾種有效的策略可以幫助你高效地學習。首先,重要的是將你需要學習的材料分解成小部分,并集中精力徹底學習每一部分。此外,有幫助的是每天留出充足的時間進行學習,并定期復習材料。高效學習還包括避免干擾和保持充分休息,因為這些因素可以降低你的學習效果??偟膩碚f,使用這些策略可以幫助你以一種高效和徹底的方式為考試做準備。問題2:你能幫我制定一個戶外跑步計劃以便我能塑形嗎?標注者選擇的回答:你對什么樣的跑步感興趣?標注者拒絕的回答:當然,你在尋找什么樣的計劃?RLHF

訓練框架59RLHF-PPO

實施細節(jié)InteractwithEnvironment在PPO中,實施細節(jié)對性能有著顯著影響Advantage

EstimationModel

Optimization8.

如何穩(wěn)定高效的完成

RLHF

的訓練?過程監(jiān)督Improvingmathematicalreasoningwithprocesssupervision|

OpenAI60編譯器指導的代碼生成"StepCoder:ImproveCodeGenerationwithReinforcementLearningfromCompilerFeedback."arXivpreprintarXiv:2402.01391

(2024).619.

如何融合外部環(huán)境狀態(tài)以及利用合成數(shù)據(jù)過程監(jiān)督—自動結(jié)果監(jiān)督轉(zhuǎn)換過程監(jiān)督TrainingLargeLanguageModelsforReasoningthroughReverseCurriculumReinforcementLearning,ICML

202462單個模型可以處理數(shù)千種任務,但是仍需要逐項進行優(yōu)化63預訓練階段完成

知識記憶+表示學習有監(jiān)督微調(diào)+RLHF的Know-How

是關鍵642.

大模型能力邊界思考10.

大模型是否具備推理能力?65知識利用層次圖Wangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandPerspective,EMNLP

2024大模型目前在哪個層級?未來可以到哪個層級?目前可以確認的大模型能力:67長上下文建模多任務學習跨語言遷移性文本生成能力真正的

AGI

系統(tǒng)需要具有:理解物理世界擁有長久準確記憶可以推理可以分層次規(guī)劃大模型68大模型“參加”2024高考數(shù)學情況69大模型“參加”2024高考數(shù)學情況70兩場平均分最好70%,最差

25%,

填空題成績更差大模型“參加”2024高

考數(shù)學情況即便正確回答的題目,計算過程和答案不相符的比例很高71大模型“參加”2024高

考數(shù)學情況輸入形式的微小不同,結(jié)果相差很大7273大模型對于分布外數(shù)據(jù)集處理扔有待提高EvaluatingtheLogicalReasoningAbilityofChatGPTandGPT-4,Arxiv

2023GPT-4擅長解決著名的邏輯推理閱讀理解基準,但在處理分布外數(shù)據(jù)集方面很困難。它們在需要邏輯推理的自然語言推理任務上的性能仍有待提高。2022年新創(chuàng)建數(shù)據(jù)集合人工創(chuàng)建的分布外數(shù)據(jù)大模型對知識運用能力分級74Wangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandPerspective,EMNLP

2024真實應用中的演繹推理怎么樣?75InvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,

Juetal.,Arixv2024真實應用中的演繹推理怎么樣?大模型在預訓練階段可能直接學習到下一屆奧運會在亞洲舉辦這一跨步知識,當采用知識編輯方法將下一屆奧運會舉辦國由日本改為法國后,模型可能仍然認為下一屆奧運會在亞洲舉辦。大模型在多跳知識問題的推理中可能應用了在預訓練階段學習到的事實捷徑。76InvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,

Juetal.,Arixv2024大模型對知識運用能力怎么樣?77PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs關注四個能力檢索:

Whatis

person

A’sattribute

X?分類:Is

A’s

attribute

X

evenor

odd?比較:Is

AgreaterthanB

inattributeX?逆向搜索:Which

person’sattribute

X

equals

T?大模型對知識運用能力怎么樣?78PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs大模型對知識運用能力怎么樣?語言模型難以完成比較和分類任務。79PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs大模型對知識運用能力怎么樣?語言模型無法進行逆向知識搜索,除非知識以逆序出現(xiàn)在預訓練數(shù)據(jù)中80PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs歸納推理的能力如何呢?乘法的步驟:Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI81當任務復雜程度增大時,模型的準確率接近為0Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI82歸納推理的能力如何呢?使用

180

數(shù)據(jù)訓練GPT3模型GPT3經(jīng)過充分調(diào)整,在特定任務數(shù)據(jù)上達到了一定的問題規(guī)模。藍色區(qū)域表示分布內(nèi)樣本,紅色區(qū)域表示OOD樣本。所有

k1

k2

符合

1≤

k1,

k2

4并且

k1

·

k2

9;Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI83訓練過程中簡單加入過程作用也十分有限D(zhuǎn)ziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI84o1

的規(guī)劃能力怎么樣?85Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,

2024.Mystery

BlocksWorld

樣例:我的初始條件是,紅色積木是空的,藍色積木是空的,黃色積木是空的,手是空的,藍色積木在橙色積木的上面,紅色積木在桌子上,橙色積木在桌子上,黃色積木在桌子上。我的目標是讓橙色積木在藍色積木的上面。

實現(xiàn)我目標的計劃是什么?只需給出計劃中的行動。o1

的規(guī)劃能力怎么樣?86Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,

2024.全數(shù)據(jù)驅(qū)動的大模型實現(xiàn)“推理”面臨巨大挑戰(zhàn)873.

大模型未來發(fā)展思考88大模型未來兩個路徑AGI(FollowOpenAI)目標:代替人類完成所有腦力勞動,具有自我學習、自我進化能力。參數(shù)規(guī)模: 1萬億、5

萬億、10萬億…訓練數(shù)據(jù):10TB、20TB、40TB、100TB…GPU卡規(guī)模:1萬、5萬、10

…100萬卡基本假設

:Scaling

Law,壓縮即智能難點:模型的推理和世界知識建模能力構(gòu)建,資本消耗巨大OpenAI

“超級對齊”

目標Supervisor學生強智能體傳統(tǒng)機器學習方法需要“老師”指導“學生”永遠超不過“老師:基于環(huán)境反饋的智能體自我進化弱智能體環(huán)境探索反饋教師OpenAI

“超級對齊”仍然需要長期海量投入方法在所有設置下都不是一致有效的,尤其是在

RM

設置中,仍然遠遠沒有恢復弱模型和強模型之間的全部性能差距。占用了OpenAI接近20%資源92AGENTGYM2.Behavioral

Clone4.

Multi-taskEvaluation3.Exploring

&LearningfWorldEnv

ServersWebShop

BabyAI

AlWebArenaTextCraft ScienceWorldTrajectoryFormatsAgentEvolImitationBasePerforman

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論