




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
證券研究報(bào)告
行業(yè)動(dòng)態(tài)研究國內(nèi)外大模型發(fā)展情況梳理發(fā)布日期:2024年5月15日摘要
核心觀點(diǎn):2022年11月30日OpenAI發(fā)布ChatGPT,隨即引爆社交網(wǎng)絡(luò),大模型行業(yè)進(jìn)入加速發(fā)展階段。國外基礎(chǔ)模型實(shí)力強(qiáng)勁、不斷精進(jìn),開源模型打造龐大應(yīng)用生態(tài),端側(cè)模型小而美。國內(nèi)大模型也進(jìn)入加速成長期,在過去一年中取得了實(shí)質(zhì)性突破。百度文心一言、訊飛星火、清華智譜ChatGLM4、商湯“日日新SenseNova5.0”整體表現(xiàn)逼近GPT-4,開源模型快速進(jìn)步,文生視頻、文生音樂等多模態(tài)也取得突破。國內(nèi)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升,大模型已經(jīng)成為日常生活中的重要助手。
國外大模型持續(xù)領(lǐng)跑,閉源、開源、端側(cè)模型異彩紛呈。國外大模型主要分為三個(gè)層級(jí):性能強(qiáng)勁的閉源模型,具備生態(tài)優(yōu)勢的開源模型,以及專注端側(cè)應(yīng)用的輕量模型。國外基礎(chǔ)模型能力持續(xù)提升,閉源模型中巨頭各顯其才。GPT-4性能卓越,始終處于領(lǐng)跑地位,GPT-4o模型實(shí)現(xiàn)端到端信息處理,人機(jī)交互體驗(yàn)大幅提升;Claude
3后起之秀,整體性能十分強(qiáng)勁;原生多模態(tài)大模型Gemini,多模態(tài)能力、跨模態(tài)能力取得突破。開源模型領(lǐng)域中,LLama2模型塑造了龐大的開源模型家族,LLama3能力大幅提升;Mixtral
8x7B為開源領(lǐng)域引入專家混合技術(shù),成為開源模型的重要力量。端側(cè)應(yīng)用需要在輕量參數(shù)和模型性能之間平衡,Phi-3、Gemma2實(shí)現(xiàn)輕量級(jí)模型的小而美。國外閉源模型有望迎來突破,我們預(yù)期GPT-5或于近期發(fā)布,性能改進(jìn)超預(yù)期。
國內(nèi)大模型進(jìn)入性能提升的關(guān)鍵時(shí)期,模型應(yīng)用逐步鋪開。2022年11月30日OpenAI發(fā)布ChatGPT,隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期,在過去一年中取得了實(shí)質(zhì)性突破。國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4,部分模型中文能力與GPT-4相差無幾。百度文心大模型4.0整體性能優(yōu)異,成為首個(gè)國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品;科大訊飛星火大模型V3.5性能逼近GPT-4,6月27日模型即將再度更新;清華智譜ChatGLM4基礎(chǔ)模型性能強(qiáng)勁,大模型生態(tài)全面對(duì)標(biāo)OpenAI;商湯“日日新SenseNova5.0”大模型,其主流客觀評(píng)測指標(biāo)達(dá)到或超越GPT-4
Turbo。開源模型陣營中,存在通義千問、百川智能實(shí)力強(qiáng)勁的競爭對(duì)手。多模態(tài)模型中,國產(chǎn)大模型同樣進(jìn)展不斷,國產(chǎn)文生視頻大模型Vidu發(fā)布,對(duì)標(biāo)Sora持續(xù)迭代;昆侖萬維發(fā)布文生音樂大模型天工Skymusic,整體表現(xiàn)不輸Suno。國內(nèi)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升,安卓應(yīng)用商店中豆包累計(jì)下載1.47億,訊飛星火累計(jì)下載1.06億,大模型已經(jīng)成為日常生活中的重要助手。
風(fēng)險(xiǎn)提示:大模型技術(shù)發(fā)展不及預(yù)期、商業(yè)化落地不及預(yù)期、算力基礎(chǔ)設(shè)施支持不及預(yù)期、政策監(jiān)管力度不及預(yù)期、數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)期。第一章第二章第三章第四章第五章國外基礎(chǔ)模型發(fā)展情況國內(nèi)基礎(chǔ)模型發(fā)展情況國內(nèi)多模態(tài)模型相關(guān)進(jìn)展國內(nèi)模型流量及應(yīng)用下載量情況風(fēng)險(xiǎn)提示420343740第一章國外基礎(chǔ)模型發(fā)展情況4GPT-4從“百科全書”逐步成為文理通吃的“專家”
相較于過去的GPT系列模型,GPT-4在多應(yīng)用領(lǐng)域成為專家,包括為機(jī)器學(xué)習(xí)模型評(píng)判標(biāo)準(zhǔn)和為人類設(shè)計(jì)的專業(yè)測試。
在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上,GPT-4的表現(xiàn)大大優(yōu)于了目前的最好的語言模型,以及大多數(shù)SOTA模型。相較于GPT-3.5以及當(dāng)前最好的語言模型,GPT-4在機(jī)器學(xué)習(xí)模型學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)實(shí)現(xiàn)了全面突破,在7項(xiàng)數(shù)據(jù)集中的測試均優(yōu)于當(dāng)前最優(yōu)的語言模型。在MMLU數(shù)據(jù)集中,GPT-4不僅在英語語言上的性能實(shí)現(xiàn)了突破,在其他語言方面的表現(xiàn)也優(yōu)于現(xiàn)在的語言模型。在為人類設(shè)計(jì)的各種專業(yè)測試和學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集中,GPT-4展現(xiàn)出媲美甚至優(yōu)于人類的水平。圖:GPT-4在MMLU不同語言上的性能圖:GPT-4在人類專業(yè)測試中的表現(xiàn)GPT-3.5在英語語言上MMLU任務(wù)的性能5:OpenAI,中信建投資料:OpenAI,中信建投資料GPT-4再度升級(jí)成為超級(jí)統(tǒng)一智能體
2023年11月7日,OpenAI開發(fā)者大會(huì)再度升級(jí)GPT-4整體功能,為GPT-4引入了新的模型選擇器。之前
GPT-4
的工作模式是四個(gè)獨(dú)立的功能(一個(gè)對(duì)話窗口內(nèi)只能使用其中一個(gè)特性):圖像上傳
+
GPT-4、插件
+
GPT-4、代碼運(yùn)行器
+文件上傳
+
GPT-4、圖像生成
+
GPT-4。這次更新使其變成了:GPT-4
+
圖像上傳
+
代碼運(yùn)行器
+
文件上傳
+
圖像生成,GPT4自動(dòng)選擇使用接入互聯(lián)網(wǎng)、進(jìn)行數(shù)據(jù)分析、圖像生成等諸多功能,GPT-4具備了規(guī)劃和工具選擇的能力,GPT-4真正進(jìn)化為了一個(gè)“理解一切,處理一切,生成一切”的超級(jí)統(tǒng)一智能體。
向著更便宜、更好用的方向去發(fā)展,并構(gòu)建可定制、可銷售的生態(tài):1)自定義Chatgpt,二次開發(fā)自由度更高,并且上線GPT
Store,定制個(gè)人GPT也可實(shí)現(xiàn)銷售;2)gpt4
–turbo:發(fā)布了性能更強(qiáng)的GPT-4
Turbo模型,在上下文對(duì)話長度等6方面進(jìn)行了升級(jí);3)更快、更便宜;4)發(fā)布assistant
api,降低開發(fā)者難度,對(duì)開發(fā)者更友好。圖:GPT頁面簡化圖:利用GPT-4搜索颶風(fēng)數(shù)據(jù)并生成颶風(fēng)圖像GPT具備了選擇工具的能力互聯(lián)網(wǎng)搜索颶風(fēng)數(shù)據(jù)用DALL·E
3生成颶風(fēng)圖像資料:OpenAI,中信建投資料:OpenAI,中信建投GPT4o實(shí)現(xiàn)端到端信息處理,人機(jī)交互體驗(yàn)顯著提升
GPT-4o:GPT-4omni是跨文本、視覺和音頻端到端訓(xùn)練的新模型,所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。
GPT-4o模型性能在GPT-4基礎(chǔ)上再度升級(jí)。在英語文本和代碼基準(zhǔn)測試中,GPT-4o的性能與GPT-4
Turbo不相上下;在語音翻譯任務(wù)上,GPT-4o強(qiáng)于OpenAI專門的語音模型Whisper-V3以及谷歌和Meta的語音模型;在視覺理解上,也再次反超GPT-4
Turbo、Gemini
1.0
Ultra與Claude
Opus。
GPT-4o免費(fèi)向所有人提供,GPT-4o模型API同步放出,可以部署各種下游應(yīng)用程序上。同時(shí)API的性能也有所改進(jìn),相比GPT-4
Turbo推理速度提升2倍,消息限制提高五倍,而且價(jià)格還會(huì)降低50%。圖:GPT-4o文本性能測試結(jié)果圖:GPT-4o視覺性能測試結(jié)果7資料:OpenAI,中信建投資料:OpenAI,中信建投GPT4o實(shí)現(xiàn)端到端信息處理,人機(jī)交互體驗(yàn)顯著提升
傳統(tǒng)模型中實(shí)現(xiàn)語音交互中需要三個(gè)獨(dú)立模塊:一個(gè)簡單模型將音頻轉(zhuǎn)錄成文本、GPT-3.5或GPT-4接收文本并輸出文本、第三個(gè)簡單模型將文本轉(zhuǎn)換回音頻,GPT-4o采用端到端模型訓(xùn)練跨越文本、視覺和音頻,實(shí)現(xiàn)所有信息的處理。
在GPT-4o發(fā)布之前,通過語音模式(Voice
Mode)與ChatGPT對(duì)話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o可以在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,相應(yīng)速度大幅提升,與人類在對(duì)話中的反應(yīng)速度一致。發(fā)布會(huì)上展示了視頻實(shí)時(shí)互動(dòng)解方程,桌面版ChatGPT秒解代碼難題,實(shí)時(shí)對(duì)話等一些列交互過程。
OpenAI發(fā)布了ChatGPT的桌面版本,桌面版具有全新的用戶界面,可以很輕易地和工作流融為一體。圖:桌面版GPT-4o解讀屏幕信息圖:GPT-4o全新的呼叫窗口8資料:OpenAI,中信建投資料:OpenAI,中信建投Claude3:Anthropic推出的第三代大模型
2024年3月4日,人工智能創(chuàng)業(yè)公司
Anthropic
宣布推出其突破性的
Claude
3
系列模型,該系列大型語言模型
(LLM)在各種認(rèn)知任務(wù)上樹立了新的性能標(biāo)桿。Claude
3
系列包含三個(gè)子模型,分別為
Claude
3
Haiku、Claude
3
Sonnet和
Claude3Opus,它們提供不同程度的智能、速度和成本選擇,以滿足各種人工智能應(yīng)用需求。
最智能的Claude
3
Opus在大多數(shù)常見評(píng)估基準(zhǔn)上表現(xiàn)均十分優(yōu)異,包括本科水平專業(yè)知識(shí)(MMLU)、研究生水平專業(yè)推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。Claude3Opus在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。圖:Claude3模型家族圖:
Claude3相關(guān)評(píng)測結(jié)果資料:Anthropic
,中信建投資料:Anthropic
,中信建投Claude3:Anthropic推出的第三代大模型
Claude
3系列模型還具備與其他領(lǐng)先模型相當(dāng)?shù)囊曈X能力。他們可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。其中
Claude
3Opus在某些類別上甚至超越了
GPT-4V和
Gemini1.0Ultra。
Claude
3系列模型在發(fā)布時(shí)將提供20萬token的上下文窗口,并且這三個(gè)模型都能夠接受超過100萬token的輸入,Anthropic未來可能會(huì)增加對(duì)更大上下文窗口的支持。在“大海撈針”測試中,Claude
3
Opus不僅實(shí)現(xiàn)了近乎完美的回憶能力,準(zhǔn)確率超過99%,而且在某些情況下,它甚至通過識(shí)別出“針”句子似乎是被人為插入到原始文本中的,指出了評(píng)估本身的局限性。圖:Claude3視覺測試中的表現(xiàn)圖:Claude3大海撈針測試結(jié)果資料:Anthropic,中信建投資料:Anthropic
,中信建投原生多模態(tài)大模型Gemini
Gemini是一個(gè)由Google開發(fā)的具有高度能力的多模態(tài)模型家族,開發(fā)者訓(xùn)練Gemini模型共同處理圖像、音頻、視頻和文本數(shù)據(jù),目的是構(gòu)建一個(gè)在各個(gè)模態(tài)上都有強(qiáng)大泛化能力,同時(shí)在每個(gè)領(lǐng)域都具有尖端理解和推理性能的模型。
Gemini從模型架構(gòu)設(shè)計(jì)開始就采用原生多模態(tài)結(jié)構(gòu),意味著它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
目前,Gemini提供了不同的尺寸版本。分別是:Gemini
Ultra:規(guī)模最大、能力最強(qiáng),用于處理高度復(fù)雜的任務(wù);Gemini
Pro:在各種任務(wù)上擴(kuò)展的最佳模型;Gemini
Nano:用于端側(cè)(on-device)任務(wù)的最高效模型;Gemini
Flash:適用于高頻和高效任務(wù)的輕量級(jí)模型。圖:Gemini模型家族的不同版本圖:Gemini模型家族的不同版本表現(xiàn)11資料:Google,中信建投資料:Google,中信建投大規(guī)模訓(xùn)練使得Gemini在多領(lǐng)域取得最先進(jìn)狀態(tài)
Gemini在大規(guī)模語言建模、圖像理解、音頻處理和視頻理解等領(lǐng)域都取得了最先進(jìn)的狀態(tài)。它還依賴于序列模型、基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的大量工作、機(jī)器學(xué)習(xí)分布式系統(tǒng)的工作,這些工作使得大規(guī)模訓(xùn)練成為可能。
編程是大模型衡量能力的重要維度,Gemini
Ultra在編程方面也表現(xiàn)出色。基于Gemini,谷歌還推出了更先進(jìn)的編程系統(tǒng)AlphaCode
2。AlphaCode
2能理解、解釋并生成
Python、Java、C++
和
Go
等編程語言的高質(zhì)量代碼,還擅長解決一些超出編程范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的編程競賽問題。
除了文本之外,Gemini
Ultra在具有挑戰(zhàn)性的多模態(tài)推理任務(wù)上也取得了顯著的進(jìn)展。例如,在最近的MMMU基準(zhǔn)測試上,該基準(zhǔn)測試涵蓋有關(guān)需要多學(xué)科知識(shí)并進(jìn)行深思熟慮的圖像的多學(xué)科任務(wù)問題,Gemini
Ultra取得了新的最先進(jìn)得分62.4%,比以前最好的模型提高了5個(gè)百分點(diǎn)以上。圖:Gemini文本推理能力圖:Gemini多模態(tài)推理能力12資料:Google,中信建投資料:Google,中信建投Gemini1.5Pro:上下文窗口最長的基礎(chǔ)模型
谷歌在5月15日的開發(fā)者大會(huì)上宣布升級(jí)Gemini1.5
Pro模型,將上下文窗口從當(dāng)前100萬tokens增加到200萬。
Gemini
1.5
Pro引入了高達(dá)200萬token的上下文窗口長度——這是迄今為止任何大型基礎(chǔ)模型中最長的上下文窗口(模型可理解的信息量)。它實(shí)現(xiàn)了跨模態(tài)的長上下文檢索任務(wù)的完美召回,解鎖了準(zhǔn)確處理大規(guī)模文檔、數(shù)千行代碼、數(shù)小時(shí)音頻、視頻等的能力,Gemini
1.5
Pro能夠同時(shí)處理
2小時(shí)的視頻、22小時(shí)的音頻、6萬多行代碼或140多萬字。
升級(jí)后的Gemini
1.5
Pro,在多項(xiàng)公共基準(zhǔn)測試中取得了顯著改進(jìn),在多項(xiàng)圖像和視頻理解基準(zhǔn)測試中也實(shí)現(xiàn)了最先進(jìn)性能。用戶可以通過GeminiAdvanced訂閱服務(wù)體驗(yàn)最新的Gemini1.5Pro,支持超過150個(gè)國家的35種語言。圖:Gemini1.5
Pro超長的上下文窗口長度圖:GeminiAdvanced訂閱服務(wù)處理任務(wù)13資料:Google,中信建投資料:Google,中信建投LLama2模型塑造開源生態(tài)
META通過開源LLaMa等大模型,引領(lǐng)大模型開源生態(tài)。2023年2月25日,Meta官網(wǎng)公布了一個(gè)新的大型語言模型LLaMA(Large
Language
Model
Meta
AI),LLaMA-13B在大多數(shù)基準(zhǔn)測試中,參數(shù)僅為GPT-3十分之一,但性能優(yōu)于GPT-3(175B),而且能跑在單個(gè)GPU上。
2023年7月19日,Meta
發(fā)布了免費(fèi)商用版開源大模型LLaMA2,各個(gè)企業(yè)能夠以相對(duì)低廉的價(jià)格在該模型上開發(fā)應(yīng)用,為客戶提供自主的大模型。Meta與微軟達(dá)成合作,聯(lián)手推動(dòng)AI應(yīng)用的商業(yè)化落地。Meta正式開源了LLaMA
2版本,可免費(fèi)用于商業(yè)用途,微軟宣布攜手。最新版本的模型將在微軟的Azure和Windows平臺(tái)上線并開源,用戶可以在云服務(wù)中使用Llama
2作為基礎(chǔ)模型,快速構(gòu)建適用于自身業(yè)務(wù)的專用大模型。圖:Llama模型家族圖:Llama、LLama2相關(guān)評(píng)測資料:META,中信建投資料:META,中信建投LLama3領(lǐng)跑開源大模型陣營
目前開源的Meta
Llama
3具有8B和70B參數(shù),推理、代碼生成和指令等能力相較于LLama2有大幅改進(jìn),LLama3是目前8B和70B量級(jí)上最好的模型。
Llama
3在超過15T
token的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,比Llama
2使用的數(shù)據(jù)集大七倍。
405B大參數(shù)版本模型還在訓(xùn)練中,年內(nèi)即將發(fā)布。大參數(shù)LLama3在兩個(gè)2.4萬張GPU的超大集群中訓(xùn)練,訓(xùn)練效率大幅提升。在接下來的幾個(gè)月中,預(yù)計(jì)將推出新功能(如多模態(tài))、更長的上下文窗口、更多不同大小版本的模型和更強(qiáng)的性能。圖:LLama3評(píng)測結(jié)果圖:仍然在訓(xùn)練中的LLama3
400B資料:META,中信建投資料:META,中信建投MOE開源代表:Mixtral8x7B
Mixtral
8x7B
是法國人工智能初創(chuàng)公司
Mistral
AI
全新發(fā)布的
MoE
模型,MoE
是
Mixture-of-Experts的簡稱,具體的實(shí)現(xiàn)就是將
Transformer
中的前饋神經(jīng)網(wǎng)絡(luò)層換成
MoE
前饋神經(jīng)網(wǎng)絡(luò)層,其他部分保持不變。在訓(xùn)練過程中,Mixtral
8x7B采用了
8個(gè)專家協(xié)同工作,而在推理階段,則僅需激活其中的
2個(gè)專家。
MoE平衡了模型的復(fù)雜度和推理成本,即使在擁有龐大模型參數(shù)的情況下,也能保證高效的推理性能,使得
MoE模型在保持強(qiáng)大功能的同時(shí),也具備了更優(yōu)的實(shí)用性和經(jīng)濟(jì)性。Mixtral
8x7B推理過程中只激活13B神經(jīng)元參數(shù),但是在大多數(shù)基準(zhǔn)測試中都優(yōu)于
Llama
270B和
GPT-3.5,實(shí)現(xiàn)了性能和效率的平衡。圖:
Mixtral8x7B中的MoE設(shè)計(jì)圖:
Mixtral8x7B模型測試結(jié)果資料:
Mistral
AI
,中信建投資料:
Mistral
AI
,中信建投端側(cè)模型一覽:小語言模型Phi-3
Phi-3是微軟研究院推出的小語言模型,包括phi-3-mini、phi-3-small和phi-3-medium三個(gè)不同規(guī)模的版本。這些模型在保持較小的參數(shù)規(guī)模的同時(shí),通過優(yōu)化訓(xùn)練數(shù)據(jù)集和算法,實(shí)現(xiàn)了與大型模型相媲美的語言理解和推理能力,超小的參數(shù)規(guī)模適合在智能手機(jī)等本地設(shè)備上運(yùn)行。
phi-3-mini
是一個(gè)在
3.3
萬億個(gè)
token
上訓(xùn)練的
38
億參數(shù)語言模型。測試表明,phi-3-mini
的整體性能可與Mixtral
8x7B
等模型相媲美。phi-3-mini使用Int
4的數(shù)據(jù)格式時(shí),大致占用1.8GB內(nèi)存。圖:Phi-3在端側(cè)運(yùn)行圖:仍然在訓(xùn)練中的LLama3
400B資料:微軟,中信建投資料:微軟,中信建投端側(cè)模型一覽:Google輕量級(jí)開源模型Gemma
Gemma是由Google
AI開源的一系列輕量級(jí)模型,于
2024
年
2
月
21
日發(fā)布,這些模型易于訪問且高效,使
AI
開發(fā)更容易為廣大用戶所接受。5月15日Google開發(fā)者大會(huì)上,Google再度發(fā)布其升級(jí)版本Gemma
2。
Gemma模型家族采用與Gemini模型相同的技術(shù)架構(gòu)。Gemma是基于文本訓(xùn)練的,它在文本摘要、問答和推理等任務(wù)中表現(xiàn)出色。在270億個(gè)參數(shù)下,Gemma
2的性能與Llama
370B相當(dāng),尺寸不到一半。
Google同時(shí)發(fā)布開源視覺語言模型PaliGemma,可以完成各類視覺語言任務(wù),包括圖像和短視頻字幕、視覺問題回答、理解圖像中的文本、對(duì)象檢測和對(duì)象分割等。圖:Gemma評(píng)測結(jié)果圖:Gemma2評(píng)測結(jié)果資料:Google
AI,中信建投資料:Google
AI,中信建投GPT-5性能改進(jìn)超預(yù)期,已開啟紅隊(duì)測試
Sam
Altman曾在OpenAI開發(fā)者大會(huì)上表示GPT-5將在“大多數(shù)你想要構(gòu)建的事情”上都能夠勝任。Altman近期透露的關(guān)鍵信息包括:如果GPT-4目前解決了人類任務(wù)的10%,
GPT-5應(yīng)該是15%或者20%
,我們遠(yuǎn)沒有達(dá)到曲線的頂部。不應(yīng)低估
GPT-5
性能改進(jìn)的幅度,這可能會(huì)超出預(yù)期。Runway
CEO兼AI投資人Siqi
Chen稱,GPT-5
已經(jīng)在推理方面取得了意想不到的階躍函數(shù)增益。
GPT-5的訓(xùn)練于2023年啟動(dòng),據(jù)相關(guān)信息稱2023年底或正式結(jié)束訓(xùn)練。近期用戶收到紅隊(duì)測試郵件,依照慣例,紅隊(duì)測試預(yù)計(jì)將會(huì)持續(xù)
90-120天。紅隊(duì)測試后,GPT-5或?qū)⒄桨l(fā)布。圖:推特中關(guān)于GPT-5的相關(guān)信息19資料:Twitter,中信建投第二章國內(nèi)基礎(chǔ)模型發(fā)展情況20國內(nèi)大模型發(fā)展情況
2022年11月30日,OpenAI發(fā)布ChatGPT,隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期,在過去一年中取得了實(shí)質(zhì)性的突破。國內(nèi)大模型的發(fā)展大致可以分為三個(gè)階段,即準(zhǔn)備期(2022.12-2023.02)、成長期(2023.02-2023.23)、爆發(fā)期(2023.12-)。圖:國內(nèi)大模型發(fā)展歷程資料:SuperCLUE,中信建投國內(nèi)大模型分布情況圖:國內(nèi)大模型分布情況資料:SuperCLUE,中信建投國內(nèi)大模型快速逼近GPT-4
國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4,部分模型中文能力與GPT-4相差無幾。5-6月,國內(nèi)多家大模型將迎來版本更新,今年年中是國內(nèi)大模型的關(guān)鍵賽點(diǎn),預(yù)期我們將見到部分頭部大模型整體能力上超越GPT-4。圖:國內(nèi)大模型發(fā)展趨勢資料:SuperCLUE,中信建投國內(nèi)大模型能力測試
客觀評(píng)價(jià)大模型能力存在一定的難度,不同的模型測試可能考察了模型不同維度的能力,因而模型之間的性能比較在不同測試中可能表現(xiàn)不一致,同時(shí)大模型的每次響應(yīng)同樣存在不確定性,增加了大模型的測試難度。
結(jié)合不同機(jī)構(gòu)的第三方測試,我們大致可以知曉模型之間的性能差異。GPT-4展現(xiàn)出強(qiáng)大的語言理解、生成和推理能力,在各類測試中均保持領(lǐng)先地位。各類評(píng)測中模型表現(xiàn)可能略有不同,但是國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)快速逼近GPT-4。國內(nèi)大模型發(fā)展迅速,與GPT-4差距快速縮小,第一梯隊(duì)的頭部大模型例如ChatGLM4、百度文心一言4.0、訊飛星火V3.5整體表現(xiàn)已經(jīng)接近GPT-4,在中文領(lǐng)域,國內(nèi)部分模型表現(xiàn)已經(jīng)可以比肩GPT-4。圖:國內(nèi)外大模型SuperClue評(píng)測結(jié)果圖:大模型SuperBench評(píng)測結(jié)果-語義理解能力圖:OpenCompass
2.0測試結(jié)果資料:SuperCLUE,《superbench大模型綜合能力測評(píng)報(bào)告》,上海AI實(shí)驗(yàn)室,中信建投百度文心一言4.0
11月1日,百度正式上線文心一言專業(yè)版,技術(shù)持續(xù)升級(jí)。文心一言大模型專業(yè)版基于公司最新自研的文心大模型4.0,與原有的3.5版本相比,具有以下優(yōu)勢:1)更強(qiáng)的模型能力和圖片生成能力。根據(jù)測試,文心大模型4.0版本在理解、生成、邏輯、記憶四大功能上都有明顯提升,具有顯著優(yōu)化的模型性能。2)支持接入豐富的API插件,可以實(shí)現(xiàn)撰寫代碼、潤色文案、設(shè)計(jì)與繪圖等多種功能。
文心一言成為首個(gè)國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品。文心一言專業(yè)版的分為單獨(dú)訂閱和聯(lián)合會(huì)員兩種收費(fèi)模式。單獨(dú)訂閱模式下,會(huì)員月付59.9元,選擇連續(xù)包月可以享受49.9元的優(yōu)惠價(jià)格;該模式下會(huì)員可以使用文心一言大模型3.5和4.0兩個(gè)版本,而非會(huì)員只可使用免費(fèi)的文心大模型3.5版本。聯(lián)合模式下,用戶月付99元,可以同時(shí)具有單獨(dú)訂閱模式的全部功能,并獲得文心一格白銀會(huì)員資格,享受AI修圖改圖等功能。圖:百度文心一言會(huì)員訂購費(fèi)用圖:百度文心大模型4.0性能全面提升資料:百度,中信建投資料:百度,中信建投25科大訊飛星火大模型V3.5
1月30日,科大訊飛舉行星火認(rèn)知大模型V3.5升級(jí)發(fā)布會(huì)。訊飛發(fā)布基于首個(gè)全國產(chǎn)算力訓(xùn)練的訊飛星火V3.5,七大核心能力全面提升,語言理解、數(shù)學(xué)能力、語音交互能力超過
GPT-4
Turbo,代碼達(dá)到
GPT-4
Turbo
96%,多模態(tài)理解達(dá)到GPT-4V
91%。
4月26日,訊飛星火大模型V3.5春季上新,發(fā)布長文本、長圖文、長語音大模型。不僅可以快速學(xué)習(xí)各種的海量文本、圖文資料、會(huì)議錄音,還能夠針對(duì)多種多樣的行業(yè)場景給出專業(yè)、準(zhǔn)確回答。此外,星火語音大模型本次更新還包括多情感超擬人合成功能,具備情緒表達(dá)能力,并推出一句話聲音復(fù)刻功能。
訊飛正式啟動(dòng)對(duì)標(biāo)GPT-4的大模型訓(xùn)練,2024年上半年對(duì)標(biāo)GPT-4,要走獨(dú)立的技術(shù)路線和產(chǎn)業(yè)方向,形成完整產(chǎn)業(yè)生態(tài)。圖:訊飛星火大模型V3.5圖:訊飛星火大模型長文本能力升級(jí)26資料:訊飛,中信建投資料:訊飛,中信建投清華智譜ChatGLM4
1月16日,2024年度技術(shù)開放日Zhipu
DevDay,智譜AI發(fā)布了新一代基座大模型GLM-4。在大規(guī)模多任務(wù)語言理解評(píng)測中,GLM-4的表現(xiàn)明顯優(yōu)于GPT-3.5,其平均得分已經(jīng)達(dá)到了GPT-4的95%水平,在某些特定任務(wù)上甚至表現(xiàn)相當(dāng);
GLM-4具備強(qiáng)大的多模態(tài)能力:文生圖和多模態(tài)理解能力得到增強(qiáng),CogView3在文生圖多個(gè)評(píng)測指標(biāo)上,相比DALLE3約在91.4%-99.3%的水平之間。
GLM-4推出的All
Tools能力:GLM-4能自主理解和執(zhí)行復(fù)雜任務(wù),調(diào)用瀏覽器、代碼解釋器等完成復(fù)雜工作。
個(gè)性化智能體功能:用戶可以通過智譜官網(wǎng)輕松創(chuàng)建屬于自己的GLM智能體,實(shí)現(xiàn)大模型開發(fā)定制。圖:ChatGLM4模型性能測試結(jié)果圖:ChatGLM3提供更豐富的模型尺寸27資料:智譜清言,中信建投資料:智譜清言,中信建投商湯日日新SenseNova5.0
4月23日,商湯科技在技術(shù)交流日上發(fā)布全新升級(jí)的“日日新SenseNova5.0”大模型,其主流客觀評(píng)測指標(biāo)達(dá)到或超越GPT-4
Turbo。日日新5.0模型能力提升一方面得益于采用混合專家架構(gòu)(MoE),激活少量參數(shù)就能完成推理,且推理時(shí)上下文窗口高達(dá)200K左右;另一方面來自海量的訓(xùn)練數(shù)據(jù),其訓(xùn)練數(shù)據(jù)超過10TB
tokens、覆蓋了數(shù)千億量級(jí)的邏輯型合成思維鏈數(shù)據(jù)。
商湯多模態(tài)大模型的圖文感知能力達(dá)到全球領(lǐng)先水平,在權(quán)威綜合基準(zhǔn)測試MMBench中綜合得分居首位,在多個(gè)知名多模態(tài)榜單MathVista、AI2D、ChartQA、TextVQA、
DocVQA、MMMU均取得優(yōu)異成績。圖:日日新5.0BenchMark成績圖:日日新5.0多模態(tài)測試結(jié)果28資料:商湯,中信建投資料:商湯,中信建投百川智能Baichuan
1月29日,百川智能發(fā)布超千億參數(shù)的大語言模型
Baichuan
3。在多個(gè)權(quán)威通用能力評(píng)測如CMMLU、GAOKAO和AGI-Eval中,Baichuan
3都展現(xiàn)了出色的能力,尤其在中文任務(wù)上更是超越了GPT-4。而在數(shù)學(xué)和代碼專項(xiàng)評(píng)測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色,證明了
Baichuan
3在自然語言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。
Baichuan
2是百川智能推出的開源大語言模型,采用2.6萬億Tokens的高質(zhì)量語料訓(xùn)練。Baichuan
2在多個(gè)權(quán)威的中文、英文和多語言的通用、領(lǐng)域
benchmark
上取得同尺寸最佳的效果。包含7B、13B的
Base和Chat版本,并提供了Chat版本的4bits量化。圖:Baichuan3測試結(jié)果圖:Baichuan
2
13B模型測試結(jié)果資料:baichuan,中信建投資料:baichuan,中信建投通義千問Qwen打造豐富的開源大模型矩陣
通義千問2023年4月問世以來,專注于基礎(chǔ)模型的技術(shù)研發(fā),從初代模型升級(jí)至2.5版本。相比上一版本,2.5版模型的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%,中文能力持續(xù)領(lǐng)先。
今年2月初,通義千問團(tuán)隊(duì)推出開源模型系列Qwen1.5,隨后在不到3個(gè)月的時(shí)間連續(xù)開出8款大語言模型,模型參數(shù)規(guī)模涵蓋5億、18億、40億、70億、140億、320億、720億、1100億,打造了豐富的開源模型矩陣。能力最強(qiáng)的Qwen1.5-110B在MMLU、TheoremQA、GPQA等多個(gè)基準(zhǔn)測評(píng)中展現(xiàn)出卓越性能,基礎(chǔ)能力可與Meta的Llama-3-70B模型相媲美。圖:通義千問開源大模型家族圖:通義千問大模型測試結(jié)果資料:通義千問,中信建投資料:通義千問,中信建投字節(jié)跳動(dòng)“豆包”大模型
5月15日,字節(jié)跳動(dòng)正式對(duì)外發(fā)布豆包大模型,豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮演模型、豆包·語音合成模型、豆包·聲音復(fù)刻模型、豆包·語音識(shí)別模型、豆包·文生圖模型模型等,這些模型已接入抖音、番茄小說、飛書、巨量引擎等50余個(gè)業(yè)務(wù)。
豆包主力模型定價(jià)0.0008元/千Tokens,一元錢能買到豆包主力模型的125萬Tokens,約200萬漢字,極具價(jià)格競爭力。
蘋果APP
Store和各大安卓應(yīng)用市場,豆包APP的下載量在AIGC類應(yīng)用中排名第一,豆包上已有超過800萬個(gè)智能體被創(chuàng)建,月度活躍用戶達(dá)到2600萬。圖:豆包大模型家族圖:豆包模型中的各類AI智能體資料:字節(jié)跳動(dòng),中信建投資料:字節(jié)跳動(dòng),中信建投月之暗面Kimi智能助手上下文長度突破200萬字
Moonshot
AI提供超長記憶AI助手Kimi。23年10月,月之暗面推出可支持20萬字無損上下文長度的智能助手Kimi,具備顯著的中文優(yōu)勢,能夠?yàn)橛脩籼峁┲悄芩阉鳌⒒卮饐栴}、速讀文件、整理資料、激發(fā)靈感、輔助創(chuàng)作等服務(wù),上下文長度可以達(dá)到Claude
100k的2.5倍、GPT-4-32k的8倍。
Kimi智能助手使用方便,新版Kimi與之前版本相比在相同設(shè)備和成本的情況下模型響應(yīng)速度提升了3倍左右。
Kimi推出應(yīng)用商店Kimi+。首批上線共5大類23個(gè)Kimi+,覆蓋了很多常用的場景。五大類主要包括官方推薦、辦公提效、輔助寫作、社交娛樂、生活實(shí)用,不同的Kimi+
可以用來解決不同的問題,包括寫提示詞、寫文章、搜索資源等等。圖:Kimi長文本壓力測試結(jié)果表現(xiàn)優(yōu)異圖:官方推薦的Kimi+資料:Moonshot
AI,36氪,中信建投資料:Moonshot
AI,中信建投Deepseek-V2具備較強(qiáng)的推理成本優(yōu)勢
深度求索Deepseek發(fā)布了v2版本的模型,沿襲了Deepseek-MoE(混合專家模型)的技術(shù)路線,采用大量的小參數(shù)專家進(jìn)行建模,同時(shí)在訓(xùn)練和推理上加入了更多的優(yōu)化。Deepseek對(duì)模型進(jìn)行了完全的mit協(xié)議開源,可以商用。
Deepseek
V2模型參數(shù)量達(dá)到236B,同時(shí)由于模型小專家混合的特性,模型每個(gè)token在推理時(shí)的激活參數(shù)為21B,可以實(shí)現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面,相比V1的稠密模型,V2模型節(jié)約了42.5%的訓(xùn)練成本,減少了推理時(shí)93.3%的
KV-cache
顯存占用,將生成的吞吐量也提升到了原來的5.76倍。
Deepseek-V2在眾多開源模型中表現(xiàn)僅次于70B
的
LLaMA3,超過了他們此前發(fā)布的V1代67B的非MoE模型。圖:Deepseek中的創(chuàng)新MLA機(jī)制圖:Deepseek的API價(jià)格具備顯著優(yōu)勢33資料:arxiv,中信建投資料:Deepseek,中信建投第三章國內(nèi)多模態(tài)模型相關(guān)進(jìn)展34國產(chǎn)文生視頻大模型Vidu發(fā)布,對(duì)標(biāo)Sora持續(xù)迭代
國產(chǎn)文生視頻大模型Vidu正式發(fā)布,實(shí)現(xiàn)重大技術(shù)突破。4月27日,國產(chǎn)AI視頻大模型Vidu發(fā)布。Vidu是由清華大學(xué)和生數(shù)科技聯(lián)合開發(fā)的中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型。它不僅能夠精確模擬現(xiàn)實(shí)世界的物理特性,還具備強(qiáng)大的創(chuàng)新能力。Vidu能夠制作出具有多個(gè)鏡頭視角的視頻內(nèi)容,并且在不同鏡頭之間保持高度的時(shí)空連貫性。目前Vidu能夠?qū)崿F(xiàn)一鍵生成長達(dá)16秒、1080P高分辨率的高清視頻。
Vidu采用獨(dú)創(chuàng)U-ViT架構(gòu),正在加速迭代。Vidu采用了一種獨(dú)創(chuàng)的架構(gòu)——U-ViT,該架構(gòu)融合了Diffusion技術(shù)和Transformer技術(shù)。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出,其Diffusion與Transformer融
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 石灰購銷合同
- 2025年河北省建筑安全員考試題庫及答案
- 2025年遼寧省建筑安全員《A證》考試題庫
- 南沙電梯急修合同范本
- 單位搬家運(yùn)輸合同范本
- 2025年江蘇省建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫
- 地下室高層加層施工方案
- 臨時(shí)用合同范本
- 二年級(jí)口算題集100道
- 三年級(jí)口算題目集1000道
- 中國空白地圖(打印)
- 成品半成品倉庫管理制度
- 《產(chǎn)品設(shè)計(jì)》(北希望)教學(xué)資料 課程標(biāo)準(zhǔn) 產(chǎn)品設(shè)計(jì)課程標(biāo)準(zhǔn)
- 部編版語文四年級(jí)下冊第7單元核心素養(yǎng)教案
- 年產(chǎn)2000萬瓶藥食同源飲料生產(chǎn)項(xiàng)目可行性研究報(bào)告
- 幼兒園垃圾分類PPT
- 申請?zhí)崛∽》抗e金個(gè)人授權(quán)、承諾書(樣表)
- 第4章向量空間課件
- 浸出液的凈化與沉積
- 銀行間本幣市場交易員資格考試真題模擬匯編(共586題)
- 智能制造概論-3 智能制造工藝
評(píng)論
0/150
提交評(píng)論