計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況

上傳人：a*** IP屬地：廣東上傳時(shí)間：2024-05-21 格式：PPTX 頁數(shù)：41 大?。?.82MB 積分：30 舉報(bào) 版權(quán)申訴

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況_第2頁

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況_第3頁

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況_第4頁

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況_第5頁

已閱讀5頁，還剩36頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

證券研究報(bào)告

行業(yè)動(dòng)態(tài)研究國內(nèi)外大模型發(fā)展情況梳理發(fā)布日期：2024年5月15日摘要

核心觀點(diǎn)：2022年11月30日OpenAI發(fā)布ChatGPT，隨即引爆社交網(wǎng)絡(luò)，大模型行業(yè)進(jìn)入加速發(fā)展階段。國外基礎(chǔ)模型實(shí)力強(qiáng)勁、不斷精進(jìn)，開源模型打造龐大應(yīng)用生態(tài)，端側(cè)模型小而美。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性突破。百度文心一言、訊飛星火、清華智譜ChatGLM4、商湯“日日新SenseNova5.0”整體表現(xiàn)逼近GPT-4，開源模型快速進(jìn)步，文生視頻、文生音樂等多模態(tài)也取得突破。國內(nèi)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升，大模型已經(jīng)成為日常生活中的重要助手。

國外大模型持續(xù)領(lǐng)跑，閉源、開源、端側(cè)模型異彩紛呈。國外大模型主要分為三個(gè)層級(jí)：性能強(qiáng)勁的閉源模型，具備生態(tài)優(yōu)勢的開源模型，以及專注端側(cè)應(yīng)用的輕量模型。國外基礎(chǔ)模型能力持續(xù)提升，閉源模型中巨頭各顯其才。GPT-4性能卓越，始終處于領(lǐng)跑地位，GPT-4o模型實(shí)現(xiàn)端到端信息處理，人機(jī)交互體驗(yàn)大幅提升；Claude

3后起之秀，整體性能十分強(qiáng)勁；原生多模態(tài)大模型Gemini，多模態(tài)能力、跨模態(tài)能力取得突破。開源模型領(lǐng)域中，LLama2模型塑造了龐大的開源模型家族，LLama3能力大幅提升；Mixtral

8x7B為開源領(lǐng)域引入專家混合技術(shù)，成為開源模型的重要力量。端側(cè)應(yīng)用需要在輕量參數(shù)和模型性能之間平衡，Phi-3、Gemma2實(shí)現(xiàn)輕量級(jí)模型的小而美。國外閉源模型有望迎來突破，我們預(yù)期GPT-5或于近期發(fā)布，性能改進(jìn)超預(yù)期。

國內(nèi)大模型進(jìn)入性能提升的關(guān)鍵時(shí)期，模型應(yīng)用逐步鋪開。2022年11月30日OpenAI發(fā)布ChatGPT，隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性突破。國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4，部分模型中文能力與GPT-4相差無幾。百度文心大模型4.0整體性能優(yōu)異，成為首個(gè)國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品；科大訊飛星火大模型V3.5性能逼近GPT-4，6月27日模型即將再度更新；清華智譜ChatGLM4基礎(chǔ)模型性能強(qiáng)勁，大模型生態(tài)全面對(duì)標(biāo)OpenAI；商湯“日日新SenseNova5.0”大模型，其主流客觀評(píng)測指標(biāo)達(dá)到或超越GPT-4

Turbo。開源模型陣營中，存在通義千問、百川智能實(shí)力強(qiáng)勁的競爭對(duì)手。多模態(tài)模型中，國產(chǎn)大模型同樣進(jìn)展不斷，國產(chǎn)文生視頻大模型Vidu發(fā)布，對(duì)標(biāo)Sora持續(xù)迭代；昆侖萬維發(fā)布文生音樂大模型天工Skymusic，整體表現(xiàn)不輸Suno。國內(nèi)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升，安卓應(yīng)用商店中豆包累計(jì)下載1.47億，訊飛星火累計(jì)下載1.06億，大模型已經(jīng)成為日常生活中的重要助手。

風(fēng)險(xiǎn)提示：大模型技術(shù)發(fā)展不及預(yù)期、商業(yè)化落地不及預(yù)期、算力基礎(chǔ)設(shè)施支持不及預(yù)期、政策監(jiān)管力度不及預(yù)期、數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)期。第一章第二章第三章第四章第五章國外基礎(chǔ)模型發(fā)展情況國內(nèi)基礎(chǔ)模型發(fā)展情況國內(nèi)多模態(tài)模型相關(guān)進(jìn)展國內(nèi)模型流量及應(yīng)用下載量情況風(fēng)險(xiǎn)提示420343740第一章國外基礎(chǔ)模型發(fā)展情況4GPT-4從“百科全書”逐步成為文理通吃的“專家”

相較于過去的GPT系列模型，GPT-4在多應(yīng)用領(lǐng)域成為專家，包括為機(jī)器學(xué)習(xí)模型評(píng)判標(biāo)準(zhǔn)和為人類設(shè)計(jì)的專業(yè)測試。

在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上，GPT-4的表現(xiàn)大大優(yōu)于了目前的最好的語言模型，以及大多數(shù)SOTA模型。相較于GPT-3.5以及當(dāng)前最好的語言模型，GPT-4在機(jī)器學(xué)習(xí)模型學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)實(shí)現(xiàn)了全面突破，在7項(xiàng)數(shù)據(jù)集中的測試均優(yōu)于當(dāng)前最優(yōu)的語言模型。在MMLU數(shù)據(jù)集中，GPT-4不僅在英語語言上的性能實(shí)現(xiàn)了突破，在其他語言方面的表現(xiàn)也優(yōu)于現(xiàn)在的語言模型。在為人類設(shè)計(jì)的各種專業(yè)測試和學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集中，GPT-4展現(xiàn)出媲美甚至優(yōu)于人類的水平。圖：GPT-4在MMLU不同語言上的性能圖：GPT-4在人類專業(yè)測試中的表現(xiàn)GPT-3.5在英語語言上MMLU任務(wù)的性能5：OpenAI，中信建投資料：OpenAI，中信建投資料GPT-4再度升級(jí)成為超級(jí)統(tǒng)一智能體

2023年11月7日，OpenAI開發(fā)者大會(huì)再度升級(jí)GPT-4整體功能，為GPT-4引入了新的模型選擇器。之前

GPT-4

的工作模式是四個(gè)獨(dú)立的功能（一個(gè)對(duì)話窗口內(nèi)只能使用其中一個(gè)特性）：圖像上傳

GPT-4、插件

GPT-4、代碼運(yùn)行器

+文件上傳

GPT-4、圖像生成

GPT-4。這次更新使其變成了：GPT-4

圖像上傳

代碼運(yùn)行器

文件上傳

圖像生成，GPT4自動(dòng)選擇使用接入互聯(lián)網(wǎng)、進(jìn)行數(shù)據(jù)分析、圖像生成等諸多功能，GPT-4具備了規(guī)劃和工具選擇的能力，GPT-4真正進(jìn)化為了一個(gè)“理解一切，處理一切，生成一切”的超級(jí)統(tǒng)一智能體。

向著更便宜、更好用的方向去發(fā)展，并構(gòu)建可定制、可銷售的生態(tài)：1）自定義Chatgpt，二次開發(fā)自由度更高，并且上線GPT

Store，定制個(gè)人GPT也可實(shí)現(xiàn)銷售；2）gpt4

–turbo：發(fā)布了性能更強(qiáng)的GPT-4

Turbo模型，在上下文對(duì)話長度等6方面進(jìn)行了升級(jí)；3）更快、更便宜；4）發(fā)布assistant

api，降低開發(fā)者難度，對(duì)開發(fā)者更友好。圖：GPT頁面簡化圖：利用GPT-4搜索颶風(fēng)數(shù)據(jù)并生成颶風(fēng)圖像GPT具備了選擇工具的能力互聯(lián)網(wǎng)搜索颶風(fēng)數(shù)據(jù)用DALL·E

3生成颶風(fēng)圖像資料：OpenAI，中信建投資料：OpenAI，中信建投GPT4o實(shí)現(xiàn)端到端信息處理，人機(jī)交互體驗(yàn)顯著提升

GPT-4o：GPT-4omni是跨文本、視覺和音頻端到端訓(xùn)練的新模型，所有輸入和輸出都由同一個(gè)神經(jīng)網(wǎng)絡(luò)處理。

GPT-4o模型性能在GPT-4基礎(chǔ)上再度升級(jí)。在英語文本和代碼基準(zhǔn)測試中，GPT-4o的性能與GPT-4

Turbo不相上下；在語音翻譯任務(wù)上，GPT-4o強(qiáng)于OpenAI專門的語音模型Whisper-V3以及谷歌和Meta的語音模型；在視覺理解上，也再次反超GPT-4

Turbo、Gemini

1.0

Ultra與Claude

Opus。

GPT-4o免費(fèi)向所有人提供，GPT-4o模型API同步放出，可以部署各種下游應(yīng)用程序上。同時(shí)API的性能也有所改進(jìn)，相比GPT-4

Turbo推理速度提升2倍，消息限制提高五倍，而且價(jià)格還會(huì)降低50%。圖：GPT-4o文本性能測試結(jié)果圖：GPT-4o視覺性能測試結(jié)果7資料：OpenAI，中信建投資料：OpenAI，中信建投GPT4o實(shí)現(xiàn)端到端信息處理，人機(jī)交互體驗(yàn)顯著提升

傳統(tǒng)模型中實(shí)現(xiàn)語音交互中需要三個(gè)獨(dú)立模塊：一個(gè)簡單模型將音頻轉(zhuǎn)錄成文本、GPT-3.5或GPT-4接收文本并輸出文本、第三個(gè)簡單模型將文本轉(zhuǎn)換回音頻，GPT-4o采用端到端模型訓(xùn)練跨越文本、視覺和音頻，實(shí)現(xiàn)所有信息的處理。

在GPT-4o發(fā)布之前，通過語音模式（Voice

Mode）與ChatGPT對(duì)話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。GPT-4o可以在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入，相應(yīng)速度大幅提升，與人類在對(duì)話中的反應(yīng)速度一致。發(fā)布會(huì)上展示了視頻實(shí)時(shí)互動(dòng)解方程，桌面版ChatGPT秒解代碼難題，實(shí)時(shí)對(duì)話等一些列交互過程。

OpenAI發(fā)布了ChatGPT的桌面版本，桌面版具有全新的用戶界面，可以很輕易地和工作流融為一體。圖：桌面版GPT-4o解讀屏幕信息圖：GPT-4o全新的呼叫窗口8資料：OpenAI，中信建投資料：OpenAI，中信建投Claude3：Anthropic推出的第三代大模型

2024年3月4日，人工智能創(chuàng)業(yè)公司

Anthropic

宣布推出其突破性的

Claude

系列模型，該系列大型語言模型

(LLM)在各種認(rèn)知任務(wù)上樹立了新的性能標(biāo)桿。Claude

系列包含三個(gè)子模型，分別為

Claude

Haiku、Claude

Sonnet和

Claude3Opus，它們提供不同程度的智能、速度和成本選擇，以滿足各種人工智能應(yīng)用需求。

最智能的Claude

Opus在大多數(shù)常見評(píng)估基準(zhǔn)上表現(xiàn)均十分優(yōu)異，包括本科水平專業(yè)知識(shí)（MMLU）、研究生水平專業(yè)推理（GPQA）、基礎(chǔ)數(shù)學(xué)（GSM8K）等。Claude3Opus在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。圖：Claude3模型家族圖：

Claude3相關(guān)評(píng)測結(jié)果資料：Anthropic

，中信建投資料：Anthropic

，中信建投Claude3：Anthropic推出的第三代大模型

Claude

3系列模型還具備與其他領(lǐng)先模型相當(dāng)?shù)囊曈X能力。他們可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。其中

Claude

3Opus在某些類別上甚至超越了

GPT-4V和

Gemini1.0Ultra。

Claude

3系列模型在發(fā)布時(shí)將提供20萬token的上下文窗口，并且這三個(gè)模型都能夠接受超過100萬token的輸入，Anthropic未來可能會(huì)增加對(duì)更大上下文窗口的支持。在“大海撈針”測試中，Claude

Opus不僅實(shí)現(xiàn)了近乎完美的回憶能力，準(zhǔn)確率超過99%，而且在某些情況下，它甚至通過識(shí)別出“針”句子似乎是被人為插入到原始文本中的，指出了評(píng)估本身的局限性。圖：Claude3視覺測試中的表現(xiàn)圖：Claude3大海撈針測試結(jié)果資料：Anthropic，中信建投資料：Anthropic

，中信建投原生多模態(tài)大模型Gemini

Gemini是一個(gè)由Google開發(fā)的具有高度能力的多模態(tài)模型家族，開發(fā)者訓(xùn)練Gemini模型共同處理圖像、音頻、視頻和文本數(shù)據(jù)，目的是構(gòu)建一個(gè)在各個(gè)模態(tài)上都有強(qiáng)大泛化能力，同時(shí)在每個(gè)領(lǐng)域都具有尖端理解和推理性能的模型。

Gemini從模型架構(gòu)設(shè)計(jì)開始就采用原生多模態(tài)結(jié)構(gòu)，意味著它可以泛化并無縫地理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

目前，Gemini提供了不同的尺寸版本。分別是：Gemini

Ultra：規(guī)模最大、能力最強(qiáng)，用于處理高度復(fù)雜的任務(wù)；Gemini

Pro：在各種任務(wù)上擴(kuò)展的最佳模型；Gemini

Nano：用于端側(cè)（on-device）任務(wù)的最高效模型；Gemini

Flash：適用于高頻和高效任務(wù)的輕量級(jí)模型。圖：Gemini模型家族的不同版本圖：Gemini模型家族的不同版本表現(xiàn)11資料：Google，中信建投資料：Google，中信建投大規(guī)模訓(xùn)練使得Gemini在多領(lǐng)域取得最先進(jìn)狀態(tài)

Gemini在大規(guī)模語言建模、圖像理解、音頻處理和視頻理解等領(lǐng)域都取得了最先進(jìn)的狀態(tài)。它還依賴于序列模型、基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的大量工作、機(jī)器學(xué)習(xí)分布式系統(tǒng)的工作，這些工作使得大規(guī)模訓(xùn)練成為可能。

編程是大模型衡量能力的重要維度，Gemini

Ultra在編程方面也表現(xiàn)出色。基于Gemini，谷歌還推出了更先進(jìn)的編程系統(tǒng)AlphaCode

2。AlphaCode

2能理解、解釋并生成

Python、Java、C++

和

等編程語言的高質(zhì)量代碼，還擅長解決一些超出編程范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的編程競賽問題。

除了文本之外，Gemini

Ultra在具有挑戰(zhàn)性的多模態(tài)推理任務(wù)上也取得了顯著的進(jìn)展。例如，在最近的MMMU基準(zhǔn)測試上，該基準(zhǔn)測試涵蓋有關(guān)需要多學(xué)科知識(shí)并進(jìn)行深思熟慮的圖像的多學(xué)科任務(wù)問題，Gemini

Ultra取得了新的最先進(jìn)得分62.4%，比以前最好的模型提高了5個(gè)百分點(diǎn)以上。圖：Gemini文本推理能力圖：Gemini多模態(tài)推理能力12資料：Google，中信建投資料：Google，中信建投Gemini1.5Pro：上下文窗口最長的基礎(chǔ)模型

谷歌在5月15日的開發(fā)者大會(huì)上宣布升級(jí)Gemini1.5

Pro模型，將上下文窗口從當(dāng)前100萬tokens增加到200萬。

Gemini

1.5

Pro引入了高達(dá)200萬token的上下文窗口長度——這是迄今為止任何大型基礎(chǔ)模型中最長的上下文窗口（模型可理解的信息量）。它實(shí)現(xiàn)了跨模態(tài)的長上下文檢索任務(wù)的完美召回，解鎖了準(zhǔn)確處理大規(guī)模文檔、數(shù)千行代碼、數(shù)小時(shí)音頻、視頻等的能力，Gemini

1.5

Pro能夠同時(shí)處理

2小時(shí)的視頻、22小時(shí)的音頻、6萬多行代碼或140多萬字。

升級(jí)后的Gemini

1.5

Pro，在多項(xiàng)公共基準(zhǔn)測試中取得了顯著改進(jìn)，在多項(xiàng)圖像和視頻理解基準(zhǔn)測試中也實(shí)現(xiàn)了最先進(jìn)性能。用戶可以通過GeminiAdvanced訂閱服務(wù)體驗(yàn)最新的Gemini1.5Pro，支持超過150個(gè)國家的35種語言。圖：Gemini1.5

Pro超長的上下文窗口長度圖：GeminiAdvanced訂閱服務(wù)處理任務(wù)13資料：Google，中信建投資料：Google，中信建投LLama2模型塑造開源生態(tài)

META通過開源LLaMa等大模型，引領(lǐng)大模型開源生態(tài)。2023年2月25日，Meta官網(wǎng)公布了一個(gè)新的大型語言模型LLaMA（Large

Language

Model

Meta

AI），LLaMA-13B在大多數(shù)基準(zhǔn)測試中，參數(shù)僅為GPT-3十分之一，但性能優(yōu)于GPT-3（175B），而且能跑在單個(gè)GPU上。

2023年7月19日，Meta

發(fā)布了免費(fèi)商用版開源大模型LLaMA2，各個(gè)企業(yè)能夠以相對(duì)低廉的價(jià)格在該模型上開發(fā)應(yīng)用，為客戶提供自主的大模型。Meta與微軟達(dá)成合作，聯(lián)手推動(dòng)AI應(yīng)用的商業(yè)化落地。Meta正式開源了LLaMA

2版本，可免費(fèi)用于商業(yè)用途，微軟宣布攜手。最新版本的模型將在微軟的Azure和Windows平臺(tái)上線并開源，用戶可以在云服務(wù)中使用Llama

2作為基礎(chǔ)模型，快速構(gòu)建適用于自身業(yè)務(wù)的專用大模型。圖：Llama模型家族圖：Llama、LLama2相關(guān)評(píng)測資料：META，中信建投資料：META，中信建投LLama3領(lǐng)跑開源大模型陣營

目前開源的Meta

Llama

3具有8B和70B參數(shù)，推理、代碼生成和指令等能力相較于LLama2有大幅改進(jìn)，LLama3是目前8B和70B量級(jí)上最好的模型。

Llama

3在超過15T

token的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，比Llama

2使用的數(shù)據(jù)集大七倍。

405B大參數(shù)版本模型還在訓(xùn)練中，年內(nèi)即將發(fā)布。大參數(shù)LLama3在兩個(gè)2.4萬張GPU的超大集群中訓(xùn)練，訓(xùn)練效率大幅提升。在接下來的幾個(gè)月中，預(yù)計(jì)將推出新功能（如多模態(tài)）、更長的上下文窗口、更多不同大小版本的模型和更強(qiáng)的性能。圖：LLama3評(píng)測結(jié)果圖：仍然在訓(xùn)練中的LLama3

400B資料：META，中信建投資料：META，中信建投MOE開源代表：Mixtral8x7B

Mixtral

8x7B

是法國人工智能初創(chuàng)公司

Mistral

全新發(fā)布的

MoE

模型，MoE

是

Mixture-of-Experts的簡稱，具體的實(shí)現(xiàn)就是將

Transformer

中的前饋神經(jīng)網(wǎng)絡(luò)層換成

MoE

前饋神經(jīng)網(wǎng)絡(luò)層，其他部分保持不變。在訓(xùn)練過程中，Mixtral

8x7B采用了

8個(gè)專家協(xié)同工作，而在推理階段，則僅需激活其中的

2個(gè)專家。

MoE平衡了模型的復(fù)雜度和推理成本，即使在擁有龐大模型參數(shù)的情況下，也能保證高效的推理性能，使得

MoE模型在保持強(qiáng)大功能的同時(shí)，也具備了更優(yōu)的實(shí)用性和經(jīng)濟(jì)性。Mixtral

8x7B推理過程中只激活13B神經(jīng)元參數(shù)，但是在大多數(shù)基準(zhǔn)測試中都優(yōu)于

Llama

270B和

GPT-3.5，實(shí)現(xiàn)了性能和效率的平衡。圖：

Mixtral8x7B中的MoE設(shè)計(jì)圖：

Mixtral8x7B模型測試結(jié)果資料：

Mistral

，中信建投資料：

Mistral

，中信建投端側(cè)模型一覽：小語言模型Phi-3

Phi-3是微軟研究院推出的小語言模型，包括phi-3-mini、phi-3-small和phi-3-medium三個(gè)不同規(guī)模的版本。這些模型在保持較小的參數(shù)規(guī)模的同時(shí)，通過優(yōu)化訓(xùn)練數(shù)據(jù)集和算法，實(shí)現(xiàn)了與大型模型相媲美的語言理解和推理能力，超小的參數(shù)規(guī)模適合在智能手機(jī)等本地設(shè)備上運(yùn)行。

phi-3-mini

是一個(gè)在

3.3

萬億個(gè)

token

上訓(xùn)練的

億參數(shù)語言模型。測試表明，phi-3-mini

的整體性能可與Mixtral

8x7B

等模型相媲美。phi-3-mini使用Int

4的數(shù)據(jù)格式時(shí)，大致占用1.8GB內(nèi)存。圖：Phi-3在端側(cè)運(yùn)行圖：仍然在訓(xùn)練中的LLama3

400B資料：微軟，中信建投資料：微軟，中信建投端側(cè)模型一覽：Google輕量級(jí)開源模型Gemma

Gemma是由Google

AI開源的一系列輕量級(jí)模型，于

2024

年

月

日發(fā)布，這些模型易于訪問且高效，使

開發(fā)更容易為廣大用戶所接受。5月15日Google開發(fā)者大會(huì)上，Google再度發(fā)布其升級(jí)版本Gemma

2。

Gemma模型家族采用與Gemini模型相同的技術(shù)架構(gòu)。Gemma是基于文本訓(xùn)練的，它在文本摘要、問答和推理等任務(wù)中表現(xiàn)出色。在270億個(gè)參數(shù)下，Gemma

2的性能與Llama

370B相當(dāng)，尺寸不到一半。

Google同時(shí)發(fā)布開源視覺語言模型PaliGemma，可以完成各類視覺語言任務(wù)，包括圖像和短視頻字幕、視覺問題回答、理解圖像中的文本、對(duì)象檢測和對(duì)象分割等。圖：Gemma評(píng)測結(jié)果圖：Gemma2評(píng)測結(jié)果資料：Google

AI，中信建投資料：Google

AI，中信建投GPT-5性能改進(jìn)超預(yù)期，已開啟紅隊(duì)測試

Sam

Altman曾在OpenAI開發(fā)者大會(huì)上表示GPT-5將在“大多數(shù)你想要構(gòu)建的事情”上都能夠勝任。Altman近期透露的關(guān)鍵信息包括：如果GPT-4目前解決了人類任務(wù)的10%,

GPT-5應(yīng)該是15%或者20%

，我們遠(yuǎn)沒有達(dá)到曲線的頂部。不應(yīng)低估

GPT-5

性能改進(jìn)的幅度，這可能會(huì)超出預(yù)期。Runway

CEO兼AI投資人Siqi

Chen稱，GPT-5

已經(jīng)在推理方面取得了意想不到的階躍函數(shù)增益。

GPT-5的訓(xùn)練于2023年啟動(dòng)，據(jù)相關(guān)信息稱2023年底或正式結(jié)束訓(xùn)練。近期用戶收到紅隊(duì)測試郵件，依照慣例，紅隊(duì)測試預(yù)計(jì)將會(huì)持續(xù)

90-120天。紅隊(duì)測試后，GPT-5或?qū)⒄桨l(fā)布。圖：推特中關(guān)于GPT-5的相關(guān)信息19資料：Twitter，中信建投第二章國內(nèi)基礎(chǔ)模型發(fā)展情況20國內(nèi)大模型發(fā)展情況

2022年11月30日,OpenAI發(fā)布ChatGPT，隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性的突破。國內(nèi)大模型的發(fā)展大致可以分為三個(gè)階段，即準(zhǔn)備期（2022.12-2023.02）、成長期（2023.02-2023.23）、爆發(fā)期（2023.12-）。圖：國內(nèi)大模型發(fā)展歷程資料：SuperCLUE，中信建投國內(nèi)大模型分布情況圖：國內(nèi)大模型分布情況資料：SuperCLUE，中信建投國內(nèi)大模型快速逼近GPT-4

國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4，部分模型中文能力與GPT-4相差無幾。5-6月，國內(nèi)多家大模型將迎來版本更新，今年年中是國內(nèi)大模型的關(guān)鍵賽點(diǎn)，預(yù)期我們將見到部分頭部大模型整體能力上超越GPT-4。圖：國內(nèi)大模型發(fā)展趨勢資料：SuperCLUE，中信建投國內(nèi)大模型能力測試

客觀評(píng)價(jià)大模型能力存在一定的難度，不同的模型測試可能考察了模型不同維度的能力，因而模型之間的性能比較在不同測試中可能表現(xiàn)不一致，同時(shí)大模型的每次響應(yīng)同樣存在不確定性，增加了大模型的測試難度。

結(jié)合不同機(jī)構(gòu)的第三方測試，我們大致可以知曉模型之間的性能差異。GPT-4展現(xiàn)出強(qiáng)大的語言理解、生成和推理能力，在各類測試中均保持領(lǐng)先地位。各類評(píng)測中模型表現(xiàn)可能略有不同，但是國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)快速逼近GPT-4。國內(nèi)大模型發(fā)展迅速，與GPT-4差距快速縮小，第一梯隊(duì)的頭部大模型例如ChatGLM4、百度文心一言4.0、訊飛星火V3.5整體表現(xiàn)已經(jīng)接近GPT-4，在中文領(lǐng)域，國內(nèi)部分模型表現(xiàn)已經(jīng)可以比肩GPT-4。圖：國內(nèi)外大模型SuperClue評(píng)測結(jié)果圖：大模型SuperBench評(píng)測結(jié)果-語義理解能力圖：OpenCompass

2.0測試結(jié)果資料：SuperCLUE，《superbench大模型綜合能力測評(píng)報(bào)告》，上海AI實(shí)驗(yàn)室，中信建投百度文心一言4.0

11月1日，百度正式上線文心一言專業(yè)版，技術(shù)持續(xù)升級(jí)。文心一言大模型專業(yè)版基于公司最新自研的文心大模型4.0，與原有的3.5版本相比，具有以下優(yōu)勢：1）更強(qiáng)的模型能力和圖片生成能力。根據(jù)測試，文心大模型4.0版本在理解、生成、邏輯、記憶四大功能上都有明顯提升，具有顯著優(yōu)化的模型性能。2)支持接入豐富的API插件，可以實(shí)現(xiàn)撰寫代碼、潤色文案、設(shè)計(jì)與繪圖等多種功能。

文心一言成為首個(gè)國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品。文心一言專業(yè)版的分為單獨(dú)訂閱和聯(lián)合會(huì)員兩種收費(fèi)模式。單獨(dú)訂閱模式下，會(huì)員月付59.9元，選擇連續(xù)包月可以享受49.9元的優(yōu)惠價(jià)格；該模式下會(huì)員可以使用文心一言大模型3.5和4.0兩個(gè)版本，而非會(huì)員只可使用免費(fèi)的文心大模型3.5版本。聯(lián)合模式下，用戶月付99元，可以同時(shí)具有單獨(dú)訂閱模式的全部功能，并獲得文心一格白銀會(huì)員資格，享受AI修圖改圖等功能。圖：百度文心一言會(huì)員訂購費(fèi)用圖：百度文心大模型4.0性能全面提升資料：百度，中信建投資料：百度，中信建投25科大訊飛星火大模型V3.5

1月30日，科大訊飛舉行星火認(rèn)知大模型V3.5升級(jí)發(fā)布會(huì)。訊飛發(fā)布基于首個(gè)全國產(chǎn)算力訓(xùn)練的訊飛星火V3.5，七大核心能力全面提升，語言理解、數(shù)學(xué)能力、語音交互能力超過

GPT-4

Turbo，代碼達(dá)到

GPT-4

Turbo

96%，多模態(tài)理解達(dá)到GPT-4V

91%。

4月26日，訊飛星火大模型V3.5春季上新，發(fā)布長文本、長圖文、長語音大模型。不僅可以快速學(xué)習(xí)各種的海量文本、圖文資料、會(huì)議錄音，還能夠針對(duì)多種多樣的行業(yè)場景給出專業(yè)、準(zhǔn)確回答。此外，星火語音大模型本次更新還包括多情感超擬人合成功能，具備情緒表達(dá)能力，并推出一句話聲音復(fù)刻功能。

訊飛正式啟動(dòng)對(duì)標(biāo)GPT-4的大模型訓(xùn)練，2024年上半年對(duì)標(biāo)GPT-4，要走獨(dú)立的技術(shù)路線和產(chǎn)業(yè)方向，形成完整產(chǎn)業(yè)生態(tài)。圖：訊飛星火大模型V3.5圖：訊飛星火大模型長文本能力升級(jí)26資料：訊飛，中信建投資料：訊飛，中信建投清華智譜ChatGLM4

1月16日，2024年度技術(shù)開放日Zhipu

DevDay，智譜AI發(fā)布了新一代基座大模型GLM-4。在大規(guī)模多任務(wù)語言理解評(píng)測中，GLM-4的表現(xiàn)明顯優(yōu)于GPT-3.5，其平均得分已經(jīng)達(dá)到了GPT-4的95%水平，在某些特定任務(wù)上甚至表現(xiàn)相當(dāng)；

GLM-4具備強(qiáng)大的多模態(tài)能力：文生圖和多模態(tài)理解能力得到增強(qiáng)，CogView3在文生圖多個(gè)評(píng)測指標(biāo)上，相比DALLE3約在91.4%-99.3%的水平之間。

GLM-4推出的All

Tools能力：GLM-4能自主理解和執(zhí)行復(fù)雜任務(wù)，調(diào)用瀏覽器、代碼解釋器等完成復(fù)雜工作。

個(gè)性化智能體功能：用戶可以通過智譜官網(wǎng)輕松創(chuàng)建屬于自己的GLM智能體，實(shí)現(xiàn)大模型開發(fā)定制。圖：ChatGLM4模型性能測試結(jié)果圖：ChatGLM3提供更豐富的模型尺寸27資料：智譜清言，中信建投資料：智譜清言，中信建投商湯日日新SenseNova5.0

4月23日，商湯科技在技術(shù)交流日上發(fā)布全新升級(jí)的“日日新SenseNova5.0”大模型，其主流客觀評(píng)測指標(biāo)達(dá)到或超越GPT-4

Turbo。日日新5.0模型能力提升一方面得益于采用混合專家架構(gòu)（MoE），激活少量參數(shù)就能完成推理，且推理時(shí)上下文窗口高達(dá)200K左右；另一方面來自海量的訓(xùn)練數(shù)據(jù)，其訓(xùn)練數(shù)據(jù)超過10TB

tokens、覆蓋了數(shù)千億量級(jí)的邏輯型合成思維鏈數(shù)據(jù)。

商湯多模態(tài)大模型的圖文感知能力達(dá)到全球領(lǐng)先水平，在權(quán)威綜合基準(zhǔn)測試MMBench中綜合得分居首位，在多個(gè)知名多模態(tài)榜單MathVista、AI2D、ChartQA、TextVQA、

DocVQA、MMMU均取得優(yōu)異成績。圖：日日新5.0BenchMark成績圖：日日新5.0多模態(tài)測試結(jié)果28資料：商湯，中信建投資料：商湯，中信建投百川智能Baichuan

1月29日，百川智能發(fā)布超千億參數(shù)的大語言模型

Baichuan

3。在多個(gè)權(quán)威通用能力評(píng)測如CMMLU、GAOKAO和AGI-Eval中，Baichuan

3都展現(xiàn)了出色的能力，尤其在中文任務(wù)上更是超越了GPT-4。而在數(shù)學(xué)和代碼專項(xiàng)評(píng)測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色，證明了

Baichuan

3在自然語言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。

Baichuan

2是百川智能推出的開源大語言模型，采用2.6萬億Tokens的高質(zhì)量語料訓(xùn)練。Baichuan

2在多個(gè)權(quán)威的中文、英文和多語言的通用、領(lǐng)域

benchmark

上取得同尺寸最佳的效果。包含7B、13B的

Base和Chat版本，并提供了Chat版本的4bits量化。圖：Baichuan3測試結(jié)果圖：Baichuan

13B模型測試結(jié)果資料：baichuan，中信建投資料：baichuan，中信建投通義千問Qwen打造豐富的開源大模型矩陣

通義千問2023年4月問世以來，專注于基礎(chǔ)模型的技術(shù)研發(fā)，從初代模型升級(jí)至2.5版本。相比上一版本，2.5版模型的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%，中文能力持續(xù)領(lǐng)先。

今年2月初，通義千問團(tuán)隊(duì)推出開源模型系列Qwen1.5，隨后在不到3個(gè)月的時(shí)間連續(xù)開出8款大語言模型，模型參數(shù)規(guī)模涵蓋5億、18億、40億、70億、140億、320億、720億、1100億，打造了豐富的開源模型矩陣。能力最強(qiáng)的Qwen1.5-110B在MMLU、TheoremQA、GPQA等多個(gè)基準(zhǔn)測評(píng)中展現(xiàn)出卓越性能，基礎(chǔ)能力可與Meta的Llama-3-70B模型相媲美。圖：通義千問開源大模型家族圖：通義千問大模型測試結(jié)果資料：通義千問，中信建投資料：通義千問，中信建投字節(jié)跳動(dòng)“豆包”大模型

5月15日，字節(jié)跳動(dòng)正式對(duì)外發(fā)布豆包大模型，豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮演模型、豆包·語音合成模型、豆包·聲音復(fù)刻模型、豆包·語音識(shí)別模型、豆包·文生圖模型模型等，這些模型已接入抖音、番茄小說、飛書、巨量引擎等50余個(gè)業(yè)務(wù)。

豆包主力模型定價(jià)0.0008元/千Tokens，一元錢能買到豆包主力模型的125萬Tokens，約200萬漢字，極具價(jià)格競爭力。

蘋果APP

Store和各大安卓應(yīng)用市場，豆包APP的下載量在AIGC類應(yīng)用中排名第一，豆包上已有超過800萬個(gè)智能體被創(chuàng)建，月度活躍用戶達(dá)到2600萬。圖：豆包大模型家族圖：豆包模型中的各類AI智能體資料：字節(jié)跳動(dòng)，中信建投資料：字節(jié)跳動(dòng)，中信建投月之暗面Kimi智能助手上下文長度突破200萬字

Moonshot

AI提供超長記憶AI助手Kimi。23年10月，月之暗面推出可支持20萬字無損上下文長度的智能助手Kimi，具備顯著的中文優(yōu)勢，能夠?yàn)橛脩籼峁┲悄芩阉鳌⒒卮饐栴}、速讀文件、整理資料、激發(fā)靈感、輔助創(chuàng)作等服務(wù)，上下文長度可以達(dá)到Claude

100k的2.5倍、GPT-4-32k的8倍。

Kimi智能助手使用方便，新版Kimi與之前版本相比在相同設(shè)備和成本的情況下模型響應(yīng)速度提升了3倍左右。

Kimi推出應(yīng)用商店Kimi+。首批上線共5大類23個(gè)Kimi+，覆蓋了很多常用的場景。五大類主要包括官方推薦、辦公提效、輔助寫作、社交娛樂、生活實(shí)用，不同的Kimi+

可以用來解決不同的問題，包括寫提示詞、寫文章、搜索資源等等。圖：Kimi長文本壓力測試結(jié)果表現(xiàn)優(yōu)異圖：官方推薦的Kimi+資料：Moonshot

AI，36氪，中信建投資料：Moonshot

AI，中信建投Deepseek-V2具備較強(qiáng)的推理成本優(yōu)勢

深度求索Deepseek發(fā)布了v2版本的模型，沿襲了Deepseek-MoE（混合專家模型）的技術(shù)路線，采用大量的小參數(shù)專家進(jìn)行建模，同時(shí)在訓(xùn)練和推理上加入了更多的優(yōu)化。Deepseek對(duì)模型進(jìn)行了完全的mit協(xié)議開源，可以商用。

Deepseek

V2模型參數(shù)量達(dá)到236B，同時(shí)由于模型小專家混合的特性，模型每個(gè)token在推理時(shí)的激活參數(shù)為21B，可以實(shí)現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面，相比V1的稠密模型，V2模型節(jié)約了42.5%的訓(xùn)練成本，減少了推理時(shí)93.3%的

KV-cache

顯存占用，將生成的吞吐量也提升到了原來的5.76倍。

Deepseek-V2在眾多開源模型中表現(xiàn)僅次于70B

的

LLaMA3，超過了他們此前發(fā)布的V1代67B的非MoE模型。圖：Deepseek中的創(chuàng)新MLA機(jī)制圖：Deepseek的API價(jià)格具備顯著優(yōu)勢33資料：arxiv，中信建投資料：Deepseek，中信建投第三章國內(nèi)多模態(tài)模型相關(guān)進(jìn)展34國產(chǎn)文生視頻大模型Vidu發(fā)布，對(duì)標(biāo)Sora持續(xù)迭代

國產(chǎn)文生視頻大模型Vidu正式發(fā)布，實(shí)現(xiàn)重大技術(shù)突破。4月27日，國產(chǎn)AI視頻大模型Vidu發(fā)布。Vidu是由清華大學(xué)和生數(shù)科技聯(lián)合開發(fā)的中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型。它不僅能夠精確模擬現(xiàn)實(shí)世界的物理特性，還具備強(qiáng)大的創(chuàng)新能力。Vidu能夠制作出具有多個(gè)鏡頭視角的視頻內(nèi)容，并且在不同鏡頭之間保持高度的時(shí)空連貫性。目前Vidu能夠?qū)崿F(xiàn)一鍵生成長達(dá)16秒、1080P高分辨率的高清視頻。

Vidu采用獨(dú)創(chuàng)U-ViT架構(gòu)，正在加速迭代。Vidu采用了一種獨(dú)創(chuàng)的架構(gòu)——U-ViT，該架構(gòu)融合了Diffusion技術(shù)和Transformer技術(shù)。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出，其Diffusion與Transformer融

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況

文檔簡介

溫馨提示

最新文檔

評(píng)論

計(jì)算機(jī)行業(yè)市場前景及投資研究報(bào)告：國內(nèi)外大模型發(fā)展情況

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔