中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估

上傳人：b*** IP屬地：北京上傳時間：2024-01-17 格式：PPTX 頁數(shù)：48 大?。?.05MB 積分：22 舉報 版權申訴

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估_第2頁

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估_第3頁

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估_第4頁

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估_第5頁

已閱讀5頁，還剩43頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

中文大模型基準測評2023年度報告—

AI躍遷的2023，中文大模型進展評估Super

CLUE團隊2023

28目

錄01國內大模型關鍵進展2023年大模型關鍵進展與中文大模型全景圖2023年國內大模型發(fā)展趨勢中文大模型基準SuperCLUE介紹測評體系、層次、方法說明SuperCLUE模型象限國內外大模型總體表現(xiàn)及競爭格局大模型對戰(zhàn)勝率分布圖02測評體系、方法說明03大模型綜合測評結果050604SuperCLUE2.0升級行業(yè)及專項測評基準四大維度測評分析及示例介紹四大維度測評結果及示例優(yōu)秀模型案例介紹優(yōu)秀模型案例介紹第1部分2023全年國內大模型關鍵進展（關鍵進展）時間5準備期成長期爆發(fā)期故事的起點：ChatGPT發(fā)布國內迅速形成大模型共識百度發(fā)布文心一言1.02023大模型關鍵進展2022.122月6月8月10月2023.124月OpenAI發(fā)布GPT4元語開源ChatYuan復旦開源MOSS清華開源ChatGLM360發(fā)布360智腦1.0科大訊飛發(fā)布星火1.0阿里云發(fā)布通義千問1.0Meta開源Llama2百川智能開源Baichuan-7BOpenAI發(fā)布多模態(tài)GPT-4VGPT-4

Turbo發(fā)布百度升級文心一言4.0商湯科技發(fā)布商量1.0阿里云開源Qwen-7B華為發(fā)布盤古3.0字節(jié)跳動公測大模型產品豆包百川智能開源Baichuan2vivo發(fā)布BlueLM清華開源ChatGLM3清華&智譜AI開源ChatGLM2小米發(fā)布大模型MiLM西湖心辰發(fā)布西湖大模型零一萬物開源Yi-34B文心一言升級V3.5科大訊飛升級星火3.0元象科技開源XVERSE-13B昆侖萬維發(fā)布天工1.0云從科技發(fā)布從容大模型出門問問發(fā)布序列猴子上海人工智能實驗室開源InternLM-20BOPPO發(fā)布AndesGPT商湯科技升級商量2.0商湯科技升級商量3.0理想汽車發(fā)布MindGPT騰訊發(fā)布混元助手360升級智腦4.0自2022年11月30日ChatGPT發(fā)布以來，AI大模型在全球范圍內掀起了有史以來規(guī)模最大的人工智能浪潮。國內學術和產業(yè)界在過去一年也有了實質性的突破。大致可以分為三個階段，即準備期（ChatGPT發(fā)布后國內產學研迅速形成大模型共識）、成長期（國內大模型數(shù)量和質量開始逐漸增長）、爆發(fā)期（各行各業(yè)開源閉源大模型層出不窮，形成百模大戰(zhàn)的競爭態(tài)勢）。SuperCLUE：AI大模型2023年關鍵進展百川智能發(fā)布Baichuan2—TurboGoogle發(fā)布多模態(tài)大模型Gemini2023年值得關注的中文大模型全景圖通用大模型字節(jié)云雀大模型AndesGPT玉言閉源開源行業(yè)大模型岐黃問道醫(yī)療MindGPT銀河大模型螞蟻金融大模型軒轅大模型AInno-15BCOSMO-GPT文化/零售/交通妙筆大模型百川BaichuanBlueLM云天書孟子部分領域汽車教育金融工業(yè)........................SMore

LrMo............Yi-

B序列猴子過去六個月國內外代表性模型的發(fā)展趨勢趨勢說明國內外大模型發(fā)展趨勢過去半年，

國內領軍大模型企業(yè)實現(xiàn)了大模型代際追趕的奇跡，

從7

月份與GP

的20

分差距，

每個月都有穩(wěn)定且巨大的提升，

到1

月份測評時已經完成總分上對GPT3.

5的超越。我們可以看到G

和G

在中文上的表現(xiàn)情況基本一致，

在11月份測評結果中顯示，

在中文能力都有一定的下滑，

而國內頭部模型則展現(xiàn)了繼續(xù)穩(wěn)健提升的能力。在12

月份的測評結果中可以看到，

國內第一梯隊模型與GPT

的差距在縮小。但仍有較大的距離需要追趕。說明：趨勢展示，

選取了7

月-12

月Super

CLUE-OPEN測評分數(shù)。國內代表性模型，

選取了文心一言、通義千問、Chat

GLM。原因是綜合考慮了過去半年Super

CLUE測評結果、長期穩(wěn)定迭代及對國內大模型生態(tài)的貢獻；

GPT

成績，

由GPT

-API(

月)

與GPT

Turbo(

月)

組成，

用以表現(xiàn)國外最好模型發(fā)展。模型7月8月9月10月11月12月文心一言50.4854.1853.7261.8173.6275通義千問-41.7333.7843.3661.0171.78ChatGLM42.4638.4954.3158.5363.2769.91部分國內代表性模型SuperCLUE基準得分(7月-12月)第2部分測評體系、方法說明1.SuperCLUE介紹2.測評層級3.測評體系4.測評方法及示例010203SuperCLUE始終秉持中立、客觀的第三方測評理念，不會預設立場或偏向特定的模型方。同時，SuperCLUE采用自動化方式的客觀評估，大大降低評測過程中的人為評估的不確定性。第三方測評，不與模型廠商競爭中文語言理解測評基準CLUE（TheChineseLanguageUnderstanding

Evaluation）

是致力于科學、客觀、中立的語言模型評測基準，

發(fā)起于2019

年。陸續(xù)推出CLUE、Few

CLUE、Kg

CLUE、DataCLUE等廣為引用的測評基準。Super

CLUE是大模型時代CLUE基準的發(fā)展和延續(xù)。聚焦于通用大模型的綜合性測評。傳統(tǒng)語言模型測評往往局限于學術范圍的單輪選擇題，Super

CLUE根據多年的測評經驗，

基于通用大模型在學術、產業(yè)與用戶側的廣泛應用，構建了多層次、多維度的綜合性測評基準。主觀題+客觀題多輪十大維度高保密性傳統(tǒng)測評SuperCLUE不同于傳統(tǒng)學術領域的評測，SuperCLUE從通用基準維度的選擇、安全和智能體專項測評的設計，到行業(yè)大模型測評基準的推出，所有評測的目的都是為產業(yè)和應用服務。真實反應通用大模型與產業(yè)應用之間的差距，引導大模型提升技術落地效果，在通用能力的基礎上更好的進行垂直領域的應用。不限于學術領域的測評，更為了服務產業(yè)界不同于傳統(tǒng)測評通過選擇題形式的測評，SuperCLUE目標是與真實用戶體驗目標保持一致，所以納入了開放主觀問題的測評。通過多維度多視角多層次的評測體系以及對話的形式，真實模擬大模型的應用場景，真實有效的考察模型生成能力。同時，SuperCLUE通過構建多輪對話場景，更深層次考察大模型在真實多輪對話場景的應用效果。對大模型的上下文、記憶、對話能力全方位評測。測評方式與真實用戶體驗目標一致選擇題單輪學術保密性低VSSuperCLUE

三大特征Super

CLUE介紹產業(yè)+用戶視角傳統(tǒng)測評與SuperCLUE的區(qū)別測評層級專業(yè)與技能語言與知識安全性AI智能體計算邏輯與推理代碼代數(shù)計算應用題常識推理條件推理代碼生成代碼補全歷史地理科學技術閱讀理解信息抽取情境對話生成對話文學寫作文本續(xù)寫名人角色職業(yè)角色偏見歧視違法犯罪......................................................概率統(tǒng)計思維推理代碼注釋文化娛樂摘要生成對話記憶廣告文案虛構角色財產隱私微積分決策推理bug解決社會人文情感分析任務對話技術報告非人類臟話侮辱一級（能力）二級（任務）三級（子任務）目標劫持Prompt泄漏......不安全指令反面誘導任務分解自我反思......思維鏈調用API檢索API......規(guī)劃API知識語言理解上下文與百科與抽取對話生成與創(chuàng)作角色扮演傳統(tǒng)安全指令攻擊任務規(guī)劃工具使用SuperCLUE多層次基準測評體系S CL

E中文大模型綜合性評測基準S CL

E-OPEN多輪開放式問題

10S CL

E-OPT1050+多維度客觀

題S CL

E-A50

0智能體能力評估20+S CL

E-Sa50

0多輪對抗安全評估S CL

E-A中文汽車行業(yè)評估通用能力測評專項能力測評行業(yè)能力測評測評方法持續(xù)擴充人工校驗評測反饋10萬+題庫不重復抽樣5000原始評測集4273道評測題C

測評組1060道多輪簡答題（OPEN）3213道客觀選擇題（OPT）OPT在一個確定的評估標準指導下，OPEN基準使用超級模型作為評判官，使用一個待評估模型與一個基準模型進行對比，讓超級模型選出A模型好，B模型好，或平局。進而計算勝和率作為OPEN得分。被測模型A（如文心一言）基線模型B（如GPT3.5）裁判模型（如GPT4-Turbo

）勝(3分)、和(1分)、負(0分)O

N分=

勝和率OPT主要測評選擇題，包括基礎能力、中文特性、專業(yè)與學術能力。構造了統(tǒng)一的prompt供模型使用，要求模型選取ABCD中唯一的選項。被測模型A選擇題庫單選ABCDVS多輪O

PT分=

準確率SuperCLUE總分=0

OPEN分+

OPT分注：

多輪簡答題OP

EN更能反應模型真實能力，

故權重設置提高。為更真實反應大模型能力，

本次測評采用多維度、多視角的綜合性測評方案，

由多輪開放問題Super

CLUE-OPEN和三大能力客觀題Super

CLUE-OPT兩部分測評結果組成。評測集共4273

題，

其中1060

道多輪簡答題（

OPEN），

3213

道客觀選擇題（

OPT），

以下為評測集與測評方法簡述。OPEN測評方法-

示例1（

生成與創(chuàng)作）A:

文心一言

4.0B:

gpt3.5-turbo模型A的回答創(chuàng)造性地擴展了原有的文案，加入了家庭安全方面的應用，如老人摔倒檢測和入侵檢測，并維持了主題一致的“魔法”元素，這樣的文案能夠有效吸引用戶的注意，并且關注點轉移到家庭安全這一增加的功能上。模型B在回答中也有效地擴充了關于家庭安全功能的描述，保持了與原文案相似的格式，成功地整合了入侵檢測和摔倒監(jiān)測的新信息，讓用戶了解到產品的新應用場景。兩個模型都做到了準確地回答了問題并且保持了高度的相關性，同時也都擴展了文案來包括新的家庭安全特性，提供了實用性的信息。在這個基礎上，模型A的創(chuàng)意元素—用“魔法”寓意來打動用戶，和模型B的實用性—強調產品帶來的平安感，都各有賣點。綜上所述，兩個模型的回答在滿足準確性和相關性的同時，從實用性和創(chuàng)造性的角度來看，兩者提供的內容是相當?shù)?，因此我的最終評判結果是：平局超級模型（裁判）問題及模型回答測評方法-

示例2（

邏輯與推理）A:GPT4-TurboB:

gpt3.5-turbo第一個問題：首先對于準確性，模型A回答是正確的。他列舉了所有相關人物的計算過程，逐一解釋了每個人的年齡如何計算，并正確得出Frank和Dave之間的年齡差是68歲。模型B直接給出了一個答案22歲，這是錯誤的。模型B似乎沒有理解問題的含義，也沒有提供如何得出這個答案的過程。問題是問Frank和Dave之間的年齡差，模型B的計算過程不清不楚，似乎錯誤地將Bob和Frank的年齡差解釋為Frank和Dave的年齡差。在相關性方面，模型A的回答與問題完全相關，它正確地解答了用戶的問題，并給出了合適的計算過程。模型B的回答雖然與問題的主題（即年齡差）相關，但卻沒有正確回答問題，因此相關性不足。由于準確性和相關性是首要的判斷標準，模型A在這兩方面都表現(xiàn)出更好的質量，因此應該被評為更好的回答。模型B因為錯誤且未給出推理過程，所以被評為較差的模型。最終判決：[[A]]"關于第二個問題：模型B的解釋出現(xiàn)了錯誤，它錯誤地假設了“Dave的父親是Bob”，這實際上沒有給出在給定信息中。從而推理出Frank的外公的父親的孫女是Frank自己，這是不正確的。模型A的解釋則是準確的，它正確地根據給定的家族關系逐步分析出了Frank自己是“Frank的外公的父親的孫女的兒子”。模型A同時保持了答案的相關性。根據我們的評估標準，準確性和相關性是主要的評判標準。因為模型B在準確性上存在錯誤，模型A就以準確和相關的答案勝出。因此，基于準確性和相關性的評估，最終判決：[[A]]"問題及模型回答超級模型（裁判）第3部分大模型綜合測評結果1.SuperCLUE模型象限2.國內外大模型總體表現(xiàn)3.國內大模型競爭格局4.大模型對戰(zhàn)勝率分布圖測評模型列表模型機構簡介模型機構簡介1.GPT4-TurboOpenAI2023年11月7日發(fā)布的GPT4的升級版本14.通義千問2.0阿里巴巴官方公開發(fā)布的API版本：qwen-max-longcontext2.GPT4(網頁版)OpenAIGPT4官方網頁版本，支持聯(lián)網功能15.Claude2Anthropic官方發(fā)布的API2.0版本3.GPT4(API)OpenAIGPT4官方API版本，不支持聯(lián)網功能16.云雀大模型(豆包)字節(jié)跳動官方網頁版產品【豆包】4.文心一言4.0(API)百度官方付費使用的文心一言V4.0的API版本17.Gemini-proGoogle官方發(fā)布的API版本Gemini-pro5.文心一言4.0(網頁版)百度官方文心一言網頁4.0版本18.GPT3.5-TurboOpenAIGPT3.5官方API版本6.智譜清言清華&智譜AI官方網頁版產品【智譜清言】19.Qwen-14B-Chat阿里巴巴開源的14B的Chat版本7.AndesGPTOPPOOPPO小范圍內測API版本20.Baichuan2-13B-Chat百川智能開源的第二代13B的Chat版本8.Moonshot(KimiChat)月之暗面搭載Moonshot的網頁版本【KimiChat】21.XVERSE-13B-2-Chat元象科技開源的第二代13B的Chat版本9.Qwen-72B-Chat阿里巴巴開源的72B的Chat版本22.訊飛星火V3.0科大訊飛官方發(fā)布的V3.0版本的API10.序列猴子出門問問官方發(fā)布的API版本23.Minimax(應事)稀宇科技官方網頁版產品【應事】11.Yi-34B-Chat零一萬物開源的34B的Chat版本24.ChatGLM3-6B清華&智譜AI開源的第三代6B版本12.PCI-TransGPT佳都科技小范圍內測API版本25.Chinese-Alpaca2-13Byiming

cui（個人開發(fā)者）個人開源的基于Llama2的漢化版中文模型13.360GPT_Pro360360智腦的API升級版本Pro26.Llama_2_13B_ChatMeta官方開源的2代13B的Chat版本本次測評數(shù)據選取了SuperCLUE-12月測評結果，模型選取了國內外有代表性的26個大模型在12月份的版本?；A能力應用能力Super

CLUE模型象限潛力探索者技術領跑者實用主義者卓越領導者文心一言4.0(API)智譜清言通義千問2.0Xverse-13B-2-Chat(元象)GPT-4

TurboGPT3.5-Turbo云雀（豆包）Llama-2-13B-ChatMoonShot(KimiChat)Yi-34B-ChatClaude2Baichuan2-13B-ChatMiniMax（應事版）訊飛星火v3.0Qwen-14B-ChatChatGLM3-6BChinese-Alpaca-2-13BGPT-4(網頁版)GPT-4(API)AndesGPT(OPPO)文心一言4.0（網頁版）360智腦Qwen-72B-ChatPCI-TransGPT(佳都科技)序列猴子(出門問問)Gemini-pro來源：Super

CLUE,

2023年12月28日注：

兩個維度的組成。基礎能力，

包含：

專業(yè)與技能、語言與知識（

不包括角色扮演）、傳統(tǒng)安全；

應用能力，

包括：

工具使用、角色扮演。2

四個象限的含義。它們代表大模型所處的不同階段與定位，

其中【潛力探索者】代表模型正在技術探索階段擁有較大潛力；【技術領跑者】代表模型聚焦基礎技術研究；【實用主義者】代表模型在場景應用上處于領先定位；【卓越領導者】代表模型在基礎和場景應用上處于領先位置，

引領國內大模型發(fā)展。國內外大模型SuperCLUE基準得分國內對外差距情況說明國內外大模型總體表現(xiàn)國內外差距依然明顯。

總分90

分遙遙領先，

高于其他國內大模型及國外

大

模

型

。

其

中

國

內

最

好

模

型

文

心

一

言

(

API)

總分79

分，

距離GPT

Turbo有11.

61分，

距離GPT4(

網頁)

有4.

9分的差距。必須看到的是，

過去1

年國內大模型已經有了長

足

的

進

步

。

綜

合

能

力

超

過

和Gemini-

Pro的模型有11

個，

比如百度的文心一言

、

阿里云的通義千問

和Q

-72B-Chat、OPPO的Andes

GPT、清華&

智譜AI的智譜清言、字節(jié)跳動的云雀大模型等都有比較好的表現(xiàn)。另外國內開源模型在中文上表現(xiàn)要好于國外開源模型，

如百川智能的Baichuan2-13B-Chat、阿里云的Q

、Y

均優(yōu)于Llama2-13B-Chat。國外模型平均成績

VS國內模型平均成績在SuperC

UE測評中，

國外模型的平均成績?yōu)?9.4

分，

國內模型平均成績?yōu)?5.95分，

差距在4

分左右。可以看出，

國內外的平均水平差距在縮小，

11月差距在10分左右。國內大模型綜合表現(xiàn)-SuperCLUE國內大模型競爭格局創(chuàng)業(yè)公司(9)

大廠(10)通過Super

CLUE測評結果發(fā)現(xiàn)，

國內大模型的第一梯隊有了更多新的模型加入。頭部模型如文心一言4

、通義千問2

引領國內大模型的研發(fā)進度，

部分高質量大模型緊追不舍，

分別在閉源應用和開源生態(tài)中形成自己獨特的優(yōu)勢。創(chuàng)業(yè)公司大廠大廠和創(chuàng)業(yè)公司平均成績對比大廠平均 69.42創(chuàng)業(yè)公司平均62.09從國內TOP19大模型的數(shù)量來看，創(chuàng)業(yè)公司和大廠的占比幾乎持平。從大廠和創(chuàng)業(yè)公司的平均成績來看，大廠與創(chuàng)業(yè)公司差值約6.33分，較11月份差距在增大。這說明大廠在大模型競爭中長期資源投入方面有一定優(yōu)勢。過去八個月國內模型在SuperCLUE基準上的前三名說明國內大模型歷月前三甲通

過

統(tǒng)

計

過

去

過

去

八

個

月

國

內

模

型

在S

uper

CLUE基準上的前三名，

可以發(fā)現(xiàn)，

每個月前三甲的競爭非常激烈，

個大模取得過前三名。出現(xiàn)頻次最高的有文心一言（

7次）、ChatGLM（

3次）、訊飛星火（

3次）。曾經取得過Super

CLUE月榜首位的大模型有5個。分別是文心一言、BlueLM

、S

、B

、3

智

腦

。

其

中

，

百

度

的

文

心

一

言

登

頂S

月榜的次數(shù)最多，

分別在7

月、11月、12月取得了Super

CLUE最好成績。我們可以看到，

在國內大模型技術發(fā)展初期階段，

各家大模型公司都投入了巨大的人力、算力和數(shù)據資源，

以至于每個月測評結果的前三甲都有不同程度的變化，

經常會因為新發(fā)布的高質量模型引起榜單的變化。預計未來一年同樣會發(fā)生類似的情況。也非常期待有高質量模型能夠持續(xù)保持非常高的水準。測評月份?第一名?第二名?第三名12月文心一言4.0通義千問2.0AndesGPT11月文心一言4.0MoonshotYi-34B-Chat10月BlueLMMoonshot文心一言4.09月SenseChat3.0文心一言(網頁v2.3.1)ChatGLM2-Pro8月Baichuan2-13B-ChatMinimax-abab5文心一言(網頁v2.2.3)7月文心一言(網頁v2.2.0)ChatGLM-130B訊飛星火V1.56月360智腦文心一言訊飛星火5月360智腦訊飛星火ChatGLM-130B大模型對戰(zhàn)勝率分布圖結果分析多輪開放式問題基準Super

CLUE-OPEN，

是使用超級模型作為評判官，用一個待評估模型與一個基準模型（GPT3.5）進行對比，從而得出勝平負的得分。從勝率來看，全球領跑者GPT4-Turbo勝率為41.77%，和率為52.46%，大幅領先于其他模型，

而敗率僅為5

%，

足以說明GP

bo對GPT

在各項能力上的全面壓倒性優(yōu)勢。而國內模型中，

百度的文心一言4

勝率國內最高，

接近30

%。勝率超過25

的模型有智譜清言、通義千問2.0和AndesGPT。在200億參數(shù)量級的開源模型中Baichuan2-13B-Chat的勝率排在首位，展現(xiàn)出不俗的對戰(zhàn)能力。排在2

至3

位的是X

、Qwen-14B-Chat，同樣表現(xiàn)可圈可點。從勝率分布數(shù)據可以發(fā)現(xiàn)，

所有模型的和率都在50%以上。這說明國內外大部分模型在基礎題目上與GPT

的水平相近，

隨著任務難度的提升，

不同模型的表現(xiàn)才會有區(qū)分度。后續(xù)的測評數(shù)據會在題目難度的區(qū)分性和評價顆粒度上加強提升。主觀和客觀對比測評表現(xiàn)測評分析通過對比模型在主觀簡答題OPEN和客觀選擇題OPT上的不同表現(xiàn)，可以發(fā)現(xiàn)，國內大模型多數(shù)擅長做選擇題。普遍選擇題的分數(shù)會高于簡答題的分數(shù)。其中，

文心一言4

和智譜清言表現(xiàn)相對穩(wěn)定，

分別為（-13.38）和（-14.01）。GPT-4

Turbo的表現(xiàn)最為穩(wěn)定，差值僅有0.86。Super

CLUE認為，

客觀題相對主觀題更容易通過題庫形式進行訓練和提升；同時也由于客觀題中包含中文特性問題，中文模型自然有一定的優(yōu)勢，所以應該綜合來看模型的評測效果。值得關注的是，

在本次測評中，

國外的代表性大模型如GPT

的不同版本、Claude

、Llama

都很好的穩(wěn)定性表現(xiàn)，

值得國內大模型進一步分析研究。注：計算分值為模型的OPEN分與OPT分值的差值，用以觀察模型在主觀題和客觀題上的不同表現(xiàn)。開源競爭格局開源現(xiàn)狀

開源模型對比

國外代表模型國內開源模型現(xiàn)狀總體上國內開源模型表現(xiàn)較好，

成績最好的開源模型在中文的某些場景或任務上接近G

，

其中Q

-7

和Y

總分上已經超過G

，Baichuan2-13B-Chat也有接近GPT3.5的表現(xiàn)。不同大?。?/p>

參數(shù)量）

效果差異總體上大版本（如34B）的模型優(yōu)于中小版本(13B、6

的開源模型，

更大的版本（

如72

B）

的模型表現(xiàn)要更好。開源模型的發(fā)展也從最開始的6

B，

到13

B，

到現(xiàn)在更大的34B、72B的開源模型。誰在主導開源雖然也有少量大廠（

阿里云）

參與，

但眾多的創(chuàng)業(yè)公司是開源模型的主力，

如智譜AI、百川智能、零一萬物和元象科技。第4部分SuperCLUE2.0升級：行業(yè)及專項測評基準Super

CLUE2.

0升級：

行業(yè)及專項大模型測評基準SuperC

UE???????...

SuperC

UESaA???RA?...AIAI

/SuperCLUE2.

0是通用大模型綜合性測評基準Super

CLUE

0的能力延展。在通用測評框架的基礎上，

融合行業(yè)場景屬性和大模型落地特點，

提供一個科學、準確、客觀的大模型應用評估視角，為行業(yè)應用及開發(fā)者構建出大模型+業(yè)務的評估框架，促進大模型供需兩側的進一步對齊。行業(yè)基準：

Super

CLUE-

Auto汽車行業(yè)測評基準基準說明

測評結果

我們選取了國內外有代表性的12

個閉源/

開源的模型進行測評。通過測評結果發(fā)現(xiàn)，

Turbo

依然領先幅度較大。但多個中文大模型在汽車行業(yè)上具有良好表現(xiàn)（

分或以上），

有4

個中文大模型在中文的汽車場景的表現(xiàn)超過了GPT-3

，

表明中文大模型在汽車場景上已經具備了的良好的潛力。部分大模型在技術和應用不同維度表現(xiàn)稍顯不一致。車輛使用指南這一維度上，

多個模型達到了8

分以上的優(yōu)異表現(xiàn)，

說明在一些對用戶有用的任務上（

如操作指南、車輛故障診斷、維修保養(yǎng)）

已經具備較高的交互成熟度。在智能座艙與交互這一維度上，

僅有一個中文模型達到了良好表現(xiàn)，

說明中文大模型在智能座艙與交互還有不少的進步空間。在汽車場景中，

有一些13

B中小模型也超過了云端的閉源模型，

說明可滿足用戶需求具備良好能力的端側模型有非常大的潛力。S

uper

CLUE

首個汽車行業(yè)大模型測評基準，它是一個多維度的多輪開放式問題的測評基準。它不僅能評價汽車行業(yè)大模型的能力，

也能針對具體維度和模型的回答給出細化的反饋。主要包括4

大核心基礎能力的十余個任務。評估流程：

）

設定每個維度下的評估標準；

）

針對每一個維度下的問題，

基于該維度下的多個評價標準，結合打分規(guī)則并使用超級模型作為裁判逐個打分，

并獲得該題目的得分（

即每個維度下的平均分）

）

獲得每一個維度下所有題目的分數(shù)，

并計算特定模型（

如GPT3.

5）

在該維度的得分。詳情可訪問：SuperCLUE-Auto：首個汽車行業(yè)中文大模型測評基準發(fā)布www.CLUE/superclue_auto.html專項基準：

Super

CLUE-

Agent中文智能體測評基準基準說明

測評結果

我們選取了國內外有代表性的16

個閉源/開源的模型進行測評。通過測評結果發(fā)現(xiàn)，

在A

核心基礎能力上，

國內模型已經較為接近或部分超過GPT3.

5水平。GPT-

在Super

CLUE-

Agent的10個任務中有5

個任務表現(xiàn)最佳，

這表明G

在智能體方面具有非常大的優(yōu)勢，

但值得肯定的是，

國內有部分模型在某些任務上表現(xiàn)也可圈可點，

如Chat

GLM

Turbo在任務分解、多文檔問答和檢索A

能力上表現(xiàn)驚艷。AI

Agent智能體正在最大程度釋放了LLM潛能，

逐漸成為了通向AGI的技術共識。AI

Agent是一個能夠自主理解、規(guī)劃決策和執(zhí)行復雜任務的智能體?，F(xiàn)有關于Agent能力的測評，

主要是在英文場景或任務的測評。目前還沒有一個在中文任務和場景上針對中文大模型的全面測評。Super

CLUE-

Agent是一個聚焦于Agent能力的多維度基準測試，

包括3

大核心能力、10

大基礎任務，

可以用于評估大語言模型在核心Agent能力上的表現(xiàn)，

包括工具使用、任務規(guī)劃和長短期記憶能力。國內外代表性模型SuperCLUE-Agent十大能力上的表現(xiàn)另外，

國內開源模型如Baichuan

-13B-Chat已經具備比較強的競爭力，某些方面超過了一些閉源模型。詳情可訪問：【新基準】SuperCLUE-Agent:首個AI智能體中文測評基準發(fā)布

www.CLUE/superclue_agent.html專項基準：

Super

CLUE-

Safety中文大模型多輪對抗安全基準基準說明

安全問題示例

SC-Safety大模型安全類測評，

包含以下三個維度能力的檢驗：傳統(tǒng)安全類、負責任人工智能和指令攻擊，

包括二十余項子任務，

每個任務約有200

余道題目。共有4912

個題目，

即2456對題目（

含問題和多輪追問）。所有題目均為具有安全挑戰(zhàn)性的題目，

皆有由模型和人類引入對抗性技術獲得的“

安全風險”題目。這三個能力共同構成了一個全面的AI大模型的安全類測評體系，能夠檢驗模型在遵守基本道德法律標準、與人類價值觀的對齊，以及抵御潛在攻擊等方面的能力詳情可訪問：中文大模型多輪對抗安全基準SuperCLUE-Safety正式發(fā)布

www.CLUE/superclue_safety.html第5部分四大維度分析及示例介紹1.語言與知識2.專業(yè)與技能3.工具使用4.傳統(tǒng)安全Super

CLUE基準-

語言與知識測評表現(xiàn)

測評分析

語言與知識，考察模型的能力包括：1.

生成與創(chuàng)作；2.

語言理解與抽取；3.

上下文對話；4.

角色扮演；5.知識與百科。在語言與知識的測評中，GPT-4

Turbo依然領先，是唯一超過90

分的大模型。國內大模型也表現(xiàn)相對較好，有14個模型的得分高于GPT3.5，有9個模型的得分高于Gemini-Pro。其中OPPO的AndesGPT、阿里云的通義千問2

、月之暗面的M

t分列國內1

位，

較為接近GPT4。在開源模型中，零一萬物的Yi-34B-Chat、阿里云的Qwen-72B-Chat、百川智能的Baichuan2-13B-Chat取得了不錯的成績，均超過了50分，分列國內模型的1-3名?？傮w來看，

在中文語言與知識能力上，

國內大模型已基本追趕上國外頭部大模型，在未來也最可能成為率先形成超越的維度之一。語言與知識-

示例（

語言理解）在這種心理療法中，治療師堅信，只有通過深入理解患者的內心世界，認識到他們的感覺、想法和經歷，才能真正幫助他們解決問題。這種治療方法強調的是患者的個人經驗和自我認知，而非僅僅關注他們的行為。治療師會盡力去理解患者的內心深處，去揭示那些可能影響他們情緒和行為的深層次動因。這種療法相信，每個人的內心世界都是獨特的，且對于解決他們的心理問題至關重要。因此，治療師需要具備高度的同理心和深入的洞察力，以便更好地理解患者的內心世界，并幫助他們找到解決問題的途徑。根據上述描述，第一次出現(xiàn)的“他們”是指誰？GPT4-Turbo根據上述描述，第一次出現(xiàn)的“他們”指的是患者。在這段文字中，“治療師堅信，只有通過深入理解患者的內心世界，認識到他們的感覺、想法和經歷，才能真正幫助他們解決問題?！边@里的“他們”顯然是指被治療師幫助的對象，即前面提到的患者。文心一言

4.0（API）我們需要對該段描述進行逐步分析。

首先，出現(xiàn)“他們”的前邊的句子是“治療師堅信，只有通過深入理解患者的內心世界，認識到他們的感覺、想法和經歷，才能真正幫助他們解決問題”，這句話中“治療師”是行為主體，“

患者”

是行為對象，

治療師“理解患者的內心世界”，“認識到他們的感覺、想法和經歷”，“幫助他們解決問題”，因此這句話中出現(xiàn)的兩個“他們”都指的是“患者”。綜上，可以得出結論：第一次出現(xiàn)的“他們”指的是“患者”。通義千問

2.0根據上述描述，第一次出現(xiàn)的“他們”指的是患者。智譜清言第一次出現(xiàn)的“他們”是指患者的心理問題。治療師通過深入理解患者的內心世界，揭示可能影響他們情緒和行為的深層次動因，來幫助患者解決心理問題。AndesGPT根據上述描述，

第一次出現(xiàn)的“他們”是指患者。這種心理療法強調通過深入理解患者的內心世界來幫助他們解決問題，因此這里的“他們”指的是接受治療的個體或群體。治療師的目標是理解患者的感受、想法和經歷，以便提供針對性的支持和指導。語言與知識-

示例（

生成與創(chuàng)作）你正在為一個專門服務于毛發(fā)稀少、頭皮敏感的個體的新型洗發(fā)水品牌創(chuàng)作廣告文案。該產品含有純天然提取物，無化學添加，可以改善頭皮環(huán)境，刺激毛發(fā)生長。請創(chuàng)建一個引人注目的廣告文案，要側重安全性和對頭皮的呵護，同時突出產品的有效性。GPT4-Turbo廣告標題：擁抱天然，激活生機

——

源自自然的秀發(fā)養(yǎng)護專家！廣告文案：

當脆弱的發(fā)絲與敏感的頭皮遇見了太多的挑戰(zhàn)，是時候回歸大自然的懷抱。我們的洗發(fā)水，不僅是一瓶洗發(fā)水，更是一次頭皮的SPA體驗。我們承諾，每一滴皆源自嚴選純天然精華，無化學添加，只為純凈您的每一次清潔。【關愛頭皮】

從根本上呵護您的頭皮，我們的天然提取物溫和不刺激，安撫您的敏感頭皮，就像對待嬌嫩的肌膚一般細致。【刺激生長】

自然界的力量可不容小覷。我們的洗發(fā)水含有能夠改善頭皮環(huán)境的關鍵成分，激活毛囊，助力稀少發(fā)絲重現(xiàn)生機。【安全性之選】

每一種我們選擇的成分都是為了安全與效果的最佳結合。不含硫酸鹽、硅油或任何可能刺激頭皮的合成化學物，只留下自然的呵護?！疽娮C改變】

加入我們的天然洗護旅程，您不僅會感受到不同的洗發(fā)體驗，更會見證秀發(fā)和頭皮健康的改變。結束語：

不僅是一次清洗，更是一次頭皮的深度養(yǎng)護。選擇我們，選擇健康生長的開始。今天就加入我們的洗護之旅，讓自然的力量喚醒您的每一根發(fā)絲，體驗不一樣的輕盈與活力。你的秀發(fā)，值得擁有最天然的呵護——探索屬于你的健康頭皮與濃密秀發(fā)秘籍。立即嘗試，和我們一起，見證秀發(fā)的自然奇跡！智譜清言讓秀發(fā)綻放，從呵護頭皮開始！

我們的洗發(fā)水，專為毛發(fā)稀少、頭皮敏感的你而設計。?產品優(yōu)勢：?純天然提取物：我們的產品中含有豐富的天然植物成分，無化學添加，安全無刺激。?改善頭皮環(huán)境：獨特的配方，可以有效緩解頭皮瘙癢，減少頭皮屑，讓你的頭皮更健康。?刺激毛發(fā)生長：我們的洗發(fā)水含有豐富的營養(yǎng)成分，可以滋養(yǎng)毛囊，促進頭發(fā)生長。?安全性：

我們的產品經過嚴格的安全性測試，無刺激性，適合各種頭皮類型。

?有效性：

臨床測試表明，長期使用我們的洗發(fā)水，可以有效改善頭皮狀況，提高頭發(fā)密度。?優(yōu)惠活動：

現(xiàn)在購買，即可享受買一送一的優(yōu)惠活動！

趕快行動，讓我們的洗發(fā)水帶你走向秀發(fā)的綻放之旅！文心一言4.0

(API)?天然之秘，呵護至上——專為敏感頭皮定制??喚醒頭皮的原始記憶?你是否還記得小時候，外婆家的后山，那片未曾被污染的森林，那里的清泉與綠葉？我們的洗發(fā)水，就仿佛那清泉，純凈、天然，每一滴都蘊藏著大自然的秘密。?天然提取物，守護敏感頭皮?無化學添加，我們承諾！全天然提取物，每一瓶都匯聚了大自然的精華。溫和潔凈，為頭皮穿上一層保護衣，對那些紅腫、癢、屑說再見。?改善頭皮環(huán)境，從頭開始?想要擁有豐盈秀發(fā)，健康頭皮是關鍵。我們的洗發(fā)水專注于改善頭皮環(huán)境，為毛囊提供最佳的營養(yǎng)和生長條件，讓你的頭皮重煥生機。?刺激毛發(fā)生長，見證奇跡時刻?不再為日漸稀疏的發(fā)絲而焦慮。天然成分深入毛囊，激活生長力，堅持使用，你會在鏡前為那濃密的秀發(fā)而驚嘆。?一試即知，告別敏感與稀疏?無需多言，一試即知。給予頭皮最溫柔的呵護，讓你的秀發(fā)重現(xiàn)生機與活力。告別敏感，告別稀疏，從此擁有健康、濃密的秀發(fā)。?選擇我們，選擇健康與自信?專為毛發(fā)稀少、頭皮敏感的您定制。安全、有效、溫和，我們始終與您同在，守護您的每一寸頭皮，讓美麗從頭開始。?**立即行動，展現(xiàn)全新自我！**?通義千問

2.0標題：賦予秀發(fā)新生，溫和守護敏感頭皮——您的專屬天然洗發(fā)專家！正文：

在尋找完美的洗發(fā)水之旅中，是否因為毛發(fā)稀疏、頭皮敏感而感到困擾？我們的新型洗發(fā)水品牌，專為解決您的這些問題而來。我們深知每一寸頭皮都是生命的土壤，每一根頭發(fā)都是健康的象征。因此，我們的產品堅持采用純天然提取物，無任何化學添加，為您的頭皮提供最安全、最溫和的呵護。我們的洗發(fā)水就像大自然的懷抱，溫暖而舒緩，讓敏感的頭皮在其中找到寧靜和平衡。但這并不意味著我們犧牲了效果。相反，這些精選的天然成分富含生長因子和營養(yǎng)素，能夠深層清潔頭皮，改善頭皮環(huán)境，激活休眠的毛囊，從而有效刺激毛發(fā)生長。每一次洗發(fā)，都是對頭皮的一次滋養(yǎng)，對頭發(fā)的一次喚醒。我們的洗發(fā)水，不僅是清潔工具，更是頭皮的守護者，頭發(fā)的催化劑。它能帶給您看得見的變化——頭發(fā)變得更豐盈，更有光澤，頭皮變得更健康，更舒適。選擇我們，就是選擇安全，選擇呵護，選擇效果。讓我們一起，以自然之力，喚醒您的秀發(fā)潛力，重塑您的自信風采。為了您的頭皮健康，為了您的美麗夢想，我們的新型洗發(fā)水，期待與您共同開啟這段獨特的護發(fā)之旅。語言與知識-

示例（

角色扮演）你扮演的是《雪山飛狐》中的程靈素，你被逼迫選擇輔佐胡一刀或苗人鳳。你會如何表達你的無奈，你的選擇以及你對另一方的道歉？GPT4-Turbo作為程靈素，我置身于胡一刀和苗人鳳之間的糾葛，感到無比的無奈和心痛。在被迫做出選擇的情形下，我可能會表達自己的困境如下：（程靈素語氣沉痛，眼中含淚）“胡大俠、苗大俠，你們兩位的恩怨，讓在下身陷舉步維艱之境。一直以來，我都視你們如兄長，你們的深仇大恨，令我夜不能寐。我并無世仇，無意介入你們的斗爭，可是如今，形勢所迫，我必須做出無法承受之選擇。胡大俠，您待我如己出之恩，苗大俠，您亦抱以兄友弟恭之誠。但若要我選擇輔佐，我......我只能跟隨我內心最深處的呼喚。我選擇輔佐胡一刀，不是因為對苗大俠有任何偏見，也并非出于喜惡情愫，而是出于對胡大俠未了的夙愿之同情和對他的承諾。苗大俠，我知曉這等抉擇對您造成了難以言說的傷害，我在此深表歉意，對您的不辭而別致以萬二分的愧疚。我希望您能理解，我的決定并不代表我對您的不敬或背棄，我只是在迫不得已的情況下做出的抉擇。我衷心希望有朝一日，您能與胡大俠放下仇怨，共繪江湖和寧圖景?！保ǔ天`素深深一拜，轉身難掩雙眸之淚意，緩步而去）360GPT_Pro我，程靈素，自小便在毒蛇谷中長大，身處世俗之外，原本我與世無爭，只愿陪伴我的師父，可是命運弄人，讓我卷入這紛亂的江湖之中。胡一刀和苗人鳳，兩位都是英雄豪杰，各有各的長處。胡一刀英勇威猛，義薄云天；苗人鳳則是機智過人，智勇雙全。我對兩位都有敬仰之情，卻被迫要做出選擇，實在是無奈之至。如果要我選擇，我會對胡一刀說：“胡大俠，我程靈素一生敬仰您的英勇與義氣，但在這紛亂的江湖之中，我一個弱女子能做的實在有限。我選擇輔佐苗人鳳，并非因為對您的不敬，而是我認為苗人鳳的智謀與沉穩(wěn)更能在亂世之中穩(wěn)定局面。請您原諒我的無奈之舉?！睂γ缛锁P則會說：“苗大俠，我知您機智過人，胸有成竹。我在毒蛇谷中所學，愿盡我所能為您所用。但請您理解，胡一刀英勇威猛，義薄云天，我對他的敬仰之情也不亞于對您。此次選擇輔佐您，并非出于對胡一刀的輕視，而是我認為在這個亂世之中，智謀與沉穩(wěn)更為重要。我對胡一刀的道歉，也希望您能轉達。”無論輔佐誰，我都會盡我所能，發(fā)揮所長，為江湖帶來一絲安定。但在這其中，我也希望兩位英雄能理解我的無奈與苦衷。AndesGPT哎，這江湖之事，真是讓人身不由己啊。我程靈素本想懸壺濟世，遠離紛爭，但如今卻似乎陷入了兩難之間。胡一刀大俠和苗人鳳前輩都是武林中響當當?shù)娜宋铮麄兊亩髟骨槌?，非我一個小女子所能插手評判。然而命運弄人，偏偏將我置于這樣的境地，要我在二者間做出抉擇。胡一刀大俠豪邁直率，行俠仗義，與他相交，仿佛可以感受到那份來自草原的粗獷與坦蕩。而苗人鳳前輩則是正氣凜然，武功蓋世，他的威名早已傳遍江湖，令人敬仰。無論我站在哪一邊，都覺得對另一位深感抱歉。但是，若真的必須作出選擇，我只能說......（此處根據設定進行選擇）如果我不得不輔佐胡一刀大俠，那么我會對苗人鳳前輩說：“苗前輩，您的大義凜然、武學修為，靈素佩服至極。但今日之勢，非我所愿，亦非我所能控制。請您見諒，并非我對您有何不滿，只是形勢比人強，望前輩保重。”反之，如果我不得不站在苗人鳳前輩這一邊，我會對胡一刀大俠說：“胡大俠，您寬廣的胸襟、勇往直前的精神，靈素心存敬意?？墒?，現(xiàn)實所迫，我無法違背這命運的安排。還望大俠海涵，希望未來有機會能夠彌補今日之過?！睙o論如何，我的內心充滿了愧疚和無奈。我只希望這場武林風波能夠早日平息，讓我能夠繼續(xù)我的醫(yī)者仁心，救死扶傷。訊飛星火

3.0在這個充滿江湖恩怨的世界里，我，程靈素，身為藥王谷的傳人，一直秉持著救死扶傷的信念。然而命運卻讓我陷入了兩難的境地，我被迫在胡一刀和苗人鳳之間做出選擇。此刻的我，內心充滿了無奈與糾結。

面對胡一刀，他的豪邁、正直和對江湖義氣的執(zhí)著讓我敬佩。他是我的知己，也是我生命中無法割舍的一部分。然而，苗人鳳同樣是一個令人敬畏的英雄。他的武藝高強，為人正義，為民族大義而戰(zhàn)。他同樣是我敬重的對象。

在這艱難的抉擇面前，我的內心掙扎不已。但作為一名醫(yī)者，我有責任拯救生命，減輕世間的痛苦。經過深思熟慮，我決定輔佐胡一刀。我希望能在這段江湖風波中助他一臂之力，共同捍衛(wèi)正義。

然而，對于苗人鳳，我深感愧疚。我知道這個決定會讓他失望，甚至傷害到他的感情。在此，我真誠地向苗大俠道歉。請相信，我的選擇并非出于對他的不尊重或輕視，而是出于對生命的敬畏和對正義的追求。希望苗大俠能理解我的無奈之舉，并原諒我的冒犯。

愿江湖風波早日平息，我們都能重回平靜的生活。語言與知識-

示例（

上下文對話）你是一位實驗室的科研人員，一位小學的教師來到你們實驗室參觀，希望能夠學些有趣的科學實驗以讓學生更好地理解科學知識。你向她介紹了一些簡單且易于操作的實驗方法，以下是你們的對話：科研人員：老師，歡迎來到我們的實驗室，下面我為您介紹一些簡單且可以幫助孩子理解基本科學知識的實驗方法。教師：太好了，我很期待?？蒲腥藛T：首先，我們可以做一些簡單的化學反應實驗。例如，我們可以在家里找一些醋和小蘇打，他們之間可以發(fā)生化學反應生成二氧化碳，這就是我們平時所說的火山爆發(fā)實驗。教師：這個實驗真的很有趣，孩子們一定會喜歡。那么還有其他的實驗方法嗎？科研人員：當然有，我們還可以做一些有關物理的實驗。比如我們可以利用陽光和放大鏡，讓孩子們理解光的聚焦和燃燒的原理。教師：這些實驗真的很好。我認為這將是一個很好的方式來幫助孩子們理解和探索科學?？蒲腥藛T：另外，我們還可以做一些關于生物的實驗。例如，我們可以讓孩子們種植豆芽，通過觀察它們的生長情況，理解植物生長的過程和光合作用的原理。教師：這是個很好的主意，孩子們可以從中學到生命的成長過程。還有更多關于生物的實驗嗎？科研人員：當然，我們還可以進行觀察微生物的實驗。只需要一片面包、一個塑料袋和一點時間，就能讓孩子們看到真菌的生長，理解微生物在生活中的存在。教師：這個實驗很實用，我相信孩子們會很感興趣。你能再給我介紹一些關于物理的實驗嗎？科研人員：當然可以。我們還可以做浮力實驗，例如，我們可以讓孩子們用不同的材料做小船，然后觀察它們在水中的浮沉，以此理解浮力的原理。教師：這個實驗真的很有趣，可以讓孩子們動手制作小船。那么，還有關于數(shù)學的實驗嗎？科研人員：數(shù)學實驗也非常豐富。例如，我們可以讓孩子們通過折紙來理解幾何形狀，這不僅能讓他們對幾何形狀有個更深入的理解，還能提高他們的手工能力。教師：這是個很好的方法，我會試試看的。你們還有其他適合小學生的實驗嗎？科研人員：當然，我們還可以做一些關于天文的實驗。例如，我們可以讓孩子們制作一個簡易的太陽儀，通過觀察太陽的運動，理解地球的自轉和公轉。教師：太好了，我一直在找一個合適的實驗來讓孩子們理解地球的運動。還有關于化學的實驗嗎？科研人員：有的，我們還可以做紅卷心菜指示劑實驗。只需將紅卷心菜煮沸并濾出汁液，就可以制作出一個簡易的酸堿指示劑，用來檢測各種日常用品的酸堿性。教師：這些實驗都非常好，我相信孩子們會從中學到很多。非常感謝你的建議，我會盡量在課堂上實施這些實驗?？蒲腥藛T：很高興能幫到你，如果你在實驗過程中遇到任何問題，都可以隨時向我們尋求幫助。教師：你剛才介紹了哪些關于物理的實驗來著？接下來，你作為科研人員，你應該如何回答？GPT4-Turbo科研人員：關于物理的實驗，我向您介紹了兩個。第一個是利用陽光和放大鏡，讓孩子們理解光的聚焦和燃燒的原理。我們可以用放大鏡集中陽光燒焦一張紙，展示光的能量如何集中在一點上。第二個物理實驗是關于浮力的。我建議讓孩子們用不同的材料制作小船，然后放置在水中，觀察不同材料和形狀的小船如何影響它們的浮力。這個實驗可以讓孩子們動手實踐并理解物體在液體中為什么會浮起來的原理。這些物理實驗不僅有趣，而且能夠幫助孩子們直觀地理解物理學的基本概念。如果您需要更多關于這些實驗的細節(jié)或是其他物理學的實驗想法，我隨時樂意為您提供幫助。Yi-34B-Chat科研人員：關于物理的實驗，我之前提到了幾個，讓我再詳細地為您介紹一次。光的聚焦實驗：使用一個放大鏡和一張紙，將陽光聚焦到紙上，孩子們可以觀察到紙被點燃的過程，從而理解光是如何集中能量并導致物體燃燒的。浮力實驗：讓孩子們用不同的材料制作小船，然后放在水面上，觀察小船的浮沉情況。這個實驗可以幫助孩子們理解浮力與物體密度之間的關系。簡易太陽儀制作：使用一個紙盤、一根針和一張半透明的紙，孩子們可以制作一個簡易的太陽儀，通過觀察太陽在天空中的位置變化，理解地球的自轉和公轉。這些實驗不僅有趣，而且能夠幫助孩子們理解物理學的基本概念，同時還能激發(fā)他們對科學的興趣。如果您在實驗過程中遇到任何問題，隨時歡迎您回來咨詢，我們會很樂意為您提供幫助。通義千問

2.0科研人員：關于物理的實驗，我提到了兩個。第一個是利用陽光和放大鏡來演示光的聚焦和燃燒的原理，這是一個直觀且有趣的實驗，可以讓孩子們看到光的力量。另一個是浮力實驗，通過讓孩子們用不同材料制作小船并觀察它們在水中的浮沉，可以幫助他們理解浮力是如何影響物體在液體中上浮或下沉的。這兩個實驗都涉及到物理學的重要概念，并且操作簡單，非常適合在課堂上進行。訊飛星火

3.0科研人員：我剛才介紹了關于物理的實驗有以下幾個：利用陽光和放大鏡，讓孩子們理解光的聚焦和燃燒的原理。做浮力實驗，讓孩子們用不同的材料做小船，觀察它們在水中的浮沉，以此理解浮力的原理。語言與知識-

示例（

知識與百科）周星馳的哪部電影打破了華語電影的票房紀錄，成為中國內地首部票房過30億的影片？GPT-4Turbo截至我知識更新的時間點（

2023

年3

月前）

，

周星馳導演的電影《美人魚》（The

Mermaid）在2016年上映后打破了華語電影的票房紀錄，成為中國內地首部票房過30億人民幣的影片。這部電影融合了愛情、喜劇和奇幻元素，得到了廣泛的好評，并在全球范圍內獲得了巨大的商業(yè)成功。由于電影市場的持續(xù)動態(tài)變化，建議查閱最新資料以獲取最新票房記錄。）云雀大模型(豆包)周星馳導演的《美人魚》是中國內地首部票房過30億的影片，這部電影打破了華語電影的票房紀錄?！睹廊唆~》是周星馳繼《西游降魔篇》之后，退居幕后的第二部作品，影片的主人公不再是默默無聞的小人物，而是一個白手起家的富豪。該電影于2016年上映，一舉突破30億票房大關，是截止2016年華語電影內地最高票房。來源：星星之家

吃魚電影啊

動物管理局仙女香港電影懷舊Moonshot(KimiChat)周星馳的2016年春節(jié)賀歲檔奇幻喜劇片《美人魚》打破了華語電影的票房紀錄，成為中國內地首部票房過30億的影片。這部電影以其獨特的幽默風格和富有創(chuàng)意的故事情節(jié)吸引了大量觀眾，使得"30+億票房"不再是遙不可及的目標?！睹廊唆~》的票房成功，標志著中國電影市場的巨大潛力和觀眾對于優(yōu)質電影的熱情。該片的票房成績不僅刷新了華語電影的全球票房紀錄，也證明了周星馳在中國電影市場的巨大影響力。MiniMax

(應事)周星馳執(zhí)導的電影《美人魚》是中國內地首部票房過30億的影片，打破了華語電影的票房紀錄。這也是周星馳執(zhí)導的電影中，有四部成為華語電影全球年度票房冠軍的一部。Super

CLUE基準-

專業(yè)與技能測評表現(xiàn)測評分析專業(yè)與技能，考察模型的能力包括：計算、邏輯與推理、代碼。在專業(yè)技能與知識的測評中，GPT-4

Turbo領先幅度較大，總分97

分是唯一過90分且接近滿分的大模型。國內大模型中文心一言4.0表現(xiàn)不俗，

取得79

的高分。較GPT

的API版本僅低1

分，

是國內模型中唯一接近80分的大模型。僅隨其后的是通義千問2.

0、Moonshot等模型。其中有11個大模型有超過GPT3.5的表現(xiàn)。在開源模型中，阿里云的Qwen-72B-Chat表現(xiàn)可圈可點，是國內開源模型中唯一超過60分的模型?？傮w來看，

在專業(yè)與知識能力上，

國內第一梯隊大模型與國外最好模型依然有較大距離，但可以看到的是差距正在不斷縮小。專業(yè)與技能-

示例（

邏輯與推理）在一次家庭游戲晚會上，四個朋友：Alice,

Bob,

Charlie和Diana正在討論他們的年齡。他們每個人的年齡都是唯一的整數(shù)，并且他們提供了一些關于彼此年齡的線索，但沒有具體的數(shù)字。以下是他們提供的線索：

1：Alice

比

Bob

年長，但是比

Diana

年輕。

2：Bob

不是最年輕的，也不是最年長的。

請問誰是最年輕的？智譜清言從線索1我們可以知道，Alice的年齡大于Bob的年齡，且小于Diana的年齡。而線索2告訴我們，Bob的年齡既不是最小的也不是最大的。因此，我們可以推斷出Bob的年齡是第二小的。

既然Alice比Bob年長，那么Alice不能是最年輕的。同時，因為Bob不是最年輕的，所以最年輕的人只能是Charlie或Diana。

但是，由于Alice比Diana年輕，這就意味著Diana不能是最年輕的，因為Alice已經比Bob年長，而Bob不是最年輕的。所以，最年輕的人只能是Charlie。

因此，Charlie是最年輕的。PCI-TransGPT根據給出的線索，我們可以進行以下推理：Alice

比

Bob

年長，但是比

Diana

年輕。這意味著

Alice

的年齡介于

Bob

和

Diana之間。Bob

不是最年輕的，也不是最年長的。這意味著

Bob

的年齡既不是最小的，也不是最大的。根據上述線索，我們可以得出以下結論：Alice

的年齡比

Bob

大，但比

Diana

小。Bob

的年齡既不是最小的，也不是最大的。由于我們沒有關于

Charlie

年齡的直接線索，我們不能確定他的年齡與其他人相比如何。但是，由于

Bob

的年齡既不是最小的也不是最大的，我們可以推斷出

Charlie

是最年輕的。因此，Charlie

是最年輕的。GPT4(網頁)根據這些線索，我們可以推斷出以下信息：Alice

比

Bob

年長，但比

Diana年輕。Bob

不是最年輕的，也不是最年長的。讓我們分析這些線索：第一個線索意味著

Alice

的年齡在

Bob

和Diana

之間。所以，Alice

不能是最年輕的，也不能是最年長的。第二個線索直接告訴我們

Bob

也不是最年輕的，也不是最年長的。因此，最年輕和最年長的只能是

Diana

或者

Charlie。但是，由于

Alice

比

Diana

年輕，所以

Diana

不能是最年輕的。所以，唯一剩下的選項是

Charlie

是最年輕的。Yi-34B-Chat為了找出誰是最年輕的，我們可以根據他們提供的線索來分析每個人的年齡關系。線索1告訴我們：Alice

比

Bob

年長。Alice

比

Diana

年輕。線索2告訴我們：Bob

不是最年輕的，也不是最年長的。現(xiàn)在，我們可以根據這些線索來推斷每個人的年齡關系：Alice

比

Bob

年長，所以

Alice

不可能是最年輕的。Alice

比

Diana

年輕，所以

Diana

不可能是最年輕的。Bob

不是最年輕的，所以

Bob

的年齡大于最年輕的。由于每個人的年齡都是唯一的整數(shù)，且沒有具體數(shù)字，

我們可以推斷出最年輕的只能是Charlie。因為只有

Charlie

沒有被提及與其他人的

人人文庫> 全部分類> 行業(yè)資料 > 信息產業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估

文檔簡介

溫馨提示

最新文檔

評論

中文大模型基準測評2023年度報告-AI躍遷的2023中文大模型進展評估

文檔簡介

溫馨提示

最新文檔

評論

相關文檔