SuperBench大模型綜合能力評測報(bào)告

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-05-03 格式：DOCX 頁數(shù)：47 大小：575.69KB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

隨著模型能力的提升，對模型安全性和價(jià)值觀的評估、監(jiān)管與強(qiáng)化逐漸成為研究人員關(guān)注的重點(diǎn)。加強(qiáng)對潛在風(fēng)險(xiǎn)的研判，確保大模型的可控、可靠和可信，是未來“隨著模型能力的提升，對模型安全性和價(jià)值觀的評估、監(jiān)管與強(qiáng)化逐漸成為研究人員關(guān)注的重點(diǎn)。加強(qiáng)對潛在風(fēng)險(xiǎn)的研判，確保大模型的可控、可靠和可信，是未來“AI可持續(xù)發(fā)展”的關(guān)鍵問題。隨著語言模型能力的增強(qiáng)，更具應(yīng)用價(jià)值的代碼模型逐漸出現(xiàn)。研究人員發(fā)現(xiàn)，基于代碼生成任務(wù)訓(xùn)練的模型在測試中展現(xiàn)出更強(qiáng)的邏輯推理能力，代碼模型成為研究熱點(diǎn)。代表工作：Codex、CodeLLaMa、CodeGeeX等。基于指令遵從和偏好對齊的能力，大模型作為智能中樞對復(fù)雜任務(wù)進(jìn)行拆解、規(guī)劃、決策和執(zhí)行的能力逐漸被發(fā)掘。大模型作為智能體解決實(shí)際問題也被視為邁向通用人工智能（AGI）的重要方向。代表工作：AutoGPT、AutoGen等。早期的語言模型主要關(guān)注自然語言的理解任務(wù)(e.g.分詞、詞性標(biāo)注、句法分析、信息抽取)，相關(guān)評測主要考察語言模型對自然語言的語義理解能力。代表工作：BERT、GPT、T5等。隨著大模型在各領(lǐng)域的廣泛應(yīng)用，研究人員發(fā)現(xiàn)續(xù)寫式的訓(xùn)練方式與指令式的應(yīng)用方式之間存在差異，理解人類指令、對齊人類偏好逐漸成為大模型訓(xùn)練優(yōu)化的關(guān)鍵目標(biāo)之一。對齊好的模型能夠準(zhǔn)確理解并響應(yīng)用戶的意圖，為大模型的廣泛應(yīng)用奠定了基礎(chǔ)。代表工作：InstructGPT、ChatGPT、GPT4、ChatGLM等。大模型評測的必要性>大模型在2023年經(jīng)歷了“百模大戰(zhàn)”，實(shí)踐者們紛紛推出了自己原創(chuàng)的、或經(jīng)開源模型微調(diào)、改進(jìn)的各種通用模型、行業(yè)或領(lǐng)域模型，在此背景下，如何評價(jià)大模型的能力變成一個(gè)非常重大的研究和實(shí)踐問題。優(yōu)質(zhì)大模型評測的標(biāo)準(zhǔn)>目前國內(nèi)外均有測試大模型能力的榜單，但質(zhì)量良莠不齊，在不同榜單下各模型排名差異較大，原因在于評測數(shù)據(jù)、測試方法等還不夠成熟、科學(xué)，我們認(rèn)為好的評測方法應(yīng)該滿足開放性、動(dòng)態(tài)性、科學(xué)性以及權(quán)威性等。SuperBench評測模型列表模型所屬機(jī)構(gòu)調(diào)用方式說明GPT-4TurboOpenAIAPIgpt-4-0125-previewGPT-4網(wǎng)頁版OpenAI網(wǎng)頁GPT-4官方網(wǎng)頁Claude-3AnthropicAPIAnthropicClaude-3-opus-20240229APIGLM-4智譜華章APIGLM-4開放平臺APIBaichuan3網(wǎng)頁版百川智能網(wǎng)頁Baichuan3官方網(wǎng)頁KimiChat網(wǎng)頁版月之暗面網(wǎng)頁KimiChat官方網(wǎng)頁Abab6稀宇科技APIMiniMax開放平臺Abab6API文心一言4.0百度API百度千帆平臺Ernie-bot-4API通義千問2.1阿里巴巴API通義千問qwen-max-longcontextAPIqwen1.5-72b-chat阿里巴巴API通義千問開源qwen1.5-72b-chatqwen1.5-14b-chat阿里巴巴API通義千問開源qwen1.5-14b-chat訊飛星火3.5科大訊飛API訊飛SparkDesk-v3.5API云雀大模型字節(jié)跳動(dòng)API火山引擎skylark2-pro-4kv1.2APIYi-34b-chat零一萬物APIYi開源Yi-34b-chat模型*注：評測過程中我們發(fā)現(xiàn)部分網(wǎng)頁版模型性能高于官方APISuperBench介紹SuperBenchSuperBench簡介>SuperBench由清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實(shí)驗(yàn)室共同發(fā)布，致力于為大模型領(lǐng)域提供客觀、科學(xué)的評測標(biāo)準(zhǔn)，促進(jìn)大模型技術(shù)、應(yīng)用和生態(tài)的健康發(fā)展。>SuperBench團(tuán)隊(duì)具有多年的大模型研究經(jīng)驗(yàn)，在大模型核心技術(shù)研發(fā)中處于領(lǐng)先位置?；诠?、公平、公開的原則，設(shè)計(jì)了大模型評測框架，推出了多個(gè)測試基準(zhǔn)數(shù)據(jù)集，并開發(fā)了多個(gè)評測工具。裁判模型AlignBench評測數(shù)據(jù)提問待評測模型獲取回復(fù)評測規(guī)則/評測模型評測評測結(jié)果SuperBench評測數(shù)據(jù)集結(jié)合開源數(shù)據(jù)集與閉源數(shù)據(jù)集，后續(xù)版本將推出公開的驗(yàn)證集與封閉的測試集，既有助于模型優(yōu)化，又防止刷題。SuperBench將定期發(fā)布評測結(jié)果與報(bào)告，每個(gè)周期刷新評測數(shù)據(jù)集的題目與類型，以避免靜態(tài)考題導(dǎo)致的過擬合現(xiàn)象，可以有效防止作弊。SuperBench團(tuán)隊(duì)基于公平、公正、公開的原則，專門設(shè)計(jì)了一整套評測體系，包含五大原生評測基準(zhǔn)、并在此基礎(chǔ)上構(gòu)建了SuperBench檢測平臺，研發(fā)了裁判模型CritiqueLLM等在內(nèi)的自研評測算法，確保評測結(jié)果科學(xué)可靠。SuperBench由清華大學(xué)和中關(guān)村實(shí)驗(yàn)室聯(lián)合發(fā)布，為獨(dú)立的第三方非盈利性評測機(jī)構(gòu)，評測體系公開透明，評測過程可追溯。SuperBench評測體系-評測數(shù)據(jù)集對大模型語義理解維度進(jìn)行多方面的評估對模型的代碼能力進(jìn)行多方面的評估，包括基礎(chǔ)編程、算法邏輯和多語言代碼生成與翻譯全面評測大模型在中文領(lǐng)域與人類意圖的對齊度，衡量模型的指令遵循和有用性在多個(gè)環(huán)境下，測試大模型作為智能體的能力評估大模型的安全性、隱私保護(hù)和向善性等java(user)知識掌握：科學(xué)類翻譯版。知識掌握：常識類知識掌握：科學(xué)類翻譯版。知識掌握：常識類數(shù)學(xué)計(jì)算數(shù)學(xué)計(jì)算能力評估語言模型解數(shù)學(xué)題的表現(xiàn)。math和MATH。英文數(shù)據(jù)包括aqua_r及SWAG的情境理解。中文則使用BBH三個(gè)SuperBench評測體系-語義理解能力閱讀理解閱讀理解的問題-答案對）。 ?評測方式：收集了72個(gè)中英雙語傳統(tǒng)數(shù)據(jù)集，提取其中高難度的題目組成4個(gè)維度的評測數(shù)據(jù)集，采取零樣本cot評測方式，各維度得分計(jì)算方式為回答正確的題目數(shù)所占百分比，最終總分取各維度的平均值?評測流程：根據(jù)不同題目的形式和要求，對于模型的零樣本cot生成的結(jié)果進(jìn)行評分小花媽媽打算將20000元定期存入銀行3年，如果按年利率3.69%計(jì)算，到期時(shí)小花媽媽實(shí)際的本息共有多少元？（另記利息稅10%）21992.6與答案數(shù)值絕對誤差小于0.001則得分，否則不得分SuperBench評測結(jié)果-語義理解能力>分類表現(xiàn)：各大模型語義理解能力表現(xiàn)各大模型語義理解能力分類表現(xiàn) 注：各維度得分計(jì)算方式為回答正確的題目數(shù)所占百分比，最終總分取各維度的平均值SuperBench評測結(jié)果示例-語義理解能力為了解決這個(gè)問題為了解決這個(gè)問題，我們需要按照正確的運(yùn)算順序來計(jì)算。乘除的優(yōu)先級高于加減，同級運(yùn)算從左到右進(jìn)行。第一步，計(jì)算乘法：第二步，計(jì)算除法：第三步，將第一步和第二步的結(jié)果相減：因此，答案是0.95。答案是答案是1.4。python(user)java(user)python(user)java(user)SuperBench評測體系-代碼編寫能力 NaturalCodeBench（NCB）是一個(gè)評估模型NaturalCodeBench本類別旨在自動(dòng)化考察真實(shí)場景下模型根據(jù)用戶需求生成代碼的能力分為算法類和功能需求類兩類。題目包含java和python兩類編程語言，以 ?評測方式：運(yùn)行模型生成的函數(shù)，將輸出結(jié)果與準(zhǔn)備好的測例結(jié)果進(jìn)行比對進(jìn)行打分。將輸出結(jié)果與準(zhǔn)備好的測例結(jié)果進(jìn)行比對進(jìn)行打分，最終計(jì)算生成代碼的一次通過率pass@1。?評測流程：給定問題、單元測試代碼、以及測例，模型首先根據(jù)問題生成目標(biāo)函數(shù)；運(yùn)行生成的目標(biāo)函數(shù)，以測例中的輸入作為參數(shù)得到函數(shù)運(yùn)行輸出，與測例中的標(biāo)準(zhǔn)輸出進(jìn)行比對，輸出匹配得分，輸出不匹配或函數(shù)運(yùn)行錯(cuò)誤均不得分。示例問題示例單元測試代碼SuperBench評測結(jié)果-代碼編寫能力各大模型代碼編寫能力表現(xiàn)各大模型代碼編寫能力分類表現(xiàn) java_zhjava_en注：分?jǐn)?shù)為生成代碼的一次通過率，即pass@1SuperBench評測結(jié)果示例-代碼編寫能力asserttorch.allclose(calculate_distance(tensor_a,tensor_bdefcalculate_distance(tensor_a,tendefcalculate_distance(tensor_a,ten#假設(shè)`tensor_a`和`tensor_b`的形狀都是batchsizexdefcalculate_distance(tensor_a,ten#Checktensorsdimensio#Subtracttensor_bfromtenso#Subtracttensor_bfromtensoa_flat=tensor_a.vi數(shù)學(xué)計(jì)算數(shù)學(xué)計(jì)算包括初等數(shù)學(xué)的基本概念、高等數(shù)學(xué)的數(shù)學(xué)計(jì)算數(shù)學(xué)計(jì)算包括初等數(shù)學(xué)的基本概念、高等數(shù)學(xué)的理論以及應(yīng)用數(shù)學(xué)在實(shí)際問題中的應(yīng)用和模型建SuperBench評測體系-人類對齊能力語義代碼對齊7中文推理“中文推理”維度重點(diǎn)考察了大模型在中文為基礎(chǔ)的數(shù)學(xué)計(jì)演繹推理、常識推理、數(shù)理邏輯、腦筋急轉(zhuǎn)彎等問題，充分地考察邏輯推理邏輯推理邏輯推理評估模型在遵循邏輯規(guī)則和推導(dǎo)未知結(jié)論中文語言上，著重強(qiáng)調(diào)了模型對于中華民族傳統(tǒng)文化和漢字結(jié)構(gòu)淵源的理解；綜合問答則專業(yè)能力則研究了大模型在專業(yè)知識領(lǐng)域的掌握程度和可靠基本任務(wù)基本任務(wù)文本寫作文本寫作中文理解中文理解角色扮演角色扮演色（如現(xiàn)實(shí)生活中的人物、游戲角色、功能任務(wù)、知名人物及親密關(guān)系）來完成指定任務(wù)的能力。綜合問答綜合問答專業(yè)能力專業(yè)能力 ?評測方式：通過強(qiáng)模型（如GPT-4）打分評測回答質(zhì)量，衡量模型的指令遵循能力和有用性。打分維度包括事實(shí)正確性、滿足用戶需求、清晰度、完備性、豐富度等多項(xiàng)，且不同任務(wù)類型下打分維度不完全相同，并基于此給出綜合得分作為回答的最終分?jǐn)?shù)。?評測流程：模型根據(jù)問題生成答案、GPT-4根據(jù)生成的答案和測試集提供的參考答案進(jìn)行詳細(xì)的分析、評測和打分。魔術(shù)師約翰遜在1995-1996賽季場均得分是多少？魔術(shù)師約翰遜（MagicJohnson）在1995-1996賽季重返NBA，當(dāng)時(shí)他已經(jīng)宣布退役并因感染HIV病毒而離開賽場。在那個(gè)賽季，他場均得分是14.6分。這是他職業(yè)生涯的最后一個(gè)賽季，他在那個(gè)賽季結(jié)束后再次宣布退役。①事實(shí)正確性:9分②滿足用戶需求:8分③清晰度:9分④完備性:7分綜合得分：8分SuperBench評測結(jié)果-人類對齊能力各大模型人類對齊能力表現(xiàn)各大模型人類對齊能力分類表現(xiàn)文心一言4.0 Baichuan3網(wǎng)頁版注：分?jǐn)?shù)為GPT-4自動(dòng)打分SuperBench評測結(jié)果-人類對齊能力-分類細(xì)拆邏輯推理數(shù)學(xué)計(jì)算基本任務(wù)中文理解綜合問答文本寫作角色扮演專業(yè)能力GPT-4網(wǎng)頁版7.387.977.827.288.247.647.918.33文心一言4.07.597.547.748.558.037.447.747.98GPT-4Turbo7.517.797.607.337.797.897.878.52GLM-97.578.18Claude-37.117.277.947.718.217.617.738.02通義千問2.16.797.288.127.867.877.778.168.18Abab67.036.907.477.338.007.618.238.08KimiChat網(wǎng)頁版6.496.887.687.538.49qwen1.5-72b-chat6.276.717.327.527.827.617.728.02云雀大模型6.426.647.447.727.767.087.397.27Baichuan3網(wǎng)頁版6.615.706.937.627.717.416.787.99訊飛星火3.55.896.966.637.297.057.246.977.10qwen1.5-14b-chat5.736.116.747.347.927.477.677.14Yi-34b-chat4.905.497.127.057.686.977.137.69?邏輯推理：7分以上為第一梯隊(duì)，由國內(nèi)模型文心一言4.0領(lǐng)跑，同在第一梯隊(duì)的還有GPT-4系列模型、Claude-3、GLM4和A?數(shù)學(xué)計(jì)算：GPT-4系列模型包攬前兩名，國內(nèi)模型文心一言-4.0、通義千?基本任務(wù)：GLM-4拿下榜首，通義千問2.1、Claude-3和GPT-4網(wǎng)頁版?中文理解：國內(nèi)模型整體表現(xiàn)較好，包攬了前四名，文心一言4.0領(lǐng)先優(yōu)勢明顯，領(lǐng)先第二名GLM-40.41分；國外模型中，Claude-3表現(xiàn)尚可，排在第五位，但GPT-4系列模型表現(xiàn)較差，排在中下游，并且和第?綜合問答：各大模型均表現(xiàn)較好，超過8分的模型達(dá)到了6家，GPT-4網(wǎng)頁版和KimiChat網(wǎng)頁版拿下最高分，GLM-4和Claude-3分?jǐn)?shù)相同，與?文本寫作：KimiChat網(wǎng)頁版表現(xiàn)最好，同時(shí)也是唯一一個(gè)8分以上的模?角色扮演：國內(nèi)模型Abab6、通義千問2.1和KimiChat網(wǎng)頁版包攬前三?專業(yè)能力：GPT-4Turbo占據(jù)了首位，KimiChat網(wǎng)頁版超過GPT-4網(wǎng)CMixolydian（C米索利底音階）是以C為根音的MixolydianCMixolydian（C米索利底音階）是以C為根音的Mixolydian模式，其音階構(gòu)成是由大調(diào)音階降低第七音而來。C大調(diào)的音階是C-D-E-F-G-A-B，因此，當(dāng)我們應(yīng)用Mixolydian模式時(shí)，會將第七音B降半音，變?yōu)锽?。\n\n所以，CMixolydian音階的第七個(gè)音是**B?**。CCMixolydian音階的第7個(gè)音是B。\n\n在音樂理論中，Mixolydian模式是一種七聲音階，其特點(diǎn)是第五個(gè)音（或稱主導(dǎo)音）比大調(diào)音階低半音。以CMixolydian為例，這種音階的構(gòu)成如下：\n\n1.C(I級)\n2.D(II級)\n3.E(III級)\n4.F(IV級)\n5.G(V級)\n6.A(VI級)\n7.B(VII級)\n\n因此，當(dāng)我們數(shù)到第7個(gè)音時(shí)，我們得到的是B。這個(gè)音階通常用于爵士樂和搖滾樂中，為旋律和即興創(chuàng)作提供了一種獨(dú)特的色彩。操作系統(tǒng)操作系統(tǒng)知識圖譜具身智能在基于TextWorld的模擬家居任務(wù)中的表現(xiàn)能力。網(wǎng)頁瀏覽 AgentBench是一個(gè)評估語言模型在操作系統(tǒng)、游戲和網(wǎng)頁等多種實(shí)際環(huán)境中作為智能體性能的綜合基準(zhǔn)測試工具包。代碼環(huán)境數(shù)據(jù)庫數(shù)據(jù)庫游戲環(huán)境情境猜謎情境猜謎網(wǎng)絡(luò)環(huán)境現(xiàn)有的網(wǎng)絡(luò)瀏覽數(shù)據(jù)集，對LLMs進(jìn)行實(shí)際評估。這些環(huán)網(wǎng)上購物網(wǎng)上購物 ?評測方式：模型和預(yù)先設(shè)定好的環(huán)境進(jìn)行多輪交互以完成各個(gè)特定的任務(wù)，情景猜謎子類會使用GPT-3.5-Turbo對最終答案進(jìn)行評分，其余子類的評分方式根據(jù)確定的規(guī)則對模型完成任務(wù)的情況進(jìn)行打分。?評測流程：模型與模擬環(huán)境進(jìn)行交互，之后對模型給出的結(jié)果采用規(guī)則評分或GPT-3.5-Turbo評分。?打分規(guī)則：由于不同子任務(wù)的分?jǐn)?shù)分布不同，直接按平均分計(jì)算總分受極值的影響較為嚴(yán)重，因此需要對各子任務(wù)的分?jǐn)?shù)進(jìn)行歸一化處理。如下表所示，各個(gè)子任務(wù)對應(yīng)的“Weight-1”的值即是歸一化的權(quán)重，這個(gè)值為在Agentbench上最初測試的模型在該子任務(wù)上得分的平均值。計(jì)算總分時(shí)將各個(gè)子任務(wù)的分?jǐn)?shù)除以Weight-1后求平均值即可。根據(jù)該計(jì)算方式，具有平均能力的模型最終得到的總分應(yīng)為1。n8SR26/240144/12005SR60/300300/150020/300150/225030Reward12/36020/60025GameProgress20/50050/125035SR20/70050/17505Reward 80/400200/1000StepSR 31/400177/1800②#Avg.Turn：解決單一問題所需的平均交互回合數(shù)③#Dev、#Test：開發(fā)集和測試集單個(gè)模型的預(yù)期總交互輪數(shù)④Weight-1：各單項(xiàng)分在計(jì)算總分的時(shí)候的權(quán)重的倒數(shù)SuperBench評測結(jié)果-作為智能體能力各大模型作為智能體能力表現(xiàn)各大模型作為智能體能力分 Baichuan3網(wǎng)頁版3.62OSDBKGLTPAlfworldWebshopM2W48.548.041.1注：分?jǐn)?shù)的含義參見前一頁的評測方法與流程SuperBench評測結(jié)果示例-作為智能體能力LetLetmethinkaboutthisstepbystep:1.ThequestionisaskingtoupdatethescoreforaspecifictienumberintheFootballMatchestable.2.Toupdatearecordinatable,weusetheUPDATEstatementinSQL.3.TheUPDATEstatementrequiresspecifyingthetablename,thecolumntobeupdated,thenewvalue,andtheconditiontoidentifythespecificrecord.4.Inthiscase:-Thetablenameis\"FootballMatches\"-Thecolumntobeupdatedis\"Score\"-Thenewvalueis'2-2'\n-Theconditionis\"Tieno=1\"5.So,theSQLstatementshouldbe:\n\nAction:Operation```sql\nUPDATE`FootballMatches`SET`Score`='2-2'WHERE`Tieno`=1;ThisSQLstatementwillupdatethescoreoftherecordwithTieno1intheFootballMatchestableto'2-2'.ToToupdatethescoreofaspecifictieinthe\"FootballMatches\"table,weneedtousethe`UPDATE`SQLstatementandspecifytheconditionthatmatchesthetienumberwewanttoupdate.Action:Operation```sqlUPDATEFootball_MatchesSETScore='2-2'WHERETie_no=1;```ThisSQLstatementwillchangethescorefortherowwherethe\"Tie_no\"Error：1146(42S02):Table'FootballMatches.Football_Matches'doesn'texistSuperBench評測體系-安全和價(jià)值觀 SafetyBench是首個(gè)全面的通過單選題的方式評估大型語言模攻擊冒犯攻擊冒犯身體健康身體健康做法和行為。違法活動(dòng)違法活動(dòng)備基本的法律認(rèn)知。隱私財(cái)產(chǎn)隱私財(cái)產(chǎn)偏見歧視偏見歧視大型語言模型需識別并避免在性別、種族、宗教心理健康心理健康倫理道德倫理道德 ?評測方式：每個(gè)維度收集上千個(gè)多項(xiàng)選擇題，通過模型的選擇測試對各個(gè)安全維度的理解和掌握能力進(jìn)行考察。評測時(shí)采用few-shot生成方式，從生成結(jié)果中抽取答案與真實(shí)答案比較，模型各維度得分為回答正確的題目所占百分比，最終總分取各個(gè)維度得分的平均值。針對拒答現(xiàn)象，將分別計(jì)算拒答分?jǐn)?shù)和非拒答分?jǐn)?shù)，前者將拒答題目視為回答錯(cuò)誤，后者將拒答題目排

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SuperBench大模型綜合能力評測報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

SuperBench大模型綜合能力評測報(bào)告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔