版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄Claude3技術(shù)報(bào)告解讀 1RAG:長(zhǎng)文本窗口不構(gòu)成對(duì)RAG的100%替代 9投資評(píng)價(jià)和建議 13風(fēng)險(xiǎn)分析 14請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款和聲明。Claude3技術(shù)報(bào)告解讀AnthropicClaude3多模態(tài)能力評(píng)估。Claude3的技術(shù)報(bào)告1首先GPQADiamond是一個(gè)研究生級(jí)別的問(wèn)答基準(zhǔn),難題側(cè)重于研究生水平的專(zhuān)業(yè)知識(shí)和推理,每個(gè)問(wèn)題限時(shí)30分鐘,并且可以通過(guò)互聯(lián)網(wǎng)搜集信息,Claude3CoT(Temp=12)設(shè)置下方差很大,Claude10次評(píng)估的平均值為結(jié)果,但這一做Diamond81.2%3Claude等模型。Claude3 ClaudeOpus SonnetClaude3HaikuClaude3 ClaudeOpus SonnetClaude3HaikuGPT-4Gemini1.0UltraGemini1.5ProMMLUGeneralreasoning5-shot86.8%79.0%75.2%81.5% 76.7%90.1%Medprompt+——83.7%81.9%5-shotCoT88.2%————MATHMathematicalproblemsolving0-shotMaj@324-shot60.1%43.1%38.9%68.4%53.20%——73.7%55.1%50.3%——————GSM8KGradeschool95.0%0-shotCoT92.3%0-shotCoT88.9%0-shotCoT95.3%0-shotCoT94.4%0-shot91.7%11-shotHumanEvalPythoncodingtasks0-shot84.9%73.0%75.9%87.8%74.4%71.9%GPQA(Diamond)GraduatelevelQ&A0-shotCoT50.4%40.4%33.3%35.7%————MGSMMultilingualmathDROPReadingcomprehensionarithmetic90.7%0-shot83.5%0-shot75.1%0-shot74.5%8-shotF1Score79.0%8-shot82.4Zero-shot+CoT88.7%8-shot78.9Variableshots83.6%BIG-Bench-Hard89.0%Co83.178.978.483.73-shot3-shot3-shotZero-shot+CoTMixedevaluations3-shotCoT86.8%82.9%73.7%Few-shot+ 84.0%Few-shot+CoTCoTARC-Challenge25-shotmmon-sensereasoning96.4%93.2%89.2%96.3%————HellaSwag 10-shot95.4%89.0%85.9%95.3%87.8%92.5%1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf2使用Chain-of-Thought技術(shù)進(jìn)行采樣,并將溫度參數(shù)(temperature)設(shè)置為1。溫度參數(shù)在文本生成中用于控制生成文本的多樣性和隨機(jī)性。較高的溫度值會(huì)產(chǎn)生更多的隨機(jī)性和多樣性,而較低的溫度值會(huì)產(chǎn)生更加確定性和一致性的文本。3/pdf/2311.12022.pdf請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款和聲明。Common-sensereasoningPubMedQABiomedicalquestions5-shot75.8%78.3%76.0%74.4%—— ——0-shot74.9%79.7%78.5%75.2%—— ——WinoGrandeCommon-sensereasoning5-shot88.5%75.1%74.2%87.5%RACE-HReadingcomprehension5-shot92.9%88.8%87.0%——APPSPythoncodingtasksO-shot70.2%55.9%54.8%——MBPPCodegenerationPass@186.4%79.4%80.4%——資料來(lái)源:Claude4,Promptbase5,注:GPQAGPT-4202311NYU、Cohere、AnthropicGPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark其他測(cè)試集方面,Claude3Opus和GPT-4Turbo/GPT-4在代碼、科學(xué)計(jì)算、通用推理等領(lǐng)域表現(xiàn)基本接近。需要指出的是,由于以上測(cè)試結(jié)果多為有限測(cè)試的平均值,因此兩個(gè)模型極小的差異可能被重復(fù)測(cè)試所改寫(xiě),但大體上我們只能認(rèn)為Claude3Opus和GPT-4Turbo/GPT-4在這些領(lǐng)域處于同一水平。目前基于文本領(lǐng)域的性能,LLM的排序?yàn)镚PT-4Turbo≈Claude3Opus>Gemini1.0Ultra。長(zhǎng)文本方面,Claude進(jìn)行了QuALITY和Haystack兩種測(cè)試,較Claude2/1模型穩(wěn)步提升。QuALITY是一個(gè)多項(xiàng)選擇問(wèn)答數(shù)據(jù)集,旨在評(píng)估語(yǔ)言模型對(duì)長(zhǎng)格式文檔的理解能力,該數(shù)據(jù)集中的上下文段落平均長(zhǎng)度約為5,000個(gè)token。在此基準(zhǔn)測(cè)試上人類(lèi)的表現(xiàn)達(dá)到93.5%,Claude3Opus在0-shot/1-shot情況下分別達(dá)到89.2%/90.5%的準(zhǔn)確率,接近人類(lèi)的準(zhǔn)確率。Haystack方面,Claude3系列模型的召回率穩(wěn)定在90%以上。圖1:Claude系列模型在QuALITY測(cè)試集的表現(xiàn)數(shù)據(jù)來(lái)源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,4https:///news/claude-3-family5/microsoft/promptbase海外行業(yè)動(dòng)態(tài)報(bào)告圖2:Claude3Opus海底撈針測(cè)試召回率 圖3:Claude3Sonnet海底撈針測(cè)試召回率數(shù)據(jù)來(lái)源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,
數(shù)據(jù)來(lái)源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,圖4:Claude3/2.1模型在Haystack測(cè)試集的表現(xiàn)(召回率%)數(shù)據(jù)來(lái)源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,由于長(zhǎng)文本測(cè)試的結(jié)果對(duì)實(shí)驗(yàn)設(shè)置高度敏感,我們這里展開(kāi)討論該~99%召回率的真實(shí)意義。TheNeedleinaHaystackLLMRAG系統(tǒng)在不同規(guī)模環(huán)境下的性能。它的工作原理是將特定的、有針對(duì)性的信息(Needle)嵌入到更大、更復(fù)雜的內(nèi)容(Haystack)中。ANeedleintheHaystackLLM在大量數(shù)據(jù)中識(shí)別和利用特定信息的能力。進(jìn)行測(cè)試時(shí),實(shí)驗(yàn)團(tuán)隊(duì)將一個(gè)外部創(chuàng)建的內(nèi)容(Needle)放置在一本書(shū)/文章(Haystack)的不同位置/LLMNeedle相關(guān)的問(wèn)題(whatisthebestthingtodoinSanFrancisco?),并在文檔不同深度(1K2Ktoken)LLM的表現(xiàn),3-4的召回率圖像。圖5:在PaulGraham的文章中插入一段不相關(guān)的話(huà)數(shù)據(jù)來(lái)源:海外行業(yè)動(dòng)態(tài)報(bào)告海底撈針測(cè)試對(duì)Prompt高度敏感。通過(guò)觀(guān)察Claude2.1的測(cè)試結(jié)果,我們注意到靠近文檔底部的內(nèi)容召回率總體較高,而靠近文檔頂部的內(nèi)容召回率則較低,且這與Anthropic官方發(fā)布的Claude2.1測(cè)試結(jié)果有較大差異。根據(jù)Anthropic,若調(diào)整Prompt(添加了一句提示“Hereisthemostrelevantsentenceinthecontext:”),Claude2.1的總體召回率從27%提升至98%。圖6:左圖為Claude-2.1200K的海底撈針測(cè)試結(jié)果(2024年2月),右圖為Claude官方測(cè)試結(jié)果(2023年12月)數(shù)據(jù)來(lái)源:Anthropic6,6https:///news/claude-2-1-prompting海外行業(yè)動(dòng)態(tài)報(bào)告圖7:Claude2.1對(duì)海底撈針測(cè)試的Prompt進(jìn)行更新數(shù)據(jù)來(lái)源:Anthropic7,海底撈針測(cè)試對(duì)實(shí)驗(yàn)內(nèi)容高度敏感。Arize團(tuán)隊(duì)對(duì)海底撈針測(cè)試進(jìn)行了調(diào)整,將針設(shè)置為一個(gè)隨機(jī)數(shù)字,LLMPrompt進(jìn)行測(cè)試。結(jié)果表明,ArizeClaude2.198%Prompt修改后召回率有所提升(164次下74次)。Claude/GPT/Gemini等模型的長(zhǎng)文本性能上,需要仔細(xì)考慮其實(shí)驗(yàn)設(shè)置(本/數(shù)字,是否隨機(jī),prompt是否微調(diào)),再進(jìn)行橫向比較。另外,更具現(xiàn)實(shí)意義的問(wèn)題是,長(zhǎng)文本下人們通常的需求是取出相關(guān)內(nèi)容,并進(jìn)行推理,尤其是一些復(fù)雜問(wèn)題的推理,過(guò)于簡(jiǎn)單的實(shí)驗(yàn)設(shè)置8可能高估模型的性能。圖8:Claude2.1在有無(wú)Prompt精調(diào)下的召回率對(duì)比(從87%提升至94%)數(shù)據(jù)來(lái)源:Arize,7https:///news/claude-2-1-prompting8現(xiàn)有的測(cè)試主要是取出內(nèi)容,幾乎不涉及復(fù)雜推理,Needle的內(nèi)容高度一致可能導(dǎo)致緩存,因此引入隨機(jī)Needle非常重要,且提問(wèn)應(yīng)該涉及一定難度的推理,更貼近現(xiàn)實(shí)需求。海外行業(yè)動(dòng)態(tài)報(bào)告圖9:GregKamradt使用的ClaudePrompt模板數(shù)據(jù)來(lái)源:Arize,圖10:Anthropic修訂后的Prompt模板數(shù)據(jù)來(lái)源:Arize,多模態(tài)能力上,Claude3與Gemini1.0Ultra相比仍有一定差距,但略好于GPT-4V。海外行業(yè)動(dòng)態(tài)報(bào)告圖11:Claude3與GPT-4V、Gemini系列模型多模態(tài)能力對(duì)比數(shù)據(jù)來(lái)源:《TheClaude3ModelFamily:Opus,Sonnet,Haiku》,圖12:AnthropicClaude3系列模型輸入/輸出API價(jià)格數(shù)據(jù)來(lái)源:Anthropic9,圖13:GPT-4輸入/輸出價(jià)格數(shù)據(jù)來(lái)源:OpenAI10,9https:///api#pricing10/pricingRAG:長(zhǎng)文本窗口不構(gòu)成對(duì)RAG的100%替代11LLMasaOS調(diào)整注意力計(jì)算機(jī)制。當(dāng)前符堯等12upsampling(上采樣)LLM處理長(zhǎng)文本的能力,可以將LLM128K。UCB研究團(tuán)隊(duì)13則提出通過(guò)層次訓(xùn)練高效擴(kuò)展上下文窗口。Google團(tuán)隊(duì)14提出通過(guò)在不損失太多精度的情況下快速近似注意力矩陣的輸出,從而實(shí)現(xiàn)長(zhǎng)文本下的計(jì)算速度提升。圖14:Gemini1.5Pro宣布將contextwindow拓展至1Mtokens數(shù)據(jù)來(lái)源:Google15,Gemini/Claude3/GPT-4Turbo~99%1)Prompt的精細(xì)調(diào)整,這意味如果抽取的內(nèi)容從固定模式的文本/數(shù)字切換為隨機(jī)的文本/數(shù)字,召回率表現(xiàn)可能受到影響;2)當(dāng)前的TheNeedleinaHaystackLLM不需要做太多額外推理,但實(shí)際應(yīng)用場(chǎng)景中XX規(guī)定,員工是否允許攜帶寵物上班”、“XX設(shè)計(jì)方案是否符合現(xiàn)行居民住宅的建筑標(biāo)準(zhǔn)”等問(wèn)題,這類(lèi)問(wèn)題可以拆分為兩部分,1)問(wèn)題相關(guān)的背景材料,如現(xiàn)行民用住宅的建筑標(biāo)準(zhǔn);2)匹配,設(shè)計(jì)方案分解后與建筑標(biāo)準(zhǔn)相匹配。Haystack測(cè)試的評(píng)估一定程度上存在“誤導(dǎo)性”,該90%+的表現(xiàn)不意味著模型在長(zhǎng)文本中取出和結(jié)合上下文做復(fù)雜推理的能力。1611/blog/2024/02/18/compound-ai-systems/,根據(jù)UCB轉(zhuǎn)引Databricks信息,目前LLM的應(yīng)用中60%采用RAG,30%采用CoT。12《DataEngineeringforScalingLanguageModelsto128KContext》。13《WorldModelOnMillion-LevelVideoAndLanguageWithRingAttention》。14《HyperAttention:Long-contextAttentioninNear-LinearTime》。15https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/16LLMPR的一面是,AnthropicClaude3GPQALLM在長(zhǎng)文本、復(fù)雜問(wèn)題等場(chǎng)景下的表現(xiàn)提升,促進(jìn)社會(huì)生產(chǎn)力進(jìn)步。請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款和聲明。通過(guò)長(zhǎng)文本窗口替代RAG的核心瓶頸在于成本,本質(zhì)原因是內(nèi)存瓶頸。前述問(wèn)題都可以通過(guò)對(duì)注意力機(jī)Anthropic/OpenAI1Mtoken的定價(jià)在GPUGPU(將內(nèi)容切分后分別放在不同GPU上計(jì)算后傳輸,這導(dǎo)致延遲。圖15:GPU架構(gòu)示意圖 圖16:SM架構(gòu)示意圖數(shù)據(jù)來(lái)源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,
數(shù)據(jù)來(lái)源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,圖17:A100內(nèi)存結(jié)構(gòu) 圖18:長(zhǎng)文本推理面臨內(nèi)存瓶頸 數(shù)據(jù)來(lái)源:《EfficientMemoryManagementforLargeLanguageModelServingwithPagedAttention》,
數(shù)據(jù)來(lái)源:《Towards100xSpeedup:FullStackTransformerInferenceOptimization》,符堯17提出利用KV緩存存儲(chǔ)內(nèi)容,但其占據(jù)大量?jī)?nèi)存且一旦切換文檔需要重新緩存。根據(jù)LLaMAIndex,1Mtoken100GB3A1002H100A100/H100的價(jià)格及有限存儲(chǔ)空間,大量占用內(nèi)存的代價(jià)可能過(guò)高。PierreLienhart18(AWSGenAI解決方案架構(gòu)師)KV緩存token長(zhǎng)度的關(guān)系從指數(shù)級(jí)增長(zhǎng)轉(zhuǎn)化為線(xiàn)性增長(zhǎng),LLMtoken17《Towards100xSpeedup:FullStackTransformerInferenceOptimization》。18/@plienhar/llm-inference-series-3-kv-caching-unveiled-048152e461c8請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款和聲明。海外行業(yè)動(dòng)態(tài)報(bào)告數(shù)級(jí)增長(zhǎng),因此KV緩存策略本質(zhì)平衡GPU帶寬和內(nèi)存以及計(jì)算量的問(wèn)題。圖19:Transformer輸入序列長(zhǎng)度為3的雙頭(自)注意力層的詳細(xì)視圖數(shù)據(jù)來(lái)源:《LLMInferenceSeries:3.KVcachingunveiled》,圖20:KV緩存策略后的注意力計(jì)算機(jī)制數(shù)據(jù)來(lái)源:《LLMInferenceSeries:3.KVcachingunveiled》,方法論上,Transformer模型在計(jì)算注意力分?jǐn)?shù)時(shí),需要查詢(xún)向量(Q)與所有鍵向量(K)做點(diǎn)積,獲得未縮放的注意力分?jǐn)?shù)。但是對(duì)于帶有掩碼(mask)的位置,不論它們的注意力分?jǐn)?shù)是多少,最后都會(huì)被遮擋為0,這部分計(jì)算就是冗余計(jì)算。KV緩存策略通過(guò)預(yù)先計(jì)算好所有鍵值對(duì)(K,V)的注意力分?jǐn)?shù)和加權(quán)值,并緩存起來(lái)。在實(shí)際推理時(shí),只需從
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 造價(jià)咨詢(xún)招標(biāo)文件的特點(diǎn)
- 高質(zhì)量印刷服務(wù)合同協(xié)議書(shū)模板
- 影視主持人兼職合同
- 補(bǔ)充協(xié)議與合同的關(guān)系分析
- 專(zhuān)業(yè)營(yíng)銷(xiāo)服務(wù)合同
- 低碳出行和諧生活的構(gòu)建
- 園林綠化苗木購(gòu)銷(xiāo)合同
- 硬件購(gòu)買(mǎi)與技術(shù)支持合同模板
- 土地使用權(quán)轉(zhuǎn)讓合同履行障礙
- 模板選購(gòu)合同內(nèi)容
- 2024河北省建筑安全員-C證(專(zhuān)職安全員)考試題庫(kù)
- 餐飲公司股權(quán)合同模板
- 通風(fēng)工程安裝維修合同模板
- 美容學(xué)徒帶薪合同范例
- 醫(yī)療機(jī)構(gòu)從業(yè)人員行為規(guī)范培訓(xùn)
- 2024年人教部編版語(yǔ)文小學(xué)四年級(jí)上冊(cè)復(fù)習(xí)計(jì)劃及全冊(cè)單元復(fù)習(xí)課教案
- 水利信息化數(shù)據(jù)中心及軟件系統(tǒng)單元工程質(zhì)量驗(yàn)收評(píng)定表、檢查記錄
- 2024年城市園林苗木移植合同范例
- 應(yīng)用PDCA提高醫(yī)療安全不良事件的上報(bào)率
- 軍事理論課(2024)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 魅力歌劇-《飲酒歌》課件 2024-2025學(xué)年人音版初中音樂(lè)九年級(jí)上冊(cè)
評(píng)論
0/150
提交評(píng)論