Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限

上傳人：b*** IP屬地：北京上傳時間：2024-04-03 格式：DOCX 頁數(shù)：15 大小：1.39MB 積分：15 舉報 版權(quán)申訴

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限_第2頁

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限_第3頁

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限_第4頁

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限_第5頁

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

目錄Claude3技術(shù)報告解讀 1RAG：長文本窗口不構(gòu)成對RAG的100%替代 9投資評價和建議 13風(fēng)險分析 14請務(wù)必閱讀正文之后的免責(zé)條款和聲明。Claude3技術(shù)報告解讀AnthropicClaude3多模態(tài)能力評估。Claude3的技術(shù)報告1首先GPQADiamond是一個研究生級別的問答基準(zhǔn)，難題側(cè)重于研究生水平的專業(yè)知識和推理，每個問題限時30分鐘，并且可以通過互聯(lián)網(wǎng)搜集信息，Claude3CoT（Temp=12）設(shè)置下方差很大，Claude10次評估的平均值為結(jié)果，但這一做Diamond81.2%3Claude等模型。Claude3 ClaudeOpus SonnetClaude3HaikuClaude3 ClaudeOpus SonnetClaude3HaikuGPT-4Gemini1.0UltraGemini1.5ProMMLUGeneralreasoning5-shot86.8%79.0%75.2%81.5% 76.7%90.1%Medprompt+——83.7%81.9%5-shotCoT88.2%————MATHMathematicalproblemsolving0-shotMaj@324-shot60.1%43.1%38.9%68.4%53.20%——73.7%55.1%50.3%——————GSM8KGradeschool95.0%0-shotCoT92.3%0-shotCoT88.9%0-shotCoT95.3%0-shotCoT94.4%0-shot91.7%11-shotHumanEvalPythoncodingtasks0-shot84.9%73.0%75.9%87.8%74.4%71.9%GPQA(Diamond)GraduatelevelQ&A0-shotCoT50.4%40.4%33.3%35.7%————MGSMMultilingualmathDROPReadingcomprehensionarithmetic90.7%0-shot83.5%0-shot75.1%0-shot74.5%8-shotF1Score79.0%8-shot82.4Zero-shot+CoT88.7%8-shot78.9Variableshots83.6%BIG-Bench-Hard89.0%Co83.178.978.483.73-shot3-shot3-shotZero-shot+CoTMixedevaluations3-shotCoT86.8%82.9%73.7%Few-shot+ 84.0%Few-shot+CoTCoTARC-Challenge25-shotmmon-sensereasoning96.4%93.2%89.2%96.3%————HellaSwag 10-shot95.4%89.0%85.9%95.3%87.8%92.5%1/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf2使用Chain-of-Thought技術(shù)進行采樣，并將溫度參數(shù)（temperature）設(shè)置為1。溫度參數(shù)在文本生成中用于控制生成文本的多樣性和隨機性。較高的溫度值會產(chǎn)生更多的隨機性和多樣性，而較低的溫度值會產(chǎn)生更加確定性和一致性的文本。3/pdf/2311.12022.pdf請務(wù)必閱讀正文之后的免責(zé)條款和聲明。Common-sensereasoningPubMedQABiomedicalquestions5-shot75.8%78.3%76.0%74.4%—— ——0-shot74.9%79.7%78.5%75.2%—— ——WinoGrandeCommon-sensereasoning5-shot88.5%75.1%74.2%87.5%RACE-HReadingcomprehension5-shot92.9%88.8%87.0%——APPSPythoncodingtasksO-shot70.2%55.9%54.8%——MBPPCodegenerationPass@186.4%79.4%80.4%——資料來源：Claude4，Promptbase5，注：GPQAGPT-4202311NYU、Cohere、AnthropicGPQA:AGraduate-LevelGoogle-ProofQ&ABenchmark其他測試集方面，Claude3Opus和GPT-4Turbo/GPT-4在代碼、科學(xué)計算、通用推理等領(lǐng)域表現(xiàn)基本接近。需要指出的是，由于以上測試結(jié)果多為有限測試的平均值，因此兩個模型極小的差異可能被重復(fù)測試所改寫，但大體上我們只能認為Claude3Opus和GPT-4Turbo/GPT-4在這些領(lǐng)域處于同一水平。目前基于文本領(lǐng)域的性能，LLM的排序為GPT-4Turbo≈Claude3Opus>Gemini1.0Ultra。長文本方面，Claude進行了QuALITY和Haystack兩種測試，較Claude2/1模型穩(wěn)步提升。QuALITY是一個多項選擇問答數(shù)據(jù)集，旨在評估語言模型對長格式文檔的理解能力，該數(shù)據(jù)集中的上下文段落平均長度約為5,000個token。在此基準(zhǔn)測試上人類的表現(xiàn)達到93.5%，Claude3Opus在0-shot/1-shot情況下分別達到89.2%/90.5%的準(zhǔn)確率，接近人類的準(zhǔn)確率。Haystack方面，Claude3系列模型的召回率穩(wěn)定在90%以上。圖1:Claude系列模型在QuALITY測試集的表現(xiàn)數(shù)據(jù)來源：《TheClaude3ModelFamily:Opus,Sonnet,Haiku》，4https:///news/claude-3-family5/microsoft/promptbase海外行業(yè)動態(tài)報告圖2:Claude3Opus海底撈針測試召回率圖3:Claude3Sonnet海底撈針測試召回率數(shù)據(jù)來源：《TheClaude3ModelFamily:Opus,Sonnet,Haiku》，

數(shù)據(jù)來源：《TheClaude3ModelFamily:Opus,Sonnet,Haiku》，圖4:Claude3/2.1模型在Haystack測試集的表現(xiàn)（召回率%）數(shù)據(jù)來源：《TheClaude3ModelFamily:Opus,Sonnet,Haiku》，由于長文本測試的結(jié)果對實驗設(shè)置高度敏感，我們這里展開討論該~99%召回率的真實意義。TheNeedleinaHaystackLLMRAG系統(tǒng)在不同規(guī)模環(huán)境下的性能。它的工作原理是將特定的、有針對性的信息（Needle）嵌入到更大、更復(fù)雜的內(nèi)容（Haystack）中。ANeedleintheHaystackLLM在大量數(shù)據(jù)中識別和利用特定信息的能力。進行測試時，實驗團隊將一個外部創(chuàng)建的內(nèi)容（Needle）放置在一本書/文章（Haystack）的不同位置/LLMNeedle相關(guān)的問題（whatisthebestthingtodoinSanFrancisco?），并在文檔不同深度（1K2Ktoken）LLM的表現(xiàn)，3-4的召回率圖像。圖5:在PaulGraham的文章中插入一段不相關(guān)的話數(shù)據(jù)來源：海外行業(yè)動態(tài)報告海底撈針測試對Prompt高度敏感。通過觀察Claude2.1的測試結(jié)果，我們注意到靠近文檔底部的內(nèi)容召回率總體較高，而靠近文檔頂部的內(nèi)容召回率則較低，且這與Anthropic官方發(fā)布的Claude2.1測試結(jié)果有較大差異。根據(jù)Anthropic，若調(diào)整Prompt（添加了一句提示“Hereisthemostrelevantsentenceinthecontext:”），Claude2.1的總體召回率從27%提升至98%。圖6:左圖為Claude-2.1200K的海底撈針測試結(jié)果（2024年2月），右圖為Claude官方測試結(jié)果（2023年12月）數(shù)據(jù)來源：Anthropic6，6https:///news/claude-2-1-prompting海外行業(yè)動態(tài)報告圖7:Claude2.1對海底撈針測試的Prompt進行更新數(shù)據(jù)來源：Anthropic7，海底撈針測試對實驗內(nèi)容高度敏感。Arize團隊對海底撈針測試進行了調(diào)整，將針設(shè)置為一個隨機數(shù)字，LLMPrompt進行測試。結(jié)果表明，ArizeClaude2.198%Prompt修改后召回率有所提升（164次下74次）。Claude/GPT/Gemini等模型的長文本性能上，需要仔細考慮其實驗設(shè)置（本/數(shù)字，是否隨機，prompt是否微調(diào)），再進行橫向比較。另外，更具現(xiàn)實意義的問題是，長文本下人們通常的需求是取出相關(guān)內(nèi)容，并進行推理，尤其是一些復(fù)雜問題的推理，過于簡單的實驗設(shè)置8可能高估模型的性能。圖8:Claude2.1在有無Prompt精調(diào)下的召回率對比（從87%提升至94%）數(shù)據(jù)來源：Arize，7https:///news/claude-2-1-prompting8現(xiàn)有的測試主要是取出內(nèi)容，幾乎不涉及復(fù)雜推理，Needle的內(nèi)容高度一致可能導(dǎo)致緩存，因此引入隨機Needle非常重要，且提問應(yīng)該涉及一定難度的推理，更貼近現(xiàn)實需求。海外行業(yè)動態(tài)報告圖9:GregKamradt使用的ClaudePrompt模板數(shù)據(jù)來源：Arize，圖10:Anthropic修訂后的Prompt模板數(shù)據(jù)來源：Arize，多模態(tài)能力上，Claude3與Gemini1.0Ultra相比仍有一定差距，但略好于GPT-4V。海外行業(yè)動態(tài)報告圖11:Claude3與GPT-4V、Gemini系列模型多模態(tài)能力對比數(shù)據(jù)來源：《TheClaude3ModelFamily:Opus,Sonnet,Haiku》，圖12:AnthropicClaude3系列模型輸入/輸出API價格數(shù)據(jù)來源：Anthropic9，圖13:GPT-4輸入/輸出價格數(shù)據(jù)來源：OpenAI10，9https:///api#pricing10/pricingRAG：長文本窗口不構(gòu)成對RAG的100%替代11LLMasaOS調(diào)整注意力計算機制。當(dāng)前符堯等12upsampling（上采樣）LLM處理長文本的能力，可以將LLM128K。UCB研究團隊13則提出通過層次訓(xùn)練高效擴展上下文窗口。Google團隊14提出通過在不損失太多精度的情況下快速近似注意力矩陣的輸出，從而實現(xiàn)長文本下的計算速度提升。圖14:Gemini1.5Pro宣布將contextwindow拓展至1Mtokens數(shù)據(jù)來源：Google15，Gemini/Claude3/GPT-4Turbo~99%1）Prompt的精細調(diào)整，這意味如果抽取的內(nèi)容從固定模式的文本/數(shù)字切換為隨機的文本/數(shù)字，召回率表現(xiàn)可能受到影響；2）當(dāng)前的TheNeedleinaHaystackLLM不需要做太多額外推理，但實際應(yīng)用場景中XX規(guī)定，員工是否允許攜帶寵物上班”、“XX設(shè)計方案是否符合現(xiàn)行居民住宅的建筑標(biāo)準(zhǔn)”等問題，這類問題可以拆分為兩部分，1）問題相關(guān)的背景材料，如現(xiàn)行民用住宅的建筑標(biāo)準(zhǔn)；2）匹配，設(shè)計方案分解后與建筑標(biāo)準(zhǔn)相匹配。Haystack測試的評估一定程度上存在“誤導(dǎo)性”，該90%+的表現(xiàn)不意味著模型在長文本中取出和結(jié)合上下文做復(fù)雜推理的能力。1611/blog/2024/02/18/compound-ai-systems/，根據(jù)UCB轉(zhuǎn)引Databricks信息，目前LLM的應(yīng)用中60%采用RAG，30%采用CoT。12《DataEngineeringforScalingLanguageModelsto128KContext》。13《WorldModelOnMillion-LevelVideoAndLanguageWithRingAttention》。14《HyperAttention:Long-contextAttentioninNear-LinearTime》。15https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/16LLMPR的一面是，AnthropicClaude3GPQALLM在長文本、復(fù)雜問題等場景下的表現(xiàn)提升，促進社會生產(chǎn)力進步。請務(wù)必閱讀正文之后的免責(zé)條款和聲明。通過長文本窗口替代RAG的核心瓶頸在于成本，本質(zhì)原因是內(nèi)存瓶頸。前述問題都可以通過對注意力機Anthropic/OpenAI1Mtoken的定價在GPUGPU（將內(nèi)容切分后分別放在不同GPU上計算后傳輸，這導(dǎo)致延遲。圖15:GPU架構(gòu)示意圖圖16:SM架構(gòu)示意圖數(shù)據(jù)來源：《Towards100xSpeedup:FullStackTransformerInferenceOptimization》，

數(shù)據(jù)來源：《Towards100xSpeedup:FullStackTransformerInferenceOptimization》，圖17:A100內(nèi)存結(jié)構(gòu) 圖18:長文本推理面臨內(nèi)存瓶頸數(shù)據(jù)來源：《EfficientMemoryManagementforLargeLanguageModelServingwithPagedAttention》，

數(shù)據(jù)來源：《Towards100xSpeedup:FullStackTransformerInferenceOptimization》，符堯17提出利用KV緩存存儲內(nèi)容，但其占據(jù)大量內(nèi)存且一旦切換文檔需要重新緩存。根據(jù)LLaMAIndex，1Mtoken100GB3A1002H100A100/H100的價格及有限存儲空間，大量占用內(nèi)存的代價可能過高。PierreLienhart18（AWSGenAI解決方案架構(gòu)師）KV緩存token長度的關(guān)系從指數(shù)級增長轉(zhuǎn)化為線性增長，LLMtoken17《Towards100xSpeedup:FullStackTransformerInferenceOptimization》。18/@plienhar/llm-inference-series-3-kv-caching-unveiled-048152e461c8請務(wù)必閱讀正文之后的免責(zé)條款和聲明。海外行業(yè)動態(tài)報告數(shù)級增長，因此KV緩存策略本質(zhì)平衡GPU帶寬和內(nèi)存以及計算量的問題。圖19:Transformer輸入序列長度為3的雙頭（自）注意力層的詳細視圖數(shù)據(jù)來源：《LLMInferenceSeries:3.KVcachingunveiled》，圖20:KV緩存策略后的注意力計算機制數(shù)據(jù)來源：《LLMInferenceSeries:3.KVcachingunveiled》，方法論上，Transformer模型在計算注意力分數(shù)時，需要查詢向量(Q)與所有鍵向量(K)做點積，獲得未縮放的注意力分數(shù)。但是對于帶有掩碼(mask)的位置，不論它們的注意力分數(shù)是多少，最后都會被遮擋為0，這部分計算就是冗余計算。KV緩存策略通過預(yù)先計算好所有鍵值對(K,V)的注意力分數(shù)和加權(quán)值，并緩存起來。在實際推理時，只需從

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限

文檔簡介

溫馨提示

最新文檔

評論

Anthropic發(fā)布Claude3模型文本窗口擴展對RAG影響有限

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔