版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
/downloadGemini:一個(gè)非常有能力的多模式模式的家庭GeminiGoogle1GeminiGemini系列包括UltraProNano尺寸,適用于從復(fù)雜推理任務(wù)到設(shè)備上內(nèi)存受限用例的應(yīng)用。對(duì)廣泛基準(zhǔn)測(cè)試的評(píng)估表明,我們最強(qiáng)大的GeminiUltra模型在32個(gè)基準(zhǔn)測(cè)試中的30個(gè)中都達(dá)到了最先進(jìn)的水平——值得注意的是,它是第一個(gè)在經(jīng)過充分研究的考試基準(zhǔn)MMLU20個(gè)多模式基準(zhǔn)測(cè)試中都提高了最先進(jìn)的水平。我們相信,Gemini模型在跨模態(tài)推理和語言理解方面的新介紹我們現(xiàn)在展示文本數(shù)據(jù)對(duì)GeminiGemini1.0:UltraGemini(Anil等人等人,2020;Chowdhery等,2023;霍夫曼等年,2023;Radford等人2019;Rae等人,2021),圖像理解(Alayrac等人,2020;OpenAI,里德等,2022a,音頻處理等人,2023;Zhang等人2023,以及視頻理解(Alayrac等人,2022;Chen等,2023)。它還建立在序列模型(Sutskeveretal.,2014)、基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的長(zhǎng)期工作歷史(LeCunetal.,2015)和機(jī)器學(xué)習(xí)分布式系統(tǒng)(Barhametal.,2022;Bradbury等人,2018年;Deanetal.,2012),使大規(guī)模訓(xùn)練成為可能。GeminiUltra99個(gè)視頻理655GeminiUltra是第一個(gè)在(hendricks,2021a)90%GeminiUltraetal.,2023)1完整的作者列表見投稿和致謝部分。請(qǐng)發(fā)送信件到gemini-1-report@?2023谷歌版權(quán)所有知識(shí)和深思熟慮的推理,GeminiUltra達(dá)到了新的最先進(jìn)的得分62.4%,比之前的最佳模型高出5個(gè)百分點(diǎn)以上。它為視頻問答和音頻理解基準(zhǔn)提供了統(tǒng)一的性能提升。513)1Gemini模型的新多模態(tài)和推理能力在許多領(lǐng)域都有巨大的應(yīng)用。圖1|LATEX。大型語言模型的推理能力顯示出了構(gòu)建能夠處理更復(fù)雜多步驟問題的多面手智能體的希望。AlphaCodeAlphaCode2(Leblond等人,2023年),這是一個(gè)新的雙子座驅(qū)動(dòng)的代理,它將Gemini的推理能力與搜索和工具使用相結(jié)合,在解決競(jìng)爭(zhēng)性編程問題方面表現(xiàn)出色。在Codeforces競(jìng)爭(zhēng)性編程平臺(tái)上,AlphaCode2在進(jìn)入者中排名前15%,比前50%的最先進(jìn)的前身有了很大的改進(jìn)(Lietal.2022)。2與此同時(shí),我們通過Gemini、編碼、多模態(tài)和多語言任務(wù)中表現(xiàn)出令人印象深刻的能力。們對(duì)Gemini評(píng)估的方法,2包括在部署決定之前進(jìn)行影響評(píng)估、制定模型政策、評(píng)估和減輕危害的過程。最后,我們討論了Gemini模型架構(gòu)Gemini模型建立在Transformer解碼器等人Google持32k(例如,多查詢注意力,2019))。我們的第一個(gè)版本,Gemini1.01所示。表1|Gemini1.0模型家族概述Gemini(見圖2)Gemini(、(等人(etal.2021;Yuetal.2022b)。我們計(jì)劃在GeminiUltra模型全面上市之前更新這份報(bào)告,提供更多細(xì)節(jié)。3圖2|Gemini支持文本、圖像、音頻和視頻的交錯(cuò)序列作為輸入(通過輸入序列中不同顏色的標(biāo)記來說明)。它可以用交錯(cuò)的圖像和文本輸出響應(yīng)。Zhangetal.2023)攝取16kHz訓(xùn)練()培訓(xùn)基礎(chǔ)設(shè)施我們使用TPUv5e和TPUv4(Jouppi等人,2023)來訓(xùn)練Gemini模型,具體取決于它們的大小和配置。GeminiUltra訓(xùn)練中心在多個(gè)數(shù)據(jù)中心使用了大量的TPUv4加速器。這代表了我們之前的旗艦型號(hào)PaLM-2的規(guī)模顯著增加,這帶來了新的基礎(chǔ)設(shè)施挑戰(zhàn)。加速器數(shù)量的增加會(huì)導(dǎo)致整個(gè)系統(tǒng)中硬件的平均故障時(shí)間成比例地減少。我們最小化了計(jì)劃重調(diào)度和搶占的比率,但由于宇宙射線等外部因素,在如此大規(guī)模的所有硬件加速器中,真正的機(jī)器故障是司空見慣的(Michalaketal.2012)。TPUv4加速器部署在4096個(gè)芯片的“SuperPods”中,每個(gè)芯片連接到一個(gè)專用的光開關(guān),它可以在大約10秒內(nèi)動(dòng)態(tài)地將4x4x4芯片立方體重新配置為任意3D環(huán)面拓?fù)?Jouppi等人,2023)。對(duì)于GeminiUltra,我們決定在每個(gè)超級(jí)艙中保留少量的立方體,以允許熱備用和滾動(dòng)維護(hù)。GeminiUltra(Poutievski等人等人,2023;姚紅等,2018)。谷歌的4網(wǎng)絡(luò)延遲和帶寬足以支持常用的同步訓(xùn)練范式,利用superpods內(nèi)部的模型并行性和superpods之間的數(shù)據(jù)并行性。Jax(Bradburyetal.,2018)Pathways(Barhametal.,2022)的“單控制器”編程模型允許單個(gè)Python進(jìn)程協(xié)調(diào)整個(gè)訓(xùn)練運(yùn)行,極大地簡(jiǎn)化了開發(fā)工作流。XLA編譯器中的GSPMD分區(qū)器(Xuetal.2021)對(duì)訓(xùn)練步長(zhǎng)計(jì)算進(jìn)行分區(qū),MegaScaleXLA編譯器(XLA,2019)通過靜態(tài)調(diào)度適當(dāng)?shù)募?,使它們?cè)诓介L(zhǎng)時(shí)間變化很小的情況下最大限度地與計(jì)算重疊。使用對(duì)持久集群存儲(chǔ)的權(quán)重定期檢查點(diǎn)的傳統(tǒng)方法,在這種規(guī)模上保持一個(gè)高的goodput3at是不可能的。對(duì)于GeminiPaLMPaLM-2相比(Aniletal.2023),盡管使用了更大的訓(xùn)練資源,但這在恢復(fù)時(shí)間上提供了顯著的加速。因此,最大規(guī)模訓(xùn)練工作的85%97%。空前規(guī)模的訓(xùn)練總是會(huì)出現(xiàn)新的有趣的系統(tǒng)故障模式——在這種情況下,我們需要解決的問題之一是“無聲數(shù)據(jù)損壞(SDC)”(Dixit等人,2021;Hochschildetal.2021;Vishwanathanetal.,2015)GeminiSDC事件每隔一兩個(gè)星期就會(huì)影響訓(xùn)練??焖贆z測(cè)和移除故障硬件需要幾種新技術(shù),利用確定性重放來隔離不正確的計(jì)算,并結(jié)合空閑機(jī)器和熱備用上的主動(dòng)SDCUltra模型(包括硬件故障),這是穩(wěn)定訓(xùn)練的關(guān)鍵因素。訓(xùn)練數(shù)據(jù)集GeminiSentencePiecetokenizer(KudoRichardson,2018),發(fā)現(xiàn)在整個(gè)訓(xùn)練語料庫(kù)的大樣本上訓(xùn)練tokenizer可以提高推斷的詞匯表,并隨后提高模型性能。例如,我們發(fā)現(xiàn)Gemini模型可以有效地標(biāo)記非拉丁文字,這反過來又有利于模型質(zhì)量以及訓(xùn)練和推理速度。數(shù)量是按照等人tokenTouvron等人(2023a)提倡的方法。將高質(zhì)量過濾器應(yīng)用于所有數(shù)據(jù)集,使用啟發(fā)式規(guī)則和基于模型的分類器。我們還執(zhí)行安全過濾,以刪除有害內(nèi)容。我們從訓(xùn)練語料庫(kù)中過濾我們的評(píng)估集。最終的數(shù)據(jù)混合和權(quán)重是通過較小模型上的消融來確定的。我們分階段訓(xùn)練以在訓(xùn)練期間改變混合組成-在訓(xùn)練結(jié)束時(shí)增加領(lǐng)域相關(guān)數(shù)據(jù)的權(quán)重。我們發(fā)現(xiàn),數(shù)據(jù)質(zhì)量對(duì)一個(gè)高性能的模型至關(guān)重要,并相信圍繞尋找預(yù)訓(xùn)練的最佳數(shù)據(jù)集分布仍然存在許多有趣的問題。3我們將goodput定義為計(jì)算有用的新步驟所花費(fèi)的時(shí)間除以訓(xùn)練工作經(jīng)過的時(shí)間。5評(píng)價(jià)Gemini模型本身是多模態(tài)的,因?yàn)樗鼈兪峭ㄟ^文本、圖像、音頻和視頻聯(lián)合訓(xùn)練的。一個(gè)開放的問題是,這種聯(lián)合訓(xùn)練是否可以產(chǎn)生一個(gè)在每個(gè)域都具有強(qiáng)大能力的模型——即使與僅為單個(gè)域量身定制的模型和方法相比。我們發(fā)現(xiàn)情況就是這樣:Gemini在廣泛的文本、圖像、音頻和視頻基準(zhǔn)上樹立了一個(gè)新的藝術(shù)狀態(tài)。文本GeminiProUltraPaLM2進(jìn)行了比較,涵蓋了推理、閱讀理解、和編碼等一系列基于文本的學(xué)術(shù)基準(zhǔn)。我們將這些結(jié)果報(bào)告在表2總體而言,我們發(fā)現(xiàn)Pro的性能優(yōu)于的模型相媲美,而GeminiUltra在上等人,2021a)Gemini90.04%的精度。57量為89.8%,GeminiUltra86.4%。要取得高()。我們etal.,2022)可以k8或32(etal.2021)etal.,2022)的情況下達(dá)到為)453.2%年和年的150道題)30%。GeminiUltra還擅長(zhǎng)編碼,這是當(dāng)前法學(xué)碩士的一個(gè)流行用例。我們?cè)谠S多常規(guī)和內(nèi)部基準(zhǔn)上(如AlphaCode2)的一部分來衡量其性能(參見關(guān)于5.1.7節(jié))HumanEval實(shí)現(xiàn)的標(biāo)準(zhǔn)代碼完成基準(zhǔn)(Chenetal.2021)GeminiUltra74.4%的問題。在python代Natural2CodeGeminiUltra74.9%的最高分?jǐn)?shù)。62|GeminiPaLM2。?k832個(gè)樣本的思維鏈,如果有一個(gè)高于閾值的共識(shí)(基于驗(yàn)證分割選擇)9.1。??結(jié)果于2023年11月通過API自行收集。???所顯示的結(jié)果使用Touvron等人(2023b)報(bào)告中的凈化數(shù)字作為與也經(jīng)過凈化的Gemini模型最相關(guān)的比較。對(duì)這些基準(zhǔn)的評(píng)估具有挑戰(zhàn)性,可能會(huì)受到數(shù)據(jù)污染的影響。我們?cè)谟?xùn)練后進(jìn)行了廣泛的泄露數(shù)據(jù)分析,以確保我們?cè)谶@里報(bào)告的結(jié)果盡可能科學(xué)合理,但仍然發(fā)現(xiàn)了一些次要問題,并決LAMBADA的結(jié)果(Papernoetal.,2016)基準(zhǔn)HellaSwag(Zellers等人個(gè)微調(diào)步驟對(duì)應(yīng)于HellaSwag訓(xùn)練集(Gemini)1GeminiPro的驗(yàn)證精度提高到89.6%,Gemini96.0%(我們測(cè)量的API進(jìn)行1次評(píng)估時(shí)獲得了92.3%)10次評(píng)估設(shè)置中報(bào)告HellaSwag大、更細(xì)致的標(biāo)準(zhǔn)化評(píng)估基準(zhǔn)。因此,我們?cè)谧罱l(fā)布的幾個(gè)新的評(píng)估數(shù)據(jù)集(如WMT23和Math-AMC2022-2023問題)(如Natural2Code)Gemini模型。我們請(qǐng)讀者參考附錄以獲取我們?cè)u(píng)估基準(zhǔn)的全面列表。7即便如此,模型在這些基準(zhǔn)上的表現(xiàn)為我們提供了模型能力的指示,以及它們可能在哪里對(duì)現(xiàn)實(shí)世界的任務(wù)產(chǎn)生影響。例如,GeminiUltra令人印象深刻的推理能力和STEM能力為在教育領(lǐng)域4的法學(xué)碩士學(xué)位的進(jìn)步鋪平了道路。解決復(fù)雜數(shù)學(xué)和科學(xué)概念的能力為個(gè)性化學(xué)習(xí)和智能輔導(dǎo)系統(tǒng)開辟了令人興奮的可能性。我們調(diào)查了Gemini涵蓋開卷閉卷檢索和;“數(shù)學(xué)以多種語言進(jìn)行翻譯、總結(jié)和推理的“多語言”任務(wù)。請(qǐng)參閱附錄,了解每個(gè)能力所包含的詳細(xì)任務(wù)列表。圖3|跨不同能力的Gemini模型族的語言理解和生成性能(由GeminiPro模型規(guī)范化)。我們?cè)趫D3中觀察到隨著模型大小的增加,質(zhì)量得到了一致的提升,特別是在推理、數(shù)學(xué)/科學(xué)、摘要和長(zhǎng)上下文方面。GeminiUltra是所有六個(gè)功能的最佳模型。GeminiPro是Gemini系列中的第二大型號(hào),在服務(wù)效率更高的同時(shí)也很有競(jìng)爭(zhēng)力。Nano為了使人工智能更接近用戶,我們討論了為設(shè)備上部署而設(shè)計(jì)的GeminiNano12模型。這些模型通過每個(gè)任務(wù)的微調(diào),在摘要和閱讀理解任務(wù)中表現(xiàn)出色。圖3顯示了這些預(yù)訓(xùn)練模型與更大的GeminiPro模型的性能對(duì)比,而表3科學(xué)和推理任務(wù)。Nano-1和Nano-21.8B3.25B參數(shù)。盡管他們規(guī)模龐大,但他們?cè)谑聦?shí)性(即檢索相關(guān)任務(wù))、編碼、多模態(tài)和參見網(wǎng)站https://deepmind.google/gemini上的演示。8多語言的任務(wù)。隨著新功能可被更廣泛的平臺(tái)和設(shè)備訪問,Gemini模型擴(kuò)展了對(duì)每個(gè)人的可訪問性。表3|與GeminiPro模型相比,GeminiNano系列在事實(shí)、總結(jié)、推理、編碼和STEM任務(wù)方面的表現(xiàn)。MultilingualityGemini化和多語言文本的生成。這些任務(wù)包括機(jī)器翻譯基準(zhǔn)測(cè)試(用于高、中、低資源翻譯的23;Flores、NTREX()、摘要基準(zhǔn)測(cè)試(XLSum、Wikilingua)和通用基準(zhǔn)測(cè)試的翻譯版本種語言)。機(jī)器翻譯23(6.4.2節(jié))的GeminiUltra以及其他模型23Geminietal.分,PaLMGeminiUltra74.4,GPT-473.8,PaLM2-L72.7。表4|Gemini模型在WMT23翻譯基準(zhǔn)上的性能。所有數(shù)字都用1-shot。GeminiUltra下語言集的尾部采樣的(和Kanure),NTREX(北恩德貝勒和內(nèi)部基準(zhǔn)(Quechua)。9對(duì)于這些語言,無論是英語還是英語,GeminiUltra在一次射擊設(shè)置中平均chrF得分為27.0,而第二好的型號(hào)PaLM2-L的得分為25.3。除了翻譯,我們還評(píng)估了Gemini在各種語言的挑戰(zhàn)性任務(wù)中的表現(xiàn)。我們專門研究了數(shù)學(xué)基準(zhǔn)(Shietal.,2023),它是數(shù)學(xué)基準(zhǔn)(etal.,2021)的翻譯版本。我們發(fā)現(xiàn)GeminiUltra8(等人和(,2020)UltrarougeL17.6215.4,Gemini桿)PaLM桿5表5|Gemini模型在多語言數(shù)學(xué)和總結(jié)上的表現(xiàn)。長(zhǎng)背景Gemini模型的序列長(zhǎng)度為準(zhǔn)確率為4(NLL)NLL32KGemini模型5.2.2節(jié)中討論的文檔檢索和視頻理解。圖4|在一組長(zhǎng)文檔上,負(fù)對(duì)數(shù)似然作為token索引在32K上下文長(zhǎng)度上的函數(shù)。10Gemini6.4.2指令調(diào)整的GeminiPro模型在一系列功能上提供了很大的改進(jìn),包括GeminiPro模型優(yōu)于PaLM2API65.0%59.2%68.5%,6所示。這些改進(jìn)直接轉(zhuǎn)化為更有幫助和更安全的用戶體驗(yàn)。表6|GeminiPro對(duì)PaLM2的勝率(text-bison@001),95%置信區(qū)間。復(fù)雜推理系統(tǒng)Gemini驟問題。這種系統(tǒng)的一個(gè)例子是AlphaCode2,這是一種新的最先進(jìn)的代理,擅長(zhǎng)解決競(jìng)爭(zhēng)性編程問題(Leblondetal,2023)。AlphaCode2GeminiPro了調(diào)優(yōu),類似于Li等人(2022)GeminiProAlphaCode2Codeforces5(Alphade相同的平臺(tái)上進(jìn)行評(píng)估,從1212場(chǎng)比賽,77個(gè)問題。AlphaCode243的競(jìng)爭(zhēng)問題,比之前創(chuàng)紀(jì)錄的AlphaCode25%的問題提高了1.7倍。將其映射到競(jìng)爭(zhēng)排名中,建立在GeminiProAlphaCode2平均估計(jì)位于85個(gè)百分位-即。它的表現(xiàn)優(yōu)于85的參賽者。這與Alphade相比是一個(gè)重大進(jìn)步,后者的表現(xiàn)僅超過50的競(jìng)爭(zhēng)對(duì)手。另一個(gè)關(guān)鍵因素是對(duì)一系列模態(tài)的深入理解,我們將在下一節(jié)中討論。5http://11多通道Gemini(例)與語言模型的強(qiáng)大推理能力(例如其在數(shù)學(xué)和編碼方面的最先進(jìn)性能)無縫結(jié)合起來,如圖5和12中的示例所示。這些模型還在識(shí)別輸入中的細(xì)粒度細(xì)節(jié)、聚合跨空間和時(shí)間的上下文以及在時(shí)間相關(guān)的視頻幀和或音頻輸入序列上應(yīng)用這些能力方面表現(xiàn)出強(qiáng)大的性能。()我們?cè)谒姆N不同的能力上評(píng)估了該模型:使用字幕或問答任務(wù)(如VQAv2)的高級(jí)目標(biāo)識(shí)別;使用要求模型識(shí)別低級(jí)細(xì)節(jié)的TextVQA和DocVQA等任務(wù)的細(xì)粒度轉(zhuǎn)錄;需要使用ChartQA和InfographicVQA任務(wù)對(duì)輸入布局進(jìn)行空間理解的圖表理解;以及使用Ai2D、MathVista和MMMU等任務(wù)進(jìn)行多模態(tài)推理。對(duì)于零樣本QA評(píng)估,該模型被指示提供與特定基準(zhǔn)一致的簡(jiǎn)短答案。所有數(shù)字都是使用貪婪采樣獲得的,沒有使用任何外部OCR工具。圖像理解引擎(“僅像素”)0-shot而不是完全相同的比較。12在表7中,我們發(fā)現(xiàn)(最著名的是模型的能力在學(xué)術(shù)基準(zhǔn)方面帶來了顯著的進(jìn)步,比如或InfographicVQA(+5.2%)。(,2023)6GeminiUltra5658),從而展示了其多模態(tài)推理能力。8|GeminiUltra在每個(gè)學(xué)科MMMU基準(zhǔn)等2023)上的表現(xiàn)。每門學(xué)科涵蓋多個(gè)學(xué)科,需要具備大學(xué)水平的知識(shí)和復(fù)雜推理。Gemini()。我們使用評(píng)估協(xié)議etal.4個(gè)鏡頭設(shè)置的cross-9Googlepal-x有了顯著的改進(jìn)。表9|在XM-3600數(shù)據(jù)集的語言子集上進(jìn)行基準(zhǔn)測(cè)試時(shí),多語言圖像理解Gemini模型在多種語言的圖像字幕方面優(yōu)于現(xiàn)有模型(Thapliyal等,2022)。6MathVista是一個(gè)全面的數(shù)學(xué)推理基準(zhǔn),由28個(gè)先前發(fā)布的多模態(tài)數(shù)據(jù)集和3個(gè)新創(chuàng)建的數(shù)據(jù)集組成。我們的MathVista結(jié)果是通過運(yùn)行MathVista作者的評(píng)估腳本獲得的。135|Gemini的多模態(tài)推理能力matplotlib成代碼的渲染版本。成功解決此任務(wù)顯示了該模型結(jié)合幾種功能的能力:(1)對(duì)圖中所示函數(shù)的識(shí)別;(2)反向圖形來推斷可能會(huì)生成子圖的代碼;(3)指令跟隨,將子圖放置在其期望的位置;以及(4)抽象推理,推斷指數(shù)圖必須保持在原來的位置,因?yàn)檎覉D必須移動(dòng)到三維圖的位置。圖5中的定性評(píng)估舉例說明了GeminiUltra的多模態(tài)推理能力。該模型需要解決生成matplotlib代碼的任務(wù),該代碼將重新排列用戶提供的一組子圖。模型輸出顯示,它成功地解決了這個(gè)任務(wù)14結(jié)合多種理解用戶圖的能力,推斷生成它所需的代碼,遵循用戶指令將子圖放在他們想要的位置,以及對(duì)輸出圖的抽象推理。這突出了GeminiUltra的原生多模態(tài),并回避了其更復(fù)雜的推理能力,跨越交錯(cuò)序列的圖像和文本。我們請(qǐng)讀者參考附錄了解更多定性的例子。視頻數(shù)據(jù)集()Gemini模型。GeminiUltra1010選定的學(xué)術(shù)基準(zhǔn)上|。報(bào)告的指標(biāo)是視頻字幕的CIDER,NextQAWUPS,以及感知測(cè)試和ActivityNet-QAtop-1準(zhǔn)確率。對(duì)于ActivityNet-QA,我(Linetal.2023)評(píng)估協(xié)議。圖像生成Gemini能夠本地輸出圖像,而不必依賴中間的自然語言描述,這可能會(huì)限制模型表達(dá)圖像的能力。這獨(dú)特地使模型能夠在少鏡頭設(shè)置下使用圖像和文本的交錯(cuò)序列生成具有提示的圖像。例如,用戶可能會(huì)提示模型為一篇博客文章或一個(gè)網(wǎng)站設(shè)計(jì)圖像和文本的建議(參見附錄中的圖10)。15圖61-shot藍(lán)色和黃色))6|圖像生成。Ultra議的圖像,從yarn16Gemini和Gemini(Zhang等人(large-v3(OpenAI,(ASR)FLEURS(等(等2021),多語言(Panayotov等人2等人ASR任務(wù)報(bào)告單詞錯(cuò)誤率(WER)(BLEU)分?jǐn)?shù),數(shù)字越高越好。報(bào)告了()報(bào)告字符錯(cuò)誤率(CER)WERWhisper(Radford等人,2023)。11表明,我們的GeminiPro模型在所有ASRAST任務(wù)中都明顯優(yōu)于USMWhisper模型,無論是英語還是多語言測(cè)試集。請(qǐng)注意,與USMWhisper相比,F(xiàn)LEURS有很大的增益,因?yàn)槲覀兊哪P鸵彩怯肍LEURS訓(xùn)練數(shù)據(jù)集訓(xùn)練的。然而,在沒有FLEURS數(shù)據(jù)集的情況下訓(xùn)練相同的模WER158,仍然優(yōu)于Whisper。GeminiNano1FLEURS以外的所有數(shù)據(jù)集上USMWhisperGeminiUltra的音頻,盡管我們期望從增加的模型規(guī)模中獲得更好的性能。表11|ASR和AST在選定基準(zhǔn)上的語音評(píng)估結(jié)果。對(duì)于ASR,報(bào)告的度量是WER,越低越好。對(duì)于AST,報(bào)告的度量是BLEU,越高越好。表12顯示了USM和GeminiPro的進(jìn)一步誤差分析。我們發(fā)現(xiàn)GeminiPro的回答更容易理解,尤其是在罕見的單詞和專有名詞上。表12|基準(zhǔn)中ASR任務(wù)的定性示例。不正確的轉(zhuǎn)錄用紅色標(biāo)出。17形態(tài)組合(通常是圖像)交織的文本組合。我們展示了原生處理音頻和圖像序列的能力。網(wǎng)站上的演示。表13:視聽定性示例展示了Gemini18負(fù)責(zé)部署在Gemini模型的開發(fā)過程中,我們遵循結(jié)構(gòu)化的方法進(jìn)行負(fù)責(zé)任的部署,以識(shí)別、測(cè)量和管理(Kavukcuoglu等人,2022)我們開發(fā)模型影響評(píng)估,以識(shí)別、評(píng)估和記錄與先進(jìn)Gemini模型開發(fā)相關(guān)的關(guān)鍵下游社會(huì)效益和危害。這些依據(jù)先前關(guān)于語言模型風(fēng)險(xiǎn)的學(xué)術(shù)文獻(xiàn)(Weidinger等人,2021年),以及來自全行業(yè)進(jìn)行的類似先前練習(xí)的發(fā)現(xiàn)(Anil等人,2023;人為,2023;OpenAI,2023a),持續(xù)與內(nèi)部和外部的專家進(jìn)行接觸,以及非結(jié)構(gòu)化地嘗試發(fā)現(xiàn)新的模型漏洞。關(guān)注領(lǐng)域包括:事實(shí)性、兒童安全、有害內(nèi)容、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、代表性和包容性。這些評(píng)估與模型開發(fā)同步更新。GeminiGemini模型的不同功能,使用谷歌的人工智能原則評(píng)估這些功能的潛在后果(谷歌,2023)。模型的政策基于對(duì)已知和預(yù)期影響的這種理解,我們制定了一套“模型策略”來指導(dǎo)模型的開發(fā)和評(píng)估。模型政策定義作為負(fù)責(zé)任開發(fā)的標(biāo)準(zhǔn)化標(biāo)準(zhǔn)和優(yōu)先級(jí)方案,并作為發(fā)布就緒的標(biāo)志。Gemini模范政策涵蓋了許多領(lǐng)域,包括:兒童安全、仇恨言論、事實(shí)準(zhǔn)確性、公平和包容,以及騷擾。19評(píng)估()5.1.6節(jié)和下一節(jié)的緩解措施。(Shevlane等,2023)。外部評(píng)估由谷歌以外的合作伙伴進(jìn)行,以確定盲點(diǎn)。外部團(tuán)體就一系列問題對(duì)我們的模型進(jìn)行壓力測(cè)試,包括白宮承諾中列出的領(lǐng)域,7并通過結(jié)構(gòu)化評(píng)估和非結(jié)構(gòu)化紅色團(tuán)隊(duì)的混合進(jìn)行測(cè)試。這些評(píng)估的設(shè)計(jì)是獨(dú)立的,結(jié)果定期報(bào)告給谷歌DeepMind團(tuán)隊(duì)。除了這一套外部評(píng)估之外,專家內(nèi)部團(tuán)隊(duì)還在Gemini緩解措施緩解措施是根據(jù)上述評(píng)估、政策和評(píng)估方法的結(jié)果制定的。評(píng)估和緩解以迭代方式使用,在緩解努力之后重新運(yùn)行評(píng)估。我們?cè)谙旅嬗懻摿宋覀冊(cè)诰徑鈹?shù)據(jù)、指令調(diào)優(yōu)和事實(shí)性方面的模型危害方面的努力。數(shù)據(jù)在培訓(xùn)之前,我們?cè)跀?shù)據(jù)策劃和數(shù)據(jù)收集階段采取各種步驟來減輕潛在的下游危害。正如在“訓(xùn)練數(shù)據(jù)”一節(jié)中所討論的,我們針對(duì)高風(fēng)險(xiǎn)內(nèi)容過濾訓(xùn)練數(shù)據(jù),并確保所有訓(xùn)練數(shù)據(jù)都足夠高質(zhì)量。除了過濾之外,我們還采取措施確保收集的所有數(shù)據(jù)符合谷歌DeepMind在數(shù)據(jù)豐富方面的最佳實(shí)踐,8這些實(shí)踐是基于人工智能“負(fù)責(zé)任的數(shù)據(jù)豐富服務(wù)采購(gòu)”9伙伴關(guān)系開發(fā)的。這包括確保所有數(shù)據(jù)充實(shí)工作者的工資至少達(dá)到當(dāng)?shù)氐纳罟べY水平。7https://whitehouse.gov/wp-content/上傳/2023/07/Ensuring-Safe-Secure-and-Trustworthy-AI.pdf8https://google/發(fā)現(xiàn)/博客/best-practices-for-data-enrichment/9https://partnershiponai.org/responsible-sourcing-20指令調(diào)整包括監(jiān)督微調(diào)(SFT)和使用獎(jiǎng)勵(lì)模型通過人類反饋(RLHF)的強(qiáng)化學(xué)習(xí)。我們將指令調(diào)優(yōu)應(yīng)用于文本和多模態(tài)設(shè)置。指令調(diào)優(yōu)食譜經(jīng)過精心設(shè)計(jì),以平衡有用性的增加與與安全和幻覺相關(guān)的模型危害的減少(Bai等人,2022a)。、獎(jiǎng)勵(lì)模型訓(xùn)練和RLHF()etal.,2023)進(jìn)一步闡述了減輕有害文本生成風(fēng)險(xiǎn)的方法。在廣泛的用例中列舉了大約20種傷害類型(例如仇恨言論、提供醫(yī)療建議、建議危險(xiǎn)行為)。生成了這些類別中潛在致傷害查詢的數(shù)據(jù)集,這些數(shù)據(jù)集要么由政策專家和考慮到有害的查詢,我們探測(cè)了我們的Gemini監(jiān)督微調(diào)數(shù)據(jù)來展示理想的響應(yīng)。為了大規(guī)模生成這樣的回答,我們嚴(yán)重依賴一個(gè)自定義數(shù)據(jù)生AI的啟發(fā)etal.2022b)(Kojimaetal.,2022)GeminiPro中,這個(gè)整體方法能夠減輕我們確定的大多數(shù)文本傷害案例,而沒有任何明顯的響應(yīng)幫助減少。事實(shí)性重要的是,我們的模型在各種情況下都能產(chǎn)生符合事實(shí)的反應(yīng),并減少幻覺的頻率。我們將指令:歸因如果被要求在提示中生成一個(gè)應(yīng)完全歸因于給定上下文的響應(yīng),Gemini應(yīng)該生成一個(gè)對(duì)上下文最忠實(shí)的響應(yīng)(Rashkin等人,2023)。這包括對(duì)用戶提供的來源進(jìn)行總結(jié),根據(jù)問題生成細(xì)粒度的引用,并提供類似于等人(2022)的片段etal.(2023),回答來自長(zhǎng)形式來源(如一本書)的問題(Mihaylovetal.,2018)(例如,從會(huì))。閉卷響應(yīng)生成見Roberts等人的第2)(例如“寫一篇50021對(duì)沖Geminietal.(2023)中的例子QA,但答案無法從給定的上下文派生,等等。RLHF,從請(qǐng)注意,這里產(chǎn)生的結(jié)果不包括賦予據(jù)稱可以提高事實(shí)性的工具或檢索等人,2022;Peng等人,2023)。我們?cè)谙旅嫣峁┝巳齻€(gè)關(guān)于各自挑戰(zhàn)集的關(guān)鍵結(jié)果。事實(shí)集包含尋求事實(shí)提示的評(píng)估集(主要是閉卷)。這是通過人工標(biāo)注者進(jìn)行評(píng)估的,他們手我們報(bào)告了由標(biāo)注者判斷的事實(shí)不準(zhǔn)確的回答的百分比。歸屬集一個(gè)評(píng)估集,其中包含各種需要在提示中對(duì)來源進(jìn)行歸屬的提示。這是通過人工標(biāo)報(bào)告的度量是AIS(Rashkin等人,2023)。套期保值設(shè)置Gemini模型套期保值準(zhǔn)確。14。70%(0%上升)。表14:事實(shí)性緩解:指令調(diào)整對(duì)不準(zhǔn)確性、歸因存在和準(zhǔn)確對(duì)沖率的影響(具有相應(yīng)的95%置信區(qū)間)。部署在審查完成之后,為每個(gè)已批準(zhǔn)的Gemini模型創(chuàng)建模型卡,用于結(jié)構(gòu)化和一致的關(guān)鍵性能和責(zé)任度量的內(nèi)部文檔,并隨著時(shí)間的推移通知這些度量的適當(dāng)外部通信。在負(fù)責(zé)任的開發(fā)過程中,我們與谷歌DeepMind責(zé)任與安全委員會(huì)(RSC)一起進(jìn)行倫理和安全審查,10這是一個(gè)跨學(xué)科小組,根據(jù)谷歌的人工智能原則評(píng)估谷歌DeepMind的項(xiàng)目、論文和合作。RSC就影響評(píng)估、政策、評(píng)價(jià)和緩解工作提供投入和反饋。在Gemini項(xiàng)目期間,RSC跨關(guān)鍵政策領(lǐng)域(例如兒童安全)設(shè)置了具體的評(píng)估目標(biāo)。10https://deepmind.google//responsibility-safety/22討論與結(jié)論我們已經(jīng)介紹了GeminiGemini的能力,我們最強(qiáng)大的GeminiUltra細(xì)發(fā)展中獲得的性能收益繼續(xù)帶來質(zhì)量的提高,在幾個(gè)基準(zhǔn)中設(shè)置了新的技術(shù)水平。特別是,GeminiUltra90.0%年首次發(fā)布以來,這一直是衡量法學(xué)碩士進(jìn)步的事實(shí)上的指標(biāo)。在多模態(tài)領(lǐng)域,GeminiUltra在大多數(shù)圖像理解、視頻理解和音頻理解基準(zhǔn)上設(shè)定了新的技術(shù)水平,而無需針對(duì)特定任務(wù)進(jìn)行修改或調(diào)整。特別是,GeminiUltra基準(zhǔn)測(cè)試etal.2023)上的最先進(jìn)表現(xiàn)是顯而易見的,該測(cè)試包括關(guān)于需要大學(xué)水平學(xué)科知識(shí)和刻意推理的圖像的問題。模型解析復(fù)雜圖像()Gemini23參考文獻(xiàn)。JeanBaptisteAlayracJeffDonahue,PaulineLucAneMiechIaBarr,naHasson,KarelLenc,ArthurMensch,KaerineMillican,MalcolmReynolds等。Flamingo一種用于少樣本學(xué)習(xí)的視覺語言模型。神經(jīng)信息處理系統(tǒng)的進(jìn)展,353716-23736,2022。RohanAnil,AndrewM.Dai,OrhanFira,MelvJohnson,DmitryLepikhin,AlexandrePassos,SiamakShakeriEmanuelropaPaigeBailey,陳,EricChuJonaanHClarkLaurentElShafey,黃艷平,Kathymeyer-hellstern,GauravMishra,EricaMoreiraMarkOmernickKevRobsonSebastianRuderYiTayKefanXiaoanzhongZhangjingGustavoHernandezAbregoJunwhanAhnJacobAustin保羅·巴勒姆JanBothaJamesBradbuSiddharthaBrahmaKevBrooks,MicheleCastagChengColinerryChristopherAChoquetteChoo阿坎沙·喬德瑞clacimmentCrepyShachiDaveMostafaDehghaniSunaDevJacobDevlinMarkDíazDuNanEthanDyerVladFeinberg,馮VladFienberMarkusFreitagXavrGarciaSebastianGehrmannLucasGonzazGuygurari,StevenHandHadiHashemi,LeHou,JoshuaHowlandAndreaHuJeffreyHuJeremyHurwitz邁克爾·伊薩德AbeIttycheriahMatthewJagielskiWenhaoJiaKathleenKenea,MaximKrikunSnehaKudugunta,angLan,KaerineLee,BenminLeeEricL,MusicLi,WeiL,GuangLi,JianLi,LimHyeonekLHanzhaoLZhongtaoFrederickLMarcelloMaggionAromaMahendruJoshuaMaynezdantMisraMaysamMoussalemZacharyNadoJohnNhamEricNiAndrewNystromAliciaParrishMariePellaMartinPolacekAlexPozovReerPopeSiyuanQiaoEmilyReifBryanRichter,ParkerRileyAlexCastroRosAurko羅伊BrennanSaetaRajkumarSamuel,ReneeSheyAmbroseSloneDanlSmilkovDavRSoSohnDanieSimonTokumineDashalterVijaysudevanKiranVodrahalli,王學(xué)智,王丕東,王子瑞,王濤,JohnWieting,吳玉懷,徐kelvin,徐云涵,薛林婷,尹鵬程,余嘉輝,張喬,鄭Steven,鄭策,周維康,周丹尼,SlavPetrov,吳永輝。Palm2技術(shù)報(bào)告,2023年。人擇??藙诘履P偷哪P涂ê驮u(píng)估,2023年。白云濤、安迪瓊斯、卡邁勒·恩杜塞、AmandaAskell、安娜陳、諾瓦·達(dá)薩瑪、黎明·德雷恩、斯坦尼斯拉夫堡、深崗古里、湯姆·亨尼根、尼古拉斯·約瑟夫、SauravKadavath、杰克遜·克尼昂、湯姆·康納利、希爾·厄爾-肖克、納爾遜·埃爾哈格、扎克·哈特菲爾德-多德、丹尼·埃爾南德斯、特里斯坦·休謨、斯科特·約翰斯頓、肖娜·克拉維茨、莉安·洛維特、尼爾·南達(dá)、凱瑟琳·奧爾森、達(dá)雷爾·阿莫代伊、湯姆·布朗、杰克·克拉克、薩姆·麥坎德利什、克里斯·奧拉、本·曼和賈里德·卡普蘭。用人類反饋的強(qiáng)化學(xué)習(xí)來訓(xùn)練一個(gè)有用且無害的助手。2022年4月。URL/abs/2204.05862。白云濤、Kadavath、、Askell、、AzaliaaiarXiv預(yù)arXiv:2212.08073,2022b。保羅·巴勒姆、阿坎沙·喬德瑞、杰夫·迪恩、桑杰·格瑪沃特、StevenHand、Daniel·赫特、邁克爾·伊薩德、LimHyeontaek、龐若明、蘇迪卜羅伊等。路徑:面向機(jī)器學(xué)習(xí)的異步分布式數(shù)據(jù)流。機(jī)器學(xué)習(xí)與系統(tǒng)學(xué)報(bào),4(4):430-449,2022。詹姆斯·布拉德伯里、羅伊·弗羅斯特格、彼得·霍金斯、馬修·詹姆斯·約翰遜、克里斯·利里、杜格爾·麥克勞林、喬治·內(nèi)庫(kù)拉、亞當(dāng)·帕斯克、杰克·范德普拉斯、斯凱·Wanderman-Milne和張喬。JAX:Python+NumPy程序的可組合變換,年。URL/。TomBrown,BenjaminMann,NickRyder,MelanieSubbiah,JaredDKaplan,PrafullaDhariwal,ArvindNeelakantan,PranavShyam,GirishSastry,AmandaAskell,SandhiniAgarwal,ArielHerbert-Voss,GretchenKrueger,TomHenighan,RewonChild,AdityaRamesh,DanielZiegler,Jeffrey24吳、克萊門斯·溫特、克里斯·黑塞、馬克·陳、埃里克·西格勒、馬特烏斯·利特溫、斯科特·格雷、本杰明·切斯、杰克·克拉克、克里斯托弗·伯納、薩姆·麥坎迪什、亞歷克·雷德福、伊利亞·薩斯克維爾和達(dá)里奧·阿莫代伊。語言模型是少樣本的學(xué)習(xí)者。見H.Larochelle,Ranzato,R.Hadsell,Balcan和H.Lin,編輯《神經(jīng)信息處理系統(tǒng)進(jìn)展,第 33 卷,第 1877-1901 頁(yè)。Curran Associates, Inc., 年。URLhttps://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf。MarkJerry、Oliveira、、HarriEdwards、、Joseph、、、Raul、GretchenKrueger、邁克爾彼得羅夫、HeidyKhlaaf、Sastry、Pamela、Brooke、Gray、Ryder、Mikhail、、Kaiser、、Clemens、、、Cummings、Plappert、Chantzis、Barnes、Ariel,,,NikolasJieIgorSuchirChristopherHesse,AndrewN.Achiam,EvanKnight,Katie,預(yù)印arXiv:2107.03374,2021。URL/abs/2107.03374。陳曦、王曉、索拉維特·張皮約、A·J·皮爾喬瓦尼、彼得·帕德萊夫斯基、丹尼爾·薩爾茨、塞巴斯蒂安·古德曼、亞當(dāng)·格里納、巴茲爾·穆斯塔法、盧卡斯·拜爾、Alexander·科列斯尼科夫、JoanPuigcerver·容、哈?!ぁぁげ祭虏?、郭維成、莫伊塔巴·塞耶霍塞尼、賈超、布爾庫(kù)·卡拉戈?duì)枴ぐP(yáng)、卡洛斯·里克爾梅、安德烈亞斯·施泰納、阿內(nèi)利亞·安杰洛娃、翟曉華、尼爾·霍斯比和拉杜·索里卡特。PaLI:聯(lián)合縮放的多語言語言圖像模型。arXiv預(yù)印本arXiv:2209.06794,2022。URLhttps。陳曦、josesipDjolonga、Padlewski、Mustafa、、、CarlosRiquelmeRuiz、Goodman、Tay、Shakeri、MostafaDehghani、DanielSalz、Lucic、Arsha、Huhex翔、、、Ceslee、PaulinaPietrzyk、RitterAJ、MatthiasMindererphilipPavetic、、IbrahimAlabdulmohsin、Beyer、Amelot、Lee、AndreasSteinerLiDanielKeysers,AnuragArnabKeranRong,Alexander,AneliaAngelovaSoricut。PaLI-X:arXivarXiv:2305.18565,2023。Narang,PaulBarham,HyungSchuh,Shi,SashaRao,巴恩斯,NoamReif,ReinerAustin,Gur-Ari,Duke,Sunipa,、、Robinson、、Denny、David、LimBarretAlexander、、、ShivaniAgrawal、、Andrew.、Sankara-、、、、、OleksandrPolozov、Lee、周宗偉、、Saeta、Diaz、、Catasta、meyer-hellsternDouglasEck、JeffDean、斯拉夫·彼得羅夫和諾亞·菲爾德。用擴(kuò)展語言建模。機(jī)器學(xué)習(xí)研究。URL。25克里斯托弗·克拉克、肯頓、張明偉、湯姆·奎特科夫斯基、邁克爾·柯林斯和克里斯蒂娜·年會(huì)議論文集:1()2924-2936頁(yè),URL/N19-1300。JonClark,EunsolChoi,邁克爾Collins,Dangarrett,TomKwiatkowski,VitalyNikolaev和JennimariaPalomaki。TydiQA:錯(cuò)別字-邏輯多樣化語言的信息搜索問答基準(zhǔn)。計(jì)算語言學(xué)學(xué)會(huì)學(xué)報(bào),2020。URL/tydiqa/tydiqa.pdf。KarlCobbe,VineetKosaraju,MohammadBavarian,JacobHilton,ReiichiroNakano,ChristopherHesse和JohnSchulman。訓(xùn)練驗(yàn)證者解決數(shù)學(xué)應(yīng)用題。arXiv預(yù)印本arXiv:2110.14168,2021。URL/abs/2110.14168。AlexisConneauMinMaSimranKhanujaZhangraAxelrodSiddharthDalmiaJasonRiesaClaraRiveraAnkurBapna。Fleurs:語音普遍表征的少樣本學(xué)習(xí)評(píng)估。在2022IEEE口語技術(shù)研討會(huì)(SLT)798805。IEEE,2023。大規(guī)模分布式深度網(wǎng)絡(luò)。神經(jīng)信息處理系統(tǒng)進(jìn)展,2012年第25期。HarishDattatrayaDixit,SnehaPendharkar,MattBeadon,ChrisMason,TejasviChakravarthy,BharathMuthiah,SriramSankar。大規(guī)模的無聲數(shù)據(jù)損壞。arXiv預(yù)印本arXiv:2102.11245,2021。AlexeyDosovitskiy、LucasBeyer、AlexanderKosnikov、DirkWeissenborn、XiaohuaZhai、ThomasUnrthiner、MostafaDehghani、MatthiasMinderer、GeorgHeigo、SylvainGelly、JakobUszkoreit、NeilHoulsby。一幅圖像抵得上16x16個(gè)單詞:transformer用于大規(guī)模圖像識(shí)別。在ICLR2020年。DheeruDuayizzhong、、GabrielStanovsky、SameerSingh、Gardner。DROP:《計(jì)算語言學(xué)協(xié)會(huì)北美分會(huì)年會(huì)議論文集:1()頁(yè),URL/N19-1246。克里斯蒂安·費(fèi)德曼、湯姆·科米和應(yīng)欣。NTREX-128-新聞測(cè)試參考128種語言的機(jī)器翻譯評(píng)估。第一屆擴(kuò)大多語言評(píng)估研討會(huì)論文集,21-24頁(yè),在線,2022年11月。計(jì)算語言學(xué)協(xié)會(huì)。URL/2022.sumeval-1.4。谷歌。谷歌的AI原理。2023。URLhttps://ai.google/responsibility/principles/。shGoyal、TejasKhot、DouglasSummersStay、DhruvBatraDeviParikhVQAV很重要:提升圖像理解在視覺問答中的作用。IEEE計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集,第69046913頁(yè),2017。TahmidHasanAbhBhattacharjeeMdSaifulIslamKaziMubasshiranFangLYong-BinKangM.SohelRahmanandRifatShahriyar。XLsum:44種語言的大規(guī)模多語言抽象摘要。在計(jì)算語言學(xué)協(xié)會(huì)的發(fā)現(xiàn):ACL-IJCNLP2021中,26頁(yè)4693-4703,在線,2021年8月。計(jì)算語言學(xué)協(xié)會(huì)。Doi:10.18653/v1/2021.findings-acl.413。URL/2021.findings-acl.413。Danhendricks、CollinBurns、StevenBasart、AndyZou、MantasMazeika、DawnSong、JacobSteinhardt。測(cè)量大規(guī)模多任務(wù)語言理解。國(guó)際學(xué)習(xí)表征會(huì)議論文集(ICLR),2021a。Danhendricks,CollinBurns,SauravKadavath,AkulArora,StevenBasart,EricTang,DawnSong和JacobSteinhardt。用數(shù)學(xué)數(shù)據(jù)集測(cè)量數(shù)學(xué)問題解決。arXiv預(yù)印本arXiv:2103.03874,2021b。URL/abs/2103.03874。PerHHochschild,保羅特納,JeffreyCMoguRamaGovindaraParthasarathyRanganathanDavECullerAminhdat。不算數(shù)的核心。在《操作系統(tǒng)熱點(diǎn)話題研討會(huì)論文集》中,第916頁(yè),2021年。JordanHoffmann、、Arthur、Elena、Cai、、Diego、Hendricks、Welbl、、Hennigan、、、denDriessche、、、、、RaeOriol。訓(xùn)練計(jì)算-最優(yōu)大型語言模型。arXivarXiv:2203.15556,2022。胡圣鼎,羅一帆,王華東,程興義,劉志遠(yuǎn),孫茂松?!恫粫?huì)再上當(dāng):用假前提回答問題》。arXiv預(yù)印本arXiv:2307.02394,2023。黃恩貞和沃德·施瓦茲。Memecap:用于字幕和解釋模因的數(shù)據(jù)集,2023年。NormJouppi,GeorgeKurian,ShengL,PerMa,RahulNagarajanLifengNai,NishantPatil,SuvaySubramann,AndySwing,Brianwles等。Tpuv4用于機(jī)器學(xué)習(xí)的光學(xué)可重構(gòu)超級(jí)計(jì)算機(jī),具有《計(jì)算機(jī)體系結(jié)構(gòu)第50屆年度國(guó)際研討會(huì)論文集》114,2023。AshwinKalyan,AbhinavKumar,ArjunChandrasekaran,AshishSabharwal和PeterClark。2019年emnlp期間喝了多少咖啡?費(fèi)米問題:ai的新推理挑戰(zhàn),2021年?!だ詹祭?、淺井明輝、余心言、德拉戈米·拉德夫、諾亞·a·史密斯、崔Yejin、犬井健太郎。實(shí)時(shí)QA現(xiàn)在的答案是什么?,年。URL/abs/2207.13332。KKavukcuoglu,PKohli,LIbrahim,DBloxwich,SBrown。我們的原則如何幫助定義alphafold的發(fā)布。谷歌deepmind,2022。AniruddhaKembhavi、MikeSaa、EricKolve、MinjoonSeo、HannanehHajishirziAliFarhadi。一張圖抵得上十多張圖。在ECCV,2016年。omá?o?ky、Jnaancharz、hlBunsom、hrsDyer、KarlorzHerann、áores、dwardGrfnsee。hearraveQAradngcmprhnsonchane。計(jì)算語言學(xué)學(xué)報(bào),6317-328,2018。do:10.162/ac_a_00023。URLhttpnthoog.ogQ181023。om·科米,雷切爾·鮑登,ndej博賈爾,安東·德沃科維奇,克里斯蒂安·費(fèi)德曼,馬克·費(fèi)舍爾hammeowda,伊維·格雷厄姆,羅·格蘭德凱維奇,巴·哈道,麗貝卡·諾爾斯,菲利普·科恩,克里斯托弗·蒙茲,森下誠(chéng),永田正明,中澤俊明,邁克爾Novák,27MartinPopel和MajaPopovi?。2022年機(jī)器翻譯會(huì)議(WMT22)調(diào)查結(jié)果。在第七屆機(jī)器翻譯會(huì)議(WMT)論文集中,2022年12月。URL/2022.wmt-1.1。小島武、石翔謝恩·顧、馬謝爾·里德、松大雄、巖澤佑介。大型語言模型是零樣本推理機(jī)。NeurIPS,2022年。URL/abs/2205。11916.工藤拓和約翰·理查森。SentencePiece:用于神經(jīng)文本處理的簡(jiǎn)單且獨(dú)立于語言的子詞分詞器EMNLP(系統(tǒng)演示)2018doi:10.18653/v1/d18-2012URL/D18-2012。Kwiatkowski,jenimariaPalomaki,OliviaRedfield,MichaelCollins,AnkurParikh,ChrisAlberti,DanielleEpstein,Polosukhin,Devlin,Lee,KristinaLlionJones,MatthewKelcey,Chang,AndrewDai,JakobUszkoreit,Quoc和SlavPetrov。Naturalquestions:問答研究的基準(zhǔn)。計(jì)算語言學(xué)學(xué)報(bào),7(1):452-466,2019。doi:10.1162/tacl_a_00276。URL/Q19-1026。FaisalLadhak,EsinDurmus,ClaireCardieKathleenMcKeown。WikiLingua:用于跨語言抽象摘要:EMNLP2020,4034-4048頁(yè),在線,2020年月。計(jì)算語言學(xué)協(xié)會(huì)。doi: 10.18653 /v1/2020.findings-emnlp.360。URLhttps:///anthology/2020.discoveries-emnlp.360。Leblond等人。AlphaCode2技術(shù)報(bào)告,2023年。URL/deepmind-media/alphaacode2/alphaacode2_tech_report.pdf。YannLeCun、YoshuaBengio和GeoffreyHinton。深度學(xué)習(xí)?!蹲匀弧罚?21(7553):436-444,2015。李宇嘉,David崔Yejin,JunyoungChung,NateKushman,JulianSchrittwieser,rLeblond,Tom埃克萊斯,JamesKeeling,FelixGimeno,AgustinDalLago等。使用alphacode進(jìn)行競(jìng)賽級(jí)別的代碼生成??茖W(xué),378(6624):1092-1097,2022。林斌,朱斌,葉洋,寧慕南,金鵬,袁李。video-lava:通過排列前投影學(xué)習(xí)聯(lián)合視覺表征。arXiv預(yù)印本arXiv:2311.10122,2023。59(ACL-IJCNLP2021)聯(lián)席會(huì)議上,2021。LuPanHritik、Xia、、LiChunyuanHannanehHajishirzi、Hao、Kai-Chang、MichelGalley、JianfengGao。arXiv:2310.02255,2023。AhmedMasry,DoLong,JiaQingTan,ShafiqJoty,和EnamulHoque。ChartQA:關(guān)于具有視覺和邏輯推理的圖表的問答基準(zhǔn)。在ACL的調(diào)查結(jié)果中,2022年。MineshMathew,DimosthenKaratzas和CVJawaharDocvqavqaIEEE/CVF計(jì)算機(jī)視覺應(yīng)用冬季會(huì)議論文集,頁(yè)2200-2209,2021。28MineshMaew、VirajBagal、bènTito、DimosthenisKaraas、ErnestlvenyCVJawahar。Infographicvqa。IEEE/CVF計(jì)算機(jī)視覺應(yīng)用冬季會(huì)議論文集,1697-1706頁(yè),2022。JacobMenick,MajaTrebacz,VladimirMikulik,JohnAslanides,FrancisSong,MartinChadwick,MiaGlaese,SusannahYoung,LucyCampbell-Gillingham,GeoffreyIrving等。教授語言模型,用經(jīng)過驗(yàn)證的引用支持答案。arXiv預(yù)印本arXiv:2203.11147,2022。SarahE.Michalak、AndrewJ.DuBois、CurtisB.Storlie、HeatherM.Quinn、WilliamN.Rust、DavidH.DuBois、DavidG.Modl、AndreaManuzzato和SeanP.Blanchard。評(píng)估宇宙射線誘導(dǎo)的中子對(duì)roadrunner超級(jí)計(jì)算機(jī)硬件的影響。IEEE,12(2):445-454,2012。doi:10.1109/TDMR.2012.2192736。Todor,PeterClark,Khot,和AshishSabharwal?,2381-2391頁(yè),布魯塞爾,比利時(shí),2018年-doi:10.18653/v1/d18-URL/D18-1260。ShashiNarayan,B.CohenMirellaLapata。不要給我細(xì)節(jié),只要總結(jié)!主題感知卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行極端摘要。2018,1797-1807頁(yè),布魯塞爾,比利時(shí),2018年-月。計(jì)算語言學(xué)協(xié)會(huì)。doi:10.18653/v1/D18-1206URL/D18-1206。OkaasiHvaal。aematkaírásbéivzsa。K?zépsznt?írásbéizsa,2023年5月。URLhttps://dload-catio.hu/erettsegi/feladatok_2023tavasz_kozep/k_matang_23maj_fl.pdf。AngolNyelven。OpenAI。GPT-4技術(shù)報(bào)告。OpenAI。GPT-4V(視覺)系統(tǒng)卡,2023b。OpenAI。耳語,2023年。URL/openawhisper。龍歐陽、JeffWu、徐江、DiogoAlmeida、CarrollL.Wainwright、PamelaMishkin、ChongZhang、SandhiniAgarwal、KatarinaSlama、AlexRay、JohnSchulman、JacobHilton、FraserKelton、LukeMiller、MaddieSimens、AmandaAskell、PeterWelinder、PaulChristiano、JanLeike、RyanLowe。訓(xùn)練語言模型,使其遵循人類反饋的指令。預(yù)印本,2022年。URL/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf。瓦西爾·帕納約托夫,陳偉柱,丹尼爾·波維和桑吉夫·庫(kù)丹普爾。Librispeech:基于公共領(lǐng)域有聲書的asr語料庫(kù)。2015年IEEE聲學(xué),語音和信號(hào)處理國(guó)際會(huì)議(ICASSP),頁(yè)5206-5210。IEEE,2015。Dnsaeo、GeánKuzwki、nekizru、unNchm、ffaeaeradi、adroze、acoarnGmaodaRqelendz。heAADAdaae:需要廣泛的話語語境的單詞預(yù)測(cè)arv預(yù)印本arv:1606.06031,2016。ViorcaP?tr?ucean、LucasSmara、AnkushGupa、AdràRecasensContnene、LarsaMarkeeva、DyanBanarse、SkandaKoppua、JosephHeywad、MateuszMalnowski、YiYang等。感知測(cè)試:多視頻模型的診斷基準(zhǔn)。arXv預(yù)印本arXiv230513786,2023。29彭寶林,MichelGalley,何鵬程,程浩,謝玉佳,胡玉,黃秋媛,LarsLiden,玉周,陳偉柱,等。檢查你的事實(shí),再試一次:用外部知識(shí)和自動(dòng)化反饋改進(jìn)大型語言模型。arXiv預(yù)印本arXiv:2302.12813,2023。李昂,翁俊,ArjunSinghMukarramriq,王銳,張建南,VirginiaBeauregard,PatrickConner,SteveGribb等。木星演進(jìn):通過光電路交換機(jī)和軟件定義網(wǎng)絡(luò)改造谷歌的數(shù)據(jù)中心網(wǎng)絡(luò)。在ACM2022SIGCOMM會(huì)議論文集中66-85,2022。AlecRadford,JeffreyWu,RewonChild,DavidLuan,DarioAmodei,IlyaSutskever。語言模型是無監(jiān)督的多任務(wù)學(xué)習(xí)者。OpenAI博客,1(8):9,2019。URLhttps://d4mucfpksyw/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf。Alec、Jong、Greg28492-28518頁(yè)。2023年。JackRae,Cai,Millican,Aslanides,Henderson,ElizavandenAmeliaUesato,JohnHiggins,Elsen,Jayakumar,埃琳娜·布查茨卡婭、大衛(wèi)·布登、埃斯梅·薩瑟蘭、凱倫·西蒙尼揚(yáng)、米切拉····格里·多納托、安吉利基·拉扎里杜、亞瑟·門施、讓-巴蒂斯特·萊斯皮奧、瑪麗亞·茨姆普基利、尼古拉·格里戈雷夫、道格·弗里茨、Thibault·索蒂奧、曼塔斯·帕賈··馬松·····拉斯·蓋····森、威廉艾薩克、愛德華·洛克哈特、西蒙·奧辛德羅、勞拉·里梅爾、克里斯·戴爾、奧利奧爾·維尼亞爾斯、卡里姆·阿尤布、杰夫·斯坦威、洛雷恩·貝內(nèi)特、德米斯·訓(xùn)練,abs/2112.11446,2021。AdityaMikhailGabrielGoh,Radford,Chen和IlyaSutskever國(guó)際機(jī)器學(xué)習(xí)會(huì)議8821-8831。2021年。漢娜·拉什金、維塔利·尼古拉耶夫、馬修·拉姆、勞拉·阿羅約、邁克爾·柯林斯、迪潘詹·斯、斯拉夫·彼得羅夫、高拉夫·辛格·托馬爾、尤利婭·圖爾克和大衛(wèi)·瑞特。自然語言生成模型中的歸因測(cè)量。計(jì)算語言學(xué)164頁(yè),2023。ScottReedKonradZolnaEmilioParisotto,SergioGomezColmenareAlexanderNovikov,GabrielBarthMaronMaiGimenezrySulskyJackieKayJostTobiasspringberg等。多面手經(jīng)紀(jì)人。arXivarX220506175,2022。帕克·萊利、蒂莫西·多扎特、簡(jiǎn)·A·博塔、澤維爾·加西亞、丹·加雷特、杰森·里薩、奧爾漢·菲拉特、諾亞·康斯特。Frmt:少樣本區(qū)域感知機(jī)器翻譯的基準(zhǔn)。計(jì)算語言學(xué)協(xié)會(huì)學(xué)報(bào),2023。HannahRitchie,VeronikaSamborska,和MaxRoser。塑料污染。數(shù)據(jù)中的世界,2023年。/plastic-pollution。30.。亞當(dāng)·羅伯茨,科林·拉斐爾和諾姆·沙齊爾。你能在語言模型的參數(shù)中裝入多少知識(shí)?《2020年自然語言處理經(jīng)驗(yàn)方法會(huì)議(EMNLP),5418-5426頁(yè),在線,2020年月。計(jì)算語言學(xué)協(xié)會(huì)。doi:10.18653 /v1/2020.emnlp-main.437。URL/2020.emnlp-main.437。ThibaultSellam,DipanjanDas和AnkurParikh。BLEURT:學(xué)習(xí)文本生成的魯棒指標(biāo)。第58屆計(jì)算語言學(xué)協(xié)會(huì)年會(huì)論文集,7881-7892頁(yè),在線,2020年7月。計(jì)算語言學(xué)協(xié)會(huì)。doi:10.18653/v1/2020。acl-main.704。URL/2020.acl-main.704。UriShaham,Segal,MaorIvgi,OriAdiAnkitXiong,moreGeva,BerantOmer,12007-1202112/2022.emnlp-main.823。諾姆·沙齊爾??焖賢ransformer解碼一個(gè)寫頭就夠了。arXiv預(yù)印本arXiv:1911.02150,2019。托比Shevlane,SebastianGarfinkel,MaryPhuong,JessWhittlestone,JadeLeung,丹尼爾Kokotajlo,NahemaMarchal,MarkusAnderljung,諾姆arXiv預(yù)印本arXiv:2305.15324,2023。FredaShMiracSuzgunMarkusFreitag,王學(xué)智,SurajSrivatsSoroushsoughHyungnChung,TaySebastianRuder,DennyZhou,等。語言模型是多語言思維鏈推理機(jī)。ICLR,2023年。AmanpreetSinghVivekNarajan,MeetShah,Jiang,Xinien,DhruvBatraDeviParikh,andMarcusRohrbach。朝向可以閱讀的VQA《IEEE/CVF計(jì)算機(jī)視覺與模式識(shí)別會(huì)議論文集》,8317-8326頁(yè),2019年。AarohiSrivastava,Rastogi,AbhishekRao,Shoeb,AbubakarAbid,AdamFisch,AdamBrown等。超越模仿游戲?qū)φZ言模型的能力進(jìn)行量化和外推。arXiv預(yù)印本arXiv:2206.04615,2022。URL2206.04615。Ilya、Oriol和QuocV,201427期。OyvindTafjord,BhavanaDalvi和彼得克拉克。證明作家:在自然語言上生成意涵、證明和溯因陳述。在《發(fā)現(xiàn)》,2020年。URLhttps://api。/CorpusID:229371222。NB團(tuán)隊(duì),araR.cosa-usos,JmesCos,Oureb,aabyd,enehHfe,KevnHffenn,aeKaass,ancea,Dnelch,enaar,nan,kyeran,Guumeezk,Alunbod,apikua,ocarru,Gbreleaozaez,rnhpHasn,onffmn,eareyJare,Kushkamaaoa,Dkow,annspue,Cauran,ereAdres,Ncpazla,ruiosae,reyu,Anean,nhaGo,edujGswmi,rnccouán、hpKenAeadeurakoChrsoheper、afyahaemHoerhwn、JffanNonuaeftehnd:縮以人為心的機(jī)器翻譯。2022.31Crossmodal-3600:大規(guī)模多語言多模態(tài)評(píng)估數(shù)據(jù)集。在EMNLP,2022年。Kocmi、Eleftherios、RachelBawdenOnd?ejBojar、AntonDvorkovich、ChristianFedermann、Mark、Freitag、Gowda、年機(jī)器翻譯會(huì)議(wmt23)的發(fā)現(xiàn)wmt23-198-216,2023。HugoThibautLavril,GautierXavierMartinet,Marie-AnneBaptiste,,Eric,等。Llama:arXiv:2302.13971,2023a。HugoTouvron,LouisMartin,KevinStone,彼得Albert,AmjadAlmahairi,YasmineBabaei,NikolayBashlykov,SoumyaBatra,PrajjwalBhargava,ShrutiBhosale等。Llama2:開放的基礎(chǔ)和微調(diào)的聊天模型。arXiv預(yù)印本arXiv:2307.09288,2023b。AshishVaswani,NoamShazeer,NikiParmar,JakobUszkoreit,LlionJones,AidanN.Gomez,LukaszKaiser,IlliaPolosukhin。注意力就是你所需的一切。CoRR,abs/1706.03762,2017。URL/abs/1706.03762。Peareli?kovi?、AdriàPuigdomènechBada、DavidBudden、RazvanPascanu、AndeaBanino、Misha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年健康協(xié)議模板
- 2025年會(huì)員注冊(cè)合同書
- 2025年食品進(jìn)口與代理銷售一體化合同范本3篇
- 期末復(fù)習(xí)綜合模擬卷 統(tǒng)編版語文八年級(jí)上冊(cè)
- 二零二五年度西餐廚師聘用合同3篇
- 二零二五年度二手房買賣合同交易信息保密協(xié)議3篇
- 二零二五版科研實(shí)驗(yàn)室場(chǎng)地租賃與科研設(shè)備維護(hù)保養(yǎng)協(xié)議3篇
- 2025年度新能源汽車整車買賣交易合同4篇
- 二零二五年度馬戲團(tuán)安全設(shè)施與人員培訓(xùn)合同4篇
- 門衛(wèi)安全責(zé)任書2025年版:智能化社區(qū)安全協(xié)議2篇
- 人教版高中數(shù)學(xué)必修二《第十章 概率》單元同步練習(xí)及答案
- 智慧校園信息化建設(shè)項(xiàng)目組織人員安排方案
- 浙教版七年級(jí)上冊(cè)數(shù)學(xué)第4章代數(shù)式單元測(cè)試卷(含答案)
- 一病一品成果護(hù)理匯報(bào)
- AQ-T 1009-2021礦山救護(hù)隊(duì)標(biāo)準(zhǔn)化考核規(guī)范
- 鹽酸??颂婺崤R床療效、不良反應(yīng)與藥代動(dòng)力學(xué)的相關(guān)性分析的開題報(bào)告
- 消防設(shè)施安全檢查表
- 組合結(jié)構(gòu)設(shè)計(jì)原理 第2版 課件 第6、7章 鋼-混凝土組合梁、鋼-混凝土組合剪力墻
- 建筑公司資質(zhì)常識(shí)培訓(xùn)課件
- GB/T 26316-2023市場(chǎng)、民意和社會(huì)調(diào)查(包括洞察與數(shù)據(jù)分析)術(shù)語和服務(wù)要求
- 春節(jié)值班安全教育培訓(xùn)
評(píng)論
0/150
提交評(píng)論