2024年全球人工智能現(xiàn)狀全景報告_第1頁
2024年全球人工智能現(xiàn)狀全景報告_第2頁
2024年全球人工智能現(xiàn)狀全景報告_第3頁
2024年全球人工智能現(xiàn)狀全景報告_第4頁
2024年全球人工智能現(xiàn)狀全景報告_第5頁
已閱讀5頁,還剩408頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Nathan是AirStreetCapital的普通合伙人,AirStreetCapital是一家投資第一批公司的風險投資公司。他負責管理研究和應用人工智能峰會(RAAIS)、RAAIS基金會(資助開源人工智能項目)、美國和歐洲的人工智能社區(qū)以及Spinout.fyi(改善大學衍生創(chuàng)造)。他在威廉姆斯學院學習生物學,并作為蓋茨獎學金獲得者獲得了劍橋癌癥研究博士Alex是AirStreetCapital的平臺負責人,定期通過AirStreetPress撰寫關于人工智能的研究、分析和評論。在加入AirStreet之前,他是MilltownPartners的副總監(jiān),為大型科技公司、初創(chuàng)企業(yè)和投資者提供政策和定位方面的建議。他于2017年畢業(yè)于牛津大學,獲得歷史學學位。人工智能(AI)是一個科學和工程的多學科領域,其目標是創(chuàng)造智能機器。我們相信,在我們日益數(shù)字化、數(shù)據(jù)驅動的世界中,人工智能將成為技術進步的力量倍增器。這是因為今天我們周圍的一切,從文化到消費品,都是智慧的產物。《人工智能狀況報告》現(xiàn)已進入第七個年頭。把這份報告看作是我們所看到的最有趣的事情的匯編,目的是引發(fā)一場關于人工智能的狀態(tài)及其對未來的影響的知情對話。我們在報告中考慮了以下主要方面:-研究:技術突破及其能力。-行業(yè):人工智能的商業(yè)應用領域及其商業(yè)影響。-政治:人工智能的管理,其經(jīng)濟含義和人工智能的地緣政治的演變。-安全:識別和減輕高能力的未來人工智能系統(tǒng)可能給我們帶來的災難性風險。人工智能(AI):一個廣泛的學科,目標是創(chuàng)造智能機器,相對于人類和動物表現(xiàn)出的自然智能。人工一般智能(AGI):一個用來描述未來機器的術語,這些機器可以在所有有經(jīng)濟價值的任務中匹配并超越人類認知能力的全部范圍。人工智能代理:一個人工智能驅動的系統(tǒng),可以在環(huán)境中采取行動。例如,一個L人工智能安全:研究并試圖減輕未來人工智能可能給人類帶來的風險(從輕微到災難性)的領域。計算機視覺(CV):程序分析和理解圖像和視頻的能力。深度學習(DL):一種受大腦神經(jīng)元如何識別數(shù)據(jù)中的復雜模式啟發(fā)的人工智能方法。“深度”指的是當今模型中的許多層神經(jīng)元,它們有助于學習數(shù)據(jù)的豐富表示,以實現(xiàn)更好的性能增益。擴散(Diffusion):一種算法,用于迭代去除人為破壞信號的噪聲,以生成新的高質量輸出。近年來,它一直處于圖像生成和蛋白質設計的前沿。圖形處理單元(GPU):一種半導體處理單元,能夠實現(xiàn)大量并行計算。歷史上,這是渲染計算機圖形所必需的。自2012年以來,GPU已經(jīng)適應了訓練DL模型,這也需要大量的并行計算。(大型)語言模型(LM,LLM):一種在大量(通常)文本數(shù)據(jù)上訓練的模型,以自我監(jiān)督的方式預測下一個單詞。術語“LLM”用于表示數(shù)十億參數(shù)LMs,但這是一個動態(tài)定義。機器學習(ML):人工智能的一個子集,通常使用統(tǒng)計技術來賦予機器從數(shù)據(jù)中“學習”的能力,而無需明確給出如何學習的指令。這個過程被稱為使用學習“算法”來“訓練”一個“模型”逐步提高特定任務的模型性能。自然語言處理(NLP):程序理解人類口頭和書面語言的能力。Prompt:通常用自然語言編寫的用戶輸入,用于指示LLM生成某些東西或采取行動。強化學習(RL):ML的一個領域,其中軟件代理在一個環(huán)境中通過試錯來學習面向目標的行為,該環(huán)境根據(jù)他們實現(xiàn)目標的行為(稱為“策略”)提供獎勵或懲罰。自我監(jiān)督學習(SSL):一種非監(jiān)督學習形式,不需要手動標記數(shù)據(jù)。相反,原始數(shù)據(jù)以自動方式被修改,以創(chuàng)建可供學習的人工標簽。SSL的一個例子是通過屏蔽句子中的隨機單詞并試圖預測丟失的單詞來學習完成文本。變壓器:一個模型架構的核心,最先進的(SOTA)ML研究。它由多個“注意力”層組成,這些層了解輸入數(shù)據(jù)的哪些部分對給定的任務最重要。Transformers始于NLP(特別是機器翻譯),隨后擴展到計算機視覺、音頻和其他形式。在其余幻燈片中,右上角的圖標表示該型號的輸入和輸出設備。輸入/輸出類型:團:文本:圖像:軟件工具使用(文本、代碼生成和執(zhí)行):機器人狀態(tài):生物形態(tài)型號類型:+回+→:用于機器人的多模態(tài)LLM→:文本到軟件工具使用||-前沿實驗室的性能趨同,但隨著o1的推出,OpenAI保持了它的優(yōu)勢,因為規(guī)劃和推理成為一個主要的前沿。-隨著多模態(tài)研究進入數(shù)學、生物學、基因組學、物理科學和神經(jīng)科學,基礎模型展示了它們突破語言的能力。-美國的制裁未能阻止中國(V)LLM在社區(qū)排行榜上崛起。-英偉達仍然是世界上最強大的公司,在3T美元俱樂部中享受著一段時間,而監(jiān)管機構正在調查GenAI內部的權力集中。-更多的老牌GenAI公司帶來了數(shù)十億美元的收入,而初創(chuàng)公司開始在視頻和音頻生成等領域獲得牽引力。盡管企業(yè)開始從模式轉向產品,但圍繞定價和可持續(xù)性的長期問題仍未解決。-在公開市場牛市的推動下,人工智能公司的價值達到9T美元,而私營公司的投資水平健康增長。政治-盡管全球治理努力陷入停滯,但國家和地區(qū)人工智能監(jiān)管仍在繼續(xù)推進,美國和歐盟通過了有爭議的立法。-計算需求的現(xiàn)實迫使大型科技公司考慮現(xiàn)實世界中的物理限制和他們自己的排放目標。-人工智能對選舉、就業(yè)和一系列其他敏感領域的預期影響尚未在任何規(guī)模上實現(xiàn)。安全-從安全到加速的轉變正在發(fā)生,因為之前警告我們人類即將滅絕的公司需要增加企業(yè)銷售和消費應用的使用。-世界各國政府效仿英國,圍繞人工智能安全建設國家能力,成立機構,研究關鍵國家基礎設施的潛在漏洞。-每一個提議的越獄“補丁”都失敗了,但研究人員越來越擔心更復雜、更長期的攻擊。ai2024狀態(tài)好萊塢級別的制作利用了生成式人工智能的視覺效果。一家生成式人工智能媒體公司因在2024年美國大選期間濫用職權而受到調查。自我提升的AI智能體在復雜環(huán)境中碾壓SOTA(例如AAA游戲、工具使用、科學)??萍脊镜腎PO市場正在解凍,我們看到至少有一家專注于人工智能的公司(如DBRX)上市。在熱乃縮放熱潮中,一個團體花費了100多萬1B來訓練一個大比例的模型.美國FTC或英國CMA以競爭為由調查微軟/OpenAI交易。除了高級別自愿承諾,我們認為全球人工智能治理的進展有限。金融機構推出GPU債務基金,以取代計算資金的風險投資股權美元。一首人工智能生成的歌曲闖入了BillboardHot100Top10或SpotifyTopHits2024。隨著推理工作量和成本的顯著增長,大型人工智能公司(如OpenAI)收購或建立了一家專注于推理的人工智能芯片公司。很大程度上很糟糕,但GenAIAI視覺效果已經(jīng)在Netfix和HBO制作中出現(xiàn)。還沒有,但是還有時間。盡管七大巨頭收益頗豐,但私營企業(yè)仍在堅守,直到市場穩(wěn)定下來。然而,人工智能芯片公司Cerebras已經(jīng)導致IPO。兩家監(jiān)管機構都在調查這種合作關系。布萊奇利和首爾峰會的承諾仍然是自愿的和高層次的。有傳言稱,一些風險投資基金正在為股權提供GPU,但我事實證明,這種情況在去年的《我袖子上的心》中已經(jīng)發(fā)生過,但我們也看到一首人工智能生成的歌曲在德國排名第27位,并連續(xù)幾天進入前50名。據(jù)報道,薩姆·奧特曼正在為此籌集巨額資金,而谷歌、亞馬遜、Meta和微軟都在繼續(xù)建設和改進自己的人工智能芯片。第一部分:研究 ●在正式的基準測試和基于vibes的分析中,資金最充足的前沿實驗室能夠在單個能力上獲得較低的分現(xiàn)在,模型一直是非常能干的編碼者,擅長事實回憶和數(shù)學,但不太擅長開放式問題回答和多模態(tài)問題解決。許多變化非常小,現(xiàn)在很可能是實施差異的產物。例如,GPT-4o在MMLU上的表現(xiàn)優(yōu)于克勞德3.5Sonnet,但在MMLU-Pro上的表現(xiàn)明顯不如它,MMLU-Pro是一個旨在更具挑戰(zhàn)性的基準測試。考慮到體系結構之間相對微妙的技術差異和預訓練數(shù)據(jù)中可能的嚴重重疊,模型構建者現(xiàn)在越來越多地不得不在新功能和產品特性上競爭。ai2024狀態(tài) 通過將計算從訓練前和訓練后轉移到推理,o1以思維鏈(COT)的方式一步一步地通過復雜的提示進行推理,采用RL來強化COT及其使用的策略。這開啟了解決多層數(shù)學、科學和編碼問題的可能性,由于下一個令牌預測的內在限制,LLM在歷史上一直在努力解決這些問題。OpenAI報告對推理密集型基準測試的顯著改進與4o的對比,AIME2024(競賽數(shù)學)上最明顯,得分高達83.83比然而,這種能力的代價很高:100萬個輸入令牌o1-preview的價格為15美元,而100萬個輸出令牌將花費你60美元。這使得它比GPT-4o貴3-4倍。OpenAI在其API文檔中明確表示,它不是對等的4o替代品,也不是需要 美洲駝3填補了開放和封閉模式之間的差距迄今為止,能夠在推理、數(shù)學、多語言和長上下文任務方面與GPT-4o和克勞德3.5十四行詩相抗衡。這標志著開放模式第一次縮小了與專利前沿的差距?!馦eta堅持使用自Llama1以來一直使用的只有解碼器的變壓器架構,只做了一些小的改動,即更多的變壓器層和注意力頭?!馦eta用了不可思議的15T代幣訓練家族。雖然這超出了“龍貓最佳”的訓練計算量,但他們發(fā)現(xiàn)8B和70B模型的對數(shù)線性提高了15T?!馤lama3.1405B經(jīng)過了16,000個H100GPUs的訓練,這是首個以此規(guī)模訓練的Llama模型?!馦eta隨后在9月發(fā)布了Llama3.2,其中包含了11B和90Bvlm(Llama的多模式首次亮相)。前者與克勞德3俳句有競爭力,后者與GPT4o迷你。該公司還發(fā)布了1B和3B的純文本模式,旨在設備上運行。●基于美洲駝的模型現(xiàn)在已經(jīng)累積超過4.擁抱臉下載。 ●●愛丁堡大學的一個團隊統(tǒng)計了MMLU中的錯誤數(shù)量,包括錯誤的基本事實、不清楚的問題和多個正確答案。雖然在大多數(shù)個別主題中較低,但在某些領域中有較大的峰值,如病毒學,其中57%的分析實例包含錯誤。在手動校正的MMLU子集上,模型的性能普遍提高,盡管在專業(yè)法律和形式邏輯上有所惡化。這表示在預訓練期間學習了不準確的MMLU實例。在更為安全關鍵的領域,OpenAI警告稱,評估模型解決現(xiàn)實世界軟件問題能力的SWE-bench低估了模型的自主軟件工程能力,因為它包含難以或不可能解決的任務。研究人員與基準的創(chuàng)建者合作,創(chuàng)建了SWE-benchverified。||憑感覺活著,憑感覺死去…或者閉上眼睛一年,OpenAI仍然是第一名→●arena允許用戶與兩個隨機選擇的聊天機器人并排互動,提供了一個粗略的眾包評估。然而,有爭議的是,這導致GPT-4o和GPT-4o迷你獲得相同的分數(shù),后者也超過了克勞德十四行詩3.5。這引發(fā)了人們的擔憂,即這一排名實際上正在成為評估用戶最喜歡哪種寫作風格的一種方式。此外,由于較小的模型往往在涉及更多令牌的任務上表現(xiàn)不佳,8k上下文限制可以說給了它們不公平的優(yōu)勢。然而,早期版本的愿景排行榜現(xiàn)在+→z●谷歌DeepMind/NYU團隊使用符號引擎生成了數(shù)百萬條合成定理和證明,用它們從頭開始訓練語言?!馎lphaGeometry在提出新結構的語言模型和執(zhí)行推理的符號引擎之間交替,直到找到解決方案。●令人印象深刻的是,它解決了30個奧林匹克級幾何問題中的25個,接近人類國際數(shù)學奧林匹克金牌得主的表現(xiàn)。下一個最好的AI性能得分只有10。●它還展示了概括能力——例如,發(fā)現(xiàn)2004年IMO問題中的特定細節(jié)對于證明是不必要的。 研究表明,面對被智能修剪的更深層——旨在處理復雜、抽象或特定于任務的信息——模型是健壯的。也許有可能走得更遠?!瘛袼麄兏鶕?jù)相似性確定了要移除的最佳層,然后通過少量有效的微調“修復”了模型。NVIDIA研究人員采取了一種更激進的方法,通過修剪層、神經(jīng)元、注意力頭和嵌入,然后使用知識提煉進行有效的再培訓。MINITRON模型源自Nemotron-415B,其性能相當于或優(yōu)于Mistral7B和Llama-38B等模型,而使用的訓練令牌卻減少了40倍。 谷歌已經(jīng)接受了這種方法,從Gemini1.5Pro中提取了Gemini1.5Flash,而Gemma29B是從Gemma227B中提取的,Gemma2B是從一個更大的未發(fā)布的模型中提取的。也有社區(qū)猜測,克勞德3俳句,一個非常有能力的較小模型,是較大作品的精華版本,但Anthropic從未證實這一點。這些蒸餾努力也正在向多模式發(fā)展。黑森林實驗室發(fā)布了FLUX.1dev,這是一個從他們的Pro模型中提取的開放權重文本到圖像。為了支持這些努力,社區(qū)已經(jīng)開始生產開源蒸餾工具,如arcee.ai的DistillKit,它支持基于Logit和基于隱藏狀態(tài)的蒸餾。Llama3.1405B也用于蒸餾,在Meta更新其條款后,輸出邏輯可用于改進任何模特,不僅僅是駱馬。ai2024狀態(tài) ●微軟的phi-3.5-mini是一款3.8BLM,與7B和Llama3.18B等更大的型號競爭。它在推理和問答方面表現(xiàn)很好,但大小限制了它的事實知識。為了支持設備上的推斷,該模型被量化為4位,從而將其內存占用減少到大約1.8GB。●蘋果推出了MobileCLIP,這是一系列高效的圖像-文本模型,針對智能手機上的快速推理進行了優(yōu)化。使用新的多模態(tài)強化訓練,他們通過轉移來自圖像字幕模型和強剪輯編碼器集合的知識來提高緊湊模型的準確性。●擁抱臉也加入了SmolLM的行列,SmolLM是一個小型語言模型家族,有135M、360M和1.7B三種格式。通過使用由增強版Cosmopedia創(chuàng)建的高度精確的合成數(shù)據(jù)集(見幻燈片31),該團隊實現(xiàn)了該尺寸的SOTA性能。+→z●微軟的BitNet使用“位線性”層來取代標準的線性層,采用1位權重和量化激活。●與全精度模型相比,它表現(xiàn)出了具有競爭力的性能,并展示了與全精度變壓器相似的縮放定律,同時具有顯著的內存和節(jié)能效果?!裎④涬S后推出了BitNetb1.58,采用三進制權重來匹配3B規(guī)模的全精度LLM性能,同時保持效率增益?!衽c此同時,字節(jié)跳動的TiTok(基于變壓器的一維令牌化器)將圖像量化為離散令牌的緊湊1D序列,用于圖像重建和生成任務。這允許用少至32個標記來表示圖像,而不是數(shù)百或數(shù)千個標記。 ●●受模型可解釋性研究的啟發(fā),ReFT(表示微調)不會改變模型的權重。相反,它在推理時操縱模型的內部表示來控制它的行為。與基于權重的微調方法相比,ReFT需要的參數(shù)少了15-65倍,但干擾代價很小。它還可以對特定層和標記位置進行更具選擇性的干預,從而對適應過程進行精細控制。研究人員展示了它在少數(shù)鏡頭適應中的潛力,其中聊天模型被賦予了一個只有五個例子的新角色。結合用于學習干預的小存儲空間,它可以用于具有足夠計算能力的設備上的實時個性化。||●像Mamba這樣的選擇性狀態(tài)空間模型,去年設計用于更有效地處理長序列,在某種程度上可以與變壓器競爭,但在需要復制或上下文學習的任務上落后。也就是說,F(xiàn)alcon的Mamba7B與類似大小的變壓器模型相比,表現(xiàn)出了令人印象深刻的基準性能?!窕旌蟿恿囆退坪跏且粋€更有前途的方向。結合自我關注和型在知識和推理基準方面優(yōu)于8BTransformer,同時在推理中生成令牌的速度提高了●在懷舊之旅中,有回歸神經(jīng)網(wǎng)絡的早期跡象,由于訓練和擴展困難,回歸神經(jīng)網(wǎng)絡已經(jīng)過時?!裼蒅oogleDeepMind訓練的Griffin混合了線性遞歸和局部注意力,在對6倍的令牌進行訓練的同時,與Llama-2保持一致?!髡邉?chuàng)造了Phi-Mamba,這是一個新的學生模型,結合了作者創(chuàng)造了Phi-Mamba,這是一個新的學生模型,結合了Mamba-2和MLP模塊以及一個名為Hybrid-Phi-Mamba保留了教師模型中的一些注意力層。Mohawk可以訓練Phi-Mamba和Hybrid-Phi-Mamba達到接近老師模型的性能。Phi-Mamba僅使用3B令牌提取,不到1%的數(shù)據(jù)用于訓練之前表現(xiàn)最好的Mamba模型,2%的數(shù)據(jù)用于Phi-1.5模型本身?!馦OHAWK是一種新的方法,用于將知識從一個大型的、預先訓練好的轉換模型(教師)中提取到一個更小的次二次模型(學生),如狀態(tài)空間模型(SSM)。它對齊I)學生和教師模型的序列變換矩陣ii)和每層的隱藏狀態(tài),然后iii)將教師模型的剩余權重轉移到學生模型以調整它。22%74% ●除了作為Phi系列訓練數(shù)據(jù)的主要來源,Anthropic在訓練Claude3時還使用了合成數(shù)據(jù)來幫助表示訓練數(shù)據(jù)中可能缺失的場景。擁抱臉使用Mixtral-8x7B指令生成超過3000萬個文件和25B個合成教科書、博客帖子和故事的令牌,以重新創(chuàng)建Phi-1.5訓練數(shù)據(jù)集,他們將其命名為Cosmopedia。為了使這一過程更容易,NVIDIA發(fā)布了Nemotron-4-340B系列,這是一套專門為合成數(shù)據(jù)生成而設計的模型,可通過許可許可證獲得。Meta的Llama也可以用于合成數(shù)據(jù)生成。似乎也可以使用類似于Magpie的技術,通過直接從對齊的LLM中提取數(shù)據(jù)來創(chuàng)建合成的高質量指令數(shù)據(jù)。以這種方式微調的模型有時表現(xiàn)與Llama-3-8B-Instruct相當?!S著模型構建者向前推進,研究人員一直在努力評估是否存在觸發(fā)這種結果的合成數(shù)據(jù)量的臨界點,以●來自牛津和劍橋研究人員的一篇自然論文發(fā)現(xiàn),模型崩潰發(fā)生在各種人工智能架構中,包括微調的語言模型,挑戰(zhàn)了預訓練或定期接觸少量原始數(shù)據(jù)可以防止退化(通過困惑分數(shù)衡量)的想法。這創(chuàng)造了“先發(fā)優(yōu)勢”,因為持續(xù)訪問各種各樣的人為數(shù)據(jù)對于保持模型質量將變得越來越重要。然而,這些結果主要集中在真實數(shù)據(jù)被幾代人的合成數(shù)據(jù)取代的情況。實際上,真實的和合成的數(shù)據(jù)通常會累積起來。其他研究表明,如果合成數(shù)據(jù)的比例不太高,崩潰通常是可以避免的。 ●FineWeb數(shù)據(jù)集是通過多步過程創(chuàng)建的,包括基礎過濾、獨立每次轉儲的最小哈希重復數(shù)據(jù)刪除、從C4數(shù)據(jù)集中選擇的過濾器以及團隊的定制過濾器。使用traflatura庫的文本提取比默認的CommonCrawl濕文件產生了更高質量的數(shù)據(jù),即使產生的數(shù)據(jù)集明顯更小。他們發(fā)現(xiàn),在達到收益遞減點之前,重復數(shù)據(jù)刪除在一定程度上推動了性能的提高,然后使其惡化。該團隊還使用llama-3-70b-instruct對FineWeb的50萬個樣本進行了注釋,并對每個樣本的教育質量進行了評分,分值范圍為0到5。FineWeb-edu篩選出得分低于3的樣本,盡管規(guī)模明顯較小,但表現(xiàn)優(yōu)于FineWeb和所有其他開放數(shù)據(jù)集。 ●遵循在常規(guī)LLM中被證明有效的劇本,規(guī)模帶來了巨大的性能改進(GritLM有大約47B個參數(shù),而以前的嵌入模型中通常有110萬個參數(shù))?!耦愃频兀瑥V泛的網(wǎng)絡規(guī)模語料庫的使用和改進的過濾方法導致了較小模型的巨大改進?!裢瑫r,ColPali是一個視覺語言嵌入模型,它利用文檔的視覺結構,而不僅僅是它們的文本嵌入,來改進檢索?!駲z索模型是少數(shù)幾個子領域之一,在這些子領域中,開放模型通常優(yōu)于來自最大實驗室的專有模型。在MTEB檢索排行榜上,OpenAI的嵌入模型排在第29位,而NVIDIA的openNV-Embed-v2排在前面。 ●Anthropic使用“上下文嵌入”解決了這個問題,其中一個提示指示模型生成解釋文檔中每個塊的上下文的文本。他們發(fā)現(xiàn),這種方法可以將前20名的檢索失敗率降低然后可以使用Anthropic的提示緩存對其進行縮放。正如CMU的FernandoDiaz在最近的帖子中所觀察到的,這是一個很好的例子,說明人工智能研究的一個領域(例如早期的語音檢索和文檔擴展工作)所開創(chuàng)的技術正在應用到另一個領域。“新的就是舊的”的另一個版本。Chroma的研究表明,組塊策略的選擇可以影響檢索性能,召回率高達9%。 ●研究人員現(xiàn)在正在開拓新的方法,如Ragnar?,它通過成對系統(tǒng)比較引入了一個新的基于網(wǎng)絡的人類評估平臺。這解決了超越傳統(tǒng)自動化指標評估RAG質量的挑戰(zhàn)。●同時,ResearchyQuestions提供了一個復雜的、多方面的問題的大規(guī)模集合,這些問題需要從真實的用戶查詢中進行深入的研究和分析來回答。●谷歌DeepMind提出了分布式低通信(DiLoCo),這是一種優(yōu)化算法,允許在多個松散連接的設備“孤島”上進行訓練?!衩總€島在與其他島通信之前執(zhí)行大量的本地更新步驟,減少了頻繁的數(shù)據(jù)交換需求。他們能夠展示跨其中8個孤島的完全同步優(yōu)化,同時將通信量減少500倍?!馟DM還提出了DiLoCo的重新定義版本,針對異步設置進行了優(yōu)化。●PrimeIntellect的研究人員發(fā)布了DiLoCo的開源實現(xiàn)和復制,同時將其放大3倍,以展示其在1B參數(shù)模型上的有效性。 ●通常,整個數(shù)據(jù)集都是預先處理的,這并沒有考慮到訓練示例的相關性在學習過程中會如何變化。這些方法經(jīng)常在訓練前應用,因此不能適應訓練期間變化的需求?!窆雀鐳eepMind的JEST聯(lián)合選擇整批數(shù)據(jù),而不是獨立的單個例子。選擇由“可學性分數(shù)”(由預先訓練的參考模型確定)指導,該分數(shù)評估它對訓練的有用程度。它能夠將數(shù)據(jù)選擇直接集成到訓練過程中,使其具有動態(tài)性和適應●JEST在數(shù)據(jù)選擇和部分訓練中使用較低分辨率的圖像處理,顯著降低了計算成本,同時保持了性能優(yōu)勢。+→z●來自中國實驗室的最強模型與美國實驗室生產的第二強前沿模型具有競爭力,同時在某些子任務上挑戰(zhàn)SOTA。這些實驗室優(yōu)先考慮計算效率,以彌補GPU訪問的限制,學會比美國同行更充分地利用資源。中國的實驗室各有所長。例如,DeepSeek開創(chuàng)了多頭潛在注意力等技術,以減少推理過程中的內存需求和增強的MoE架同時01。人工智能不太關注架構創(chuàng)新,而是更多地關注建立一個強大的中文數(shù)據(jù)集,以彌補其在流行知識庫中的相對匱乏,如+→z●DeepSeek已經(jīng)成為編碼任務的社區(qū)最愛,deepseek-coder-v2結合了速度、輕便和準確阿里巴巴最近發(fā)布了Qwen-2系列,該社區(qū)對其視覺功能印象尤為深刻,從挑戰(zhàn)性的OCR任務到分析復雜藝術作品的能力。在較小的一端,清華大學的NLP實驗室資助了OpenBMB,該項目催生了MiniCPM項目。這些是可以在設備上運行的小于2.5B的小型參數(shù)模型。他們的2.8Bvision車型在某些指標上僅略微落后于GPT-4V,而基于8.5BLlama3的車型在某些指標上超過了它。清華大學的知識工程小組也創(chuàng)造了cogvideox——最有能力的文本到視頻模型之一。 +→z20182024 ●通過將創(chuàng)建高質量圖像所需的采樣步驟從可能的數(shù)百個減少到1-4個,同時保持高清晰度,對抗性擴散蒸餾加快了圖像生成?!袼鼘褂柧毰c分數(shù)提取相結合:僅使用預先訓練的擴散模型作為指導來訓練模型?!癯私怄i單步生成,作者還專注于降低計算復雜度和提高采樣效率?!裾髁魍ㄟ^直接的直線而不是彎曲的路徑連接數(shù)據(jù)和噪聲,從而改進了傳統(tǒng)的擴散方法?!袼麄儗⑵渑c基于變壓器的新型架構相結合,用于文本到圖像,允許文本和圖像組件之間的雙向信息流動。這增強了模型基于文本描述生成更準確和連貫的高分辨率圖像的能力?!I大型實驗室發(fā)布他們自己的門控文本到視頻的成果→●OpenAI的黑臉田雞能夠生成長達一分鐘的視頻,同時保持3D一致性,對象持久性和高分辨率。它使用時空補丁,類似于變壓器模型中使用的令牌,但對于視覺內容,可以從龐大的視頻數(shù)據(jù)集中有效地學習。黑臉田雞還接受了視覺數(shù)據(jù)的原始大小和縱橫比的訓練,去除了降低質量的常見裁剪和大小調整。谷歌DeepMind的Veo將文本和可選的圖像提示與嘈雜的壓縮視頻輸入相結合,通過編碼器和潛在擴散模型進行處理,以創(chuàng)建獨特的壓縮視頻表示。然后,系統(tǒng)將這種表示解碼成最終的高分辨率視頻。此外,還有Runway的Gen-3Alpha,Luma MovieGen的核心是30B視頻一代和13B音頻一代模型,能夠分別以每秒16幀和45秒的音頻剪輯制作16秒的視頻。這些模型利用文本到圖像和文本到視頻任務的聯(lián)合優(yōu)化技術,以及為任意長度的視頻生成連貫音頻的新穎音頻擴展方法。MovieGen的視頻編輯功能將先進的圖像編輯技術與視頻生成相結合,允許在保留原始內容的同時進行本地化編輯和全局更改。這些模型是在許可的和公開的數(shù)據(jù)集上訓練的。Meta使用A/B人工評估比較來展示其四項主要能力相對于競爭行業(yè)模型的積極凈勝率。研究人員說他們打算制作這個模型將來會推出,但不要承諾時間表或發(fā)布策略。ai2024狀態(tài)艾獲得諾貝爾獎→●與AF2相比,算法上有了實質性的令人驚訝的變化:為了簡化和擴大規(guī)模,所有的等方差約束都被移除了,而結構模塊被替換為擴散模型來構建3D坐標。●不出所料,研究人員聲稱,與其他方法相比,AF3表現(xiàn)得非常好。對于小分子對接),盡管這沒有與更強的基線進行比較?!裰档米⒁獾氖?,目前還沒有開放源代碼。幾個獨立團體正致力于公開復制該作品。||第一匹馬是百度的HelixFold3模型,在配體結合方面與AF3相當。他們提供一個網(wǎng)絡服務器,并且他們的代碼是完全開源的,用于非商業(yè)用途。來自ChaiDiscovery(由OpenAI支持)的Chai-1最近發(fā)布了一個分子結構預測模型,該模型由于其性能和高質量的實現(xiàn)而廣受歡迎。該網(wǎng)絡服務器也可用于商業(yè)藥物我們仍在等待一個完全開源的模型,沒有任何限制(例如,使用其他模型的訓練輸出)。如果DeepMind開始擔心替代模型正在成為社區(qū)的最愛,他們會更快完全發(fā)布AF3嗎?→●●雖然沒有給出多少技術細節(jié),但它似乎是基于AlphaFold3構建的,很可能是一個擴散模型。目標表位上的“熱點”也可以被指該模型能夠設計出比以前的工作(例如RFDiffusion)具有3到300倍更好的結合能力的蛋白質結合物。蛋白質設計領域的“骯臟秘密”是,計算機過濾與生成模型一樣重要(如果不是更重要的話),該論文認為基于AF3的評分是關鍵。他們還使用他們的置信度指標來篩選大量可能的新靶標,用于設計未來的蛋白質結合物。2024 慘痛的教訓:等方差已死…等方差萬歲!●第一次拍攝是由蘋果公司拍攝的,一篇論文獲得了SOTA獎使用帶有變換編碼器的非等變擴散模型預測小分子三維結構的結果?!裰档米⒁獾氖牵髡弑砻?,使用領域不可知模型不會對泛化產生不利影響,并且始終能夠優(yōu)于專業(yè)模型(假設使用了足夠的規(guī)模)?!窠酉聛硎茿lphaFold3,它臭名昭著地拋棄了以前模型中的所有等方差和框架約束,轉而支持另一個擴散過程,當然還有擴展和規(guī)模?!駸o論如何,等變模型的訓練效率大大提高意味著這種做法可能會持續(xù)一段時間(至少從事蛋白質等大系統(tǒng)研究的學術團體)。 ●該模型是一個雙向轉換器,它將代表三種模態(tài)中每一種模態(tài)的標記融合為一個單獨的潛在空間?!衽c傳統(tǒng)的屏蔽語言建模不同,ESM3的訓練過程使用可變的屏蔽時間表,將模型暴露于屏蔽序列、結構和功能的不同組合。ESM3學習預測任何模態(tài)組合的完井?!馝SM3被提示生成新的綠色熒光蛋白(GFP),其與已知蛋白的序列相似性較低。 我們之前介紹了如何使用在大量不同的天然蛋白質序列數(shù)據(jù)集上預先訓練的LLM(例如ProGen2)來設計與●CRISPR-Cas圖譜由超過100萬個不同的CRISPR-Cas操縱子組成,包括各種效應子系統(tǒng),這些操縱子是從26.2萬億堿基的組裝微生物基因組和宏基因組中挖掘出來的,跨越了不同的門和生物群落?!裆傻男蛄斜葋碜訡RISPR-Cas圖譜的天然蛋白質多4.8倍。與最接近的天然蛋白質的同一性中值通常在40-60%之●對Cas9蛋白進行微調的模型可以生成新的編輯器,然后在人類細胞中進行驗證。一個這樣的編輯器提供了最好的編輯性能和71.7%的序列相似性SpCas●PoseCheck和PoseBusters在2023年底的兩項工作表明,分子生成和蛋白質-配體對接的ML模型給出了具有嚴重物理違規(guī)的結構(poses)。當Inductivebio顯示使用稍微更先進的傳統(tǒng)對接管道擊敗AF3時,即使是AlphaFold3論文也沒有幸免于難。由ValenceLabs領導的新行業(yè)聯(lián)盟,包括主要制藥公司(如Recursion、Relay、Merck、Novartis(J&J)和PFIzer),正在開發(fā)Polaris,這是一個基準測試平臺,用于人工智能驅動的藥物發(fā)現(xiàn)。北極星將提供高質量的數(shù)據(jù)集,促進評估,并認證基準。與此同時,遞歸在擾動地圖構建方面的工作導致他們創(chuàng)建了一組新的基準和度量標準?!?022年,NeurIPS引入了與高效多體消息(MACE)相結合的等變消息傳遞神經(jīng)網(wǎng)絡(MPNN)?!瘳F(xiàn)在,作者提出了MACE-MP-0,它使用MACE架構,并在材料項目軌跡數(shù)據(jù)集上進行訓練,該數(shù)據(jù)集包含數(shù)百萬個結構、能量、磁矩、力和應力?!裨撃P屯ㄟ^考慮同時涉及四個原子的相互作用,將消息傳遞層的數(shù)量減少到兩層,并且它只在網(wǎng)絡的選擇性部分使用非線性激活?!袼軌驅滔唷⒁合嗪蜌庀嗟母鞣N化學過程進行分子動力學模擬。拓展蛋白質功能設計空間:挑戰(zhàn)折疊和可溶性類似物●為此,作者首先使用一個倒置的AF2模型,在給定目標折疊結構的情況下生成一個初始序列。然后,在通過AF2重新預測結構之前,通過ProteinMPNN優(yōu)化這些序列,隨后基于與目標結構的結構相似性進行過濾。●這條AF2-MPNN管道在三個具有挑戰(zhàn)性的褶皺上進行了測試:IGF、BBF和TBF,這些褶皺具有治療效用?!褚灿锌赡墚a生僅膜折疊的可溶性類似物,這可以大大加快針對膜結合受體蛋白的藥物發(fā)現(xiàn)。●1.3B模型基于來自6個數(shù)據(jù)集的超過100萬小時的天氣和氣候數(shù)據(jù)進行預訓練,包括預測、分析數(shù)據(jù)、再分析數(shù)據(jù)和氣候模擬。●該模型將異質輸入編碼為跨空間和壓力水平的標準三維大氣表示,該表示通過視覺轉換器的推理隨時間演變,并解碼為特定預測?!裰匾氖?,它是預測大氣化學(6種主要空氣污染物,如臭氧、一氧化碳)的第一個模型,涉及數(shù)百個僵硬的方程,比數(shù)值模型更好。模型也是5000倍比使用數(shù)值預報的綜合預報系統(tǒng)更快。ai2024狀態(tài)●●Chollet在2019年創(chuàng)建了這個基準,作為衡量模型歸納能力的一種手段,專注于對人類來說更容易而對人工智能來說很難的任務。這些任務需要最少的先驗知識,強調視覺問題解決和類似謎題的任務,使其不易記憶。歷史上,LLM在基準測試中表現(xiàn)不佳,性能峰值約為34%。Chollet對LLMs歸納其訓練數(shù)據(jù)之外的新問題的能力表示懷疑,并希望該獎將鼓勵新的研究方向,從而導致更像人類的智能形式。LLM仍然在計劃和模擬任務中掙扎→●即使像GPT-4這樣的高級LLM也很難可靠地模擬基于文本的游戲中的狀態(tài)轉換,尤其是環(huán)境驅動的變化。他們無法始終如一地理解因果關系、物理學和物體永恒性,這使他們成為糟糕的世界建模者,即使是在相對簡單的任務上?!裱芯咳藛T發(fā)現(xiàn),LLM可以在大約77%的時間內準確預測直接動作的結果,如水槽打開,但卻難以應對環(huán)境影響,如水槽中裝滿水的杯子,對這些間接變化的準確率僅為50%?!衿渌芯吭u估了規(guī)劃領域的LLM,包括區(qū)塊世界和物流。GPT-4在12%的時間里產生可執(zhí)行的計劃。然而,使用外部驗證的迭代提示,在15輪反饋后,Blocksworld計劃達到82%的準確性,Logistics計劃達到70%的準確性。當使用o1重新運行時,性能有所提高,但仍遠非完美。 研究人員正在探索產生更強的內部推理過程的方法,分別針對訓練和推理。后一種方法似乎鞏固了OpenAI●來自斯坦福-諾特巴德聯(lián)合人工智能團隊的Quiet-STaR在預訓練期間生成內部推理,使用并行采樣算法和自定義元標記來標記這些“思想”的開始和結束。該方法采用一種強化學習啟發(fā)的技術來優(yōu)化生成的理性的有用性,獎勵那些提高模型預測未來令牌能力的理性。與此同時,谷歌DeepMind有針對性的推理表明,對于許多類型的問題,在測試時戰(zhàn)略性地應用更多計算比使用更大的預訓練模型更有效。斯坦福大學/牛津大學的一個團隊也研究了比例推理計算,發(fā)現(xiàn)重復采樣可以顯著提高覆蓋率。他們認為,使用更弱、更便宜的模型進行多次嘗試,可以勝過更強、更貴的同行的單次嘗試。||●他們概述了通向開放式基礎模型的潛在途徑,包括強化學習、自我改進、任務生成和進化算法。●在自我改進方面,我們看到了strategister,一種允許LLM學習多代理游戲新技能的方法。 ●●俄亥俄州立大學的研究人員認為,在復雜的推理任務中,一個完全癱瘓的變壓器比SOTA的模型,如GPT-4-Turbo和雙子座-1.5-Pro,具有更大的搜索空間。他們進行了機械分析,以了解模型在探索過程中的內部運作,揭示了不同任務的不同概括回路。然而,他們發(fā)現(xiàn),盡管完全搜索的模型在比較任務中表現(xiàn)良好(例如,基于原子事實比較屬性),但它們在合成任務中不太擅長分布外概括。這提出了一個問題,即這些是否是真正有意義的推理能力,而不是另一個名稱的記憶,盡管研究人員認為,通過更好的跨層內存共享來增強transformer可以解決這個問題?!馜igiRL是一種新穎的自主強化學習方法,用于訓練野外設備控制代理,特別是針對Android設備。該方法包括兩個階段的過程:精細強化學習,然后是精細到在線強化學習。●它在Android-in-the-Wild數(shù)據(jù)集上實現(xiàn)了62.7%的任務成功率,這是對先前SOTA的顯著改進?!?019年,優(yōu)步發(fā)表了Go-Explore,這是一個RL代理,通過歸檔發(fā)現(xiàn)的狀態(tài)并迭代地返回到有希望的狀態(tài)并從中進行探索,解決了困難的探索問題。2024年,LLM正在給它增壓。這種方法也使IGE認識到并利用有前途的發(fā)現(xiàn),這是開放式學習系統(tǒng)的一個重要方面它在數(shù)學推理、這種方法也使IGE認識到并利用有前途的發(fā)現(xiàn),這是開放式學習系統(tǒng)的一個重要方面它在數(shù)學推理、網(wǎng)格世界和基于文本的冒險游戲方面明顯優(yōu)于其他LLM代理。從GPT-4轉換到GPT-3.5導致所有環(huán)境的性能顯著下降,這表明IGE的性能與底層顧嵐模型的能力成比例。智能Go-Explore(IGE)使用LLM來指導狀態(tài)選擇、動作選擇和檔案更新,而不是原始Go-Explore的手工制作的試探法。這使得復雜環(huán)境中的探索更加靈活和智能?!馦ultiOn和Stanford將MCTS的LLM與自我批評機制和直接偏好優(yōu)化結合起來,從不同的成功和失敗標準中學習。●他們發(fā)現(xiàn),經(jīng)過一天的數(shù)據(jù)收集,這種方法將Llama-370B的零命中率從現(xiàn)實世界預訂場景中的18.6%提高到了81.7%,而在線搜索的零命中率高達95.4%?!窀L期的問題將是下一個令牌預測損失是否也是如此●這種風險限制了RL和MCTS實現(xiàn)代理行為的能力,因為他們過于關注單個令牌,并阻礙了對更廣泛、更具戰(zhàn)略性的解決方案的探索?!鷊enie(ICML2024年最佳論文獎獲得者)是一個可以生成動作可控虛擬世界的世界模型。它分析了來自2D平臺游戲的3萬小時電子游戲鏡頭,學習壓縮視覺信息,并推斷出驅動幀之間變化的動通過從視頻數(shù)據(jù)中學習潛在的動作空間,它可以在不需要顯式動作標簽的情況下處理動作表示,這使它區(qū)別于其他世界模型。Genie既能想象全新的互動場景,又能展示顯著的靈活性:它可以采用各種形式的提示,從文本描述到手繪草圖,并將它們作為可玩環(huán)境帶入生活。這種方法展示了超越游戲的適用性,團隊成功地應用了游戲中的超參數(shù)機器人數(shù)據(jù)模型,無需微調。ai2024狀態(tài)→●人工智能科學家是一個端到端的框架,旨在自動化研究想法的產生、實施和研究論文的生在得到一個初始模板后,在進行實驗并記錄下來之前,它會頭腦風暴出新的研究方向。研究人員聲稱,他們的LLM-powered審稿人以接近人類的準確性評估生成的論文。研究人員用它來生成關于擴散、語言建模和探索的范例論文。這些第一眼看上去令人信服,但仔細觀察后發(fā)現(xiàn)了一些瑕疵。然而,該系統(tǒng)定期顯示不安全行為的跡象,例如,導入不熟悉的Python庫和編輯代碼以延長實驗時間線。●它使用一種“可靠的”方法,在推薦測試之前過濾生成的測試,以確保它們能夠成功構建、可靠地通過,并增加覆蓋率。這是首次將LLM與代碼改進的可驗證保證相結合的方法的大規(guī)模工業(yè)部署,解決了軟件工程環(huán)境中關于LLM幻覺和可靠性的問題?!裨诓渴鹬?,TestGen-LLM改進了大約10%的測試類,73%的建議被開發(fā)人員接受?!馦eta擴展了SAM以包括視頻分割,在他們自己的數(shù)據(jù)集(SA-V)上訓練它,該數(shù)據(jù)集包括51,000個真實世界的視頻和600,000個時空掩碼。在Apache2.0許可下,這個數(shù)據(jù)集和模型都是可用的。為了建立一個適用于視頻和圖像的統(tǒng)一模型,Meta做了一些調整。例如,它們包括一個記憶機制來跟蹤跨幀的對象,以及一個遮擋頭來處理消失或重新出現(xiàn)的對象。他們發(fā)現(xiàn),在圖像分割方面,它比SAM1更準確,速度快6倍,同時能夠以少3倍的交互量超越之前領先的視頻分割模型的準確然而,該模型在同時分割視頻中的多個對象時效率較低,并且可能難以處理較長的剪輯。||隨著大型實驗室的涌入,機器人技術(最終)變得流行起來20212024●該團隊創(chuàng)建了AutoRT,這是一個使用VLM來理解環(huán)境和LLM來建議機器人可以執(zhí)行的創(chuàng)造性任務列表的系統(tǒng)。這些模型然后與機器人控制策略相結合。這有助于在以前看不到的環(huán)境中快速擴展部署。RT-Trajectory通過視頻輸入增強機器人學習。對于演示數(shù)據(jù)集中的每個視頻,執(zhí)行任務的手爪的2D草圖被覆蓋。這為模型學習提供了實際的視覺效果。研究人員發(fā)現(xiàn)Gemini1.5Pro的多模態(tài)功能和長上下文窗口使●許多研究小組正致力于彌合高維觀測和機器人學習中的低維動作空間。它們創(chuàng)建了一個統(tǒng)一的表示,允許學習算法理解動作的空間含義。擴散模型擅長于模擬這種復雜的非線性多峰分布,而其迭代去噪過程允許逐漸重新定義動作或軌跡。有多種方法可以解決這個問題。帝國理工和上海啟智學院的研究人員選擇了RGB圖像,它提供了豐富的視覺信息,并與預先訓練的模型兼容。與此同時,加州大學伯克利分校和斯坦福大學的一個團隊利用點云獲得了明確的3D信息??▋然仿〈髮W的一個團隊概述了一種方法,包括從人類視頻數(shù)據(jù)中學習更多的“啟示”信息,如手的擁有、物體的交互和接觸點。然后,這些信息可用于定義現(xiàn)有的視覺表示,使其更適合機器人任務。這持續(xù)提高了現(xiàn)實世界操作任務的性能。與此同時,伯克利/斯坦福大學的一個團隊發(fā)現(xiàn),思維鏈推理也有類似的影響。增強的模型不是直接預測行動,而是在決定行動之前,對計劃、子任務和視覺特征進行逐步推理。這種方法使用LLMs為推理步驟生成訓練數(shù)據(jù)。HumanPlus是一個全棧系統(tǒng),用于人形機器人從人類數(shù)據(jù)中學習。它結合了實時陰影系統(tǒng)和模仿學習算法。陰影系統(tǒng)使用單個RGB攝像頭和一個低級策略,允許人類操作員實時控制人形機器人的整個身體。這種低級控制策略是在模擬中的人體運動數(shù)據(jù)的大數(shù)據(jù)集上訓練的,并且在沒有額外訓練的情況下轉移到現(xiàn)模仿學習組件能夠從影子數(shù)據(jù)中有效地學習自主技能。它使用雙目自我中心視覺,并將動作預測與前向動力學預測相結合。該系統(tǒng)在各種任務上展示了令人印象深刻的結果,包括穿鞋和走路等復雜動作,僅用了40 ●●Med-Gemini醫(yī)療多模態(tài)模型系列由GeminiPro1.0和1.5優(yōu)化而來,使用各種醫(yī)療數(shù)據(jù)集,并整合了最新信息的網(wǎng)絡搜索。他們在MedQA上實現(xiàn)了SOTA91.1%的準確率,超過了GPT-4。對于多模態(tài)任務(如放射學和病理學),Med-Gemini在7個數(shù)據(jù)集的5個數(shù)據(jù)集上設定了新的SOTA。在一項初步研究中,臨床醫(yī)生認為Med-Gemini的輸出在大多數(shù)情況下等于或優(yōu)于人類編寫的示例。 ●通過從真實胸部x射線(CXR)和相應放射科醫(yī)生報告的大型數(shù)據(jù)集的穩(wěn)定擴散中聯(lián)合微調U-Net和CLIPtext編碼器,可以生成具有高清晰度和概念正確性的合成CXR掃描,如經(jīng)委員會認證的放射科醫(yī)生所評估的?!裆傻腸xr可用于數(shù)據(jù)擴充和自我監(jiān)督學習?!衽c其他模式一致,在訓練純合成數(shù)據(jù)時,監(jiān)督分類性能會略有下降?!竦诙?jié):工業(yè)隨著對其硬件的需求不斷增長,以支持要求苛刻的genAI工作負載,每個主要實驗室都依賴英偉達的硬件。其市值在6月份達到3萬億美元,是第三家達到這一里程碑的美國公司(緊隨微軟和蘋果之后)。隨著在Q2的盈利大幅增長,它的地位看起來一如既往地無懈可擊?!裥碌腂lackwellB200GPU和GB200Superchip有望顯著提升H100fame的Hopper架構的性能。NVIDIA聲稱它可以比H100降低25倍的成本和能耗。作為英偉達力量的標志,每個主要人工智能實驗室的首席執(zhí)行官都在新聞稿中提供了支持性的引用。雖然Blackwell架構因制造問題而推遲,但該公司仍有信心在年底前從其獲得數(shù)十億美元的收入。英偉達的創(chuàng)始人兼首席執(zhí)行官黃仁勛正在擴大宣傳,概述該公司對主權人工智能的愿景。他認為每個政府都需要建立自己的LLM來保護國家遺產。你永遠猜不到他認為誰的硬件最適合這項任務…Q22024年收入Q22024年每股收益我們查看了自2016年以來投資于人工智能芯片挑戰(zhàn)者的60億美元,并詢問如果投資者以當天的價格購買等量的英偉達股票會發(fā)生什么。答案是灰綠色的:這60億美元相當于今天1200億美元的英偉達股票(20倍!)與其初創(chuàng)競爭者的310億美元(5倍)相比。注:截至2024年10月9日檢索的市場定價和估價數(shù)據(jù)。資產凈值。ai2024狀態(tài)計算指數(shù):NVIDIAH100集群(GB200正在加載…)自從2020年推出A100以來,NVIDIA一直在縮短下一代數(shù)據(jù)中心GPU的發(fā)貨時間,同時顯著提高它們提供的TFLOPs。事實上,從A100到H100的時間表已經(jīng)下降了60%,從H200到GB200的時間表又下降了80%。在此期間,TFLOPs增長了6倍。大型云公司正在大量購買這些GB200系統(tǒng):微軟在70萬到140萬之間,谷歌40萬,AWS36萬。OpenAI據(jù)傳自己至少有40萬GB200。以TPU聞名的谷歌發(fā)布了基于Armv9架構和指令集的Axion。這些將通過云提供給通用工作負載,與目前最快的基于Arm的通用實例相比,性能提高了30%。Meta發(fā)布了第二代內部人工智能推理加速器,其計算和內存帶寬是上一代的兩倍多。該芯片目前用于排名和推薦算法,但Meta計劃擴展其功能,以涵蓋生成式人工智能的培訓。與此同時,OpenAI一直在從谷歌的TPU團隊中招聘員工,并與博通就開發(fā)新的人工智能芯片進行談判。據(jù)報道,薩姆·奧特曼還在與包括阿聯(lián)酋政府在內的主要投||●以晶圓級引擎聞名的Cerebras將整個超級計算機的計算能力集成到一個晶圓級處理器上,為H12024帶來了1.36億美元的IPO收入(同比增長15.6倍),其中87%來自阿布扎比和國家支持的G42。該公司已經(jīng)從計算密集型能源和制藥行業(yè)的客戶那里籌集了超過7億美元的資金。它最近推出了一個推理服務,為LLM提供更快的令牌生成。與此同時,Groq以28億美元的估值為其專門為人工智能推理任務設計的語言處理單元籌集了6.4億美元的D輪融資。到目前為止,Groq已經(jīng)與Aramco、三星、Meta和綠色計算提供商EarthWind&Power建立了合作伙伴關系。兩家公司都將速度作為核心競爭優(yōu)勢,并致力于云服務,Cerebras最近推出了一項推論。這有助于他們偏離英偉達的軟件生態(tài)系統(tǒng)優(yōu)勢,但也給了他們一個新的(具有挑戰(zhàn)性的)競爭對手,即云服務提供商。●Arm已經(jīng)是人工智能領域的一個參與者,但從歷史上看,它的指令集架構對于數(shù)據(jù)中心訓練和推理所需的大規(guī)模并行處理基礎設施來說并不是最優(yōu)的。它還在與英偉達根深蒂固的數(shù)據(jù)中心業(yè)務和成熟的軟件生態(tài)系統(tǒng)進行斗爭。crm目前市值超過1400億美元,市場并不擔心。據(jù)報道,該公司已經(jīng)在與臺積電和其他公司就制造事宜進行談判。crm軟銀還收購了智能處理單元(IntelligentProcessingUnits)的先驅Graphcore,這種處理器旨在使用少量數(shù)據(jù),比GPU和CPU更有效地處理人工智能工作負載。盡管硬件很復雜,但對于剛起步的genAI應用來說,它通常不是一個合理的選擇。該公司將在Graphcore品牌下半自動運營。與此同時,軟銀與英特爾就設計GPU挑戰(zhàn)者的談判因雙方無法就要求達成一致而擱置?!裨谌ツ甑膱蟾嬷?,我們記錄了英偉達如何在向中國主要人工智能實驗室銷售A800/H800(他們特殊的符合中國標準的芯片)時預訂了超過100萬美元的1B。美國隨后禁止了對中國的銷售,迫使中國進行反思?!袢绻栽加嬎隳芰砗饬浚琋VIDIA的新中國芯片H20理論上明顯弱于頂級NVIDIA硬件。然而,NVIDIA已經(jīng)針對LLM推理工作負載進行了優(yōu)化,這意味著它現(xiàn)在在推理任務上比H100快20%。NVIDIA的銷售額將達到120億美元?!袢欢?,就比例而言,中國對美國芯片制造商的重要性正在下降。它已經(jīng)從占英偉達20%的份額小規(guī)模不再:半導體走私者變得越來越老練●在一個案例中,一家中國電器公司通過馬來西亞經(jīng)紀人訂購了一個價值1.2億美元的2400臺英偉達H100集群。鑒于訂單的規(guī)模,NVIDIA要求親自檢查,以確保系統(tǒng)的正確安裝。●該經(jīng)紀人告訴報道這一事件的《信息報》,他“協(xié)和激活,柔佛巴魯是馬來西亞的一個城鎮(zhèn),毗鄰新加坡邊●另一家總部位于香港的芯片經(jīng)紀商,利用總部位于非美國制裁國家的空殼公司,從戴爾(Dell)和超微(Supermicro)購買了4800個H100s芯片。這些股票以2.3億美元的價格賣給了一位中國買家,比其1.8億美元的收購成本高出不少。5:2018年4月24:美洲駝3。6:2014年7月23日:美洲駝3.1405B。七一四洲駝3.2。||||像openAlANTHR。PC2023202420232024削減86%注意:<128k令牌提示和輸出的定價。檢索于2024年10月4日ai2024狀態(tài)隨著超過€1B在銀行,Mistral已成為無可爭議的歐洲基金會模型冠軍,展示了令人印象深刻的計算效率和多語言能力??偟膩碚f,作為該公司與微軟新合作伙伴關系的一部分,其航運模式可通過Azure獲得。該公司已經(jīng)開始與法國巴黎銀行(BNPParibas)等法國公司和HarveyAI等國際初創(chuàng)公司建立合作伙伴關系。該公司也開始擴大其美國銷售職能。盡管通過股權、贈款和許可交易籌集了5億美元,但該公司的向許可駱駝2-3和DBRX。ai2024狀態(tài)●Mosaic研究團隊現(xiàn)在合并到Databricks中,并于3月份開源了DBRX。作為一款132BMoE型號,DBRX花費1000萬美元在3000多塊英偉達GPU上進行訓練。Databricks將該模型作為企業(yè)建立和定制的基礎,同時保持對自己數(shù)據(jù)的控制。與此同時,基于一組涵蓋包括編碼和指令遵循在內的任務的指標,Snow-flake的Arctic被定位為最高效的企業(yè)工作流模型。目前還不清楚有多少企業(yè)愿意在昂貴的定制模型調整上投資,因為不斷的發(fā)布和改進推動了更大的參與者。有了現(xiàn)成的開源前沿模型,訓練定制模型的吸引力越來越不明顯。監(jiān)管機構特別關注OpenAI和微軟之間的密切關系,以及Anthropic與谷歌和亞馬遜的關系。監(jiān)管機構擔心,大型科技公司本質上要么是買斷競爭對手,要么是向它們投資的公司提供友好的服務提供協(xié)議,這可能會使競爭對手處于不利地位。他們尤其擔心英偉達對生態(tài)系統(tǒng)的影響及其直接投資的決定。法國正在考慮針對NVIDIA的指控。大型科技公司正試圖在它們和初創(chuàng)企業(yè)之間放置一些清澈的藍水,微軟和蘋果都自愿放棄了他們的OpenAI董事會觀察員→心Magic1.96億美元,B系列6.26億美元,B系列4.65億美元,C系列Any數(shù)字為截至2024年10月7日的募集總額和最新一輪2.43億美元,C2.43億美元,C系列隨著向量數(shù)據(jù)庫的爆炸式增長,在向量空間中搜索的獨特性已經(jīng)消失?,F(xiàn)有的數(shù)據(jù)庫提供商已經(jīng)推出了他們自己的矢量搜索方法。AWS、Azure和GoogleCloud等超大規(guī)模應用程序擴展了其原生數(shù)據(jù)庫產品,以支持大規(guī)模矢量搜索和檢索,而MongoDB、Snowflake、Databricks和Confuent等數(shù)據(jù)云正在尋求從其現(xiàn)有客戶群中捕獲RAG工作負載。Pinecone和Weviate等核心矢量數(shù)據(jù)庫提供商現(xiàn)在支持傳統(tǒng)的關鍵字搜索,如ElasticSearch和OpenSearch,并引入了對簡單高效的過濾和聚類的支持。在框架領域,LangChain和LlamaIndex之類的軟件已經(jīng)獲得了實驗●由Cognition推出的Devin在3月份引起了轟動。它被定位為“第一個人工智能軟件工程師”,旨在計劃和執(zhí)行需要數(shù)千個決策的任務,同時修復錯誤并隨著時間的推移進行學習。該產品本身分裂了用戶,吸引了粉絲,也吸引了批評者,他們指出需要護欄和人工干預。不管怎樣,投資者都留下了深刻的印象,在上市6個月內,該公司獲得了2B美元的估值。Devin有一個開源競爭對手OpenDevin,它在SWE-bench上擊敗了專有Devin13個百分點。MultiOn也在RL上下了大賭注,推出了自主網(wǎng)絡代理-代理Q(見幻燈片65)-結合搜索、自我批評和RL。它將在今年晚些時候提供給用戶。Meta的TestGen-LLM已經(jīng)以極快的速度從紙張變成了產品空間(4個月),被整合到●在成立后的18個月內,performance對1B的估值達到了100萬美元,有傳言稱,該公司已經(jīng)在尋求將估值提高兩倍。LLM分析用戶輸入,通過網(wǎng)絡搜索或從其知識庫中尋找答案,然后生成帶有內嵌引用的摘要?!窆雀枰呀?jīng)排除了一個摘要框來說明Gemini增強其標準產品的●然而,這兩項服務都在可靠性問題上苦苦掙扎。Gemini被發(fā)現(xiàn)使用諷刺性的Reddit帖子作為建議來源(例如,建議用戶每天吃一塊石頭),而performance則與其他LLM服務遇到的相同幻覺問題進行斗爭。●OpenAI已經(jīng)開始測試一個原型搜索功能-SearchGPT-它最終將被集成到ChatGPT中。雖然我們還不知道技術規(guī)格,但宣傳圖片表明困惑式的用戶體驗。ai2024狀態(tài)●OpenAI和谷歌正在與主要媒體機構談判,希望許可安排將消除批評的刺痛。同樣,11實驗室也開始了一個配音演員項目。一些初創(chuàng)企業(yè)正在徹底改變這一點,開始采用道德認證計劃。最著名的是受過良好訓練的,由前穩(wěn)定人工智能高管埃德·牛頓-雷克斯(EdNewton-Rex)創(chuàng)辦。隨著實驗室接近數(shù)據(jù)上限,YouTube抓取成為焦點。據(jù)報道,OpenAI轉錄了數(shù)百萬小時的YouTube視頻,以支持其音頻轉錄模型。與此同時,EleutherAI廣泛使用的Pile數(shù)據(jù)集包含173,536個YouTube視頻的字幕。內部文件來自RunwayML和NVIDIA●針對Anthropic、OpenAI、Meta、Midjourney、●到目前為止,模型構建者未能完全駁回任何此類案例,但已成功大幅縮小了它們的范圍。●例如,兩個作者團體對OpenAI和Meta提出的索賠,聲稱這兩家公司犯有替代版權侵權罪,因為它們所有的模型輸出都是“侵權衍生作品”,但這一索賠失敗了,因為它們無法證明“實質性相似”。只有他們最初以侵犯版權為由提出的索賠才被允許繼續(xù)進行?!耦愃频男藜舭l(fā)生在反對Midjourney,Runway和Stability的案件中,原告被告知專注于最初的刮擦,他們的許多更廣泛的索賠被駁回?!裨谶@種不確定性中,Adobe、谷歌、微軟和OpenAI采取了不同尋常的措施,保護他們的客戶免受任何基于版權的法律索賠?!馱aymo已經(jīng)在舊金山、洛杉磯和鳳凰城逐步擴大規(guī)模,計劃今年晚些時候在奧斯汀推出。該公司現(xiàn)在已經(jīng)廢除了它的SF等候名單,向任何人開放它的等候名單。除了從軟銀、英偉達和微軟籌集新的資金,當英國通過立法允許自動駕駛汽車在2026年上路時,Wayve取得了勝利。這項技術也開始顯示出商業(yè)潛力。Alphabet宣布向Waymo追加50億美元投資,此前其“其他賭注”部門(包括Waymo)實現(xiàn)了3.65億美元的季度收入。與此同時,今年8月,該公司宣布,在美國,每周付費出行次數(shù)已達到10萬次,僅在舊金山就有300輛汽車上路。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論