人工智能行業(yè)市場前景及投資研究報告:機器人智能化谷歌機器人大模型_第1頁
人工智能行業(yè)市場前景及投資研究報告:機器人智能化谷歌機器人大模型_第2頁
人工智能行業(yè)市場前景及投資研究報告:機器人智能化谷歌機器人大模型_第3頁
人工智能行業(yè)市場前景及投資研究報告:機器人智能化谷歌機器人大模型_第4頁
人工智能行業(yè)市場前景及投資研究報告:機器人智能化谷歌機器人大模型_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券研究報告

行業(yè)動態(tài)報告機器人智能化三部曲(一):谷歌篇--機器人大模型引領者發(fā)布日期:2023年8月25日核心觀點?

核心觀點:隨著各項人工智能技術的不斷發(fā)展,具備與物理世界交互的強大潛力的智能機器人成為學界和業(yè)界的重要研究賽道。其中Google依托其在AI領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型的發(fā)展。Google

Deepmind在2023年6月和7月發(fā)布了其最新研究成果,具備“自我完善”能力的“RoboCat”和融合大語言模型能力的VLA模型“RT-2”,機器人智能化進一步加速,有望掀起新一輪AI革命。?

從Gato到RoboCat,更大規(guī)模的訓練數(shù)據(jù)集和創(chuàng)新的自我完善方法助力打造更強的機器人智能體。在2022年5月提出的Gato模型將智能體擴展到機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其模型架構和控制任務數(shù)據(jù)的序列化方式是后續(xù)模型發(fā)展的重要基礎。2023年7月提出的RoboCat則基于Gato的模型基礎,將訓練數(shù)據(jù)集擴充至400萬個機器人相關片段,并創(chuàng)新性的提出“自我完善”的方式來進一步豐富訓練數(shù)據(jù),這兩點創(chuàng)新讓RoboCat在實現(xiàn)了訓練任務的性能提升并具備了一定的泛化性能,并且能夠在少量數(shù)據(jù)微調的情況下處理未見過的任務。?

從RT-1到RT-2,大語言模型帶來更強的泛化能力、邏輯推理能力、知識能力,深度賦能機器人智能化。2022年12月提出的RT-1模型構建起了特定的指令、圖像和機器人指令之間的橋梁;2023年3月的PaLM-E模型則能夠處理輸入的文本和圖像信息,將復雜任務轉化為RT-1能夠接受的指令;2023年7月提出的RT-2是二者的融合,

在大語言模型強大能力的賦能下,RT-2能夠完成分解復雜任務、簡單的計算、識別人臉等現(xiàn)實場景中常見但以往的模型無法完成的任務,智能化程度大幅提升。?

差異路線引領發(fā)展,團隊整合協(xié)同革新。Google

Brain和DeepMind兩個團隊從兩個不同的切入點出發(fā)逐步推進AI機器人模型發(fā)展,DeepMind團隊從智能體(Agent)的角度出發(fā)不斷提升機器人能力,因此RoboCat中的訓練數(shù)據(jù)大多來自強化學習,模型參數(shù)量控制表現(xiàn)更為優(yōu)秀,能夠實現(xiàn)更高頻率的機器人控制;而Google

Brain則嘗試將大語言模型應用到機器人的控制領域,因此RT-2的模型參數(shù)量更大,在泛化能力、知識和推理能力方面有更強的表現(xiàn)。隨著兩個團隊進一步合并,深化數(shù)據(jù)、模型等方面的協(xié)同合作,谷歌的機器人模型進展有望進一步加速。1.1

谷歌AI、Deepmind兩條路線

引領機器人模型發(fā)展?

在機器人模型領域,Google自身的AI團隊及Deepmind分別沿兩條技術路線探索機器人模型,近年來發(fā)布過多篇引領性的文章。本文將回顧Google兩大團隊近年來在機器人模型領域的核心進展,其技術路線的異同點,梳理其中的發(fā)展脈絡。?

Deepmind:延續(xù)Gato的模型架構,2023年6月,Google

DeepMind推出可以自我改進的機器人AI智能體,名為“RoboCat”

。?

谷歌AI團隊:從RT-1開始,到可以操作機器人的大語言模型PaLM-E,再到2023年7月融合此前的RT-1和PaLM-E,推出的VLA模型RT-2,真正實現(xiàn)了將視覺、語言、機器人操作融合到一個模型中。圖:谷歌機器人模型相關進展時間軸2023.3作為其基礎模型(其中之一)幫助理解復雜任務PaLM-E:能夠處理自然語言、圖像輸入,生成“特定的指令”幫助生成具體的操控指令2023.7谷歌AI路線2022.12RT-2:能夠處理自然語言、圖像輸入,RT-1:能夠識別“特定的指令”及相關圖像生成對直接生成對應的機器人操控指令應的機器人操控指令沿用訓練數(shù)據(jù)集和對機械臂動作的編碼方式2023.420222023Deepmind路線合并GoogleBrain和Deepmind,成立GoogleDeepmind2022.52023.6Gato:能夠處理多種任務,包括少量的現(xiàn)實場景機器人任務RoboCat:能夠處理多種類的現(xiàn)實場景機器人任務沿用模型結構資料:谷歌官網(wǎng)

,Web

of

science,中信建投1.2

谷歌AI·DeepMind:深度學習浪潮中的引領者?

DeepMind

Technologies是

Alphabet

Inc.的英國人工智能子公司和研究實驗室。DeepMind成立于

2010

年9月,于

2014

年被

Google

收購。該公司總部位于倫敦,在加拿大、法國、美國設有研究中心。2015年,它成為谷歌母公司AlphabetInc.的全資子公司。?

以發(fā)展通用人工智能(AGI)作為目標,持續(xù)研發(fā)革命性技術引領人工智能發(fā)展。于2016年推出的AlphaGo是DeepMind的第一個代表作,其讓全世界的人們第一次直觀感受到AI的強大之處,成為AI技術走向新一輪高峰的重要標志,也進一步推動了第三輪AI發(fā)展的浪潮。自AlphaGo開始,DeepMind接連推出了AlphaZero(下棋)、AlphaFold(蛋白質結構預測)、AlphaCode(代碼寫作)等AI領域內的重要技術成果。這些成果不僅發(fā)表在頂級的學術期刊上,并且也收到了業(yè)界的廣泛關注和認可。?

DeepMind在智能體(Agent)方面有著深厚的積累,是谷歌機器人模型研發(fā)的中堅力量。圖:Deepmind發(fā)展歷程(不含機器人相關部分)圖:AlphaGo與李世石對弈2018.2推出AlphaFold,根據(jù)基因序列預測蛋白質的

3D結構。此后又推出并開源了

AlphaFold

2、2010.9DeepMind成立,致力于AGI的研究2017.10推出了AlphaGO的升級版本AlphaZero2014被谷歌以6億美元價格收購2016.3研發(fā)的AlphaGO擊敗李世石,引發(fā)全球關注AlphaFold數(shù)據(jù)集2022.10推出

AlphaTensor,利用強化學習發(fā)現(xiàn)矩陣乘法算

AlphaCode,實現(xiàn)了大規(guī)模的代法。第一個可用于為矩陣乘法等基本任務發(fā)現(xiàn)新穎、高效且可證明正確的算法的人工智能系統(tǒng)。2022.22020.122023.4推出基于Transformer架構的推出MuZero,僅使用像素和游戲分數(shù)作為輸入就可以在

Atari視頻游戲中達到人類的水平。DeepMind與GoogleBrain合并,共同推進突破性AI技術的發(fā)展碼生成發(fā)布了可以對托卡馬克裝置中的等離子體構型進行磁控制,幫助達到可控核聚變的人工智能。資料:機器之心,中信建投1.3

谷歌CV:將Transformer引入CV領域?

通過ViT將Transformer引入CV

領域:盡管Transformer網(wǎng)絡結構在NLP領域展現(xiàn)出了強大的性能和能力,但在ViT之前,其在CV領域中的效果仍遠不如CNN網(wǎng)絡結構。Google在2021年推出了ViT,其通過將圖片劃分為不同的部分的方式構建出了類似于文本的序列輸入,而后構建出相應的部分的向量,進而可以通過Transformer結構對圖像特征進行提取和分析。最終在大規(guī)模的訓練數(shù)據(jù)集中展現(xiàn)出相較于CNN結構的模型更加強大的性能。其提出標志著Transformer模型在CV領域的應用落地。?

進一步探索在CV領域中預訓練大模型的能力邊界:2021年的研究中,其中最大版本的ViT模型(ViT-Huge)參數(shù)量為6.32億。2023年4月,谷歌在模型架構方面進行了升級,推出了ViT的220億參數(shù)量的版本(ViT(22B))。和GPT-2到GPT-3的變化趨勢相似,其具備了強大的Zero-shot圖像分類泛化能力(如下圖所示,在兩個下游任務中都比小參數(shù)模型更強大)。同時引入了人類反饋來使模型的能力與人類的目標相對齊,并且成功將模型公平性和穩(wěn)健型控制在了一個合理的范圍。?

Google在CV領域的強大能力為其機器人模型的視覺理解能力提供了扎實的能力底座。圖:ViT模型架構圖:ViT模型的性能隨模型規(guī)模的提升或微調而提升資料:《AN

IMAGE

ISWORTH

16X16

WORDS:

TRANSFORMERS

FORIMAGE

RECOGNITION

ATSCALE》,《Scaling

Vision

Transformers

to22Billion

Parameters》,中信建投1.4.1

Gato:具備不同場景能力的多模態(tài)通用智能體?

DeepMind在2022年5月12日推出了多模態(tài)通用智能體(Agent),名為“Gato”。?

模型參數(shù)量:11.8億/3.64億/7900萬?

模型架構:將控制任務實現(xiàn)序列化,放入到統(tǒng)一的模型框架(Transformer)中進行處理。如右圖黃框所示,紫色和淡黃色的token代表環(huán)境情況,深黃色的token代表對與機械臂的相關操作,訓練數(shù)據(jù)中包含了初始環(huán)境的情況以及每一次的機械臂操作以及相應的環(huán)境變化組成的序列,通過Transformer架構對這一序列的學習實現(xiàn),讓“Gato”具備了解決具體場景中復雜任務的能力。?

訓練數(shù)據(jù)集:其中包括控制任務和視覺與語言數(shù)據(jù)集,共604個任務??刂朴柧殧?shù)據(jù)集占比較高,達85.3%,共596個任務,6300萬個片段,15億個token??刂迫蝿罩邪ㄓ螒蛉蝿蘸湍M/現(xiàn)實機器人操控任務,其中游戲類任務的占比較高,機器人操控任務,尤其是現(xiàn)實場景中的機器人操控任務占比較低。圖:Gato可以實現(xiàn)不同場景的多種任務圖:Gato訓練數(shù)據(jù)構成及處理方式電子游戲任務(Atari)1.初始環(huán)境(游戲)2.游戲操作3.變化后的環(huán)境(游戲)Transformer架構1.初始環(huán)境(機械臂)2.機械臂操作3.變化后的環(huán)境(機械臂)4.……機械臂操控任務資料:

《AGeneralist

Agent》,中信建投1.4.2

Gato:具備不同場景能力的多模態(tài)通用智能體?

模型能力:能夠完成豐富種類的任務,在模擬環(huán)境和傳統(tǒng)強化學習任務中取得了較好的性能表現(xiàn),機器人相關任務性能有較大提升模擬任務中,有450多項能達到專家水平的50%,其中在DM

LAB、BabyAI、Meta-World等經(jīng)典的強化學習數(shù)據(jù)集中取得了較為優(yōu)秀的性能表現(xiàn),標準化后的分數(shù)分別為91.4、93.2、87.0,而在模擬場景的機械臂RGB方塊堆疊任務中之取得了58.0的標準化分數(shù),性能有待進一步挖掘?,F(xiàn)實任務中(物塊堆疊),Gato在訓練集覆蓋的任務中達到了75.6%的成功率,而在泛化能力測試的任務中達到了50.2%的成功率,相較于前代模型模型性能有所提升。?

我們認為,Gato實現(xiàn)了智能體完成任務廣度的提升,并且拓展到了機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其模型架構和控制任務數(shù)據(jù)的序列化方式為后續(xù)模型的發(fā)展奠定了基礎。圖:Gato可以實現(xiàn)不同場景的多種任務,在虛擬場景任務中性能表現(xiàn)優(yōu)異專家水平的50%資料:

《AGeneralist

Agent》,中信建投1.5.1

RT-1:基于Transformer打造現(xiàn)實世界的多任務機器人控制模型?

Google在2022年12月推出了適用于機器人領域的Transformer模型,Robotics

Transformer

1(簡稱RT-1)。?

模型參數(shù)量:3500萬(FiLM部分1600萬,Transformer部分1900萬)?

模型架構:RT-

1將文本指令和對應圖像作為輸入,通過預訓練的FiLM

EfficientNet模型將其轉化為token,再通過TokenLearner進行壓縮,最后通過Transformer層將其輸出為三個維度的機器人操作指令(Mode、Arm、Base),其中Mode用于控制機器人不同模式之間的切換,Arm用于控制機器人手臂進行不同的動作,Base用于控制機器人的移動。圖:RT-1

模型結構模式切換

機械臂控制位置控制8個自注意力層,19M參數(shù)26個卷基層,16M參數(shù)量通過Mode、Arm、Base三個維度的輸出對機器人的行為進行控制RT-1將文本指令和對應圖像組作為輸入通過預訓練的

FiLM

EfficientNet

模型將圖像編碼為Token通過

TokenLearner

對其進行壓縮,然后經(jīng)Transformer輸出動作Token資料:

《RT-1:Robotics

Transformer

for

Real-World

Control

atScale》,中信建投1.5.2

RT-1:基于Transformer打造現(xiàn)實世界的多任務機器人控制模型?

訓練數(shù)據(jù)集:7個大類的744個任務,共13萬個現(xiàn)實環(huán)境中的機器人演示片段。為了讓RT-1得到充分的訓練,研究人員利用13個機器人(來自Everyday

Robots),歷時17個月收集了7大類,744個任務,共13萬個片段的機器人相關數(shù)據(jù)。這一過程中,由研究員對機器人進行操控,將相應的數(shù)據(jù)進行收集后,對相應的機器人執(zhí)行指令進行注釋而構成了最終的數(shù)據(jù)集,其中包含了拾取、移動、打開、關閉、放置等多種技能以及相關的方位詞(如Near、Upright等)。圖:RT-1

訓練數(shù)據(jù)集構成資料:

《RT-1:Robotics

Transformer

for

Real-World

Control

atScale》,中信建投1.5.3

RT-1:基于Transformer打造現(xiàn)實世界的多任務機器人控制模型?

RT-1相較于過去的機器人控制模型實現(xiàn)了顯著的性能提升。在訓練集包含的任務中,RT-1可以成功執(zhí)行其中的97%,體現(xiàn)了RT-1的優(yōu)異性能;在訓練集不包含的任務中,RT-1可以成功執(zhí)行其中的76%;在有干擾或工作背景不同的情況下,RT-1可以成功執(zhí)行其中的83%和59%,相較于GATO、BC-Z模型均有顯著的提升性。?

RT-1揭示了模型具備從不同種類的數(shù)據(jù)中學習的能力,為后續(xù)的模型訓練提供了理基礎。RT-1是在現(xiàn)實數(shù)據(jù)的基礎上訓練的,但是通過添加模擬數(shù)據(jù)可以顯著提升模擬環(huán)境任務的性能(這部分任務僅在模擬環(huán)境中存在),同時對于現(xiàn)實環(huán)境任務的處理性能并沒有顯著下降(僅下降2%)(右圖1)。在另一組實驗中,研究人員將在另一個機器人(Kuka)上訓練的另一種任務數(shù)據(jù)與RT-1相結合也實現(xiàn)了新任務的性能提升(右圖2)。RT-1從不同種類的數(shù)據(jù)中學習的能力讓結合不同種類的機器人數(shù)據(jù)集以增強機器人能力的路徑有了實驗支撐。?

我們認為,RT-1構建起了特定的指令、圖像和機器人指令之間的橋梁,并且具備了一定的泛化能力和抗干擾能力,但是尚不具備處理長程任務的能力和語言模型的知識與邏輯推理能力。圖:RT-1相較過去的模型實現(xiàn)了顯著的性能提升圖:RT-1結合不同的數(shù)據(jù)后取得顯著性能提升(模擬數(shù)據(jù)/Kuka機器人數(shù)據(jù))1.將模擬數(shù)據(jù)與RT-1結合2.將不同機器人的數(shù)據(jù)與RT-1結合資料:

《RT-1:Robotics

Transformer

for

Real-World

Control

atScale》,中信建投1.6.1

PaLM-E:多模態(tài)具身視覺語言模型?

谷歌和柏林工業(yè)大學的團隊在2023年3月推出多模態(tài)具身視覺語言模型

(VLM)

—PaLM-E。?

模型架構:PaLM-E具有5620億參數(shù)量,且將多模態(tài)大模型拓展到機器人控制領域。相較于之前的多模態(tài)模型,其不僅可以理解和生成圖像/語言,如下左圖所示,輸入可以為文本、圖像等不同模態(tài)信息,還能夠融合不同模態(tài)的知識進而生成RT-1中的特定機器人指令(基于自然語言)。?

模型能力:PaLM-E基于豐富的多模態(tài)模型知識對任務信息進行理解和處理,并分解成特定的機器人指令,RT-1將特定的機器人指令轉化為對應的機器人控制指令,在此合作下,模型可以將較為復雜的任務分解成簡單的步驟進行完成,并且具備了更強的抗干擾性和知識能力。?

我們認為,PaLM等語言大模型豐富的知識、強大的邏輯推理能力等優(yōu)勢的成功引入將助力Google機器人模型進一步智能化,PaLM-E便是在這一思路下的重要里程碑。圖:

PaLM-E將大模型的能力引入到機器人控制領域RT-1中的控制指令資料:

《PaLM-E:

AnEmbodied

Multimodal

Language

Model》,中信建投1.6.2

PaLM-E:多模態(tài)具身視覺語言模型圖:

PaLM-E引導真實機器人完成遠程移動任務資料:

《PaLM-E:

AnEmbodied

Multimodal

Language

Model》,中信建投1.7.1

RoboCat:具備自我改進能力的新一代AI智能體?

Google

DeepMind在2023年6月20日推出了新一代的機器人AI智能體

,名為“RoboCat”。?

模型參數(shù)量:11.8億/3.64億?

訓練數(shù)據(jù):共130類任務,超過400萬個機器人片段。從數(shù)據(jù)生成方式來看,其中大部分來自強化學習智能體,有309.2萬個片段,純人類演示則有77.9萬個片段,剩余部分則為三種數(shù)據(jù)生成方式混合,此外,本次訓練數(shù)據(jù)中還用到了不同的機械臂進行訓練。?

“RoboCat”具備自我改進、自我提升的能力。在第一輪訓練后,“RoboCat”會進入“自我完善”的訓練周期,其中包含以下五個步驟:1)使用由人類控制的機械臂收集

100-1000

個新任務或新機器人的演示。2)在這個新任務上微調模型,創(chuàng)建一個專門的衍生智能體(Agent)。3)衍生智能體(Agent)對這個新任務/新機器人進行平均

10,000

次練習,生成更多訓練數(shù)據(jù)。4)將演示數(shù)據(jù)和自生成數(shù)據(jù)合并到模型現(xiàn)有的訓練數(shù)據(jù)集中。5)在新的訓練數(shù)據(jù)集上訓練新版本的模型。這一自我改進、自我完善的流程為“RoboCat”提供了更為豐富的訓練數(shù)據(jù)。圖:“RoboCat”的“自我學習”訓練周期圖:“RoboCat”訓練數(shù)據(jù)組成(上:不同生成方式;下:不同機械臂)從左至右:1.現(xiàn)實世界2.模擬環(huán)境3.自生成數(shù)據(jù)從左至右:1.模擬的

Sawyer

7-DoF

機械臂2.模擬的

Panda

7-DoF

機械臂3.現(xiàn)實的

Sawyer

7-DoF

機械臂4.現(xiàn)實的

Panda

7-DoF

機械臂資料:

《RoboCat:

ASelf-Improving

Foundation

Agent

forRobotic

Manipulation》,中信建投1.7.2

RoboCat:具備自我改進能力的新一代AI智能體?

優(yōu)秀的基礎模型和豐富的高質量數(shù)據(jù)集讓“RoboCat”成為不同場景中的“通才”。在不同的機械臂的適應方面,盡管“RoboCat”是在帶有雙指夾具的機械臂上進行訓練的,但在觀察了短短幾個小時內收集到的

1000

次人類控制演示后,“RoboCat”

可以足夠靈巧地指揮帶有三指夾具的新手臂,以86%的正確率成功拾取齒輪。在不同的下游任務的處理方面,通過簡單的演示,它便可以解決需要結合精度和理解的新任務,例如選取形狀匹配的物體放入對應的位置(如右圖1所示)以及從碗中取出正確的水果(如右圖2所示),這為更加復雜的機械控制和應用場景的拓展奠定基礎。圖:Gato可以實現(xiàn)不同場景的多種任務圖:“RoboCat”學會解決新的任務1:選取匹配形狀的物體放入對應的位置2:從碗中取出正確的水果資料:

《RoboCat:

ASelf-Improving

Foundation

Agent

forRobotic

Manipulation》,中信建投1.7.3

RoboCat:具備自我改進能力的新一代AI智能體?

“RoboCat”具備強大的泛化性能?!癛oboCat”學習的新任務越多,便可以更好的學習和解決額外的新任務。最初版本的“RoboCat”在對于新任務500次演示后,只有36%的概率能完成新任務,但是經(jīng)過“自我完善”訓練的“RoboCat”能將成功率提升至74%。相較于過去的訓練方式,“RoboCat”的泛化性能也實現(xiàn)了顯著的提升(如左圖2所示)。?

“RoboCat”

性能超過了傳統(tǒng)基于視覺的方案?!癛oboCat”與在每個任務中單獨訓練的基于視覺的模型相比,在模擬和現(xiàn)實兩種環(huán)境中的堆疊、建造、移除等大部分任務中都取得了更為優(yōu)異的表現(xiàn),其中在現(xiàn)實場景的升降、插入、移除任務中更是展現(xiàn)出了更為明顯的優(yōu)勢(如右圖所示)。?

我們認為,訓練數(shù)據(jù)集的提升和自我優(yōu)化方法的提出讓RoboCat在Gato的基礎上實現(xiàn)了明顯的性能改進,在經(jīng)過微調的情況下已經(jīng)過能夠較好的處理未見過的任務。圖:“RoboCat”具備強大的泛化性能圖:“RoboCat”完成模擬/現(xiàn)實世界任務的能力超過傳統(tǒng)基于視覺的模型1:模擬環(huán)境的訓練任務2:現(xiàn)實環(huán)境的訓練任務1:“RoboCat”通過“自我完善”實現(xiàn)了泛化性能的顯著提升2:“RoboCat”相較于傳統(tǒng)基于單一任務訓練的視覺模型具有更強的泛化性能資料:

《RoboCat:

ASelf-Improving

Foundation

Agent

forRobotic

Manipulation》,中信建投1.8.1

RT-2:將互聯(lián)網(wǎng)圖文知識應用于機器人控制的VLA模型?

Google

DeepMind在2023年7月28日推出VLA模型RT-2。RT-2是一種結合了視覺、語言和動作來控制機器人的模型,模型從圖文數(shù)據(jù)集中學習認知一個物體和與之相關的事情,同時,模型從機器人數(shù)據(jù)集中學習如何在具體任務完成機器人控制,總的來說,VLA不僅可以學習相關知識而且可以將這些知識直接轉化為機器人控制的指令。?

模型參數(shù)量:550億/120億/50億?

訓練數(shù)據(jù)集:RT-2的數(shù)據(jù)集包括兩個部分,其一是來自互聯(lián)網(wǎng)的圖像文本數(shù)據(jù)(Webli數(shù)據(jù)集),這部分數(shù)據(jù)有10億個來自109種語言的圖像文本對,其二是機器人控制數(shù)據(jù)集,這部分數(shù)據(jù)主要沿用了RT-1中收集的訓練數(shù)據(jù)集,機器人數(shù)據(jù)在整體數(shù)據(jù)中的占比為50%(PaLI-X)/66%(PaLM-E)。圖:RT-2模型架構資料:

《RT-2:Vision-Language-Action

Models

Transfer

Web

Knowledge

toRobotic

Control》,中信建投1.8.2

RT-2:將互聯(lián)網(wǎng)圖文知識應用于機器人控制的VLA模型?

可進行思維鏈推理的RT-2能夠回答更復雜的命令。思維鏈推理可以將困難的任務分解成多個小任務來解決。思維鏈推理的實現(xiàn)是通過引入一個中間狀態(tài)來實現(xiàn)的。在每個步驟中,模型將當前的觀察結果與先前的狀態(tài)進行連接,并將連接后的結果輸入到模型中進行處理。模型可以在處理當前的觀察結果時,同時考慮到先前的觀察結果,從而實現(xiàn)了思維鏈推理。通過這種方式,模型可以進行多階段的語義推理,使其能夠更好地理解和解釋環(huán)境中的信息,并做出更準確的決策和行動。圖:RT-2通過思維鏈生成相應的行動計劃,并發(fā)出指令控制機器人完成相應行動資料:

《RT-2:Vision-Language-Action

Models

Transfer

Web

Knowledge

toRobotic

Control》,中信建投1.8.3

RT-2:將互聯(lián)網(wǎng)圖文知識應用于機器人控制的VLA模型?

RT-2具備符號理解、邏輯推理和人臉識別的能力。?

符號理解:在演示中,機器人可以將蘋果移到掘金隊的隊標上,也可以將可樂移到字母Y旁邊,這都展示了RT-2模型的符號理解能力。?

邏輯推理:在演示中,機器人可以在運算2+1

=3后,將香蕉放在寫有3這個數(shù)字的紙張前面,展示了RT-2的推理能力。?

人類識別:在演示中,機器人可以正確的將可樂給泰勒的圖片,這代表了模型可以分析不同人類圖像。圖:RT-2具備符號理解、推理和人類識別能力資料:

《RT-2:Vision-Language-Action

Models

Transfer

Web

Knowledge

toRobotic

Control》,中信建投1.8.4

RT-2:將互聯(lián)網(wǎng)圖文知識應用于機器人控制的VLA模型?

RT-2的符號理解、邏輯推理、人臉識別能力相較于過去的模型有明顯提升兩種不同的RT-2模型(分別是以120億參數(shù)量的PaLM-E和550億參數(shù)量的PaLI-X作為基礎模型的RT-2),并將這兩種模型與其前任RT-1以及另一種視覺預訓練方法VC-1進行了對比。結果顯示,與過去的模型相比,RT-2的相關性能提升了約三倍。?

RT-2的泛化能力相較于過去的模型也有明顯提升。在已經(jīng)見過的任務中,RT-2相較于此前的模型提升有限,但是在未見過的物體/未見過的背景/未見過的環(huán)境三種不同難度的泛化任務上RT-2的兩個模型都實現(xiàn)了較為明顯的提升,而在相對簡單的任務中參數(shù)量較小的RT-2模型有更優(yōu)秀的表現(xiàn),其中隨著任務難度越大則參數(shù)量更大的RT-2模型有這更為突出的表現(xiàn)。?

我們認為,RT-2通過大語言模型和機器人控制模型的融合實現(xiàn)了泛化能力、邏輯推理、符號理解等能力的明顯提升,極大地推動了機器人模型的智能化。圖:RT-2相較于過去的模型實現(xiàn)了顯著的性能提升,尤其是泛化性能圖:RT-2的符號理解、推理、人類推理能力明顯提升資料:

《RT-2:Vision-Language-Action

Models

Transfer

Web

Knowledge

toRobotic

Control》,中信建投1.9

差異路線引領發(fā)展,團隊整合協(xié)同革新?

2023年4月20日,Google宣布將Google

Brain和DeepMind兩大世界級AI實驗室合并,成立Google

DeepMind部門,以谷歌的計算資源作為后盾,加速人工智能研發(fā)和應用的推進?;仡櫣雀铏C器人模型在過去兩年間的發(fā)展,Google

Brain和DeepMind兩個團隊從兩個不同的切入點出發(fā)逐步推進AI機器人模型發(fā)展,DeepMind團隊從智能體(Agent)的角度出發(fā)不斷提升機器人能力,因此RoboCat中的訓練數(shù)據(jù)大多來自強化學習,模型參數(shù)量控制表現(xiàn)更為優(yōu)秀,能夠實現(xiàn)更高頻率的機器人控制;而Google

Brain則嘗試將大語言模型應用到機器人的控制領域,因此RT-2的模型參數(shù)量更大,在泛化能力、知識和推理能力方面有更強的表現(xiàn)。隨著兩個團隊進一步合并,深化數(shù)據(jù)、模型等方面的協(xié)同合作,谷歌的機器人模型進展有望進一步加速,值得持續(xù)跟蹤關注。圖:Google

CEO發(fā)文宣布將Deepmind與Google

Brain合并資料:Google官網(wǎng),OpenAI官網(wǎng),中信建投1.10

谷歌機器人模型進展總結?

訓練數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)量持續(xù)擴大,數(shù)據(jù)逐漸豐富,覆蓋的任務種類持續(xù)擴張的發(fā)展趨勢;模型算法層面上,Transformer成為主要的解決方案。在大語言模型結合的路線中模型參數(shù)量有所擴大,但是也面臨著計算速度不足導致機器人控制頻率較低的問題。?

展望未來,高質量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論