機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型_第1頁(yè)
機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型_第2頁(yè)
機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型_第3頁(yè)
機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型_第4頁(yè)
機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)械設(shè)備行業(yè)專題研究:人形機(jī)器人需要怎樣的大模型?人形機(jī)器人商業(yè)化痛點(diǎn):通用性受限高需求+低供給的商業(yè)化矛盾長(zhǎng)期存在高需求:人形機(jī)器人的潛在應(yīng)用場(chǎng)景廣泛。在工業(yè)生產(chǎn)中,人形機(jī)器人可應(yīng)用于汽車、3C等行業(yè),替代人類完成組裝和質(zhì)檢等重復(fù)枯燥的任務(wù);在日常生活中,人形機(jī)器人可以提供打掃衛(wèi)生、做飯、照顧老人和教育小孩等多種服務(wù);此外,人形機(jī)器人還可以替代人類完成災(zāi)難救援等危險(xiǎn)性任務(wù)。目前全球范圍內(nèi)人口老齡化問(wèn)題正在加劇,勞動(dòng)力成本不斷提升,未來(lái)人形機(jī)器人市場(chǎng)空間廣闊。低供給:絕大多數(shù)人形機(jī)器人未實(shí)現(xiàn)商業(yè)化落地。早在1973年早稻田大學(xué)就研發(fā)出世界上第一款全尺寸人形機(jī)器人Wabot-1;同樣為了實(shí)現(xiàn)人形機(jī)器人領(lǐng)域的夢(mèng)想,本田于1986年開始秘密研發(fā)機(jī)器人雙足結(jié)構(gòu),經(jīng)過(guò)多次迭代后,本田正式于2000年推出Asimo機(jī)器人,后由于Asimo年租金高達(dá)2000萬(wàn)日元,難以商業(yè)化應(yīng)用,本田研發(fā)團(tuán)隊(duì)于2018年解散;波士頓動(dòng)力Atlas也遲遲未實(shí)現(xiàn)大規(guī)模商業(yè)化應(yīng)用;特斯拉Optimus的最新進(jìn)展是能夠依靠視覺對(duì)物體分類并完成瑜伽動(dòng)作,也未能大規(guī)模商業(yè)化應(yīng)用。目前絕大多數(shù)人形機(jī)器人并未實(shí)現(xiàn)大規(guī)模商業(yè)化落地。通用性受限導(dǎo)致商業(yè)化落地困難我們認(rèn)為通用性受限是人形機(jī)器人長(zhǎng)期面臨高需求和低供給現(xiàn)象的原因。依托于工業(yè)機(jī)器人的快速發(fā)展,執(zhí)行類零部件的成本在人形機(jī)器人大規(guī)模放量后有望顯著下降,因此我們認(rèn)為硬件成本高昂并不是人形機(jī)器人長(zhǎng)期面臨高需求和低供給現(xiàn)象的原因。早稻田大學(xué)Wabot、本田Asimo以及波士頓動(dòng)力Atlas代表了早期各家企業(yè)在人形機(jī)器人領(lǐng)域的探索。Wabot受限于當(dāng)時(shí)的技術(shù)水平,運(yùn)動(dòng)能力較差;本田Asimo運(yùn)動(dòng)能力、智能化水平有所提高,但由于應(yīng)用場(chǎng)景限制,難以大規(guī)模推廣;波士頓動(dòng)力Atlas的運(yùn)動(dòng)性能進(jìn)一步提高,但也未實(shí)現(xiàn)大規(guī)模應(yīng)用。我們認(rèn)為,人形機(jī)器人追求極致的運(yùn)動(dòng)性能意義有限,其未能大規(guī)模商用的核心原因是通用性受限。通用性受限體現(xiàn)在目前機(jī)器人對(duì)用戶主體專業(yè)要求高和應(yīng)用場(chǎng)景局限。1)用戶主體:傳統(tǒng)人形機(jī)器人偏向于是一種可編程的專用設(shè)備,需要高級(jí)算法工程師進(jìn)行編碼設(shè)定才能正常運(yùn)控,普通用戶難以直接參與。如果普通用戶能與人形機(jī)器人實(shí)現(xiàn)交互,將會(huì)大大降低使用門檻,進(jìn)而促進(jìn)人形機(jī)器人走向大規(guī)模應(yīng)用;2)應(yīng)用場(chǎng)景:人形機(jī)器人的應(yīng)用場(chǎng)景不能僅局限于訓(xùn)練場(chǎng)景,還需要能夠在開放式的復(fù)雜環(huán)境中完成各種任務(wù)。早期波士頓動(dòng)力的Atlas雖然能夠完成后空翻等高難度動(dòng)作,但是其在用戶主體和應(yīng)用場(chǎng)景方面均有欠缺,一方面其需要機(jī)器人工程師進(jìn)行控制,普通人難以直接使用;另一方面,Atlas最初是面向?yàn)?zāi)難救援進(jìn)行設(shè)計(jì),并且存在維護(hù)困難、漏液等問(wèn)題,可靠性較差,應(yīng)用場(chǎng)景受限。通用性如何拓寬:大模型充當(dāng)大腦實(shí)現(xiàn)任務(wù)級(jí)交互硬件vs軟件:硬件不是掣肘,軟件為發(fā)展正循環(huán)的第一步硬件不是掣肘,軟件阻礙機(jī)器人通用性的提升。2013年波士頓動(dòng)力基于早期的PETMAN設(shè)計(jì)了面向?yàn)?zāi)難救援的Atlas人形機(jī)器人。經(jīng)過(guò)多次迭代后,Atlas已經(jīng)脫離了外接電源,通過(guò)電液混合驅(qū)動(dòng)結(jié)合IMU、編碼器、攝像頭、激光雷達(dá)和力傳感器實(shí)現(xiàn)了跳越、后空翻等高難度動(dòng)作,在運(yùn)動(dòng)能力上遠(yuǎn)超近年來(lái)發(fā)布的人形機(jī)器人。但這些動(dòng)作都源自提前創(chuàng)建的行為庫(kù)。因此我們認(rèn)為,硬件并不是機(jī)器人通用性的掣肘,軟件限制了機(jī)器人應(yīng)用場(chǎng)景的推廣,阻礙了其通用性的提高。軟件升級(jí)是實(shí)現(xiàn)人形機(jī)器人發(fā)展正循環(huán)的第一步。我們認(rèn)為人形機(jī)器人的發(fā)展存在正循環(huán),其包含三個(gè)階段:1)軟件升級(jí)后,機(jī)器人通用性提高,人形機(jī)器人實(shí)現(xiàn)初步商業(yè)化落地;2)規(guī)?;逃煤?,規(guī)模效應(yīng)下,硬件成本降低,企業(yè)投入更多研發(fā)資金;3)更多的研發(fā)投入促進(jìn)軟硬件迭代升級(jí),人形機(jī)器人性能提升后,將進(jìn)一步打開應(yīng)用空間。因此,我們認(rèn)為,目前階段軟件升級(jí)迫在眉睫,機(jī)器人通用性提高后,實(shí)現(xiàn)商業(yè)化落地,才能真正實(shí)現(xiàn)形機(jī)器人發(fā)展的“正循環(huán)”。大腦vs小腦:大腦負(fù)責(zé)任務(wù)級(jí)交互,小腦負(fù)責(zé)低層級(jí)運(yùn)控機(jī)器人控制軟件可分為5個(gè)層級(jí),任務(wù)級(jí)為最高層級(jí)。機(jī)器人控制框架一般采用層級(jí)控制(HierarchicalStructure)方法,根據(jù)《Robotics:Modelling,PlanningandControl》和2023年8月珞石機(jī)器人CTO韓峰濤在專欄文章中的描述,我們將機(jī)器人控制層級(jí)分為任務(wù)級(jí)、技能級(jí)、動(dòng)作級(jí)、基元級(jí)和伺服級(jí)。任務(wù)級(jí)包括任務(wù)定義與描述、任務(wù)分解與動(dòng)作拆分等;技能級(jí)負(fù)責(zé)將拆分后的動(dòng)作轉(zhuǎn)化為符號(hào)指令;動(dòng)作級(jí)、基元級(jí)和伺服級(jí)屬于傳統(tǒng)工業(yè)機(jī)器人的范疇,包括控制、執(zhí)行、反饋等環(huán)節(jié)。實(shí)現(xiàn)任級(jí)級(jí)交互可大大提高人形機(jī)器人通用性。以“去接一杯水”為例,實(shí)現(xiàn)這一動(dòng)作需要在不同層級(jí)上實(shí)現(xiàn)不同的任務(wù)。任務(wù)級(jí):1)任務(wù)定義與描述:去接一杯水;2)任務(wù)分解與動(dòng)作拆分:把從拿杯子、打開水龍頭到接水的過(guò)程拆分為一個(gè)個(gè)的細(xì)小動(dòng)作;技能級(jí):3)生成符號(hào)指令:將一系列動(dòng)作用計(jì)算機(jī)編程語(yǔ)言表示;動(dòng)作級(jí)/基元級(jí)/伺服級(jí):4)控制-執(zhí)行-反饋:根據(jù)符號(hào)指令完成一系列動(dòng)作。在傳統(tǒng)機(jī)器人中,前三步由機(jī)器人工程師完成,只有第四步是機(jī)器人自主完成,實(shí)現(xiàn)任務(wù)級(jí)交互后,前三步可由機(jī)器人自主完成,用戶只需要發(fā)送任務(wù)指令即可,用戶主體從工程師變?yōu)槠胀ㄓ脩?。同時(shí),傳統(tǒng)機(jī)器人需要根據(jù)不同場(chǎng)景進(jìn)行特定編程,實(shí)現(xiàn)任務(wù)級(jí)交互后,人形機(jī)器人可以在開放式場(chǎng)景中自主完成各類任務(wù)。類比人體結(jié)構(gòu),“大腦”是實(shí)現(xiàn)機(jī)器人任務(wù)級(jí)交互的主力軍。在人體結(jié)構(gòu)中,大腦主要負(fù)責(zé)抽象思維和感知協(xié)調(diào),與機(jī)器人任務(wù)級(jí)交互的功能相似;小腦和腦干主要負(fù)責(zé)維持軀干平衡、控制姿態(tài)和步態(tài),與動(dòng)作級(jí)、基元級(jí)和伺服級(jí)的功能相似。以智元機(jī)器人為例,其EI-Brain可分為云端超腦、大腦、小腦、腦干,其中大腦負(fù)責(zé)完成任務(wù)級(jí)和技能級(jí)的調(diào)度,小腦負(fù)責(zé)指令級(jí)的調(diào)度,腦干負(fù)責(zé)伺服機(jī)的調(diào)度。大模型為人形機(jī)器人理想大腦,可提升人形機(jī)器人通用性大模型的能力與任務(wù)級(jí)交互的要求相匹配,為人形機(jī)器人理想“大腦”。以LLM大語(yǔ)言模型為例,其具備多個(gè)領(lǐng)域的基礎(chǔ)知識(shí)、強(qiáng)大的內(nèi)容生成能力、良好的上下文理解、自然語(yǔ)言連續(xù)對(duì)話能力和強(qiáng)大的小樣本學(xué)習(xí)能力,可以與任務(wù)級(jí)交互中的任務(wù)描述、任務(wù)分解、運(yùn)行代碼生成和任務(wù)過(guò)程交互等要求相匹配。我們認(rèn)為,大模型為人形機(jī)器人理想的“大腦”。大模型較傳統(tǒng)AI模型有更強(qiáng)的泛化能力,可提高人形機(jī)器人通用性。在算法中,整個(gè)世界及規(guī)律猶如一座山脈,而小模型只是其中的一個(gè)小山包,無(wú)法看到小山包之外的東西。大模型提供了整個(gè)山脈的抽象信息,而不是具體的地理數(shù)據(jù),這些抽象信息基于自然語(yǔ)言和符號(hào)進(jìn)行訓(xùn)練,因此大模型可以解決邊角場(chǎng)景、OOD泛化性問(wèn)題。以往的AI模型多是特定領(lǐng)域的專用模型,拓展新場(chǎng)景應(yīng)用需要再經(jīng)過(guò)一邊“數(shù)據(jù)收集-標(biāo)注-訓(xùn)練-部署-應(yīng)用”的流程,很難應(yīng)用在周圍環(huán)境頻繁變化的場(chǎng)景下。而大模型的出現(xiàn),讓成本較高的垂直領(lǐng)域AI開發(fā),變成了“訓(xùn)練大模型+特定任務(wù)微調(diào)”的形式,大幅提高了開發(fā)速度,可提高人形機(jī)器人在不同場(chǎng)景和任務(wù)下的執(zhí)行成功率,從而提高人形機(jī)器人的通用性。大模型終需具備自主可靠決策+多模態(tài)感知+實(shí)時(shí)精準(zhǔn)運(yùn)控能力機(jī)器人大模型的最終目標(biāo)是提升機(jī)器人在不同場(chǎng)景和任務(wù)下執(zhí)行的成功率。人形機(jī)器人作為具身智能的理想載體,不僅需要在“任務(wù)層”上將一項(xiàng)具體的任務(wù)拆解為一項(xiàng)項(xiàng)具體的子任務(wù),還需要切實(shí)地執(zhí)行這些子任務(wù),實(shí)現(xiàn)與物理世界的交互,因此機(jī)器人大模型的執(zhí)行成功率是衡量機(jī)器人智能化程度的重要指標(biāo)。為了提升執(zhí)行成功率,大模型需要具備以下3+2種能力:對(duì)于限定的應(yīng)用場(chǎng)景和任務(wù),需要具備:1.自主可靠決策能力:大模型需要結(jié)合任務(wù)基礎(chǔ)和物理基礎(chǔ),自主地將高層級(jí)的任務(wù)分解為可執(zhí)行/可靠的子任務(wù)。任務(wù)基礎(chǔ)提供了任務(wù)的目標(biāo)和方向,包括大模型對(duì)高層級(jí)語(yǔ)言指令的理解,對(duì)完成該任務(wù)一般步驟的掌握,需要具備強(qiáng)大的語(yǔ)言理解能力和常識(shí)積累;物理基礎(chǔ)用于判斷完成子任務(wù)的可能性,包括大模型對(duì)外部環(huán)境的感知、對(duì)自身狀態(tài)的監(jiān)控和對(duì)物理規(guī)則的理解,需要具備強(qiáng)大的感知能力和物理理解能力。2.多模態(tài)感知能力:大模型需要具備豐富的外部感知(視覺、聽覺、觸覺等)和內(nèi)部感知(力矩、IMU等),以便獲取外部環(huán)境和自身狀態(tài)等信息,并基于獲取的信息,做出正確的決策。同時(shí),感知的獲取不是靜態(tài)的,在運(yùn)控的過(guò)程中,需要實(shí)時(shí)實(shí)地獲取、理解和關(guān)聯(lián)這些感知信息,才能更好的完成與環(huán)境的物理交互。3.實(shí)時(shí)精準(zhǔn)運(yùn)控能力:大模型需要以任務(wù)目標(biāo)為導(dǎo)向,結(jié)合動(dòng)態(tài)反饋的多模態(tài)感知信息,實(shí)時(shí)精準(zhǔn)地完成運(yùn)動(dòng)控制。人形機(jī)器人運(yùn)動(dòng)控制需要具備實(shí)時(shí)性和精準(zhǔn)性,兩者共同決定人形機(jī)器人運(yùn)動(dòng)控制的效率和質(zhì)量。實(shí)時(shí)性是指機(jī)器人接收到控制指令后,能夠在極短時(shí)間內(nèi)做出反應(yīng)并完成動(dòng)作,例如人形機(jī)器人在執(zhí)行任務(wù)時(shí),若遇到障礙物,需要及時(shí)做出規(guī)避動(dòng)作;精準(zhǔn)性是指機(jī)器人執(zhí)行動(dòng)作的精準(zhǔn)度,包括位置精度、速度精度和力矩精度等,需要大模型具備較強(qiáng)的計(jì)算能力。面對(duì)多樣復(fù)雜的應(yīng)用場(chǎng)景和任務(wù),需要具備:4.泛化能力:泛化是指模型在新的對(duì)象、背景和環(huán)境下的適應(yīng)能力,例如機(jī)器人在一個(gè)環(huán)境中學(xué)會(huì)了如何開門,之后即使門的形狀、大小和開門方式不同,也能夠完成開門這一動(dòng)作。大模型預(yù)訓(xùn)練的數(shù)據(jù)集是在限定場(chǎng)景中收集的,不可能包含現(xiàn)實(shí)世界中所有的應(yīng)用場(chǎng)景,因此大模型需要具備泛化能力,來(lái)面對(duì)紛繁復(fù)雜的現(xiàn)實(shí)世界。5.涌現(xiàn)能力:涌現(xiàn)是指模型表現(xiàn)出機(jī)器人訓(xùn)練數(shù)據(jù)之外的任務(wù)執(zhí)行能力,例如在RT-2中符號(hào)理解、推理和人類識(shí)別三類不在訓(xùn)練數(shù)據(jù)中的涌現(xiàn)任務(wù),RT-2也能以較高的正確率完成。經(jīng)過(guò)多種機(jī)器人多場(chǎng)景數(shù)據(jù)訓(xùn)練的RT-2-X涌現(xiàn)能力約為RT-2的3倍,可以完成的動(dòng)作指令從絕對(duì)位置(存在于訓(xùn)練數(shù)據(jù)中)拓展至相對(duì)位置(訓(xùn)練數(shù)據(jù)中未出現(xiàn))。目前進(jìn)展:大模型不斷迭代升級(jí),拓寬能力圈我們按照大模型發(fā)布時(shí)間,依次對(duì)多個(gè)主流機(jī)器人大模型的能力進(jìn)行拆解:1.SayCan:為實(shí)現(xiàn)自主可靠決策做出貢獻(xiàn),將LLMs引入到機(jī)器人決策中,可將高層級(jí)任務(wù)拆分為可執(zhí)行的子任務(wù);2.Gato:為實(shí)現(xiàn)多模態(tài)感知做出貢獻(xiàn),將多模態(tài)的信息token化,輸入到transformer架構(gòu)中;3.RT-1:為實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)運(yùn)控做出貢獻(xiàn),基于包含機(jī)器人軌跡數(shù)據(jù)的transformer架構(gòu),可以輸出離散化的機(jī)器人動(dòng)作token,同時(shí)收集了大量的機(jī)器人數(shù)據(jù);4.PaLM-E:將自主可靠決策和多模態(tài)感知兩種能力相結(jié)合,將多模態(tài)信息以類似語(yǔ)言序列的方式,輸入到預(yù)先訓(xùn)練的LLMs中,得到VLM(視覺語(yǔ)言模型),輸入端為多模態(tài)信息,輸出端為文本決策;5.RoboCat:最重要的貢獻(xiàn)是可以自主生成訓(xùn)練數(shù)據(jù)集,其將多模態(tài)模型Gato與機(jī)器人訓(xùn)練數(shù)據(jù)集相結(jié)合,可以實(shí)現(xiàn)自我學(xué)習(xí);6.RT-2:有機(jī)結(jié)合5種能力,將token化后的機(jī)器人數(shù)據(jù)輸入到VLM模型中,得到VLA(視覺-語(yǔ)言-動(dòng)作模型),不僅實(shí)現(xiàn)了自主可靠決策、多模態(tài)感知和實(shí)時(shí)精準(zhǔn)運(yùn)控能力的結(jié)合,同時(shí)展現(xiàn)出泛化能力和涌現(xiàn)能力;7.RT-X:5種能力全面提升,在保留RT-1和RT-2原有架構(gòu)的基礎(chǔ)上,經(jīng)過(guò)多種機(jī)器人多場(chǎng)景數(shù)據(jù)集的訓(xùn)練,各項(xiàng)能力均有提升。SayCan:為實(shí)現(xiàn)自主可靠決策做出貢獻(xiàn)SayCan由基于LLMs的Say和判斷可執(zhí)行性的Can組成。2022年4月,谷歌機(jī)器人團(tuán)隊(duì)聯(lián)合EverydayRobots開發(fā)出用于機(jī)器人決策的模型SayCan。該模型將機(jī)器人的決策過(guò)程拆分為兩部分——Say和Can:1)Say主要由LLMs組成:負(fù)責(zé)理解高層級(jí)任務(wù)的含義,并且將高層級(jí)任務(wù)分解為子任務(wù);2)Can由預(yù)訓(xùn)練得到的Affordance函數(shù)構(gòu)成:結(jié)合機(jī)器人的自身狀態(tài)和周圍的環(huán)境,將Say給出的子任務(wù)和預(yù)先設(shè)定可完成的子任務(wù)進(jìn)行比對(duì),判斷其是否可執(zhí)行。雖然該模型可以執(zhí)行子任務(wù),但執(zhí)行操作是事先編碼設(shè)定的,主要貢獻(xiàn)在于為人形機(jī)器人的決策提供思路,首先基于大語(yǔ)言模型的常識(shí)積累,提出解決任務(wù)的一般步驟,其次根據(jù)現(xiàn)實(shí)條件,判斷子任務(wù)的可執(zhí)行性,從而得出自主可靠的決策。Affordance函數(shù)可以淘汰不可執(zhí)行的決策,提高自主可靠性。由于Say部分只是從語(yǔ)義層面對(duì)抽象指令進(jìn)行分解,并未考慮現(xiàn)實(shí)基礎(chǔ),其分解出的子命令可能在現(xiàn)實(shí)中不可執(zhí)行。在第一步中,盡管LLMs認(rèn)為“拿取海綿”是正確的動(dòng)作,但Affordance函數(shù)根據(jù)視覺信息認(rèn)為這是不可能一步執(zhí)行的,因此選擇了“尋找海綿”。由此可見,SayCan大模型可以幫助機(jī)器人做出可靠決策。SayCan在真實(shí)廚房任務(wù)中規(guī)劃成功率為81%。SayCan執(zhí)行101個(gè)任務(wù)的結(jié)果如下:在模擬廚房的任務(wù)中,SayCan模型的規(guī)劃成功率為84%,執(zhí)行成功率為74%。真實(shí)廚房環(huán)境中,SayCan的規(guī)劃成功率相比在模擬廚房中降低3pct至81%,執(zhí)行成功率降低14pct至60%。此外,SayCan的規(guī)劃成功率可以隨著LLMs的改進(jìn)而提高。Gato:為實(shí)現(xiàn)多模態(tài)感知做出貢獻(xiàn)Gato將多模態(tài)信息token化后輸入transformer架構(gòu)。2022年5月,GoogleDeepMind推出多模態(tài)通用智能體Gato。該模型的基礎(chǔ)架構(gòu)是將文本、圖像、關(guān)節(jié)力矩、按鍵等信息序列化為扁平的token序列,將其輸入到統(tǒng)一的transformer框架中處理,可以完成600多個(gè)不同的任務(wù),包含離散控制(雅達(dá)利、推箱子游戲)、連續(xù)控制(機(jī)器人控制、機(jī)械臂控制)、NLP領(lǐng)域的對(duì)話,CV領(lǐng)域的描述生成等。該模型的訓(xùn)練方式是純監(jiān)督學(xué)習(xí),訓(xùn)練數(shù)據(jù)包括文本、圖像、本體感知信息、關(guān)節(jié)力矩、按鍵等各類模態(tài)的離散或連續(xù)型的觀測(cè)、動(dòng)作數(shù)據(jù),多樣化的數(shù)據(jù)使得Gato具備在具體場(chǎng)景中解決復(fù)雜問(wèn)題的能力。Gato在模擬任務(wù)中表現(xiàn)優(yōu)異,參數(shù)越多性能越好。在604個(gè)模擬任務(wù)中,有450多個(gè)任務(wù)可以達(dá)到專家水平的50%。研究人員評(píng)估了3種不同參數(shù)的模型:79M模型、364M模型和1.18B模型(Gato),實(shí)驗(yàn)結(jié)果表明,在相等的token數(shù)下,模型的參數(shù)越多,模型性能越好。RT-1:為實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)運(yùn)控做出貢獻(xiàn)RT-1將機(jī)器人軌跡數(shù)據(jù)輸入transformer架構(gòu),可得到離散化動(dòng)作token。其主體包括:1)卷積神經(jīng)網(wǎng)絡(luò)(EfficientNet):通過(guò)ImageNet預(yù)訓(xùn)練得到,用于處理圖像和文本,以提取與任務(wù)相關(guān)的視覺特征,但其參數(shù)較少,嚴(yán)格意義上不屬于大模型范疇;2)token學(xué)習(xí)器:計(jì)算出嵌入transformer中信息的token;3)transformer:處理輸入的token,并預(yù)測(cè)離散化的機(jī)器人動(dòng)作token。動(dòng)作包括用于臂(arm)移動(dòng)的七個(gè)維度(x、y、z、滾動(dòng)、俯仰、偏航、夾具的打開)、用于基座(base)移動(dòng)的三個(gè)維度(x、y、偏航),以及用于在三種模式(控制手臂、基座或終止)之間切換的額外離散維度(mode)。RT-1以3Hz速度執(zhí)行閉環(huán)控制并和命令動(dòng)作,直到產(chǎn)生終止動(dòng)作或耗盡預(yù)設(shè)時(shí)間步長(zhǎng)。RT-1的重要貢獻(xiàn)之一是收集了大量的機(jī)器人真實(shí)數(shù)據(jù)。Google依靠自身強(qiáng)大的資金和科研實(shí)力,耗時(shí)17個(gè)月,在13臺(tái)機(jī)器人上收集了13萬(wàn)條機(jī)器人數(shù)據(jù),覆蓋超過(guò)700個(gè)機(jī)器人相關(guān)任務(wù)。大量的機(jī)器人真實(shí)數(shù)據(jù),使得RT-1在訓(xùn)練完成后具有良好的泛化能力。與其他基準(zhǔn)模型相比,面對(duì)未見過(guò)的指令、不同干擾對(duì)象的數(shù)量、不同的背景和環(huán)境,裝配了RT-1的機(jī)器人均能較好地適應(yīng)。此外,通過(guò)將真實(shí)數(shù)據(jù)、模擬環(huán)境生成的數(shù)據(jù)和其他型號(hào)機(jī)器人生成的數(shù)據(jù)相整合,訓(xùn)練出的RT-1泛化能力進(jìn)一步提升。PaLM-E:將自主可靠決策和多模態(tài)感知相結(jié)合PaLM-E將多模態(tài)大模型拓展至機(jī)器人領(lǐng)域,可生成決策文本。2023年3月,Google和柏林工業(yè)大學(xué)的研發(fā)團(tuán)隊(duì)推出通用多模態(tài)大模型PaLM-E。該模型融合了Google當(dāng)時(shí)最新的大型語(yǔ)言模型PaLM和最先進(jìn)的視覺模型ViT-22B,可以結(jié)合傳統(tǒng)運(yùn)控算法執(zhí)行復(fù)雜的機(jī)器人任務(wù)。PaLM-E大模型的輸入端是連續(xù)的、可感知的數(shù)據(jù),包括視覺、連續(xù)狀態(tài)估計(jì)值和文本等多模態(tài)信息。多模態(tài)信息以類似于語(yǔ)言序列的方式輸入到語(yǔ)言模型PaLM中,使其可以理解這些連續(xù)數(shù)據(jù),從而能夠基于現(xiàn)實(shí)世界做出合理判斷。PaLM-E是一個(gè)僅具有解碼器的語(yǔ)言模型,可以自動(dòng)地根據(jù)前綴或提示生成文本結(jié)果。PaLM-E擁有強(qiáng)大的正遷移能力和語(yǔ)言能力。研究人員發(fā)現(xiàn),通過(guò)混合任務(wù)訓(xùn)練得到的PaLM-E大模型,在單一任務(wù)的表現(xiàn)優(yōu)于單一任務(wù)訓(xùn)練得到的大模型,例如PALM-E經(jīng)過(guò)包含三種抓取任務(wù)的數(shù)據(jù)集訓(xùn)練后,在單一抓取任務(wù)中的執(zhí)行成功率或準(zhǔn)確度高于經(jīng)過(guò)單一抓取任務(wù)訓(xùn)練的模型。此外,PaLM-E中語(yǔ)言模型越大,在進(jìn)行機(jī)器人任務(wù)訓(xùn)練中,保持的語(yǔ)言能力就越強(qiáng),例如PaLM-E-562B基本保留了所有的語(yǔ)言能力。RoboCat:可以自主生成訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)自我學(xué)習(xí)RoboCat將多模態(tài)模型Gato與機(jī)器人數(shù)據(jù)集相結(jié)合。2023年6月,GoogleDeepMind推出了RoboCat,一種可以自我改進(jìn)、自我提升的用于機(jī)器人的AI智能體。研究人員將多模態(tài)模型Gato與包含各種機(jī)器人手臂圖像和動(dòng)作的訓(xùn)練數(shù)據(jù)集相結(jié)合,使得RoboCat具有在模擬環(huán)境與物理環(huán)境中處理語(yǔ)言、圖像和動(dòng)作等任務(wù)的能力。前文提到的RT-1和PaLM-E所使用的絕大部分機(jī)器人數(shù)據(jù)通過(guò)人工示范與人工遙控操作的方式收集而來(lái),所消耗的時(shí)間和人工成本較高。RoboCat最大的創(chuàng)新點(diǎn)在于可以利用少量人工收集的真實(shí)機(jī)器人數(shù)據(jù)集,自主生成新的訓(xùn)練數(shù)據(jù)集。RoboCat針對(duì)每個(gè)新任務(wù)/機(jī)器人的訓(xùn)練周期包括五個(gè)階段,過(guò)程中可自主生成訓(xùn)練集:1)通過(guò)人工控制機(jī)械臂,收集100-1000個(gè)新任務(wù)/機(jī)器人的演示過(guò)程;2)針對(duì)該新任務(wù)/機(jī)器人,創(chuàng)建一個(gè)專門的衍生智能體(Agent);3)衍生智能體(Agent)對(duì)該新任務(wù)/新機(jī)器人進(jìn)行平均10000次練習(xí),生成更多訓(xùn)練數(shù)據(jù);4)將演示數(shù)據(jù)和自生成數(shù)據(jù)合并到RoboCat已有的訓(xùn)練數(shù)據(jù)集中;5)在新的訓(xùn)練數(shù)據(jù)集上訓(xùn)練得到新版本的RoboCat。RoboCat經(jīng)過(guò)自我學(xué)習(xí),執(zhí)行成功率由36%提升到74%。面對(duì)一項(xiàng)新任務(wù)時(shí),最初版本的RoboCat在經(jīng)過(guò)500次演示訓(xùn)練后,執(zhí)行成功率僅為36%;經(jīng)過(guò)自我學(xué)習(xí)的訓(xùn)練周期后,執(zhí)行成功率提升至74%。此外,根據(jù)論文顯示,RoboCat在現(xiàn)實(shí)世界中的執(zhí)行成功率要遠(yuǎn)高于傳統(tǒng)基于視覺的模型。RT-2:VLA模型將5種能力有機(jī)結(jié)合RT-2將視覺語(yǔ)言模型和機(jī)器人動(dòng)作相結(jié)合。2023年7月,GoogleDeepMind發(fā)布RT-2,并將其定位為新型的視覺語(yǔ)言動(dòng)作(VLA)模型。RT-2將token化后的機(jī)器人數(shù)據(jù)輸入到VLM中,實(shí)現(xiàn)閉環(huán)的機(jī)器人控制。該模型兼具視覺語(yǔ)言模型和機(jī)器人動(dòng)作的優(yōu)勢(shì):1)VLM經(jīng)過(guò)海量互聯(lián)網(wǎng)數(shù)據(jù)集的訓(xùn)練后,具備強(qiáng)大的語(yǔ)義推理和視覺解析能力;2)機(jī)器人動(dòng)作數(shù)據(jù)的引入使模型能夠理解機(jī)器人行動(dòng),從而根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)機(jī)器人的下一步動(dòng)作。基于原有的VLM模型PaLM-E和PaLI-X,RT-2具備良好的泛化能力和涌現(xiàn)能力。Google選擇了原有的VLM模型PaLM-E和PaLI-X,在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行聯(lián)合微調(diào),得到實(shí)例化的RT-2-PaLM-E和RT-2-PaLI-X。實(shí)例化后進(jìn)行了超過(guò)6000次的機(jī)器人實(shí)驗(yàn),結(jié)果顯示RT-2具備:1)較強(qiáng)的泛化能力:面對(duì)訓(xùn)練數(shù)據(jù)中未出現(xiàn)的物體、背景和環(huán)境,RT-2系列模型能夠以遠(yuǎn)超基準(zhǔn)對(duì)比模型的成功率完成任務(wù);2)較好的涌現(xiàn)能力:對(duì)于符號(hào)理解、推理和人類識(shí)別三類不存在于機(jī)器人訓(xùn)練數(shù)據(jù)中的涌現(xiàn)任務(wù),RT-2系列模型也能以較高的正確率完成。RT-X:經(jīng)過(guò)多個(gè)數(shù)據(jù)集訓(xùn)練后,5種能力全面提升RT-X在保持原有架構(gòu)的基礎(chǔ)上,經(jīng)過(guò)多個(gè)數(shù)據(jù)集訓(xùn)練,得到RT-1-X和RT-2-X。2023年10月,GoogleDeepMind開放訓(xùn)練數(shù)據(jù)集OpenX-Embodiment,其包含超過(guò)100萬(wàn)條真實(shí)的機(jī)器人軌跡數(shù)據(jù),涵蓋22種機(jī)器人和527項(xiàng)技能(160266項(xiàng)任務(wù))。多樣化的數(shù)據(jù)集使得RT-X模型具備了在多種環(huán)境中處理各類任務(wù)的能力,機(jī)器人能夠更靈活地適應(yīng)不同的應(yīng)用場(chǎng)景,例如倉(cāng)庫(kù)搬運(yùn)、防爆救險(xiǎn)、家庭護(hù)理等。RT-1-X在特定任務(wù)上的平均性能較RT-1和原始模型提高50%。雖然RT-1-X與RT-1的網(wǎng)絡(luò)架構(gòu)相同,但因?yàn)镽T-1-X采用了多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,RT-1-X模型在特定任務(wù)上(如開門)的平均性能比RT-1和原始模型提升50%。RT-2-X涌現(xiàn)能力約為RT-2模型的3倍,泛化能力約為原始模型的3倍。1)涌現(xiàn)是指模型表現(xiàn)出訓(xùn)練數(shù)據(jù)集之外的執(zhí)行能力。RT-2-X涌現(xiàn)能力約為RT-2的3倍,動(dòng)作指令從傳統(tǒng)的絕對(duì)位置拓展至相對(duì)位置。例如,之前機(jī)器人只能理解將蘋果放在桌子的右上角的絕對(duì)位置指令,如今可以理解將蘋果放在可樂和杯子中間的相對(duì)位置指令。2)泛化是指模型在新場(chǎng)景下的適應(yīng)能力。RT-2-X的泛化能力約為原始模型的3倍,從27.3%提高至75.8%。此外,更高的模型容量和多種機(jī)器人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論