版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
星海系列:處理上廣泛應(yīng)用,還擴(kuò)展至圖像、視頻、音頻等多模態(tài)任務(wù)。諸如Stable通過大規(guī)模的視覺-語言預(yù)訓(xùn)練,將視覺識別與低級機(jī)器人控制結(jié)合,實(shí)現(xiàn)了機(jī)器人在復(fù)雜任務(wù)和未見環(huán)境中的強(qiáng)大泛化能力。RoboCat則基于Gato模型,展示了多任務(wù)和多具身平臺上的自我迭代學(xué)習(xí)能力,能夠快速適應(yīng)新任務(wù)并生成跨任務(wù)策略。英偉達(dá)的MimicGen自動生成大量模仿學(xué)習(xí)數(shù)據(jù),有效減少了人工干預(yù),提升了機(jī)器人學(xué)習(xí)的效率。Transformer模型,走向了數(shù)據(jù)驅(qū)動的模型范式,2024年初FSDV12完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛控制,從機(jī)器視覺到驅(qū)動決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。FSDV12能夠模擬人類駕駛決策,成為自動駕駛領(lǐng)域全新發(fā)展路徑。>英偉達(dá)Robocasa:具體智能關(guān)鍵節(jié)點(diǎn),首次論證real-sim-real。通過升級模擬平臺并構(gòu)建模擬框架,基于廚房場景和原子任務(wù)、復(fù)合任務(wù)、真實(shí)世界三個場景收集行為數(shù)據(jù)集并進(jìn)行結(jié)果評估。說明模擬器的豐富多樣性以及視覺和物理真實(shí)性顯著改善了模擬效果,實(shí)驗(yàn)結(jié)果首次論證了real-sim-real可行。一種針對機(jī)器人操作任務(wù)的新型空間和時間約束表示方法,提供了一種三環(huán)的解決方案。通過關(guān)鍵點(diǎn)約束解構(gòu)機(jī)器人行為,將操作行為分為多階段,并構(gòu)建子目標(biāo)約束和路徑約束,基于此提出一種三任務(wù)閉環(huán)的解決方案。同時,融入大型視覺模型和視覺-語言模型,利用VLM和GPT-40生成Rekep約束,避免了手動指定Rekep的需要。2)1x世界模型:首證擴(kuò)展定律,能通過大量學(xué)習(xí)理解周圍環(huán)境。通過大量的真實(shí)數(shù)據(jù)學(xué)習(xí)和模擬,機(jī)器人能夠預(yù)測復(fù)雜的物體互動,理解周圍環(huán)境,并靈活應(yīng)對日常任務(wù)。1x的進(jìn)展首次在機(jī)器人上證明了擴(kuò)展機(jī)器人大模型,憑借大規(guī)模視頻預(yù)訓(xùn)練和多模態(tài)學(xué)習(xí)技術(shù),展示了卓越的泛化能力與多任務(wù)通用性。4)數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力。在保留數(shù)字孿生優(yōu)勢的基礎(chǔ)上,數(shù)字表親表現(xiàn)出了更強(qiáng)的適應(yīng)能力和魯棒性,成功實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的零樣本遷移,為機(jī)器人學(xué)習(xí)在復(fù)雜、多變的真實(shí)環(huán)境中的應(yīng)用開辟了新的可能性。等;3)關(guān)注其他產(chǎn)業(yè)鏈可延伸公司。>風(fēng)險提示:機(jī)器人算法迭代進(jìn)步速度不及預(yù)期,人形機(jī)器人落地場景實(shí)際需求不及預(yù)期MINSHENGSECURITIES2024年11月07日出??臻g廣闊-2024/10/20內(nèi)有望新設(shè)產(chǎn)線-2024/10/13設(shè)備受益-2024/09/30拖占比提升大勢所趨-2024/09/215.揚(yáng)帆系列:船舶需求分析(二):干散貨船需求與測算-2024/09/18本本民生證券目錄1Transformer模型的演進(jìn):從語言翻譯到多模態(tài)智能的前沿探索 31.1開篇:Robot+AI的核心時間線與關(guān)鍵節(jié)點(diǎn)結(jié)論 3 31.3語言、圖片、視頻大模型的出現(xiàn) 41.4多模態(tài)、跨模態(tài)大模型的難點(diǎn) 61.5ScalingLaw的存在 6 82.1谷歌RT-2:具身智能學(xué)習(xí) 82.2英偉達(dá)MimicGen:自動化數(shù)據(jù)生成系統(tǒng) 2.3谷歌RoboCat:多任務(wù)具身智能 3特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 3.1FSDV12:全新的端到端自動駕駛 3.2FSD的前世今生 3.3FSD架構(gòu)變革:Transformer模型的引入 3.4FSD端到端:感知決策一體化 4端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 4.1端到端算法:直接連接數(shù)據(jù)輸入與控制指令輸出 4.2端到端算法相比傳統(tǒng)的技術(shù)架構(gòu)的優(yōu)勢 4.3自動駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢 4.4機(jī)器人端到端算法的關(guān)鍵問題 4.5特斯拉grok模型:模擬思維鏈思考過程 5.1英偉達(dá)Robocasa:基于廚房場景的模擬數(shù)據(jù)收集 6.1李飛飛團(tuán)隊(duì)Rekep:一種針對機(jī)器人操作任務(wù)的新型空間和時間約束表示方法,提供了三任務(wù)閉環(huán)的解決方案 6.21x世界模型:首證擴(kuò)展定律,能通過大量學(xué)習(xí)理解周圍環(huán)境 6.3字節(jié)GR-2:高效動作預(yù)測與泛化能力 436.4數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力 7投資建議 8風(fēng)險提示 插圖目錄 本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械智能的前沿探索下圖是機(jī)器人和transformer模型結(jié)合的重點(diǎn)時間線及關(guān)鍵節(jié)點(diǎn)突破。>生成”>生成”Robot訓(xùn)練數(shù)據(jù)”的方法>>>!其他大模型和機(jī)器人動作的結(jié)合>>>!Real-sim-real的閉環(huán)實(shí)驗(yàn)>>>可擴(kuò)展性+scailinglaw2023年6月:谷歌RT-2(VLA)2023年10月:英偉達(dá)MimicGen核心貢獻(xiàn):快速分割生成數(shù)據(jù)2023年12月:谷歌RoboCat2024年1月:特斯拉發(fā)布FSDV12+端到端2024年6月:英偉達(dá)Robocasa2024年8月:特斯拉發(fā)布Grok2;模仿GPT40加入思考鏈12024年10月:李飛飛“數(shù)字表親”2024年9月:李飛飛Rekep+空間智能核心貢獻(xiàn):提供一種問題3任務(wù)閉環(huán)的解決方案------------------2-C--2024年9月:1xRobotWorldModel核心貢獻(xiàn):提供一種問題3任務(wù)閉環(huán)的解決方案2024年10月:字節(jié)GR2核心貢獻(xiàn):回答至問題3可擴(kuò)展性----------------------資料來源:AnthonyBrohan《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoDemonstrations》,KonstantinosBousmalis《RoboCat:ASelf-ImprovingGeneralistAgentforRoboticManipulation》,tesla,TianyuanDai《ACDC:AutomatedCreationofDigitalCousinsforRobustPolicyModelwithWeb-ScaleKnowledgeforRobotManipulation》,SoroushNasiriany《RoboCasa:Large-Scale1.2Transformer網(wǎng)絡(luò)架構(gòu)的提出這篇文章中提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu)。其一開始的提出是為了解決翻譯問題,僅僅依賴于注意力機(jī)制就可處理序列數(shù)據(jù),從而擯棄了RNN或CNN。這個新的網(wǎng)絡(luò)結(jié)構(gòu),刷爆了各大翻譯任務(wù),同時創(chuàng)造了多項(xiàng)新的記錄(英-德的翻譯任務(wù),相比之前的最好記錄提高了2個BLEU值)。而且,該模型的訓(xùn)練耗時短,并且對大數(shù)據(jù)或者有限數(shù)據(jù)集均有良好表現(xiàn)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械ProbabiesNxPositionalEncodingOutputEmbeddingOutputs(shiftedright)模型的核心架構(gòu)的示意圖如上。Transf都包含6個block。Transformer將所有的單詞向量化,通過矩陣編譯的方法開始翻譯以及預(yù)測,在翻譯上一個詞的同時對后續(xù)的單詞進(jìn)行預(yù)測,達(dá)到語句通順的效果。其實(shí)際上是一個編碼器-解碼器結(jié)構(gòu),其中編碼器將原始語言的句子作為輸入并生成基于注意力的表征,而解碼器關(guān)注編碼信息并以回歸方式生成翻譯的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力機(jī)制和殘差鏈接,也就是所謂"AttentionIsAllYouNeed",最終輸出結(jié)果。Transformer的意義體現(xiàn)在它的長距離依賴關(guān)系處理和并行計(jì)算,而這兩點(diǎn)效捕捉序列信息中長距離依賴關(guān)系,相比于以往的RNNs,它在處理長序列時的表現(xiàn)更好。而自注意力機(jī)制的另一個特點(diǎn)時允許模型并行計(jì)算,無需RNN一樣t步驟的計(jì)算必須依賴t-1步驟的結(jié)果,因此Transformer結(jié)構(gòu)讓模型的計(jì)算效率更高,加速訓(xùn)練和推理速度。圖3:自注意力機(jī)制示意圖LnesCorcatLnesCorcatAttention多頭注意力計(jì)算步驟資料來源:AshishVaswani,NoamShazeer《AttentionIsAllYouNeed》,民生證券研究院本本民生證券MINSHENGSECURITIES語言,圖片,視頻大模型以大語言模型為基礎(chǔ),將強(qiáng)大的大語言模型作為大腦來執(zhí)行多模態(tài)任務(wù)。但LLM只能理解離散文本,在處理多模態(tài)信息時不具有通用性。另一方面,大型視覺基礎(chǔ)模型在感知方面進(jìn)展迅速,但推理方面發(fā)展緩慢。這兩者的優(yōu)缺點(diǎn)形成了巧妙的互補(bǔ)。由于上述不同點(diǎn)中的互補(bǔ)性,單模態(tài)LLM和視覺模型同時朝著彼此運(yùn)行,結(jié)合上部分的圖像、視頻和音頻等等模態(tài),最終帶來了MLLM的新領(lǐng)域。形式上,它指的是基于LLM的模型,該模型能夠接收多模態(tài)信息并對其進(jìn)行推理。從發(fā)展人工通用智能的角度來看,MLLM可能比LLM向前邁出一步。MLLM更加符合人類感知世界的方式,提供了更用戶友好的界面(可以多模態(tài)輸入),是一個更全面的任務(wù)解決者,不僅僅局限于NLP任務(wù)。圖4:MLLM的模型結(jié)構(gòu)NFNet-F6StableDiffusionCLPVITHxQ-FormerC-FormerP-FormerHuBERTMQ-FormerAudioLDMChinchillaASxTinyTransformerFlan-T5ChatGLMLinearProjectorEva-CUPVITTexttPxUL2FMultimodalUnderstandingMultimodalGenerationFigure2:ThegeneralmodelarchitectureofMM-LLMsandtheimplementationchoicesforeachcomponent.資料來源:DuzhenZhang《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels》,民生證券研究院上圖包含了通用多模態(tài)模型結(jié)構(gòu)的五個組件部分,以及每個組件部分的常用ModalityEncoder:負(fù)責(zé)將不同模態(tài)的輸入數(shù)據(jù)編碼為模型可理解的表示,目前技術(shù)可以實(shí)現(xiàn)輸入圖片、視頻、音頻文件,對于圖像而言,可能涉及到將像素?cái)?shù)據(jù)轉(zhuǎn)換成一個特征向量,該向量捕捉了圖像中的重要信息;InputProjector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間,這意味著無論輸入數(shù)據(jù)的形式如何,它們都會被轉(zhuǎn)換成一個統(tǒng)一的格式,以便模型可以在一個統(tǒng)一的框架中處理它們;LLMS:大型語言模型,用于處理文本數(shù)據(jù),可以將不同模態(tài)的信息對齊到一個共同的語義空間中,整合由前面兩個部分轉(zhuǎn)換后輸入的信息,融合后再生成一個統(tǒng)一的、豐富的語義表示,可能是相應(yīng)的指導(dǎo)性文本或腳本,與專門的生成模型協(xié)同工作,實(shí)現(xiàn)高質(zhì)量的圖片和音頻生成;OutputProjector:將模型生成的輸出映射回原始模態(tài)的空間,如果模型的輸出是文本,那么輸出投影器將確保生成的文本與輸入數(shù)據(jù)的語義空間相匹配;ModalityGenerator:根據(jù)輸入數(shù)據(jù)生成對應(yīng)的輸出數(shù)據(jù),將模型的內(nèi)部表本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械示轉(zhuǎn)換成最終的輸出形式,如生成圖像、文本或音頻。多模態(tài)理解主要是前三個部分。(模態(tài)對齊)訓(xùn)練期間,encoder,LLMBackbone和generator一般保持凍結(jié)。主要優(yōu)化輸出和輸出的projector。由于Projector是輕量級的模塊,MM-LLMs中可以訓(xùn)練的參數(shù)比例和總參數(shù)相比非常小(2%左右),模型的總體參數(shù)規(guī)模取決于LLM部分。由此,Transformer模型隨著LLM的廣泛應(yīng)用而成為了目前多模態(tài)大模型的核心思想和目前較為先進(jìn)的網(wǎng)絡(luò)架構(gòu)。截至2024年10月,中國移動在多模態(tài)大模型領(lǐng)域取得了顯著進(jìn)展,其九天善智多模態(tài)基座大模型表現(xiàn)尤為突出。該模型可以處理長文本的智能化解析,全雙其一是異質(zhì)化數(shù)據(jù)的處理與整合存在困難:多模態(tài)大模型中,由于輸入輸出的數(shù)據(jù)具有多樣性,面臨的主要問題包括數(shù)據(jù)的異質(zhì)性導(dǎo)致的表示難題、不同模態(tài)以及如何在不同模態(tài)間進(jìn)行知識遷移的協(xié)同學(xué)習(xí)挑戰(zhàn)。需要綜合應(yīng)用多元化多樣化的模型對其進(jìn)行處理,將各個異質(zhì)性的數(shù)據(jù)再整合規(guī)劃,才能真正讀懂要求,輸出數(shù)據(jù).其二是訓(xùn)練過程挑戰(zhàn)重重:獲取跨多個模態(tài)的充足數(shù)據(jù)可能非常困難和昂貴,且數(shù)據(jù)可能會偏向于某些模態(tài),導(dǎo)致模型產(chǎn)生偏見,從而導(dǎo)致模型偏向于數(shù)據(jù)量更多或特征更強(qiáng)的模態(tài),導(dǎo)致模型產(chǎn)生偏見;同時由于特定于模態(tài)的編碼器通常分別訓(xùn)練,他們聲稱的表示是存在差異的,對投影/對齊模塊的有效學(xué)習(xí)過于依賴。在這其中,值得關(guān)注的是語言模型的scalinglaw。大模型的ScalingLaw是OpenAl在2020年提出的概念,可以概括為“預(yù)測即壓縮、壓縮即泛化、泛化即智能”將大語言模型用在別的領(lǐng)域之后,從計(jì)算理論的角度,聯(lián)合壓縮多模態(tài)數(shù)據(jù)理應(yīng)獲得比單模態(tài)更好的理論最優(yōu)壓縮器。對于所有的模態(tài)來說,他們都必須要服從的scalinglaw是,隨著數(shù)據(jù)規(guī)模的提升,模型的表現(xiàn)也會隨之提升,如果法則正確,那么要想使得模型更好,只需要搭建好算法和框架,不斷收集數(shù)據(jù)就可以了。一旦證明scalinglaw的存在和有效性,就可以預(yù)測模型性能與規(guī)模的關(guān)系,投入恰當(dāng)規(guī)模的數(shù)據(jù)集,使得計(jì)算資源可以更高效的應(yīng)用。多模態(tài)模型會變得更加可預(yù)測和可計(jì)算,其不確定性就極大的降本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械圖5:ScalingLaw的效果圖示TestTestLoss資料來源:JaredKaplan《ScalingLawsforNeuralLanguageModels》,民生證券研究院在此基礎(chǔ)上,本文想要按時間線和核心milestone貢獻(xiàn),來幫助大家拆解最沿的,以transformer為基礎(chǔ)的模型到本本MINSHENGSECURITIES行業(yè)深度研究/機(jī)械2.1谷歌RT-2:具身智能學(xué)習(xí)大語言模型可以實(shí)現(xiàn)流暢的文本生成、問題解決、創(chuàng)意寫作以及代碼生成,視覺-語言模型(VLM)則能夠?qū)崿F(xiàn)開放詞匯的視覺識別。以上能力對于現(xiàn)實(shí)環(huán)境中的通用型機(jī)器人非常有用,然而它們?nèi)绾潍@得這些能力還是未知。如何將大型預(yù)訓(xùn)練的視覺-語言模型直接集成到低級機(jī)器人控制中,以促進(jìn)泛化并實(shí)現(xiàn)緊急語義推理,成為了機(jī)器人下一步發(fā)展的方向。Google提出的RobotTransformer(RT)系列使用了更大規(guī)模的語言模型和使用預(yù)訓(xùn)練的EfficientNet-B3網(wǎng)絡(luò)初始化,以機(jī)器人狀態(tài)和歷史圖片作為輸入,Mode3HzTokenLeamerTransformerAmBe?0■■■■■■■工InstructionEfficientNetRT-1將機(jī)器人動作的每個維度進(jìn)行均勻離散化,并將動作詞元化,然后使用監(jiān)督學(xué)習(xí)的損失進(jìn)行訓(xùn)練。為了使視覺-語言模型能夠控制機(jī)器人,還差對動作即文本token,并與Web規(guī)模的視覺-語言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。如下圖所示,該研究將機(jī)器人動作表示為文本字符串,這種字符串可以是機(jī)器人動作token編號的序列,例如[1128912415101127217」。Terminate△PosXorcontinuePositionalRotationalGripperchange資料來源:AnthonyBrohan《RT-1:ROBOTICSTRANSF民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械RT-2在機(jī)器人任務(wù)上展示了更強(qiáng)的泛化能力,以及對超出其接觸的機(jī)器人數(shù)直接訓(xùn)練視覺-語言模型以實(shí)現(xiàn)開放詞匯視覺問答和視覺對話,輸出低級機(jī)器人動作,同時解決其他互聯(lián)網(wǎng)規(guī)模的視覺語言任務(wù)。相較于RT-1,RT-2模型在機(jī)器人理解新任務(wù),并通過執(zhí)行基本推理來響應(yīng)用戶命令,例如推理物體類別或高級描述等方面具有更大的優(yōu)勢。與RT-1模型的泛化能力相比,RT-2的目標(biāo)是訓(xùn)練機(jī)器人從觀測到動作的端提出一個在機(jī)器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級別的視覺語言任務(wù)聯(lián)合微調(diào)視覺-語言模型的學(xué)習(xí)方式。這類學(xué)習(xí)方法產(chǎn)生的模型被稱為視覺-語言-動作(VLA)模型,具有泛化到新對象的能力、解釋命令的能力以及根據(jù)用戶指令思維推理的能力。RT-2算法整體使用大規(guī)模預(yù)訓(xùn)練的視覺-語言模型結(jié)構(gòu),模型參數(shù)可以達(dá)到55B的參數(shù)量,遠(yuǎn)超RT-1的參數(shù)規(guī)模,同時利用大規(guī)模預(yù)訓(xùn)練視覺-語言模型模型中編碼的豐富視覺問答知識來幫助具身模型的訓(xùn)練。RT-2將輸出的動作進(jìn)行和RT-1相同的離散化操作后將詞元加入視覺-語言模型原先的詞表中,可以把動作2已經(jīng)在海量的視覺問答任務(wù)中進(jìn)行預(yù)訓(xùn)練,在對圖片和任務(wù)指令的理解上有更加豐富的經(jīng)驗(yàn),在任務(wù)集合上具有更強(qiáng)的泛化能力。RT-2能夠運(yùn)用其大規(guī)模預(yù)訓(xùn)練的視覺問答經(jīng)驗(yàn)進(jìn)行泛化,在現(xiàn)實(shí)世界的任務(wù)中進(jìn)行推廣,實(shí)現(xiàn)推理、理解和識別。例如在下圖的拾取、移動、放置等具體任務(wù)中,智能體能夠精準(zhǔn)識別任務(wù)需求并且以過往訓(xùn)練經(jīng)驗(yàn)為基礎(chǔ)準(zhǔn)確地完成。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械本本圖8:RT-2能夠推廣到各種需要推理、符號理解和人類識別的現(xiàn)實(shí)世界情況placeplaceorangeinmovecokecantoTaylorSwiftmovesoccerballtobasketballmovecokecantoXstrawberrythecorrectbowlabouttofallpickanimalwithmovecuptothewinebottlemovebananatothesumoftwomovebananatoGermanymoveappletoDenverNuggetsmovebagtoGoogleplusoneControl》,民生證券研究院RT-2的核心方法是采用視覺-語言-動作模型(VLA)與聯(lián)合微調(diào)。具體步驟(例如"1128912415101")。在此過程中,機(jī)器人動作被離散化為多個參數(shù)(如位移和旋轉(zhuǎn)),每語言token共用同一表示空間。步驟二:RT-2將任務(wù)指令和圖像信息結(jié)合,通過de-tokenize轉(zhuǎn)化為具體的機(jī)器人動作序列。此過程使用大語言模型(LLM)解析任務(wù),像自然語言處理那樣,動作模塊使用tokenizer來處理這串token轉(zhuǎn)成對應(yīng)的機(jī)器人動作,將視覺信息和任務(wù)指令解碼為具體的機(jī)器人動作序列(如平移和旋轉(zhuǎn)參數(shù)),進(jìn)而分析這串字符串對應(yīng)的開始符、命令、停止符。步驟三:在執(zhí)行任務(wù)的過程中,模型同步實(shí)時進(jìn)行聯(lián)合微調(diào)(Co-Fine-Tuning):機(jī)器人根據(jù)傳感器和攝像頭反饋的最新圖像信息,判斷任務(wù)執(zhí)行的狀態(tài)和完成情況。如果任務(wù)執(zhí)行過程中出現(xiàn)誤差或環(huán)境發(fā)生變化,模型會利用新的視覺數(shù)據(jù)重新規(guī)劃動作,直至任務(wù)完成??偠灾Z言模型負(fù)責(zé)持續(xù)理解任務(wù)場景和需求,而動作模塊根據(jù)視覺反饋實(shí)時調(diào)整操作,確保任務(wù)順利完成。完成訓(xùn)練與微調(diào)后,RT-2被部署到機(jī)器人系統(tǒng)中,并具備了在復(fù)雜環(huán)境下執(zhí)行多任務(wù)的能力,實(shí)現(xiàn)高效的閉環(huán)控制。民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械Internet-ScaleVQA+RobotActiInternet-ScaleVQA+RobotActiQ:Whatishappeningintheimage?Agreydonkeywalksdownthestreet.Q:Quepuis-jefaireaveccesobjets?Fairecuireungateau.△T=[0.1,-02,0]A:132114128525156△Translation=[0.1,-0.2,0]Co-Fine-TuneDeployforRobotControlLargeLanguageModelQ:Whatshouldtherobotdoto<task>?Q:WhatshouldtherobotClosed-Loop△Rotation=[10;25;-7"]Vision-Language-ActionModelsControl》,民生證券研究院2.1.3核心結(jié)論+未來進(jìn)展RT-2展示了視覺-語言模型(VLMs)可以轉(zhuǎn)變?yōu)閺?qiáng)大的視覺-語言-動作(VLA)模型,通過結(jié)合VLM預(yù)訓(xùn)練和機(jī)器人數(shù)據(jù),直接控制機(jī)器人。RT-2基于PaLM-E和PaLI-X的兩種VLA模型,提高了機(jī)器人策略的完成率,并且繼承了視覺語言數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢,具有更好的泛化能力和涌現(xiàn)能力。這不僅是對現(xiàn)有視覺-語言模型的有效改進(jìn),也展示了通用型機(jī)器人的發(fā)展前景。未來的機(jī)器人能夠進(jìn)行推理、解決問題,并進(jìn)行高級規(guī)劃和低級指令控制,在現(xiàn)實(shí)世界中執(zhí)行大量多樣化的任務(wù)。RT-2也具有局限性。該模型對于泛化能力的強(qiáng)化并沒有提高機(jī)器人執(zhí)行新動作的能力,智能體知識學(xué)會了以新的方式部署學(xué)習(xí)到的技能。同時,由于高頻控制的設(shè)置應(yīng)用場景,實(shí)時推斷可能成為主要瓶頸。未來工作的方向主要集中于如何通過新的數(shù)據(jù)收集范式(如人類視頻)獲得新技能,同時開發(fā)出更多的開元模型以支撐高速率和低成本的運(yùn)作。2.2英偉達(dá)MimicGen:自動化數(shù)據(jù)生成系統(tǒng)人研究依賴大量的人工演示數(shù)據(jù)來訓(xùn)練模型,但這些數(shù)據(jù)的收集非常昂貴。的系統(tǒng)。該系統(tǒng)通過將人類演示數(shù)據(jù)適應(yīng)于新場景,生成多達(dá)50,000條演示數(shù)據(jù),覆蓋18項(xiàng)任務(wù),從而顯著降低了人工數(shù)據(jù)收集的需求。這一方法能夠加速機(jī)器人學(xué)習(xí)的進(jìn)展,使得機(jī)器人能夠在復(fù)雜場景中表現(xiàn)出本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械更強(qiáng)的泛化能力,尤其是在長時間任務(wù)和高精度任務(wù)(如多部件裝配、咖啡準(zhǔn)備)中表現(xiàn)出色。研究結(jié)果表明,利用MimicGen生成的數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)能夠取得與傳統(tǒng)人工數(shù)據(jù)收集相媲美的效果。圖10:MimicGen從原始人類演示數(shù)據(jù)到生成的廣泛數(shù)據(jù)集的過程LargeLarge,broaddatasetgeneratedautomaticallywithMimicGenDiversesceneconfigurationsDemo2HumanDemonstrations》,民生證券研究院MimicGen的設(shè)計(jì)來源于模仿學(xué)習(xí)與數(shù)據(jù)增強(qiáng)兩個技術(shù)背景。模仿學(xué)習(xí)是一種通過觀察人類示范來訓(xùn)練機(jī)器人的方法。MimicGen利用這一理念,通過生成多樣化的示范來擴(kuò)展模仿學(xué)習(xí)的應(yīng)用范圍。數(shù)據(jù)增強(qiáng)技術(shù)被廣泛應(yīng)用于提高模型的泛化能力。通過對現(xiàn)有數(shù)據(jù)進(jìn)行變換或修改來生成新訓(xùn)練樣本的技術(shù),旨在提高模型的泛化能力和魯棒性。常見的數(shù)據(jù)增強(qiáng)方法包括旋轉(zhuǎn)、縮放、平移等,這些變換可以在不改變數(shù)據(jù)標(biāo)簽的情況下生成新的樣本。MimicGen的核心方法是數(shù)據(jù)分割與重組。將少量人類演示數(shù)據(jù)分割成以物體為中心的子任務(wù),然后在新的場景中通過空間變換和軌跡生成,自動生成新的演示數(shù)據(jù)。傳統(tǒng)方法中,數(shù)據(jù)生成通?;陟o態(tài)場景的回放,或通過復(fù)雜的模擬器進(jìn)通過“對象中心片段”的變換和拼接,將少量的人類演示數(shù)據(jù)轉(zhuǎn)化為大規(guī)模的多樣化數(shù)據(jù)。這種方法可以直接融入現(xiàn)有的模仿學(xué)習(xí)管道中,適用于各種長時間、高精度的任務(wù),并且能夠生成比單純回放方法更加多樣和有效的數(shù)據(jù)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械Subtask1Subtask1Subtask2.SubtaskMDemo1Demo2DemoNPipelineforgeneratingObtainreferencesegmenttominceCurrentObservationExecutesegmertGeneratesegmentIntorpolatstostatDemonstrations》,民生證券研究院通過對比使用MimicGen生成的數(shù)據(jù)集與傳統(tǒng)人類示范數(shù)據(jù)集的結(jié)果可以得出,機(jī)器人在使用MimicGen生成的數(shù)據(jù)集后成功率顯著上升。研究團(tuán)隊(duì)通過對MimicGen的實(shí)驗(yàn),評估了其在不同任務(wù)中的表現(xiàn),具體測驗(yàn)任務(wù)主要包括StackThree(堆疊三個物體)、Square(方形物體插入和對齊)、Threading(機(jī)器人在穿線或穿孔時的精細(xì)操作能力)、Kitchen(長時間多步驟任務(wù))等十項(xiàng)。(a)StackThree(b)Square(c)Threading(d)3Pc.Assembly(e)PickPlace(f)Kitchen(g)CoffeePrep(h)MobileKitchen(i)GearAssemblyj)FrameAssembly結(jié)果顯示使用MimicGen后機(jī)器人成功率顯著提升,例如"Square"任務(wù)的成功率從11.3%提升至90.7%,"Threading"任務(wù)的成功率從19.3%提升至98.0%。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械D?D?Stack26.0±1.6100.0±0.099.3±0.9StackThree0.7±0.992.7±1.986.7±3.4Square11.3±0.990.7±1.973.3±3.449.3±2.5Threading98.0±1.660.7±2.538.0±3.3Coffee74.0±4.3100.0±0.090.7±2.577.3±0.9ThreePc.Assembly1.3±0.982.0±1.662.7±2.513.3±3.8HammerCleanup59.3±5.7100.0±0.062.7±4.7MugCleanup12.7±2.580.0±4.964.0±3.354.7±8.4100.0±0.076.0±4.3NutAssembly0.0±0.0533±1.90.0±0.050.7±6.697.3±0.942.0±0.0MobileKitchen2.0±0.046.7±18.4Nut-and-BoltAssembly8.7±2.592.7±2.57±4.1GearAssembly14.7±5.298.7±1.974.0±2.856.7±1.9FrameAssembly10.7±6.882.0±4.37±2.5MimicGen在機(jī)器人系統(tǒng)(尤其是機(jī)械臂)中的應(yīng)用潛力巨大。通過利用少量人類演示(少于200個),MimicGen可自動生成超過50,000個覆蓋18種任務(wù)的高質(zhì)量數(shù)據(jù),有效減少人工干預(yù),提升生產(chǎn)效率。其靈活性使其能夠適應(yīng)不同機(jī)器人硬件和復(fù)雜操作環(huán)境,為工業(yè)自動化、醫(yī)療和服務(wù)機(jī)器人等領(lǐng)域提供廣泛的應(yīng)用前景。MimicGen的核心優(yōu)勢包括:顯著提升任務(wù)表現(xiàn)、良好的廣泛適應(yīng)性、跨物體和硬件適用性、適用于復(fù)雜移動操作任務(wù)、模擬器無關(guān),精度表現(xiàn)卓支持非專家演示。圖14:MimicGen操作機(jī)械臂完成毫米級精度接觸任務(wù)示意圖MimicGen依賴于任務(wù)開始時已知的對象位姿和操作步驟,這在完全未知或動態(tài)環(huán)境中存在局限性。此外,僅通過任務(wù)成功與否來篩選生成數(shù)據(jù),可能導(dǎo)致數(shù)據(jù)集存在偏差,影響模型泛化能力。其應(yīng)用場景主要限于準(zhǔn)靜態(tài)任務(wù),并假設(shè)新對本本民生證券MINSHENGSECURITIES象與已有對象同類,限制了其在動態(tài)環(huán)境和異構(gòu)對象上的推廣能力。未來研究應(yīng)進(jìn)一步提升系統(tǒng)對復(fù)雜場景的理解和分割能力,減少對人類參與的依賴。擴(kuò)展MimicGen在更多物體類別、機(jī)器人硬件和任務(wù)類型中的應(yīng)用能力。10humandemos1000generateddemos1000generateddemos1000generateddemos(Panda)(Sawyer)(IIWA)(UR5e)資料來源:AjayMandlekar《MimicGen:ADataGenerationSystemfor2.3谷歌RoboCat:多任務(wù)具身智能在機(jī)器人領(lǐng)域,如何大規(guī)模利用異構(gòu)機(jī)器人數(shù)據(jù)仍然是機(jī)器人領(lǐng)域的難題,大多數(shù)現(xiàn)實(shí)中的機(jī)器人學(xué)習(xí)研究集中于一次開發(fā)一個任務(wù)的智體。在機(jī)器人技術(shù)領(lǐng)域,近期研究專注于通過訓(xùn)練有語言條件的Transformer策略來解決具有相同觀測和動作空間的多個簡單、視覺多樣化的任務(wù),從而彌合大型預(yù)訓(xùn)練語言模型和視覺基礎(chǔ)操作之間的差距。Google曾經(jīng)提出RobotTransformer,采集了移動機(jī)器人完成日常任務(wù)的軌跡片段,構(gòu)成了真實(shí)移動機(jī)器人的專家數(shù)據(jù)集,包含了700多個任務(wù),如移動RGBimage,300×300Frontalview.Pre-manipulationpose資料來源:AnthonyBrohan《RT1:ROBOT民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械100~1000個示教樣本就能完成快速策略泛化。通過RoboCat,Google能成功展示其在新任務(wù)和不同機(jī)器人平臺上的泛化能力,以及通過后續(xù)迭代利用大模型輔助具身智能數(shù)據(jù)生成,從而為構(gòu)建一個自主改進(jìn)循環(huán)提供基本的構(gòu)建板塊。隨著訓(xùn)練數(shù)據(jù)的增長和多樣化,RoboCat不僅表現(xiàn)出了跨任務(wù)遷移的跡象,也能更有效地適應(yīng)新任務(wù)。TrainingEmbodimentsHeld-OutEmbodimentManipulation》,民生證券研究院2.3.2RoboCat:以數(shù)據(jù)集為基礎(chǔ)實(shí)現(xiàn)任務(wù)的快速適應(yīng)RoboCat的最終目標(biāo)是創(chuàng)建一個能夠通過大量機(jī)器人情景經(jīng)驗(yàn)進(jìn)行訓(xùn)練的基礎(chǔ)智能體,使其能夠通過微調(diào)快速適應(yīng)廣泛的新下游任務(wù)。為了實(shí)現(xiàn)這一目標(biāo),RoboCat擁有一個非常豐富的多樣化操控行為數(shù)據(jù)集并在此基礎(chǔ)上進(jìn)行訓(xùn)練。RoboCat基于Gato架構(gòu),使用在廣泛圖像集上預(yù)訓(xùn)練過的VQ-GAN編碼器(Esser,2021),在涵蓋多個領(lǐng)域和具身的廣泛數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過視覺目標(biāo)條件來指定任務(wù)。這種編碼器的選擇使得訓(xùn)練和迭代更加快速,這種訓(xùn)練方式也具有理想的自動事后目標(biāo)生成屬性,即軌跡中的任何圖像都可以被標(biāo)記為所有導(dǎo)致它的所有時間步驟的有效“后見目標(biāo)”(Andrychowicz,2017)。這意味著現(xiàn)有數(shù)據(jù)中的后見目標(biāo)可以在沒有額外人為監(jiān)督的情況下提取。此外,視覺目標(biāo)提供了一個直觀的界面,用于指示機(jī)器人應(yīng)該執(zhí)行什么任務(wù)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械圖18:目標(biāo)圖像示例:圖1、2為虛擬環(huán)境,圖3-8為現(xiàn)實(shí)世界RGBstackingGearinsertionRGBtowerVegetableGearinsertionFruitinsertionShapeinsertionGearlifting(Sawyer7-DoF)(Panda7-DoF)(Sawyer5-DoF)lifting(Panda7-DoF)(Panda7-DoF)(Panda7-DoF)(KUKA14-(Sawyer5-DoF)DoF)Manipulation》,民生證券研究院RoboCat能進(jìn)行自我微調(diào)和迭代。首先智能體將在初始使用多樣化的訓(xùn)練集進(jìn)行訓(xùn)練,可以通過100-1000次演示微調(diào)以適應(yīng)新任務(wù),然后部署在真實(shí)機(jī)器人上,生成更多數(shù)據(jù)。其次,將生成軌跡添加進(jìn)入下一次迭代的訓(xùn)練數(shù)據(jù)集中,從而提高跨任務(wù)的性能。RoboCat的自我改進(jìn)過程如圖所示:主要以架構(gòu)和預(yù)訓(xùn)練、微調(diào)和自我改進(jìn)、真實(shí)世界部署作為全流程。TrainTrainRoboCat:amulti-task,multi-embodiment,visualgoal-conditionedagentforanewtask/robottospecialisetothenewtask/robotFine-tunedagentself-generatesmuchmoretrainingdatatrainingdatasetwithadiversesetoftasksandrobotsExpandthisdatasetwithnewly-generateddataManipulation》,民生證券研究院2.3.3機(jī)器人未來發(fā)展展望未來機(jī)器人的研究工作將著眼于更靈活的多模態(tài)任務(wù)規(guī)劃。首先是將現(xiàn)有的公開可獲取的數(shù)據(jù)集與注釋語言相結(jié)合,以語言為媒介的任務(wù)規(guī)劃和視覺目標(biāo)相輔相成,得以實(shí)現(xiàn)對不同任務(wù)的更精準(zhǔn)定位。此外,盡管當(dāng)前研究主要關(guān)注視覺目標(biāo)條件反射以及基于視覺-前饋模型(VFM)的基線研究,但仍在圖像推理方面表現(xiàn)出色;同時,語言條件反射和LLM/VLM基線研究可能提供更好的時間推理能力。本本民生證券行業(yè)深度研究/機(jī)械3特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵FSD全稱FullSelf-Driving(完全自動駕駛),是特斯拉研發(fā)的自動化輔助圖21:自動駕駛的六個等級圖21:自動駕駛的六個等級L0L1L2L3完全人類駕駛輔助駕駛部分自動駕駛有條件的自動駕駛高度自動駕駛完全自動駕駛能夠獲得輔助。誓車輛。來別的自動駕駛汽車中駕駛員車輛擔(dān)全部駕駛?cè)蝿?wù),無*速和制動。和制動。FSDV12(Supervised)是全新的“端到端自動駕駛”,模型架構(gòu)發(fā)生了重絡(luò)由數(shù)百萬個視頻片段訓(xùn)練而成,取代了超過30萬行的C++代碼。FSDV12根據(jù)特斯拉發(fā)布2024Q2的自動駕駛報告,自動駕駛大幅減少事故率:開啟Autopilot的情況下,平均每行駛1107.2萬公里(688萬英里)會發(fā)生一起事故,而未開啟平均每行駛233.3萬公里(145萬英里)會發(fā)生一起事故。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械■FSDV12Miles■2021202120210.0資料來源:Tesla,民生證券研究院●未開啟Autopilot自動輔助駕駛功能的特斯拉車輛●美國平均值車輛在事故發(fā)生前行駛百萬英里2024年第二季度2024年第一季度2023年第四季度2023年第三季度2023年第二季度2023年第一季度資料來源:特斯拉官網(wǎng),民生證券研究院3.2FSD的前世今生早期特斯拉自動駕駛采用外部合作方式,合作廠商包括Mobileye和英偉達(dá)等。在2019年特斯拉步入自研時代,首次推出自研自動駕駛芯片HW3.0。HW3.0采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫。2021年7月,特斯拉開始推送FSDBetaV9,該版本采用純視覺自動駕駛方案,摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá),是特斯拉在自動駕駛技術(shù)的重要發(fā)展節(jié)點(diǎn)。時間2014年10月基于Mobileye的EyeQ3平臺打造2016年10月配置NvidiaDrivePX2計(jì)算系統(tǒng)2019年4月Hardware3.0搭載自研自動駕駛芯片F(xiàn)SD2021年7月FSDBeta(測試版)9.0確定純視覺方案,取消毫米波雷達(dá)及超聲波雷達(dá)2024年1月端到端神經(jīng)網(wǎng)絡(luò)2024年2月Hardware4.0搭載ModelY算力提升5倍資料來源:汽車財(cái)經(jīng),IT之家,易車網(wǎng),中國新聞周刊,新浪網(wǎng),民生證券研究院2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò)。2024年2月,特斯拉ModelY迎來HW4.0自動輔助駕駛硬件升級,與HW3.0相比,HW4.0算力提升5倍,在硬件設(shè)計(jì)上實(shí)現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專用加速器集成等多項(xiàng)創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動駕駛技術(shù),特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械復(fù)盤FSD歷史,最重大的架構(gòu)變革莫過于2020年引入Transformer模型(基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)),算法得以從重人工、規(guī)則驅(qū)動,轉(zhuǎn)向重Al,數(shù)據(jù)驅(qū)動。FSD主要分為感知和規(guī)劃模塊,在兩個模塊中都運(yùn)用到了Transformer模型,神經(jīng)網(wǎng)絡(luò)的介入使得端到端模型逐步實(shí)現(xiàn)。2022年特斯拉FSD感知模塊即形成了BEV+Transformer+Occupancy為規(guī)劃模塊決策提供支持。特斯拉FSD規(guī)劃模塊在2021年引入基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊和蒙特卡洛樹搜索,最終FSD規(guī)劃模塊由基于顯性規(guī)則的規(guī)劃模塊和基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊構(gòu)成。Planning&資料來源:特斯拉2021AIDay,民生證券研究院HydraNets是特斯拉開發(fā)的一種深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)。這個網(wǎng)絡(luò)的特點(diǎn)在于它能夠?qū)⒍鄠€任務(wù)集成到一個網(wǎng)絡(luò)中,例如車道線檢測、行人檢測與追蹤、交通信號燈檢測等,這些任務(wù)對于自動駕駛汽車來說至關(guān)重要。HydraNets的核心在于其共享的主干網(wǎng)絡(luò),該主干網(wǎng)絡(luò)通過分支成多個"頭",可以同時輸出多個預(yù)測張量,每個“頭”負(fù)責(zé)不同的任務(wù)或?qū)ο箢悇e。此外,這種架構(gòu)的優(yōu)勢在于其能夠有效地利用可用的計(jì)算資源,并且通過端到端的訓(xùn)練和推斷,提高了處理不同視覺信息的效率。HydraNets能夠?qū)碜远鄠€攝像頭的視覺內(nèi)容轉(zhuǎn)換為向量空間和道路特征,這對于構(gòu)建車輛周圍的綜合視圖至關(guān)重要。本本民生證券行業(yè)深度研究/機(jī)械Nimge(Nimages)MutkamFislon(reanstormersVideoModuletrajectorydetectiontrajectorydetectionVideoModuleMadMLPNormExtralearnableNorm資料來源:特斯拉2022CVPR,民生證券研究院TransformersforImageRecognitionatScale》,民生證券研究院Dojo是特斯拉公司開發(fā)的一套高性能計(jì)算系統(tǒng),用于處理和訓(xùn)練自動駕駛系統(tǒng)產(chǎn)生的海量數(shù)據(jù)。ProjectDOJO的負(fù)責(zé)人GaneshVenkataramanan表示,將會使人工智能擁有更高速的學(xué)習(xí)能力,從而使Autopilot更加強(qiáng)大。ExploitSpatial&TemporalL資料來源:特斯拉2021AlDay,民生證券研究院FSDV12為首個端到端自動駕駛系統(tǒng),實(shí)現(xiàn)感知決策一體化。特斯拉FSDv12采用端到端大模型,消除了自動駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個大的神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)到車輛操控指令,簡化了信息傳遞過程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準(zhǔn)確性。FSDV12能夠模擬人類駕駛決策,成為自動駕駛領(lǐng)域全新發(fā)民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械展路徑。FSDV12也被稱為"BabyAGI(嬰兒版通用人工智能)",旨在感知和理解現(xiàn)實(shí)世界的復(fù)雜性。資料來源:特斯拉2021AIDay,民生證券研究院本本民生證券行業(yè)深度研究/機(jī)械4.1端到端算法:直接連接數(shù)據(jù)輸入與控模塊化自動駕駛分為傳感器數(shù)據(jù)輸入、感知模塊、定位模塊、規(guī)劃模塊和控制指令輸出五部分。而端到端算法則通過單一神經(jīng)網(wǎng)絡(luò)直接連接傳感器數(shù)據(jù)輸入與控制指令輸出。與傳統(tǒng)的模塊化自動駕駛相比,端到端自動駕駛神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個部分,其架構(gòu)設(shè)計(jì)簡單,減少中間數(shù)據(jù)降維的成本,同時減小誤差以達(dá)到全局最優(yōu)。端到端的優(yōu)勢在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高,但是缺點(diǎn)是數(shù)據(jù)量較小時候性能上升緩慢,遠(yuǎn)低于解耦的傳統(tǒng)基于專家模型的策略。圖30:端到端算法與模塊化系統(tǒng)框架對比①①…及黜Contol①《公;隅①《公;隅旦AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院圖31:端到端模型與基于規(guī)則模型表現(xiàn)曲線對比資料來源:2023年CVPR,民生證券研究院端到端算法實(shí)現(xiàn)自動駕駛有兩種主要方法:通過強(qiáng)化學(xué)習(xí)探索和改進(jìn)駕駛模型、使用模仿學(xué)習(xí)以監(jiān)督的方式訓(xùn)練它模仿人類駕駛行為。通過與環(huán)境的相互作用,隨著時間的推移最大化累積獎勵,網(wǎng)絡(luò)根據(jù)自己的行為做出驅(qū)動決策,以獲得獎勵或懲罰。它在利用數(shù)據(jù)方面的效率較低。而模仿學(xué)習(xí)是在專家演示中學(xué)習(xí)駕駛風(fēng)格,因此需要大量的實(shí)際駕駛場景來作為模型的訓(xùn)練樣例,數(shù)據(jù)集的規(guī)模與多樣性成為關(guān)鍵問題。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械VisualObservation(e.g.,Segmentation)BehaviorReflex(ActionProposals)AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院4.2.1更容易解決cornercase在傳統(tǒng)的決策規(guī)劃框架中,研發(fā)人員會根據(jù)不同的ODD定義好規(guī)則,面對特定場景時找到對應(yīng)的規(guī)則,然后調(diào)用相應(yīng)的規(guī)劃器生成控制軌跡。這種架構(gòu)需要事先寫好大量的規(guī)則,故稱為“重決策方案”。重決策方案較易實(shí)現(xiàn),在簡單場景下也堪稱高效,但在需要拓展ODD、或把不同的ODD連接起來時,就需要大量的手寫規(guī)則來查缺補(bǔ)漏,從而實(shí)現(xiàn)更連續(xù)的智駕體驗(yàn)。當(dāng)遇到未學(xué)習(xí)過的場景,即cornercase時,系統(tǒng)會表現(xiàn)得不夠智能甚或無法應(yīng)對。端到端是通過對場景的理解進(jìn)行判斷,比如環(huán)境車輛動態(tài)、車道線、交通燈、轉(zhuǎn)向燈燈,通過多維度的元素,甚至是人類沒有意識到的要素進(jìn)行綜合分析,判斷意圖,所以其理解的天花板更高。資料來源:長城汽車測試城市NOA自動駕駛加塞場景,民生證券研究院民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械4.2.2擬人化自動駕駛傳統(tǒng)智駕通過橫向策略和縱向策略進(jìn)行車輛的行為控制,基于確定的規(guī)則和精確的控制參數(shù),導(dǎo)致車輛動作機(jī)械化,要做到擬人駕駛需要開展大量工作,定義控車曲線和匹配場景。端到端的本質(zhì)是學(xué)習(xí),所以其可以模仿人類駕駛汽車的行為,直接輸出包括方向盤轉(zhuǎn)角、方向盤轉(zhuǎn)速、油門踏板開度、制動踏板開度等,從而實(shí)現(xiàn)接近人類駕駛的習(xí)慣進(jìn)行任務(wù)的過程控制。資料來源:Tesla,民生證券研究院4.2.3全局最優(yōu),成本低且泛用性強(qiáng)傳統(tǒng)“分而治之”的模塊化架構(gòu),可能圄于局部最優(yōu)解而難以達(dá)到全局最優(yōu)。由于每個任務(wù)相對獨(dú)立,人工標(biāo)注使數(shù)據(jù)的針對性強(qiáng),監(jiān)督學(xué)習(xí)使模型訓(xùn)練的信號強(qiáng),因此Al模型能迅速提升性能,有利于快速實(shí)現(xiàn)一個完整的產(chǎn)品。但在到達(dá)"局部最優(yōu)解”之后,這些模型難以進(jìn)一步提升,且串在一起之后形成累積誤差,不利于追求全局最優(yōu)解。與傳統(tǒng)的模塊化自動駕駛系統(tǒng)相比,端到端自動駕駛系統(tǒng)設(shè)計(jì)難度低,硬件成本較小,并且通過多樣性的數(shù)據(jù),能夠獲得在不同場景下的泛用性。所以從算法架構(gòu)設(shè)計(jì)的角度,其具有高度的整合度和一體化,省去了多個模塊的獨(dú)立架構(gòu)設(shè)計(jì)和算法開發(fā),降低代碼量和運(yùn)行所調(diào)度的模塊數(shù)量。另一方面,由于模型直接從原始數(shù)據(jù)中學(xué)習(xí),而不需要依賴于人工設(shè)計(jì)的特征或規(guī)則,所以刪去了枯燥的標(biāo)注工作。最重要的還有一點(diǎn)就是省去了后期無窮盡的規(guī)則補(bǔ)充和場景補(bǔ)充,從而減少了人工維護(hù)和升級的成本。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械(a)ClassicalApproachBoundingboxTrajectoryPerceptionPredictionPlanning(b)End-to-endParadigm(ThisSurvey)backpropagationfeature4.3自動駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢自動駕駛端到端算法代表了一種數(shù)據(jù)驅(qū)動的學(xué)習(xí)范式,這種范式同樣適用于機(jī)器人領(lǐng)域。通過大量的數(shù)據(jù)訓(xùn)練,模型能夠?qū)W習(xí)到復(fù)雜的駕駛或操作行為,從而實(shí)現(xiàn)高度的智能化。自動駕駛系統(tǒng)在道路上收集的數(shù)據(jù),以及通過仿真和合成數(shù)據(jù)技術(shù)獲取的數(shù)據(jù),都可以為人形機(jī)器人的訓(xùn)練提供有力支持。ScenarioSemanticSpaceDrivingScenariosDrivingScenariosRepresentationSpace完全端到端算法采用"Bev(鳥瞰視角)+Transformer(預(yù)訓(xùn)練)+Teacher-student(知識蒸餾)"方式實(shí)現(xiàn)力位的雙控,典型代表是特斯拉的Optimus人形機(jī)器人,根據(jù)上文所述,特斯拉人形機(jī)器人采用了相同的算法架構(gòu)。端到端算法從汽車自動駕駛遷移至人形機(jī)器人幾乎不需要做太多額外工作,車本身就是一種機(jī)器人。早期的特斯拉Optimus機(jī)器人使用了與汽車完全相同的計(jì)算機(jī)和攝像頭,通過讓汽車的神經(jīng)網(wǎng)絡(luò)在機(jī)器人上運(yùn)行,它在辦公室里走動時仍試圖識別“可駕駛空間”,而實(shí)際上它應(yīng)該識別的是“可行走空間”。這種通用化能力表明了很多技術(shù)是可以遷移的,雖然需要一些微調(diào),但大部分系統(tǒng)和工具都是本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械感知、預(yù)測和規(guī)劃等任務(wù)整合到一個模型中。通過輸入感知信息(如攝像頭、雷達(dá)等傳感器數(shù)據(jù)),模型能夠直接輸出軌跡或控制信號,實(shí)現(xiàn)類似人類的駕駛行為。自動駕駛端到端算法能夠?qū)W習(xí)到人類駕駛的擬人化行為,如平滑的轉(zhuǎn)向、加速和減這種擬人化行為在人形機(jī)器人上同樣重要,可以提升機(jī)器人的交互能力和用戶體驗(yàn)。通過遷移自動駕駛的擬人化算法范式,人形機(jī)器人可以更加自然地與人類進(jìn)行交互,如理解人類手勢、面部表情等。4.4機(jī)器人端到端算法的關(guān)鍵問題端到端算法需要大量連續(xù)時序的駕駛行為視頻進(jìn)行標(biāo)注,這種數(shù)據(jù)收集、標(biāo)注及閉環(huán)驗(yàn)證的過程在人形機(jī)器人上同樣困難。人形機(jī)器人需要面對更加復(fù)雜的環(huán)境和任務(wù),因此數(shù)據(jù)收集的難度和成本都更高。同時,由于人形機(jī)器人的操更高的風(fēng)險性,因此數(shù)據(jù)標(biāo)注的準(zhǔn)確性也要求更高。人形機(jī)器人需要大量實(shí)際人類真實(shí)的數(shù)據(jù)集給機(jī)器人進(jìn)行訓(xùn)練。動作捕捉技術(shù)和VR遠(yuǎn)程操作是實(shí)現(xiàn)人形機(jī)器人擬人化動作數(shù)據(jù)采集的有效途徑。動作捕捉技術(shù)通過在人體關(guān)鍵部位貼上反光標(biāo)記點(diǎn)或使用慣性傳感器等方式,捕捉人體的運(yùn)動姿態(tài)和動作數(shù)據(jù)。VR遠(yuǎn)程操控技術(shù)是人類戴著VR眼鏡和手本本民生證券行業(yè)深度研究/機(jī)械套,通過遠(yuǎn)程操作的方式來采集機(jī)器人數(shù)據(jù)。這些數(shù)據(jù)可以被用于訓(xùn)練人形機(jī)器人的動作模型,使其能夠模擬出類似人類的動作和行為。資料來源:武漢零智妙境科技VR,民生證券研究院由于擴(kuò)展法則(ScalingLaw)的存在,機(jī)器人的數(shù)據(jù)集大小決定了其性能的好壞,真實(shí)數(shù)據(jù)的采集消耗較大的人力物力成本,合成數(shù)據(jù)僅依賴AI算法實(shí)現(xiàn)數(shù)據(jù)生成,數(shù)據(jù)采集快并且成本低廉。同時人形機(jī)器人面臨著場景復(fù)雜性與模型泛化能力的問題,合成數(shù)據(jù)構(gòu)建的世界模型就起到了很大的作用。自動駕駛場景相對結(jié)構(gòu)化,主要操作在可預(yù)測和規(guī)對泛化能力的要求遠(yuǎn)高于自動駕駛汽車?;谑澜缒P蜕筛哔|(zhì)量的動作視頻和規(guī)劃策略,在仿真環(huán)境中模擬各種復(fù)雜場景,就能夠提升系統(tǒng)的魯棒性。合成數(shù)據(jù)生成的關(guān)鍵問題是保持?jǐn)?shù)據(jù)集的熵和多樣性,避免生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)差距過大或者樣式單一。SyntheticSyntheticData2020本本民生證券MINSHENGSECURITIES
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版辦公區(qū)域智能化安防系統(tǒng)合同3篇
- 二零二五年高校學(xué)生營養(yǎng)餐供應(yīng)合同3篇
- 二零二五年度農(nóng)產(chǎn)品加工貨物質(zhì)押融資合同樣本3篇
- 二零二五年精裝公寓裝修工程承包合同2篇
- 二零二五年餐廳委托經(jīng)營與顧客滿意度提升合同3篇
- 2024版建筑施工勞動合同模板
- 2024年版北京勞動合同解析3篇
- 2025年度幼兒園二零二五年度學(xué)生營養(yǎng)餐供應(yīng)合同協(xié)議3篇
- 個人法律咨詢服務(wù)合同(2024版)3篇
- 二零二五版吊車銷售與租賃一體化服務(wù)合同3篇
- 2025年湖北武漢工程大學(xué)招聘6人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 【數(shù) 學(xué)】2024-2025學(xué)年北師大版數(shù)學(xué)七年級上冊期末能力提升卷
- GB/T 26846-2024電動自行車用電動機(jī)和控制器的引出線及接插件
- 遼寧省沈陽市皇姑區(qū)2024-2025學(xué)年九年級上學(xué)期期末考試語文試題(含答案)
- 妊娠咳嗽的臨床特征
- 2024年金融理財(cái)-擔(dān)保公司考試近5年真題附答案
- 三創(chuàng)賽獲獎-非遺文化創(chuàng)新創(chuàng)業(yè)計(jì)劃書
- 封條模板A4直接打印版
- 眼內(nèi)炎患者護(hù)理查房
- 電工維修培訓(xùn)資料 維修電工技術(shù)學(xué)習(xí) 維修電工常識 電工培訓(xùn)ppt課件
- 撲克牌24點(diǎn)練習(xí)題大全
評論
0/150
提交評論