版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中國(guó)信息通信研究院北京人形機(jī)器人創(chuàng)新中心有限公司2024年8月版權(quán)聲明本報(bào)告版權(quán)屬于中國(guó)信息通信研究院和北京人形機(jī)器人創(chuàng)新中心有限公司,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:中國(guó)信息通信研究院和北京人形機(jī)器人創(chuàng)新中心有限公司”。違反上述聲明者,編者將追究其相關(guān)法律責(zé)任。夠與物理世界產(chǎn)生交互,并在交互中主動(dòng)探索世界、認(rèn)識(shí)世界、改即讓一個(gè)智能系統(tǒng)適配各種形態(tài)的物理實(shí)體,如智能機(jī)器人、智能車(chē)輛等;實(shí)現(xiàn)“一機(jī)多用”,即讓一個(gè)機(jī)器設(shè)備可以靈活地執(zhí)行多種任務(wù),適應(yīng)多樣化的場(chǎng)景需求。未來(lái)具身智能將從工業(yè)協(xié)作生產(chǎn)到柔性制造,從家務(wù)助手到醫(yī)療護(hù)理,從災(zāi)難救援到太空探索,深入融入人類(lèi)社會(huì)。但當(dāng)前其仍面臨技術(shù)能力不足,數(shù)據(jù)短缺,以及歷程、技術(shù)體系,通過(guò)梳理當(dāng)前具身智能技術(shù)發(fā)展現(xiàn)狀,研判分析具身智能應(yīng)用潛力與可能影響,提出面臨的問(wèn)題挑戰(zhàn),展望思維智能和行動(dòng)智能融合的未來(lái)發(fā)展趨勢(shì)。由于具身智能發(fā)展日新月異,限于編寫(xiě)時(shí)間、編寫(xiě)組知識(shí)積累水平有限等因素,報(bào)告中存在不足 1 2 7 14 15(一)感知模塊—賦予機(jī)器感官,實(shí)現(xiàn) 17 19(三)行動(dòng)模塊—提升機(jī)器自主行動(dòng)能力,實(shí)現(xiàn) 21(四)反饋模塊—拓展機(jī)器交互通道,實(shí) 23(五)支撐要素—本體、數(shù)據(jù)和軟硬件底座共同構(gòu)成具身智能發(fā)展基礎(chǔ).25 29 29(一)工業(yè)制造領(lǐng)域:打破人機(jī)協(xié)作瓶頸,實(shí)現(xiàn) 30 31(三)物流運(yùn)輸領(lǐng)域:優(yōu)化倉(cāng)儲(chǔ)物流產(chǎn)線,實(shí) 32(四)家庭服務(wù)領(lǐng)域:解放人類(lèi)雙手束縛,實(shí)現(xiàn)全場(chǎng)景的智能家務(wù)服務(wù).34 35(六)其他領(lǐng)域:從賦能到變革,推動(dòng)各行 36 38 38 41 44 45 45 46 47 3 6 13 16 431一、全球具身智能發(fā)展態(tài)勢(shì)路徑,一是聚焦抽象計(jì)算(比如下棋)所需的智能,二是為機(jī)器配備最好的傳感器,使其可以與人類(lèi)交流,像嬰兒一樣進(jìn)行學(xué)習(xí)。后續(xù),這兩條路徑逐漸演變成了離身智能(DisembodiedArtificialIntelligence2)和具身智能(EmbodiedArtificialIntelligence,簡(jiǎn)稱“EAI”)。為代表的離身智能實(shí)現(xiàn)智能涌現(xiàn)。自其推出之后,數(shù)字世界的AI技術(shù)逐步展現(xiàn)出逼近人類(lèi)甚至超越人類(lèi)的思維能力。加利福尼亞大學(xué)圣迭戈分校的研究團(tuán)隊(duì)在交互式雙人圖靈測(cè)試中發(fā)現(xiàn),人們無(wú)法互聯(lián)網(wǎng)的數(shù)字信息拓展到現(xiàn)實(shí)的物理概念,包括感官、空間、行動(dòng)等信息,并將其更好地應(yīng)用于物理世界。實(shí)際上,大模型對(duì)互聯(lián)網(wǎng)上大量圖文信息的處理和學(xué)習(xí),本質(zhì)上是“讀萬(wàn)卷書(shū)”的過(guò)程,這1/f/TuringComputing.pdf2/pmc/articles/PMC10020609/pdf/frai-06-1148227.pdf3/pdf2可以增強(qiáng)智能體的感知、知識(shí)理解和思維能力,但無(wú)法取代“行萬(wàn)里路”所帶來(lái)的體驗(yàn)。就像人類(lèi)在真實(shí)世界中的親身體驗(yàn)和勞動(dòng),具備與物理世界的交互學(xué)習(xí)能力,這是不能通過(guò)看圖、看文這些數(shù)極挑戰(zhàn)是通過(guò)具身圖靈測(cè)試,即復(fù)現(xiàn)生物體的感覺(jué)運(yùn)動(dòng)能力,包括(一)具身智能的概念與內(nèi)涵1.具身智能:依靠物理實(shí)體通過(guò)與環(huán)境交互來(lái)實(shí)現(xiàn)智能增長(zhǎng)的智能系統(tǒng)具身智能從字面可理解為“具身化的人工智能”,“具身”是前提,即具有身體且能通過(guò)交互、感知、行動(dòng)等能力來(lái)執(zhí)行任務(wù),具身本體的形態(tài)不必限制在外觀上的“人形”,同時(shí)身體的形態(tài)也不能作為判斷是否屬于“具身智能”的依據(jù)。根據(jù)使用用途和場(chǎng)景的不同,具身智能可以有多種形態(tài)。例如,通用智能機(jī)器人,大型能?!爸悄堋笔呛诵模珿PT-4o、Sora等AI技術(shù)的最新進(jìn)展,實(shí)現(xiàn)4/articles/s41467-023-33嵌入到物理實(shí)體如機(jī)器人上,可顯著提升對(duì)環(huán)境的感知、交互和任務(wù)執(zhí)行能力。先前的智能機(jī)器人,更側(cè)重于執(zhí)行特定的任務(wù)。而具身智能更強(qiáng)調(diào)在環(huán)境中交互能力,智能表現(xiàn)在物理實(shí)體能以“第一來(lái)源:公開(kāi)信息整理具身智能的發(fā)展主要來(lái)自于兩個(gè)領(lǐng)域的交叉融合,一方面機(jī)器人的通用智能需要借助人工智能,另一方面人工智能走向物理世界需要一個(gè)身體,同時(shí)涉及到包括機(jī)械工程自動(dòng)化、嵌入系統(tǒng)控制優(yōu)化、認(rèn)知科學(xué)、神經(jīng)科學(xué)等多個(gè)學(xué)科的融合。這也導(dǎo)致了當(dāng)前對(duì)具身智能這一概念的界定,不同專家的說(shuō)法略有差異,一類(lèi)觀點(diǎn)強(qiáng)調(diào)具身交互對(duì)智能的影響。清華大學(xué)教授劉華平等在《基于形態(tài)的具4身智能研究:歷史回顧與前沿進(jìn)展》中總結(jié):具身智能在身體與環(huán)境相互作用中,通過(guò)信息感知與物理操作過(guò)程可以連續(xù)、動(dòng)態(tài)地產(chǎn)生智能。上海交通大學(xué)教授盧策吾曾表示通過(guò)智能體與環(huán)境的交互問(wèn)題的作用。斯坦福大學(xué)教授李飛飛表示具身的含義在于與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。中國(guó)科學(xué)院院士姚期智認(rèn)為通用人工智能(AGI)的未來(lái)發(fā)展需要具備具身實(shí)體,與真實(shí)物理世界交互以完成各種任務(wù)。但普遍認(rèn)可:智能不僅體現(xiàn)在處理信息和解決問(wèn)題的能力上,還體現(xiàn)在對(duì)其周?chē)h(huán)境的感知、理解和操當(dāng)前,針對(duì)具身智能各家觀點(diǎn)百花齊放,但都明確了“智能”的機(jī)器人等物理實(shí)體與環(huán)境交互,能進(jìn)行環(huán)境感知、信息認(rèn)知、自主決策和采取行動(dòng),并能夠從經(jīng)驗(yàn)反饋中實(shí)現(xiàn)智能增長(zhǎng)和行動(dòng)自適應(yīng)2.具身智能與人形機(jī)器人、智能體等的概念辨析實(shí)際上,人工智能領(lǐng)域的快速發(fā)展使得大模型、智能體等技術(shù)首先,具身智能不等于“大模型+機(jī)器人”,準(zhǔn)確來(lái)說(shuō)是人工智能+機(jī)器人等物理實(shí)體。大模型具備思維推理、計(jì)劃決策、語(yǔ)言和視覺(jué)5/Media_list/gzwyh/jsjsysdwyh/2023-07-225理解等能力,這僅能模擬大腦皮層部分功能分區(qū)的智力表現(xiàn)。2024耦合是產(chǎn)生高級(jí)認(rèn)知的基礎(chǔ)。這需要構(gòu)建新一代人工智能算法,結(jié)合了腦神經(jīng)、運(yùn)控控制等復(fù)雜理論,推動(dòng)具身智能實(shí)現(xiàn)認(rèn)知涌現(xiàn)。其次,具身智能不等于人形機(jī)器人,從載體看具身智能可以是搭載到任意形態(tài)的機(jī)器人。人形機(jī)器人只是具身智能的一種形態(tài),也被廣泛認(rèn)為是最理想的應(yīng)用形態(tài)。但除此之外,比如能在家庭中行駛備具身和智能兩種屬性。再者,具身智能不等于智能體,兩者各有取行動(dòng)以實(shí)現(xiàn)特定目標(biāo)的實(shí)體,更強(qiáng)調(diào)自主性和目標(biāo)導(dǎo)向性。智能體既可以是虛擬世界中的計(jì)算機(jī)程序(軟件智能體),如聊天機(jī)器人ChatGPT、虛擬助手蘋(píng)果Siri等;也可以存在于物理世界的智能實(shí)體,如智能機(jī)器人。具身智能則強(qiáng)調(diào)智能體的具體形態(tài)和環(huán)境之間的交互作用,通過(guò)行動(dòng)的物理交互能夠感知和改變環(huán)境,通過(guò)行動(dòng)反饋能不斷學(xué)習(xí)和適應(yīng)環(huán)境。具身智能的主要存在形式是物理世6來(lái)源:中國(guó)信息通信研究院對(duì)具身智能可以用“三個(gè)要素”來(lái)對(duì)其概念內(nèi)涵進(jìn)行理解。如如人形機(jī)器人、四足機(jī)器人、無(wú)人車(chē)、無(wú)人機(jī)等。本體具備環(huán)境感知、運(yùn)動(dòng)和操作執(zhí)行等能力,是連接數(shù)字世界和物理世界的載體,同時(shí)本體的能力邊界會(huì)限制智能體的能力發(fā)揮。其次強(qiáng)調(diào)與環(huán)境的交互能力,具身智能不僅能感知環(huán)境,還能通過(guò)行動(dòng)來(lái)影響環(huán)境,并在與環(huán)境的交互中不斷學(xué)習(xí)和適應(yīng)。以“第一人稱”視角去自主感知物理世界,用擬人化的思維路徑去學(xué)習(xí),從而做出人類(lèi)期待的行為反饋。最后強(qiáng)調(diào)一個(gè)增量,主要是智能的提升,具身智能利用大模型的知識(shí)理解和表達(dá)能力,賦能多種形態(tài)的物理實(shí)體實(shí)現(xiàn)智能增長(zhǎng)。在數(shù)據(jù)驅(qū)動(dòng)的算法學(xué)習(xí)下,不斷增強(qiáng)感知、決策以及行動(dòng)能7力,并讓感知與行動(dòng)更緊密地連接在一起。強(qiáng)調(diào)不僅通過(guò)算法和計(jì)現(xiàn)智能”在于依賴具身本體與環(huán)境的交互行為來(lái)解決實(shí)際問(wèn)題,例如機(jī)器人在通用智能的加持下將本體的行動(dòng)價(jià)值最(二)具身智能發(fā)展歷程具身智能與離身智能相互補(bǔ)充、協(xié)作發(fā)展共同促進(jìn)了對(duì)智能的理解、模擬與擴(kuò)展,從具身智能與離身智能兩類(lèi)研究范式在歷史上由符號(hào)主義與連接主義主導(dǎo),兩種范式從不同的側(cè)面模擬人類(lèi)的大腦,在以互聯(lián)網(wǎng)信息處理為代表的領(lǐng)域取得了極大的成功。與符號(hào)與環(huán)境協(xié)同影響,并由身體與環(huán)境相互作用中,通過(guò)信息感知與物理操作過(guò)程連續(xù)、動(dòng)態(tài)地產(chǎn)生6。從機(jī)器人視業(yè)機(jī)器人的應(yīng)用為典型代表。當(dāng)前,機(jī)器人與人的交互能力和廣泛6/cn/article/doi/10.16383/j.aas8的通用性成為發(fā)力點(diǎn),探索機(jī)器人的自適應(yīng)性和智能性成為重點(diǎn),伴隨著硬件制造和軟件技術(shù)等方面的進(jìn)步,以及產(chǎn)業(yè)鏈各環(huán)節(jié)互促進(jìn),具身智能將賦予機(jī)器人更多的智慧,不斷拓寬機(jī)器人的智能邊界和自主行動(dòng)能力,使其更好地理解世界、自然化人機(jī)交互和結(jié)合人工智能的演進(jìn)歷程,具身智能的發(fā)展大致可以分為三個(gè)究中,形成AI三大學(xué)派,尚未形成成熟的智能理論。1956年達(dá)特邏輯規(guī)則、符號(hào)、知識(shí)工程來(lái)模擬人類(lèi)思維。這一階段的研究集中在邏輯抽象、邏輯運(yùn)算和邏輯表達(dá)等方面,如邏輯理論家、通用問(wèn)題求解器、專家系統(tǒng)等。連接主義則強(qiáng)調(diào)通過(guò)神經(jīng)網(wǎng)絡(luò)模擬人類(lèi)大腦的學(xué)習(xí)和計(jì)算能力,但早期的連接主義模型是簡(jiǎn)單的、淺層的網(wǎng)層網(wǎng)絡(luò)的訓(xùn)練成為可能,重新激發(fā)了研究者們對(duì)神經(jīng)網(wǎng)絡(luò)的研究熱情。然而以符號(hào)主義和連接主義為代表的計(jì)算智能的局限性很快顯來(lái)說(shuō)很容易,而人類(lèi)容易做到的事情對(duì)機(jī)器來(lái)說(shuō)卻非常困難??梢酝ㄋ椎乇硎鰹椋阂岆娔X如成人般地下棋是相對(duì)容易的,但要讓電9序在機(jī)器人導(dǎo)航方面顯得非常緩慢和笨拙,開(kāi)始直接關(guān)注通過(guò)感知該階段“具身”機(jī)器人進(jìn)行早期實(shí)驗(yàn)性嘗試,關(guān)注“邏輯規(guī)則誕生。1960年首臺(tái)工業(yè)機(jī)器人Unimate投入使用,在美國(guó)通用汽車(chē)對(duì)話等功能。例如1968年,斯坦福研究院(SRI)人工智能中心研研究,為具身智能發(fā)展奠定理論和算法基礎(chǔ)。一方面,行為主義在的根本性思考,推動(dòng)了一系列以“底層智能”(即從簡(jiǎn)單的感知反應(yīng)機(jī)制逐漸累積到復(fù)雜行為的生成)為基礎(chǔ)的研究,試圖參考生物的結(jié)構(gòu)設(shè)計(jì)和行為方式模仿生物感官和運(yùn)動(dòng)能力。1991斯發(fā)表研究論文《沒(méi)有表征的智能》提出智能行為可以直接從自主機(jī)器與其環(huán)境的簡(jiǎn)單物理交互中產(chǎn)生,而這種交互不依賴于預(yù)先設(shè)形態(tài)計(jì)算等理論及算法模型快速突破。與具身智能緊密相關(guān)的算法出模仿學(xué)習(xí),聚焦讓機(jī)器人模仿人類(lèi)行為的研究,通過(guò)讓機(jī)器人直接模仿專家行為,可以快速、穩(wěn)定地使其掌握技能,而不依賴于過(guò)多探索。三是形態(tài)計(jì)算,將物理形態(tài)的影響引入對(duì)智能體感知、學(xué)該階段“具身”機(jī)器人快速發(fā)展,關(guān)注“行為主義”架構(gòu)的仿麻省理工學(xué)院制作一款模仿人頭部的機(jī)器人Kismet,具有聽(tīng)覺(jué),視司推出犬型機(jī)器人愛(ài)寶(AIBO)。2002年,丹麥iRobot公司推出出現(xiàn)了眾多消費(fèi)級(jí)機(jī)器人,例如掃地機(jī)器人、智能音響等。同期,無(wú)人駕駛技術(shù)取得了顯著進(jìn)展,特斯拉、谷歌等企業(yè)推出了自動(dòng)駕在醫(yī)療、養(yǎng)老、家政等領(lǐng)域服務(wù)機(jī)器人逐漸成為標(biāo)配。此外,在如今機(jī)器人行業(yè)的發(fā)展中,常常能看到生物學(xué)的身影,因?yàn)榉律軌蛉藢?shí)現(xiàn)智能感知、自主決策乃至擬人化交互方面帶來(lái)巨大潛力。大環(huán)境感知和任務(wù)決策等關(guān)鍵能力。例如,2023年提出的VoxPoser具身多模態(tài)語(yǔ)言模型,將真實(shí)世界的連續(xù)傳感器模態(tài)融入大語(yǔ)言模導(dǎo)航任務(wù)中語(yǔ)言描述、視覺(jué)觀察對(duì)象以及運(yùn)動(dòng)軌跡等不同階段的任務(wù)需求設(shè)計(jì)了統(tǒng)一的指令輸入方案,讓LLMs能夠直接生成運(yùn)動(dòng)方探索具備通用智能,能夠像人類(lèi)一樣執(zhí)行任務(wù)的具身機(jī)器人成示EAI是能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng),是人工智能的下一個(gè)浪潮。2024年,人形機(jī)器人如協(xié)作機(jī)械臂、移動(dòng)操作機(jī)器人、仿生靈巧手、無(wú)人駕駛出租車(chē)等司Figure合作推出了Figure01機(jī)器人,能聽(tīng)、會(huì)交流并且可以執(zhí)行多樣化任務(wù)。8月推出的Figure02憑借GPT-4o的大腦升級(jí)和本體的巧妙設(shè)計(jì),如配有全方位攝像頭、仿生靈巧手大會(huì)(WAIC2024)上,有超過(guò)25款人形機(jī)器人亮相,同時(shí)在該大疊衣、削黃瓜皮等能力。百度蘿卜快跑無(wú)人駕駛出租車(chē)進(jìn)入商業(yè)化7/h5/article/detail.do來(lái)源:中國(guó)信息通信研究院(三)全球具身智能提速發(fā)展人成為其社會(huì)基礎(chǔ)的關(guān)鍵部分8。在人口老齡化的背景下持續(xù)聚焦機(jī)器人應(yīng)用以升級(jí)制造業(yè)生產(chǎn)和替代人類(lèi)服務(wù)。2024年豐田研究所推駛為核心的具身智能技術(shù)創(chuàng)新。2023年發(fā)布機(jī)器人產(chǎn)業(yè)發(fā)展戰(zhàn)略,擘畫(huà)有關(guān)行業(yè)中長(zhǎng)期發(fā)展藍(lán)圖。在戰(zhàn)略中提出到2030年在各領(lǐng)域推生產(chǎn)力的典型代表,成為各省布局產(chǎn)業(yè)規(guī)劃的關(guān)注重點(diǎn)。2024中關(guān)任務(wù)學(xué)習(xí)和多任務(wù)遷移發(fā)展。2023年5月,英偉達(dá)發(fā)布多模態(tài)具身8《東方法學(xué)》2024年第3期(人形機(jī)器Transformer2(RT-2),是全球第一個(gè)控制機(jī)器人的視覺(jué)-語(yǔ)言-動(dòng)作),機(jī)器人大模型。2024年2月,英偉達(dá)宣布成立通用具身智能體研究百度智能云千帆AppBuilder平臺(tái)接入百度文心大模型進(jìn)行任務(wù)調(diào)度應(yīng)用以及大規(guī)模具身智能數(shù)據(jù)集等,開(kāi)展具身智能體母平臺(tái)“開(kāi)物”二、具身智能技術(shù)突破,重塑智能邊界具身智能技術(shù)的發(fā)展從前期模塊化的AI算法集成,逐漸轉(zhuǎn)向大學(xué)習(xí)技術(shù),讓機(jī)器人能夠在沒(méi)有人為干預(yù)情況下做出最優(yōu)行動(dòng)決策。 9/robotics/tesla-optimus-humanoid-robot-draws-cro來(lái)源:中國(guó)信息通信研究院(一)感知模塊—賦予機(jī)器感官,實(shí)現(xiàn)多模態(tài)感知泛化照明、障礙物、設(shè)備運(yùn)行狀態(tài)等,幫助及時(shí)發(fā)現(xiàn)并感知模塊的具體實(shí)現(xiàn)從集成不同的AI算法,逐漸轉(zhuǎn)向使用多模態(tài)模型來(lái)處理和融合多維傳感數(shù)據(jù)。感知模塊需要對(duì)來(lái)自RGB攝像先前,通過(guò)組合各個(gè)AI算法來(lái)執(zhí)行不同的感知任務(wù),實(shí)現(xiàn)針對(duì)么物體和目標(biāo)位置在哪里。常見(jiàn)解決方案是采用計(jì)算機(jī)視覺(jué)技術(shù)如YOLO負(fù)責(zé)物體的識(shí)別和定位,采用SLAM技術(shù)生成環(huán)境的三維地),支持處理圖像、3D數(shù)據(jù)、狀態(tài)信息等多模態(tài)數(shù)據(jù),將現(xiàn)實(shí)世界數(shù)據(jù)Vi-PRoM10在對(duì)比預(yù)訓(xùn)練基礎(chǔ)上聯(lián)合動(dòng)態(tài)學(xué)習(xí),通過(guò)捕捉時(shí)間上的視 10/pdf/2308.03620.pdf11https://arxiv.or(二)決策模塊—提升機(jī)器腦力,實(shí)現(xiàn)人類(lèi)思維模擬帶來(lái)明顯增益。北京大學(xué)提出的視覺(jué)導(dǎo)航技能PixelNav利用多模態(tài)了對(duì)任意類(lèi)別物體的導(dǎo)航任務(wù)規(guī)劃和策略推理12。精細(xì)決策可以增強(qiáng)12https://arxiv.or景中,人工編程決策可以發(fā)揮作用。例如人工編寫(xiě)的A*算法和Dijkstra算法,廣泛用于完成簡(jiǎn)單的導(dǎo)航和路徑規(guī)劃任務(wù)。通過(guò)預(yù)編發(fā)展,基于近端策略優(yōu)化算法、Q-learning算法的強(qiáng)化學(xué)習(xí)身智能自主導(dǎo)航、避障和多目標(biāo)收集等任務(wù)中13,可的語(yǔ)義鴻溝。俄亥俄州立大學(xué)推出的LLM-Planner14提出了高級(jí)和低述生成自然語(yǔ)言規(guī)劃,低級(jí)規(guī)劃器將子任務(wù)轉(zhuǎn)化為行動(dòng)指令。LLM+P15利用GPT-4能直接將任務(wù)規(guī)劃轉(zhuǎn)化為機(jī)器能夠理解的規(guī)劃代人類(lèi)的復(fù)雜編程環(huán)節(jié)。CodeasPolicies16利用LLMs生成任務(wù)策略更好地適應(yīng)實(shí)際環(huán)境的復(fù)雜性和動(dòng)態(tài)變化。InnerMonologue17將視覺(jué)13/kzyjc/article/pdf/20220214https://dki-lab.github.io/LLM-Planne16https://arxiv.oPHYSOBJECTS18利用LLMs生成初始規(guī)劃,并通過(guò)查詢?nèi)粘N矬w的),(三)行動(dòng)模塊—提升機(jī)器自主行動(dòng)能力,實(shí)現(xiàn)精細(xì)動(dòng)作執(zhí)行放到第二個(gè)陽(yáng)臺(tái)上20,在物流運(yùn)輸、車(chē)間搬運(yùn)、家庭清潔、家庭伴隨18https://arxiv.or19/newsDetail_forwa20/pdf/2108.一是強(qiáng)化學(xué)習(xí)與主流Transformer架構(gòu)最近,一些研究工作利用主流Transformer對(duì)多模態(tài)數(shù)據(jù)的通用表達(dá)采用強(qiáng)化學(xué)習(xí)方法在大規(guī)模多樣化的真實(shí)世界數(shù)據(jù)集上訓(xùn)練球接球和盤(pán)球、操作剪刀等22。另一方面,大模型的大模型能夠處理語(yǔ)言提示、目標(biāo)圖像、軌跡規(guī)劃策略、3D熱力圖等三是視覺(jué)語(yǔ)言動(dòng)作大模型實(shí)現(xiàn)了從語(yǔ)言到可執(zhí)行動(dòng)作指令的直 21/abs/2010.22/articles/2023-10-223https://prompt2walk.github.io/水平。反饋模塊將環(huán)境交互的經(jīng)驗(yàn)用于優(yōu)化感知、決策和行動(dòng)模塊,用戶的生活習(xí)慣和偏好等反饋信息,來(lái)優(yōu)化照明、溫控和安防策略,24https://vimalabs.github.io./25https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/26https://www.sohu.co反饋的效率29。三是大模型獲取交互行動(dòng)經(jīng)驗(yàn),學(xué)習(xí)最佳行為27/abs28/newsDetail_forward_2696707729/pdf/240530https://say-can.github.io/(五)支撐要素—本體、數(shù)據(jù)和軟硬件底座共同構(gòu)成具身智能發(fā)展基礎(chǔ)器、編碼器、控制器四大關(guān)鍵零部件,實(shí)現(xiàn)了6公里/小時(shí)的擬人化在手的操作能力和腳的移動(dòng)能力上具有最高的自由度和最強(qiáng)的通用器的集成等仍需不斷地提升,例如英國(guó)ShadowRobot公司推出的24個(gè)自由度,配備指端觸覺(jué)傳感器,但仍然不能實(shí)現(xiàn)與人手相當(dāng)?shù)母杪?lián)合全球機(jī)構(gòu)匯集了22種不同機(jī)器人類(lèi)型的數(shù)據(jù),構(gòu)建了最全面31/abs/22性能的GPU顯卡和大量的計(jì)算資源支持。長(zhǎng)期來(lái)看,真實(shí)數(shù)據(jù)對(duì)處理復(fù)雜任務(wù)不可或缺,推動(dòng)具身智能實(shí)現(xiàn)1到N的深度應(yīng)用。例如微小差異都會(huì)影響策略的有效性。斯坦福大學(xué)家務(wù)機(jī)器人Mobile任務(wù)變得簡(jiǎn)單高效。LabVIEW傳感器編程軟件通過(guò)豐富的硬件接口ROS和ROS2是目前廣泛使用的機(jī)器人操作系統(tǒng),通過(guò)標(biāo)準(zhǔn)化的接32https://mobile-aloha.github.io/resources/mobile-aloha.pdf個(gè)安全、高效且低成本的測(cè)試環(huán)境。英偉達(dá)IsaacSim和斯坦福大學(xué)的情況。落地部署階段,為了讓物理實(shí)體更好地承載AI模型的推理和計(jì)算,需要并行計(jì)算、低比特量化、模型壓縮、3D空間計(jì)算等配通用計(jì)算平臺(tái)為具身智能系統(tǒng)的復(fù)雜計(jì)算和可靠運(yùn)行提供有力嚴(yán)苛要求33。在傳感數(shù)據(jù)處理計(jì)算層面,具身智能需要依賴不同硬件大規(guī)模推理計(jì)算和實(shí)時(shí)決策。英偉達(dá)JetsonAGXOrin模組在邊緣端的計(jì)算能力,可與內(nèi)置GPU的服務(wù)器相比。在數(shù)據(jù)流處理層面,需機(jī)器人平臺(tái)通過(guò)適配ROS2軟件生態(tài),引入數(shù)據(jù)分布服務(wù)(Data33/article/(六)安全與隱私保障—確保具身智能執(zhí)行安全可信三、具身智能在各領(lǐng)域的應(yīng)用前景的重要一步。相比于傳統(tǒng)基于AI視覺(jué)及特定場(chǎng)景預(yù)訓(xùn)練的機(jī)器人,率。這些能力增長(zhǎng)點(diǎn)有望帶來(lái)更高的應(yīng)用價(jià)值和廣(一)工業(yè)制造領(lǐng)域:打破人機(jī)協(xié)作瓶頸,實(shí)現(xiàn)智能化柔性適配工業(yè)制造領(lǐng)域具身智能有望成為新型工業(yè)化的關(guān)鍵核心和有效微軟正計(jì)劃將ChatGPT的能力擴(kuò)展到機(jī)器人領(lǐng)域,通過(guò)自然語(yǔ)言和ChatGPT交流,使用ChatGPT來(lái)控制機(jī)械臂、無(wú)人機(jī)、移動(dòng)機(jī)器人性的安全控制動(dòng)作,降低錯(cuò)誤發(fā)生概率。例如,香港理工大學(xué)利用非結(jié)構(gòu)化的作業(yè)環(huán)境,如環(huán)境的頻繁變化、不同類(lèi)型的發(fā)那科CRX系列協(xié)作機(jī)器人在感知到機(jī)器人本體與人輕微接觸時(shí),便會(huì)立即停止運(yùn)動(dòng),從而防止傷害的發(fā)生具身智能工業(yè)機(jī)器人將能夠替代人類(lèi)成為工業(yè)生產(chǎn)線上最柔性的執(zhí)(二)自動(dòng)駕駛領(lǐng)域:適應(yīng)開(kāi)放交通環(huán)境,實(shí)現(xiàn)安全可靠智能駕駛流程。例如,特斯拉的自動(dòng)輔助駕駛系統(tǒng)Autopilot通過(guò)車(chē)載傳感器能和智能水平。特斯拉創(chuàng)始人馬斯克宣布將推出無(wú)人駕駛出租車(chē)(三)物流運(yùn)輸領(lǐng)域:優(yōu)化倉(cāng)儲(chǔ)物流產(chǎn)線,實(shí)現(xiàn)高效貨物運(yùn)轉(zhuǎn)由其投資的公司AgilityRobotics開(kāi)發(fā)的人形雙足機(jī)器人Digit,綜合并能夠及時(shí)避障。丹麥CapraRobotics公司最新推出的Hircus移動(dòng)機(jī)推出的自動(dòng)移動(dòng)機(jī)器人(AMR)可以無(wú)縫進(jìn)行商品訂單識(shí)別和揀選身智能移動(dòng)機(jī)器人可以連續(xù)24小時(shí)待機(jī),隨時(shí)投入生產(chǎn),同時(shí)憑借公司AgilityRobotics的Digit人形機(jī)器人在亞馬遜倉(cāng)庫(kù)打工連續(xù)工作長(zhǎng)達(dá)7.5小時(shí),并在任務(wù)執(zhí)行時(shí)實(shí)現(xiàn)了100%的自主性,據(jù)稱其工作(四)家庭服務(wù)領(lǐng)域:解放人類(lèi)雙手束縛,實(shí)現(xiàn)全場(chǎng)景的智能家務(wù)服務(wù)類(lèi)任務(wù)等。例如,1X公司與OpenAI公司已經(jīng)在深度合作,開(kāi)發(fā)一款具身智能類(lèi)人機(jī)器人EVE,可以實(shí)現(xiàn)對(duì)人類(lèi)日常工作環(huán)境的認(rèn)知家務(wù)。2024年2月,美國(guó)谷歌和斯坦福聯(lián)合推出家務(wù)服務(wù)機(jī)器人據(jù)智元機(jī)器人官網(wǎng)介紹看,其推出的智元絕塵C5,集掃地、洗地、LOVOT主打情感陪伴功能,每臺(tái)全新的LOVOT會(huì)呈現(xiàn)不同的性格相處的時(shí)間、互動(dòng)的過(guò)程展現(xiàn)不同的情感狀態(tài)。截至2023年,在日(五)醫(yī)療康養(yǎng)領(lǐng)域:應(yīng)對(duì)老齡化問(wèn)題,實(shí)現(xiàn)擬人化交互服務(wù)形像海豹的Paro治療機(jī)器人,被用于老年護(hù)理和兒童醫(yī)院,提供情感表達(dá)的肢體動(dòng)作。韓國(guó)公司Hyodol推出專門(mén)為老年人服務(wù)的AI持下能夠與老人進(jìn)行完整對(duì)話。二是提供人性化的服務(wù)體驗(yàn)。美國(guó)Glidance開(kāi)發(fā)的導(dǎo)盲機(jī)器人Glide,采用完全人性化的設(shè)計(jì),它不會(huì)中保持控制和主動(dòng)性。2024年2月,日本豐田研究所發(fā)布軟體人體(六)其他領(lǐng)域:從賦能到變革,推動(dòng)各行各業(yè)創(chuàng)新與轉(zhuǎn)型機(jī),能夠在野外條件下
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生團(tuán)隊(duì)租車(chē)合同范例
- 危房申請(qǐng)合同范例
- 傳媒硬件采購(gòu)合同模板
- 快遞企業(yè)服務(wù)合同范例
- 藝術(shù)靈感生活蘊(yùn)藏
- 開(kāi)業(yè)花籃租賃合同范例
- 巢湖官方代理記賬合同范例
- 債務(wù)重組退費(fèi)合同模板
- 合同中贈(zèng)與合同范例
- 卷材銷(xiāo)售合同范例
- 2024-2030年中國(guó)干細(xì)胞醫(yī)療行業(yè)趨勢(shì)分析及投資戰(zhàn)略研究報(bào)告
- 消防安全培訓(xùn)內(nèi)容
- 2024-2030年鋁型材行業(yè)市場(chǎng)深度調(diào)研及前景趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2024-2030年辣椒種植行業(yè)市場(chǎng)深度分析及發(fā)展策略研究報(bào)告
- 變電站綠化維護(hù)施工方案
- 校園展美 課件 2024-2025學(xué)年人美版(2024)初中美術(shù)七年級(jí)上冊(cè)
- 2024版《糖尿病健康宣教》課件
- 化工廠拆除施工方案
- 海南自貿(mào)港優(yōu)化營(yíng)商環(huán)境條例7大亮點(diǎn)解讀課件
- ktv保安管理制度及崗位職責(zé)(共5篇)
- 中國(guó)郵政儲(chǔ)蓄銀行2024年下半年社會(huì)招聘高頻難、易錯(cuò)點(diǎn)500題模擬試題附帶答案詳解
評(píng)論
0/150
提交評(píng)論