版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型時(shí)代的具身智能RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL什么是智能機(jī)器人?RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心機(jī)器人的從古至今穆王驚視之,趨步俯仰,信人也。巧夫!領(lǐng)其顱,則歌合律;捧其手,則舞應(yīng)節(jié)。千變?nèi)f化,惟意所適。王以為實(shí)人也,與盛姬內(nèi)御并觀之。——《列子·湯問(wèn)》周穆王西巡狩獵遇見(jiàn)了一個(gè)名叫偃師的奇人。偃師造出了一個(gè)機(jī)器人,與常人的外貌極為相似,達(dá)到了以假亂真的程度。那個(gè)機(jī)器人會(huì)做各種動(dòng)作。掰動(dòng)它的下巴,就會(huì)唱歌;揮動(dòng)它的手臂,就會(huì)翩翩起舞。公元前9世紀(jì)3HARBIN
INSTITUTE
OF
TECHNOLOGY機(jī)器人的從古至今
公元前4世紀(jì)古希臘數(shù)學(xué)家阿基塔斯研制出一種由機(jī)械蒸汽驅(qū)動(dòng)的鳥(niǎo)狀飛行器,并被命名為“鴿子”。其腹部是一套用于產(chǎn)生蒸汽的密閉鍋爐。阿基塔斯4HARBIN
INSTITUTE
OF
TECHNOLOGY“鴿子”設(shè)計(jì)圖機(jī)器人的從古至今
公元15世紀(jì)萊昂納多·達(dá)·芬奇在1495
年左右繪制了人形機(jī)器人的草圖?,F(xiàn)在被稱為萊昂納多的機(jī)器人,能夠坐起、揮動(dòng)手臂、移動(dòng)頭部和下巴。萊昂納多的機(jī)器人5HARBIN
INSTITUTE
OF
TECHNOLOGY機(jī)器人的從古至今公元20世紀(jì)機(jī)器人從“玩具”變成“工具”,并應(yīng)用于工業(yè)領(lǐng)域1961年,世界上第一臺(tái)工業(yè)機(jī)器人Unimate,用于堆疊金屬1973
年,KUKA公司推出的世界第一臺(tái)擁有六個(gè)機(jī)電驅(qū)動(dòng)軸的工業(yè)機(jī)器人,F(xiàn)AMULUS6HARBIN
INSTITUTE
OF
TECHNOLOGY一定的自主性:編程后可自主運(yùn)行,自主判斷和決定接下來(lái)的操作機(jī)器人的從古至今公元21世紀(jì)工業(yè)機(jī)器人已經(jīng)相對(duì)成熟,人們開(kāi)始探索更多場(chǎng)景、更智能的機(jī)器人醫(yī)療微創(chuàng)機(jī)器人7HARBIN
INSTITUTE
OF
TECHNOLOGY家庭清潔機(jī)器人物流運(yùn)輸機(jī)器人 展廳服務(wù)機(jī)器人更好的自主性:應(yīng)對(duì)的場(chǎng)景和任務(wù)更復(fù)雜,涉及多機(jī)器人協(xié)調(diào)智能機(jī)器人機(jī)器人①自主能力:盡可能少的人類干預(yù)8HARBIN
INSTITUTE
OF
TECHNOLOGY智能機(jī)器人
≈
人類②泛化能力(通用能力):具備強(qiáng)大的綜合能力最受關(guān)注的智能機(jī)器人——類人機(jī)器人世界第一臺(tái)全尺寸人形機(jī)器人人形運(yùn)動(dòng)能力重大進(jìn)步人形機(jī)器人成功商業(yè)落地人形動(dòng)作能力邁入新紀(jì)元1972200020082013ASIMO,日本本田制造,歷經(jīng)數(shù)次迭代,掌握雙足奔跑、搬運(yùn)托盤、上下樓梯等功能WABOT-1,日本早稻田大學(xué)加藤實(shí)驗(yàn)室,行走一步需要
45秒,步伐也只有10公分法國(guó)Aldebaran公司研發(fā)的小型教學(xué)陪伴用人形機(jī)器人
NAOAtlas機(jī)器人,美國(guó)波士頓動(dòng)力公司研發(fā),有很強(qiáng)的運(yùn)動(dòng)控制能力運(yùn)動(dòng)控制型機(jī)器人智能機(jī)器人重點(diǎn)關(guān)注機(jī)器人的運(yùn)動(dòng)能力新的關(guān)注點(diǎn):機(jī)器人智能9HARBIN
INSTITUTE
OF
TECHNOLOGY10HARBIN
INSTITUTE
OF
TECHNOLOGY智能機(jī)器人機(jī)器人①自主能力:盡可能少的人類干預(yù)②泛化能力(通用能力):具備強(qiáng)大的綜合能力智能機(jī)器人
≈
人類一種算法人工智能?本報(bào)告來(lái)源于三個(gè)皮匠報(bào)告站(),由用戶Id:768394下載,文檔Id:184180,下載日期:2024-12-0911機(jī)器人與人工智能工業(yè)機(jī)器人已經(jīng)相對(duì)成熟,人們開(kāi)始探索更多場(chǎng)景、更智能的機(jī)器人醫(yī)療微創(chuàng)機(jī)器人視覺(jué)技術(shù)HARBIN
INSTITUTE
OF
TECHNOLOGY展廳服務(wù)機(jī)器人視覺(jué)技術(shù)語(yǔ)音技術(shù)自然語(yǔ)言處理物流運(yùn)輸機(jī)器人視覺(jué)技術(shù)家庭清潔機(jī)器人語(yǔ)音技術(shù)人工智能真的讓機(jī)器人智能了嗎?RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心我們?cè)O(shè)想中的智能機(jī)器人是什么?像人類一樣工作的機(jī)器人?13HARBIN
INSTITUTE
OF
TECHNOLOGY各方面強(qiáng)于人類的機(jī)器人?有意識(shí)和情感的機(jī)器人?縱觀人工智能發(fā)展14HARBIN
INSTITUTE
OF
TECHNOLOGY1956年—20世紀(jì)60年代初,使用人工智能做符號(hào)推理,進(jìn)行數(shù)學(xué)證明20世紀(jì)60年代—70年代初,啟發(fā)式的搜索算法能力有限20世紀(jì)70年代初—80年代中,構(gòu)建專家系統(tǒng)處理醫(yī)療、化學(xué)、地質(zhì)等特定領(lǐng)域應(yīng)用20世紀(jì)80年代中—90年代中,專家系統(tǒng)需要海量的專業(yè)知識(shí),實(shí)用價(jià)值有限20世紀(jì)90年代中—2010年,機(jī)器學(xué)習(xí)算法處理實(shí)際問(wèn)題2011年之后,深度學(xué)習(xí)算法用于圖像、文本、語(yǔ)音等信息處理2022年之后,可以處理通用任務(wù)的大模型一定的自主能力一定的泛化能力(通用能力)但離我們?cè)O(shè)想的智能還有多遠(yuǎn)?大模型與人形機(jī)器人結(jié)合形成智能機(jī)器人上個(gè)世紀(jì)對(duì)未來(lái)人工智能的幻想,主要表現(xiàn)為智能人形機(jī)器人,但目前人工智能技術(shù)仍然停留在電腦屏幕,沒(méi)有以實(shí)體的方式進(jìn)入物理世界目前智能程度最強(qiáng)的大模型,與目前最先進(jìn)的人形機(jī)器人,能否結(jié)合形成智能機(jī)器人?15HARBIN
INSTITUTE
OF
TECHNOLOGYRESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心人工智能真的讓機(jī)器人智能了嗎?先要說(shuō)明的問(wèn)題:如何構(gòu)建一個(gè)智能機(jī)器人?構(gòu)建智能機(jī)器人(以人形機(jī)器人為例)機(jī)器人軀體的所有硬件結(jié)構(gòu)觸覺(jué)信號(hào)或力反饋信號(hào)位姿信號(hào)硬件方面:2D視覺(jué)信號(hào)或3D點(diǎn)云信號(hào)
語(yǔ)音信號(hào)軟件及算法方面:收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)大腦小腦向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令17HARBIN
INSTITUTE
OF
TECHNOLOGY舉個(gè)不是特別形象的簡(jiǎn)單例子機(jī)器人采集視覺(jué)信息,分析出應(yīng)對(duì)咖啡進(jìn)行清理機(jī)器人視覺(jué)傳感器信號(hào)收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)清理咖啡需要如下幾步:
1.扶正杯子并拿起杯蓋找到抹布用抹布擦拭地面將抹布放回將杯子和杯蓋扔掉根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的
運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)生成機(jī)器人的運(yùn)動(dòng)軌跡,包括手臂如何運(yùn)動(dòng)、手掌如何運(yùn)動(dòng)、腿部如何運(yùn)動(dòng)等下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令機(jī)器人執(zhí)行18HARBIN
INSTITUTE
OF
TECHNOLOGYRESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心回到問(wèn)題:人工智能真的讓機(jī)器人智能了嗎?構(gòu)建智能機(jī)器人的技術(shù),我們具備和不具備哪些?機(jī)器人軀體的所有硬件結(jié)構(gòu)2D視覺(jué)信號(hào)或3D點(diǎn)云信號(hào)語(yǔ)音信號(hào)觸覺(jué)信號(hào)或力反饋信號(hào)位姿信號(hào)硬件方面:我們已經(jīng)能造出具備基本性能的機(jī)器人硬件和高精度的傳感器20HARBIN
INSTITUTE
OF
TECHNOLOGY構(gòu)建智能機(jī)器人的技術(shù),我們具備和不具備哪些?軟件及算法方面:收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)大腦小腦向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)下位機(jī)通過(guò)運(yùn)控技術(shù)執(zhí)行指令運(yùn)控技術(shù)相對(duì)來(lái)說(shuō)已經(jīng)較為成熟還存在諸多問(wèn)題21HARBIN
INSTITUTE
OF
TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?收集所有傳感器采集的環(huán)境信息和自身狀態(tài)。并綜合分析當(dāng)前所有狀態(tài)(具身感知)多模態(tài)大模型LLaVA已能做到:但實(shí)際場(chǎng)景遠(yuǎn)比此復(fù)雜這是什么?如何打開(kāi)它?人的一些手勢(shì)是什么意思?3D點(diǎn)云圖如何理解?22HARBIN
INSTITUTE
OF
TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)來(lái)看目前大模型在一組數(shù)據(jù)集中的表現(xiàn):23HARBIN
INSTITUTE
OF
TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?根據(jù)當(dāng)前狀態(tài),對(duì)自身下一步的運(yùn)動(dòng)做出決策和規(guī)劃(具身推理)主流大模型在該數(shù)據(jù)集上的表現(xiàn):24HARBIN
INSTITUTE
OF
TECHNOLOGY當(dāng)前人工智能這幾個(gè)方面存在哪些問(wèn)題?關(guān)上抽屜拿起可樂(lè)轉(zhuǎn)移紅色方塊向下位機(jī)下發(fā)送運(yùn)動(dòng)指令(具身執(zhí)行)
(形式包括代碼、技能庫(kù)API、關(guān)節(jié)旋轉(zhuǎn)角度等)對(duì)于生成關(guān)節(jié)旋轉(zhuǎn)角度形式的運(yùn)動(dòng)指令:多模態(tài)大模型擴(kuò)散小模型執(zhí)行的成功率執(zhí)行的流暢度泛化能力多模態(tài)大模型較低(60%~70%)不夠流暢物品泛化擴(kuò)散小模型較高(90%以上)流暢位置泛化或無(wú)泛化技能泛化場(chǎng)景泛化
泛物品泛化
化能位置泛化
力無(wú)泛化對(duì)于生成技能庫(kù)API或代碼API形式的運(yùn)動(dòng)指令:現(xiàn)實(shí)世界場(chǎng)景過(guò)于復(fù)雜,構(gòu)建完整的技能庫(kù)幾?不可能25HARBIN
INSTITUTE
OF
TECHNOLOGY因此,當(dāng)前人工智能還不足以讓機(jī)器人更智能,需要具身智能RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心什么是具身智能?機(jī)器人能學(xué)習(xí)文本圖像,能學(xué)會(huì)走路嗎?1963年進(jìn)行了一場(chǎng)心理學(xué)實(shí)驗(yàn),兩只貓自出生起便在黑暗封閉的環(huán)境中生活。被動(dòng)移動(dòng)位置只能注意到眼中的物體在變大、縮小沒(méi)有學(xué)會(huì)走路,甚至不能意識(shí)到眼中物體逐漸變大就是在靠近自己27HARBIN
INSTITUTE
OF
TECHNOLOGY可以自由的移動(dòng)隨著腿部動(dòng)作,眼中物體的大小有相應(yīng)的變化最終學(xué)會(huì)走路有行走條件才能學(xué)會(huì)走路:有物理身體,可以進(jìn)行交互[1]
Richard
Held,
Alan
Hein.
Movement-produced
stimulation
in
the
development
of
visually
guided
behavior.
1963
Jouranal
of
Comparativeand
Physiological
Psychology具身智能的定義定義:一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。實(shí)質(zhì):強(qiáng)調(diào)有物理身體的智能體通過(guò)與物理環(huán)境進(jìn)行交互而獲得智能的人工智能研究范式。具身智能|
CCF專家談術(shù)語(yǔ),盧策吾,王鶴抽象的智能(圍棋、文本處理、圖像識(shí)別)有物理身體、與環(huán)境進(jìn)行交互的具身智能學(xué)習(xí)“有遮擋的物體識(shí)別”學(xué)習(xí)“移開(kāi)遮擋后的物體識(shí)別”VS28HARBIN
INSTITUTE
OF
TECHNOLOGY環(huán)境仿真環(huán)境真實(shí)環(huán)境Sim2Real交互感知環(huán)境反饋從交互中學(xué)習(xí)學(xué)習(xí)交互數(shù)據(jù)推理執(zhí)行物體感知場(chǎng)景感知行為感知表達(dá)感知物人具體分為任務(wù)規(guī)劃導(dǎo)航具身問(wèn)答具體分為智能體感知基于規(guī)則基于大模型基于學(xué)習(xí)具身智能劃分:感知、推理、執(zhí)行29HARBIN
INSTITUTE
OF
TECHNOLOGY目
錄C
O
N
T
E
N
T
S具身感知RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL具身推理具身執(zhí)行123哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心具身感知哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL具身感知機(jī)器人需要具備環(huán)境感知能力,依據(jù)感知對(duì)象的不同,可以分為四類:場(chǎng)景感知物體感知行為感知表達(dá)感知32HARBIN
INSTITUTE
OF
TECHNOLOGY具身感知33HARBIN
INSTITUTE
OF
TECHNOLOGY機(jī)器人需要具備環(huán)境感知能力,依據(jù)感知對(duì)象的不同,可以分為四類:物體感知幾何形狀、鉸接結(jié)構(gòu)、物理屬性場(chǎng)景感知場(chǎng)景重建&
場(chǎng)景理解行為感知手勢(shì)檢測(cè)、人體姿態(tài)檢測(cè)、人類行為理解表達(dá)感知情感檢測(cè)、意圖檢測(cè)重點(diǎn)需要感知能力的機(jī)器人:服務(wù)機(jī)器人、人機(jī)協(xié)作場(chǎng)景下機(jī)器人、社交導(dǎo)航機(jī)器人、環(huán)境探索機(jī)器人具身感知具身感知的過(guò)程主要包括以下幾步:感受信息 信息的表示/建模/重建信息理解下游任務(wù)物體感知場(chǎng)景感知行為感知表達(dá)感知RGB相機(jī)3D相機(jī)觸覺(jué)傳感器麥克風(fēng)熱傳感器…獲取3D物體的幾何形狀、鉸接結(jié)構(gòu)、物理屬性信息信息編碼方法場(chǎng)景重建(主動(dòng)探索、主動(dòng)定位、場(chǎng)景的表示)基于交互的物體檢測(cè)、空間關(guān)系理解、時(shí)序變化檢測(cè)位姿估計(jì)、物體抓取、交互感知、可供性預(yù)測(cè)主要基于2D圖片和深度信息手勢(shì)識(shí)別、姿態(tài)檢測(cè)、人類行為理解社交導(dǎo)航、自動(dòng)駕駛、人機(jī)協(xié)作主要基于視覺(jué)表情和聲音情感識(shí)別、意圖推斷(指代表示)34HARBIN
INSTITUTE
OF
TECHNOLOGY物體感知RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu
et
al.
UMPNet:
Universal
Manipulation
Policy
Network
for
Articulated
Objects.
2022
RA-LDong
et
al.
Tactile-RL
for
Insertion:
Generalization
to
Objects
of
Unknown
Geometry36HARBIN
INSTITUTE
OF
TECHNOLOGY物體幾何形狀感知37HARBIN
INSTITUTE
OF
TECHNOLOGY數(shù)據(jù)格式描述來(lái)源編碼方法點(diǎn)云一組點(diǎn),每個(gè)點(diǎn)包括3D坐標(biāo)和特征LiDARPointNet,PointNet++網(wǎng)格基于點(diǎn)、線、面(三角形)表示物體表面CAD模型、點(diǎn)云轉(zhuǎn)換MeshNet體素一組立方體,每個(gè)立方體包括坐標(biāo)、體積和特征點(diǎn)云轉(zhuǎn)換VoxelNet、DeepSDF、Occupancy
Network深度圖為2D圖片每個(gè)像素匹配一個(gè)深度雙目立體相機(jī)、結(jié)構(gòu)光相機(jī)、ToF相機(jī)GVCNNPointNet基于多層感知機(jī),編碼點(diǎn)云數(shù)據(jù),可以獲得點(diǎn)云整體的表示、每個(gè)點(diǎn)的表示PointNet為點(diǎn)云數(shù)據(jù)編碼的經(jīng)典方法,針對(duì)其難以捕捉局部特征的缺點(diǎn)又提出了改進(jìn)版本
PointNet++Qi
et
al.
Pointnet:
Deep
learning
on
point
sets
for
3d
classification
and
segmentation.
2017
CVPRQi
et
al.
Pointnet++:
Deep
hierarchical
feature
learning
on
point
sets
in
a
metric
space.
2017
NIPS38HARBIN
INSTITUTE
OF
TECHNOLOGYMeshNet基于MLP和CNN,編碼每個(gè)面的空間特征和結(jié)構(gòu)特征,最后獲得整體的物體外形表示[1]
Feng
et
al.
Meshnet:
Mesh
neural
network
for
3d
shape
representation.
2019
AAAI39HARBIN
INSTITUTE
OF
TECHNOLOGYVoxelNet首先將點(diǎn)云體素化,然后使用基于MLP和CNN的網(wǎng)絡(luò)編碼體素PointNet、MeshNet、VoxelNet對(duì)3D數(shù)據(jù)的卷積編碼方式,類似于CV中對(duì)2D圖片的編碼[1]
Zhou
et
al.
VoxelNet:
End-to-End
Learning
for
Point
Cloud
Based
3D
Object
Detection.
2018
CVPR40HARBIN
INSTITUTE
OF
TECHNOLOGYDeepSDF
(Signed
Distance
Function)之前PointNet、MeshNet和VoxelNet將3D數(shù)據(jù)視為離散的單元進(jìn)行卷積編碼DeepSDF訓(xùn)練神經(jīng)網(wǎng)絡(luò),擬合一個(gè)連續(xù)函數(shù):以體素坐標(biāo)為輸入,輸出其離最近物體表面的距離。這個(gè)連續(xù)函數(shù)同樣蘊(yùn)涵物體的幾何形狀信息。為使訓(xùn)練的SDF不局限于一個(gè)物體,引入Code作為物體形狀標(biāo)簽[1]
Park
et
al.
DeepSDF:
Learning
Continuous
Signed
Distance
Functions
for
Shape
Representation.
2019
CVPR41HARBIN
INSTITUTE
OF
TECHNOLOGYOccupancy
Networks占用概率網(wǎng)絡(luò)類似于DeepSDF使用一個(gè)連續(xù)的函數(shù)來(lái)表示整個(gè)空間的體素分布情況,OccupancyNetwork同樣使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合一個(gè)連續(xù)的函數(shù),該函數(shù)以體素坐標(biāo)為輸入,輸出該坐標(biāo)處體素出現(xiàn)的概率[1]
Mescheder
et
al.
Occupancy
Networks:
Learning
3D
Reconstruction
in
Function
Space.
2019
CVPR42HARBIN
INSTITUTE
OF
TECHNOLOGY幾何形狀感知的下游任務(wù):物體位姿估計(jì)位姿估計(jì)任務(wù)是預(yù)測(cè)一個(gè)物體在3D空間中的位姿,包括三自由度的平移,與三自由度的旋轉(zhuǎn),或者可視為物體的位置與朝向根據(jù)是否物體的CAD模型是否已知,位姿估計(jì)可以分為:實(shí)例級(jí)別的位姿估計(jì):需要物體CAD模型,從而獲取平移的中心和旋轉(zhuǎn)的初始朝向類別級(jí)別的位姿估計(jì):不需要物體CAD模型中點(diǎn)是哪里?正面(初始朝向)是哪?沒(méi)有這些信息如何知道平移和旋轉(zhuǎn)的情況?43HARBIN
INSTITUTE
OF
TECHNOLOGY通過(guò)“見(jiàn)過(guò)”訓(xùn)練集中一個(gè)類別下很多物體的中心點(diǎn)和初始朝向,從而可以在測(cè)試時(shí)對(duì)未見(jiàn)過(guò)的物體“預(yù)設(shè)”一個(gè)中心點(diǎn)和朝向,然后估計(jì)位姿構(gòu)建同類別物體統(tǒng)一坐標(biāo)空間物體上每一個(gè)點(diǎn)對(duì)應(yīng)一個(gè)(x,y,z),代表該點(diǎn)在標(biāo)準(zhǔn)空間中的位置。給定任意一個(gè)圖片,分割其中物體,然后在每個(gè)像素上預(yù)測(cè)(x,y,z)。mask上的(x,y,z)就代表這個(gè)物體在標(biāo)準(zhǔn)空間中的朝向,結(jié)合深度可得位移CNN預(yù)測(cè):類別、分割Mask、標(biāo)準(zhǔn)空間Map[1]
Wang
et
al.
Normalized
Object
Coordinate
Space
for
Category-Level
6D
Object
Pose
and
Size
Estimation.
2019
CVPR44HARBIN
INSTITUTE
OF
TECHNOLOGY具身感知小結(jié)一(提前放在這里,應(yīng)對(duì)可能的疑惑)45HARBIN
INSTITUTE
OF
TECHNOLOGY以上物體外形的研究,與智能機(jī)器人根據(jù)人類指令執(zhí)行特定動(dòng)作的關(guān)聯(lián)在哪里?上述研究與大模型有什么關(guān)聯(lián)?在我們能很好的端到端解決具身智能任務(wù)前,以感知物體作為中間任務(wù),助力下游的推理、執(zhí)行任務(wù),滿足實(shí)際應(yīng)用的需要,是很有意義的。正如句法分析、詞性標(biāo)注之于早期的NLP領(lǐng)域,以及T5模型統(tǒng)一自然語(yǔ)言理解與生成有觀點(diǎn)認(rèn)為,一個(gè)顯式的世界模型是人工智能的后續(xù)方向,該觀點(diǎn)下感知具有更重要的意義在深度學(xué)習(xí)范疇內(nèi),3D數(shù)據(jù)的處理方式與對(duì)2D圖片的處理方式非常相似,或許不久之后就會(huì)出現(xiàn)很多3D領(lǐng)域的大模型物體抓取原始點(diǎn)云/多角度圖片物體重建得到高質(zhì)量物體3D模型物體抓取傳統(tǒng)的物體抓取:需要已知物體的3D模型,然后使用分析的方法通過(guò)數(shù)學(xué)建模求解抓取點(diǎn)位基于深度學(xué)習(xí)的物體抓?。阂蕾?D相機(jī)獲取初步點(diǎn)云,不進(jìn)行顯式的物體重建,直接基于點(diǎn)云通過(guò)神經(jīng)網(wǎng)絡(luò)求解抓取位姿Model-Free46HARBIN
INSTITUTE
OF
TECHNOLOGYModel-Base感知3D物體的幾何形狀,與計(jì)算機(jī)圖形學(xué)(CG)中的物體重建有密切聯(lián)系,即使不進(jìn)行顯式的物體重建,一個(gè)好的物體重建方法往往也是很好的3D物體和場(chǎng)景的表示方法,例如有研究將CG中3DGS方法用于機(jī)器人任務(wù)Anygrasp經(jīng)典的物體抓取方法,基于物體幾何外形信息,并支持動(dòng)態(tài)物體抓取和碰撞檢查基于單張RGBD圖片,即可生成多個(gè)7自由度抓取位姿[1]
Fang
et
al.
AnyGrasp:
Robust
and
Efficient
Grasp
Perception
in
Spatial
and
Temporal
Domains.
2022
T-RO47HARBIN
INSTITUTE
OF
TECHNOLOGYCoPA:結(jié)合大模型物體感知的抓取多模態(tài)大模型結(jié)合物體分割模型由粗到細(xì)確定抓取點(diǎn)位(物體部件級(jí)別)抓取小模型GraspNet生成多個(gè)抓取位姿,與大模型給出的抓取點(diǎn)位接近的分?jǐn)?shù)更高[1]
Huang
et
al.
CoPa:
General
Robotic
Manipulation
through
Spatial
Constraints
of
Parts
with
Foundation
Models.
2024
ICRA48HARBIN
INSTITUTE
OF
TECHNOLOGY物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀:點(diǎn)云、體素、網(wǎng)格、深度圖的編碼表示,以及位姿估計(jì),物體抓取下游任務(wù)鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu
et
al.
UMPNet:
Universal
Manipulation
Policy
Network
for
Articulated
Objects.
2022
RA-L[3]
Dong
et
al.
Tactile-RL
for
Insertion:
Generalization
to
Objects
of
Unknown
Geometry49HARBIN
INSTITUTE
OF
TECHNOLOGY鉸接結(jié)構(gòu)鉸接物體與剛性物體:剛性物體內(nèi)部構(gòu)件剛性連接,無(wú)法變形鉸接物體內(nèi)部構(gòu)件由關(guān)節(jié)或其他鉸接結(jié)構(gòu)連接,部件可以旋轉(zhuǎn)、平移剛性物體關(guān)注幾何形狀,對(duì)其的操作主要為抓取、放置,即位姿估計(jì)和物體抓取任務(wù)鉸接物體除幾何形狀外,還關(guān)注對(duì)其鉸接結(jié)構(gòu)。鉸接物體支持復(fù)雜的操作,例如開(kāi)關(guān)柜門,擰瓶蓋[1]
Liu
et
al.
Toward
Real-World
Category-Level
Articulation
Pose
Estimation.
2022
TIP50HARBIN
INSTITUTE
OF
TECHNOLOGY鉸接結(jié)構(gòu)數(shù)據(jù)來(lái)源鉸接物體數(shù)據(jù)格式主要為URDF,通過(guò)定義物體的邊、關(guān)節(jié)屬性來(lái)定義物體鉸接結(jié)構(gòu)鉸接結(jié)構(gòu)數(shù)據(jù)來(lái)源主要包括手工收集,e.g.AKB-48在已有3D數(shù)據(jù)集上標(biāo)注鉸接信息合成數(shù)據(jù)Liu
et
al.
AKB-48:
A
Real-World
Articulated
Object
Knowledge
Base.
2022CVPRCage
et
al.
CAGE:
Controllable
Articulation
GEneration.
2024
CVPR51HARBIN
INSTITUTE
OF
TECHNOLOGY鉸接物體表示方法52HARBIN
INSTITUTE
OF
TECHNOLOGY鉸接物體的表示,應(yīng)該主要包括以下信息:每個(gè)組件的幾何形狀信息每個(gè)組件的運(yùn)動(dòng)學(xué)信息,包括:位移類型(平移、旋轉(zhuǎn))、位移參數(shù)(平移方向、旋轉(zhuǎn)軸)、位移限制(最大移動(dòng)距離、最大旋轉(zhuǎn)角度)一個(gè)好的鉸接表示有助于機(jī)器人理解鉸接物體兩種鉸接結(jié)構(gòu)表示方法直接建模關(guān)節(jié)參數(shù)建模位移變化情況建模關(guān)節(jié)參數(shù)表示鉸接物體通過(guò)分別建模物體部件和整體兩個(gè)層次的信息來(lái)表示鉸接物體,實(shí)現(xiàn)基于RGBD圖片預(yù)測(cè)物體鉸接結(jié)構(gòu)。物體層次信息主要為關(guān)節(jié)參數(shù)和狀態(tài),部件層次信息為部件的位姿和規(guī)模[1]
Li
et
al.
Category-Level
Articulated
Object
Pose
Estimation.
2020CVPR53HARBIN
INSTITUTE
OF
TECHNOLOGY建模位移情況表示鉸接物體該論文同樣希望通過(guò)多視角圖片得到物體的形狀、外觀、鉸接結(jié)構(gòu)信息。其認(rèn)為物體狀態(tài)可以由形狀、外觀、鉸接狀態(tài)來(lái)表示,并使用不同的code來(lái)表示,通過(guò)一個(gè)變形網(wǎng)絡(luò)分離物體鉸接狀態(tài)(位移情況)得到新的物體位置,然后分別得到幾何形狀和物體外觀變形網(wǎng)絡(luò)使用有監(jiān)督訓(xùn)練的方式,以形狀和鉸接code為輸入,預(yù)測(cè)物體每個(gè)點(diǎn)的位移[1]
Wei
et
al.
Self-supervised
Neural
Articulated
Shape
and
Appearance
Models.
2022
CVPR54HARBIN
INSTITUTE
OF
TECHNOLOGY鉸接結(jié)構(gòu)的下游任務(wù)55HARBIN
INSTITUTE
OF
TECHNOLOGY幾何結(jié)構(gòu)部分與主流計(jì)算機(jī)視覺(jué)領(lǐng)域相比,其特點(diǎn)在于主要基于3D信息但對(duì)3D信息的處理并非具身智能的核心,具身智能的核心在于其是一種行為智能,在感知領(lǐng)域具體體現(xiàn)為:可以通過(guò)與環(huán)境的主動(dòng)交互,增強(qiáng)對(duì)環(huán)境的感知效果鉸接物體支持機(jī)器人進(jìn)行豐富的操作任務(wù),并提供相應(yīng)的反饋。與之相關(guān)的下游任務(wù)有交互感知、物體可供性預(yù)測(cè)兩類交互感知:機(jī)器人通過(guò)與物體交互獲取更多信息物體可供性預(yù)測(cè):預(yù)測(cè)物體能否支持機(jī)器人進(jìn)行某種操作交互感知獲取物體鉸接結(jié)構(gòu)之前介紹的工作基于靜態(tài)數(shù)據(jù)集預(yù)測(cè)物體鉸接結(jié)構(gòu),該工作通過(guò)實(shí)際物理交互行為獲取物體鉸接結(jié)構(gòu)首先以原始物體點(diǎn)云作為輸入,基于物體組件級(jí)分割,得到物體初始URDF文件機(jī)器人操作物體,基于當(dāng)前URDF文件可以預(yù)測(cè)操作后的物體狀態(tài),與實(shí)際觀察到的物體狀態(tài)進(jìn)行對(duì)比,該監(jiān)督信號(hào)對(duì)于物體模型參數(shù)(URDF文件)是可微的,從而進(jìn)行參數(shù)更新[1]
Lv
et
al.
SAGCI-System:
Towards
Sample-Efficient,
Generalizable,
Compositional
and
Incremental
Robot
Learning.
2022
ICRA56HARBIN
INSTITUTE
OF
TECHNOLOGY物體可供性預(yù)測(cè)對(duì)于任務(wù)規(guī)劃和導(dǎo)航任務(wù),知道一個(gè)物體可以施加哪些動(dòng)作是很重要的,也可以用于指導(dǎo)物體操作Where2act訓(xùn)練一個(gè)預(yù)測(cè)網(wǎng)絡(luò),給定一個(gè)原子動(dòng)作(推、拉),對(duì)于圖片或點(diǎn)云中每一個(gè)像素預(yù)測(cè)1)可行性分?jǐn)?shù);2)動(dòng)作軌跡;3)成功概率基于此,機(jī)器人可以知道每一個(gè)原子動(dòng)作在物體上的最佳操作點(diǎn)位與軌跡[1]
Mo
et
al.
Where2Act:
From
Pixels
to
Actions
for
Articulated
3D
Objects.
2024
ICCV57HARBIN
INSTITUTE
OF
TECHNOLOGY物體感知范疇對(duì)于3D空間中的物體,有必要感知其:幾何形狀:點(diǎn)云、體素、網(wǎng)格、深度圖的編碼表示,以及位姿估計(jì),物體抓取下游任務(wù)鉸接結(jié)構(gòu)物理屬性https://adioshun.gitbooks.io/deep_drive/content/intro3d-cloudpoint.htmlXu
et
al.
UMPNet:
Universal
Manipulation
Policy
Network
for
Articulated
Objects.
2022
RA-L[3]
Dong
et
al.
Tactile-RL
for
Insertion:
Generalization
to
Objects
of
Unknown
Geometry58HARBIN
INSTITUTE
OF
TECHNOLOGY物理屬性[3]
Dong
et
al.
Tactile-rl
for
insertion:
Generalization
to
objects
of
unknown
geometry.
2024ICRA59HARBIN
INSTITUTE
OF
TECHNOLOGY物體的物理屬性種類及來(lái)源包括:觸覺(jué):觸覺(jué)傳感器力矩:六軸力矩傳感器,3自由度力,3自由度扭矩,溫度:溫度傳感器材質(zhì)、硬度…物理屬性的表示與其他模態(tài)融合,如圖像和點(diǎn)云:IMAGEBIND、LANGBIND單獨(dú)使用物理信息:強(qiáng)化學(xué)習(xí)端到端的方式利用觸覺(jué)信息Girdhar
et
al.
Imagebind:
One
embedding
space
to
bind
them
all.
2023
CVPRZhu
et
al.
Languagebind:
Extending
video-language
pretraining
to
n-modality
by
language-based
semantic
alignment.
2024
ICLR物理屬性輔助操作解決視覺(jué)遮擋問(wèn)題利用觸覺(jué)傳感器理解物理屬性:T-NT根據(jù)視覺(jué)和觸覺(jué)反饋,用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人將線穿過(guò)針孔使用觸覺(jué)傳感器查找線的末端,以及判斷針是否穿過(guò)針孔[1]
Yu
et
al.
Precise
Robotic
Needle-Threading
with
Tactile
Perception
and
Reinforcement
Learning.
2023
CoRL60HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景感知RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心62HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景感知簡(jiǎn)述定義:場(chǎng)景感知是通過(guò)實(shí)現(xiàn)與場(chǎng)景的交互來(lái)理解現(xiàn)實(shí)世界場(chǎng)景意義:賦予機(jī)器人理解周圍環(huán)境并與之交互的能力內(nèi)核:對(duì)空間布局的幾何理解對(duì)場(chǎng)景中物體的語(yǔ)義理解組成:粗粒度:場(chǎng)景中物體的組成、物體的語(yǔ)義、物體的空間關(guān)系細(xì)粒度:場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語(yǔ)義具體形式:點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖、隱表示63HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景感知的研究?jī)?nèi)容場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)
SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景信息構(gòu)成64HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景信息組成粗粒度場(chǎng)景中物體的組成場(chǎng)景中物體的語(yǔ)義場(chǎng)景中物體的空間關(guān)系細(xì)粒度場(chǎng)景中每個(gè)點(diǎn)的精確空間坐標(biāo)和語(yǔ)義場(chǎng)景信息提取方式構(gòu)建場(chǎng)景表示點(diǎn)云、地標(biāo)、拓?fù)鋱D、場(chǎng)景圖及隱式表示易利用的場(chǎng)景信息視覺(jué):符合人類的先驗(yàn)知識(shí),相關(guān)研究工作多激光/雷達(dá):可以直接獲取準(zhǔn)確的場(chǎng)景表示,無(wú)需視覺(jué)重建激光傳感器工作原理 雷達(dá)傳感器工作原理Sun,
et
al.
A
quality
improvement
method
for
3D
laser
slam
point
clouds
based
on
geometric
primitives
of
the
scan
scene.
2021
IJRSKong,
et
al.
Multi-modal
data-efficient
3d
scene
understanding
for
autonomous
driving.
2024
arXivZheng,
et
al.
Scene-aware
learning
network
for
radar
object
detection.
2021
PCMRYang,
et
al.
An
ego-motion
estimation
method
using
millimeter-wave
radar
in
3D
scene
reconstruction.
2022
IHMSC65HARBIN
INSTITUTE
OF
TECHNOLOGY難利用的場(chǎng)景信息聽(tīng)覺(jué):可用于視聽(tīng)導(dǎo)航任務(wù)觸覺(jué):可用于感知物體表面化學(xué):可用于特殊任務(wù),如識(shí)別氣味來(lái)源紅外:可用于特殊場(chǎng)景,如煙霧場(chǎng)景下超聲:可用于深度測(cè)量Singh,
et
al.
Sporadic
Audio-Visual
Embodied
Assistive
Robot
Navigation
For
Human
Tracking.
2023
PETRAGan,
et
al.
Look,
listen,
and
act:
Towards
audio-visual
embodied
navigation.
2020
ICRARoberge,
et
al.
StereoTac:
A
novel
visuotactile
sensor
that
combines
tactile
sensing
with
3D
vision.
2023RALPadmanabha,
et
al.
Omnitact:
A
multi-directional
high-resolution
touch
sensor.
2020
ICRAArmada,
et
al.
Co-operative
smell-based
navigation
for
mobile
robots.
2004
CLAWARCiui,
et
al.
Chemical
sensing
at
the
robot
fingertips:
Toward
automated
taste
discrimination
in
food
samples.
2018
ACS
sensorsSinai,
et
al.
Scene
recognition
with
infra-red,
low-light,
and
sensor
fused
imagery.1999
IRISKim,
et
al.
Firefighting
robot
stereo
infrared
vision
and
radar
sensor
fusion
for
imaging
through
smoke.
2015
Fire
TechnologyShimoyama,
et
al.
Seeing
Nearby
3D
Scenes
using
Ultrasonic
Sensors.
2022
IVMulindwa,
et
al.
Indoor
3D
reconstruction
using
camera,
IMU
and
ultrasonic
sensors.
2020
JST應(yīng)用范圍狹窄并非場(chǎng)景感知任務(wù)焦點(diǎn)66HARBIN
INSTITUTE
OF
TECHNOLOGY67HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景重建場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)
SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景重建場(chǎng)景重建的核心技術(shù)是SLAM(同步定位與映射)SLAM是機(jī)器人在未知環(huán)境下移動(dòng),逐步構(gòu)建周圍環(huán)境的連續(xù)地圖,并同時(shí)估計(jì)其在地圖中位置的技術(shù)傳統(tǒng)的SLAM技術(shù):濾波算法非線性優(yōu)化技術(shù)引入深度學(xué)習(xí)后的SLAM:新方法新任務(wù)新表示Durrant
et
al.
Simultaneous
localization
and
map:
part
I.
2006
RAMTaketomi
e
al.
Visual
SLAM
algorithms:
A
survey
from
2010
to
2016.
2017IPSJ場(chǎng)景信息SLAM我在哪?我周圍是什么樣的?68HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景重建-新方法69HARBIN
INSTITUTE
OF
TECHNOLOGY將深度學(xué)習(xí)集成到SLAM用深度學(xué)習(xí)方法替換傳統(tǒng)的SLAM模塊特征提取深度估計(jì)在傳統(tǒng)SLAM上加入語(yǔ)義信息圖像語(yǔ)義分割語(yǔ)義地圖構(gòu)建基于深度學(xué)習(xí)的新方法主要為SLAM領(lǐng)域的自我優(yōu)化或迭代,很少有方法從具身智能的角度出發(fā)DeTone,
et
al.
Toward
geometric
deep
slam.
2017
arXivTateno,
et
al.
Cnn-slam:
Real-time
dense
monocular
slam
with
learned
depth
prediction.
2017
CVPRLi,
et
al.
Undeepvo:
Monocular
visual
odometry
through
unsupervised
deep
learning.
2018
ICRA場(chǎng)景重建-新任務(wù)傳統(tǒng)SLAM機(jī)器人由人類控制,或使用預(yù)定義的航點(diǎn),或基于給定的路徑規(guī)劃算法進(jìn)行導(dǎo)航主動(dòng)SLAM機(jī)器人可以自主行動(dòng),以實(shí)現(xiàn)更好的場(chǎng)景重建和定位主動(dòng)映射:機(jī)器人自主選擇下一步視點(diǎn),以獲得更好的觀察,進(jìn)行環(huán)境探索主動(dòng)定位:機(jī)器人自主規(guī)劃路徑,旨在解決模糊位置定位,而不僅僅是導(dǎo)航主動(dòng)SLAM我怎么能更快地完成場(chǎng)景重建?我怎么能更快地知道自己在哪?主動(dòng)定位傳統(tǒng)SLAM自動(dòng)映射 主動(dòng)映射同步定位我在哪?我周圍是什么樣的?70HARBIN
INSTITUTE
OF
TECHNOLOGY具身感知小結(jié)二具身智能與非具身的智能,乃至其他領(lǐng)域,例如CV、NLP、CG(計(jì)算機(jī)圖形學(xué))、Robotics、Control,核心區(qū)別在哪里?3D數(shù)據(jù)?機(jī)器人任務(wù)中的深度學(xué)習(xí)技術(shù)?在于行為智能,在于交互,在于告訴機(jī)器人怎么動(dòng)此處的交互具體指空間中一條7自由度的軌跡操作鉸接物體、主動(dòng)探索、主動(dòng)定位多模態(tài)大模型和文本大模型沒(méi)見(jiàn)過(guò)軌跡數(shù)據(jù),如果將軌跡數(shù)據(jù)壓縮為大模型,或許有更智能的交互效果71HARBIN
INSTITUTE
OF
TECHNOLOGY主動(dòng)映射主動(dòng)映射任務(wù),即下一個(gè)最佳視圖(NestBestView)任務(wù),旨在找到更好的觀測(cè)視點(diǎn)或更有效的觀測(cè)策略視圖的評(píng)估標(biāo)準(zhǔn):信息增益、機(jī)器人運(yùn)動(dòng)成本和場(chǎng)景重建的質(zhì)量基于拓?fù)涞男畔⒃鲆娑攘看_定下一個(gè)最佳視圖72HARBIN
INSTITUTE
OF
TECHNOLOGYRL方法,目的是識(shí)別最大化其場(chǎng)景記憶變化的視圖。核心思想是幫助智能體記住盡可能多的不可見(jiàn)的視覺(jué)特征Collander,
et
al.
Learning
the
next
best
view
for
3d
point
clouds
via
topological
features.
2021
ICRAGazani,
et
al.
Bag
of
views:
Anappearance-based
approach
to
next-best-view
planning
for
3d
reconstruction.
2023
RAL主動(dòng)映射Liu,
et
al.
Object-aware
guidance
for
autonomous
scene
reconstruction.
2018
TOGDong,
et
al.
Multi-robot
collaborative
dense
scene
reconstruction.
2019
TOG將NBV
任務(wù)與次優(yōu)對(duì)象(NBO)任務(wù)集成,選擇感興趣的對(duì)象,確定重建它們的最佳視角多智能體協(xié)作的主動(dòng)映射73HARBIN
INSTITUTE
OF
TECHNOLOGY主動(dòng)定位主動(dòng)定位涉及在參考圖中規(guī)劃后續(xù)運(yùn)動(dòng)路徑,以盡量地減輕機(jī)器人空間方向的模糊性傳統(tǒng)的定位算法與動(dòng)作選擇無(wú)關(guān)ANL(Active
neural
localization)通過(guò)端到端強(qiáng)化學(xué)習(xí)(包括感知模塊和策略模塊)最大化移動(dòng)后的“后驗(yàn)概率”(可理解為位置的置信度),從而最小化定位所需的步驟數(shù)量[1]
Chaplot,
et
al.
Active
neural
localization.
2018
arXiv74HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景重建-新表示75HARBIN
INSTITUTE
OF
TECHNOLOGYSLAM領(lǐng)域亦在探索幾何外觀等經(jīng)典屬性之外的環(huán)境表示,旨在對(duì)層次結(jié)構(gòu)、功能、動(dòng)態(tài)和語(yǔ)義等屬性進(jìn)行建模主要的表示形式:拓?fù)淠P兔枋霏h(huán)境連通性的拓?fù)鋱D場(chǎng)景圖將環(huán)境建模為有向圖,其中節(jié)點(diǎn)表示對(duì)象或位置等實(shí)體,邊緣表示這些實(shí)體之間的關(guān)系76HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景理解場(chǎng)景信息獲取場(chǎng)景理解環(huán)境原始信息場(chǎng)景認(rèn)知場(chǎng)景表示抽取視覺(jué)信息易利用難利用構(gòu)建形成激光信息雷達(dá)信息化學(xué)觸覺(jué)超聲···聽(tīng)覺(jué)紅外單個(gè)物體多個(gè)物體場(chǎng)景圖像對(duì)象實(shí)現(xiàn)物體識(shí)別時(shí)序變化檢測(cè)空間關(guān)系推理場(chǎng)景重建傳統(tǒng)
SLAM新方法新任務(wù)新表示深度學(xué)習(xí)主動(dòng)映射主動(dòng)定位拓?fù)浣Y(jié)構(gòu)場(chǎng)景圖場(chǎng)景理解理解場(chǎng)景信息是場(chǎng)景感知的重要組成部分高效的理解過(guò)程(例如分割、識(shí)別和檢測(cè))為智能體理解復(fù)雜環(huán)境場(chǎng)景理解不僅包括物體的識(shí)別,還包括物體之間的空間關(guān)系和場(chǎng)景幀之間的時(shí)間變化物體識(shí)別77HARBIN
INSTITUTE
OF
TECHNOLOGY空間關(guān)系推理時(shí)序變化檢測(cè)物體識(shí)別78HARBIN
INSTITUTE
OF
TECHNOLOGY常規(guī)的、主流的物體識(shí)別方法:YOLOMASK
RCNNResNet這些方法的局限性:難以利用機(jī)器人與環(huán)境的交互能力具身智能的物體識(shí)別:物理交互:通過(guò)移動(dòng)(觸碰)物體實(shí)現(xiàn)更好的物體識(shí)別更改視點(diǎn):通過(guò)移動(dòng)改變自身在場(chǎng)景中的位置,結(jié)合多視角信息實(shí)現(xiàn)更好的物體識(shí)別Redmon,
et
al.
You
only
look
once:
Unified,
real-time
object
detection.
2016
CVPRHe,
et
al.
Mask
r-cnn.
2017
ICCVHe,
et
al.
Deep
residual
learning
for
image
recognition.
2016
CVPR物體識(shí)別-物理交互Pathaket
al.利用簡(jiǎn)單的對(duì)象操作來(lái)協(xié)助實(shí)例分割和對(duì)象識(shí)別[1]
Pathak,
et
al.
Learning
instance
segmentation
by
interaction.
2018
CVPR通過(guò)對(duì)象操作實(shí)現(xiàn)實(shí)例分割的流程79HARBIN
INSTITUTE
OF
TECHNOLOGY物體識(shí)別-更改視點(diǎn)SeeingbyMoving模仿人類“通過(guò)繞著同一物體走動(dòng)來(lái)獲取多個(gè)觀察視角”的策略,使機(jī)器人能夠通過(guò)自主運(yùn)動(dòng)獲取單個(gè)物體的多視圖數(shù)據(jù)該方法從人類的演示中學(xué)習(xí)移動(dòng)策略,而其他方法則依靠強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)行為策略[1]
Fang,
et
al.
Move
to
see
better:
Self-improving
embodied
object
detection.
2020
arXiv80HARBIN
INSTITUTE
OF
TECHNOLOGY空間關(guān)系推理空間關(guān)系主要涉及視覺(jué)檢測(cè)和關(guān)系推理相關(guān)的數(shù)據(jù)集以及空間關(guān)系推理的基準(zhǔn)benchmark:Rel3dSpatialsenseopen
imagesGoyal,
et
al.
Rel3d:
A
minimally
contrastive
benchmark
for
grounding
spatial
relations
in
3d.
2020
NIPSYang,
et
al.
Spatialsense:
An
adversarially
crowdsourced
benchmark
for
spatial
relation
recognition.
2019
ICCVKuznetsova,
et
al.
The
open
images
dataset
v4:
Unified
image
classification,
object
detection,
and
visual
relationship
detection
at
scale.
2020
IJCVRel3d
Spatialsenseopen
images81HARBIN
INSTITUTE
OF
TECHNOLOGY時(shí)序變化檢測(cè)場(chǎng)景變化檢測(cè):一個(gè)機(jī)器人在兩個(gè)不同的時(shí)間探索環(huán)境,并識(shí)別它們之間的任何物體變化。物體變化包括環(huán)境中添加和移除的物體常用數(shù)據(jù)集:robotic
vision
scene
understanding
challengeChangeSimVL-CMU-CDPCDHall,
et
al.
The
robotic
vision
scene
understanding
challenge.
2020
arXivPark,
et
al.
Changesim:
Towards
end-to-end
online
scene
change
detection
in
industrial
indoor
environments.
2021
IROSPrabhakar,
et
al.
Cdnet++:
Improved
change
detection
with
deep
neural
network
feature
correlation.
2020
IJCNNSakurada,
et
al.
Weakly
supervised
silhouette-based
semantic
scene
change
detection.
2020
ICRA82HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景變化檢測(cè)CSR主要針對(duì)具身導(dǎo)航任務(wù),智能體在移動(dòng)穿越場(chǎng)景時(shí)跟蹤物體,相應(yīng)地更新表示,并檢測(cè)房間配置的變化DCA-Det實(shí)現(xiàn)面向物體級(jí)別的變化檢測(cè)CSR框架圖
DCA-Det框架圖Gadre,
et
al.
Continuous
scene
representations
for
embodied
ai.
2022
CVPRZhang,
et
al.
Object-level
change
detection
with
a
dual
correlation
attention-guided
detector.
2021
ISPRS83HARBIN
INSTITUTE
OF
TECHNOLOGY場(chǎng)景動(dòng)態(tài)感知4D全景場(chǎng)景圖(PSG-4D),放棄了“動(dòng)態(tài)”的概念,將時(shí)間視為場(chǎng)景表示中的變量,作為第四維度納入現(xiàn)有的3D場(chǎng)景圖中。這種新的表現(xiàn)形態(tài)適用于場(chǎng)景預(yù)測(cè)和動(dòng)態(tài)場(chǎng)景理解[1]
Yang,
et
al.
4d
panoptic
scene
graph
generation.
2024
NIPS84HARBIN
INSTITUTE
OF
TECHNOLOGY行為感知RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心行為感知86HARBIN
INSTITUTE
OF
TECHNOLOGY不同于對(duì)物體、場(chǎng)景的感知,對(duì)人的感知需要人的行為,包括:手勢(shì)識(shí)別身體位姿識(shí)別人類行為理解機(jī)器人對(duì)人的行為感知有助于人機(jī)交互應(yīng)用:社交導(dǎo)航自動(dòng)駕駛?cè)藱C(jī)協(xié)作裝配手勢(shì)識(shí)別手勢(shì)識(shí)別是識(shí)別圖片中人體手勢(shì)的類別,一般以分類任務(wù)的形式出現(xiàn)手勢(shì)識(shí)別的一般流程:使用RGB相機(jī)或RGBD相機(jī)獲取圖片手勢(shì)的分割與檢測(cè):基于膚色、輪廓、深度信息等信息檢測(cè)圖中手勢(shì)區(qū)域和手的關(guān)節(jié)點(diǎn)手勢(shì)識(shí)別:在分割檢測(cè)結(jié)果的基礎(chǔ)上進(jìn)行手勢(shì)分類87HARBIN
INSTITUTE
OF
TECHNOLOGY人體姿態(tài)檢測(cè)人體姿態(tài)檢測(cè)需要預(yù)測(cè)2D圖像或3D數(shù)據(jù)中人體的關(guān)節(jié)點(diǎn)單人的姿態(tài)檢測(cè),可以使用回歸的方法或基于熱圖的方法回歸:直接基于圖片預(yù)測(cè)關(guān)節(jié)點(diǎn)位置熱圖:預(yù)測(cè)每個(gè)像素點(diǎn)屬于某個(gè)關(guān)節(jié)的概率,進(jìn)而基于概率決定關(guān)節(jié)位置多人的位姿檢測(cè),可以分為自頂向下和自底向上自頂向下:識(shí)別圖中人體后分別進(jìn)行姿態(tài)估計(jì)自底向上:首先檢測(cè)圖中所有關(guān)節(jié)點(diǎn),然后進(jìn)行組合88HARBIN
INSTITUTE
OF
TECHNOLOGY社交導(dǎo)航機(jī)器人&自動(dòng)駕駛?cè)梭w姿態(tài)估計(jì)的結(jié)果可以用于預(yù)測(cè)人類下一步動(dòng)作,這有助于機(jī)器人進(jìn)行決策社交導(dǎo)航機(jī)器人基于人體位姿預(yù)測(cè)人類下一步方向,從而選擇移動(dòng)方向自動(dòng)駕駛決策時(shí)同樣需要預(yù)測(cè)人類移動(dòng)軌跡[1]
Narayanan
et
al.
ProxEmo:
Gait-based
Emotion
Learning
and
Multi-view
Proxemic
Fusion
for
Socially-Aware
Robot
Navigation.
2020
IROS89HARBIN
INSTITUTE
OF
TECHNOLOGY人機(jī)協(xié)作裝配場(chǎng)景下防碰撞除預(yù)測(cè)人類移動(dòng)軌跡用于社交導(dǎo)航場(chǎng)景和機(jī)器人場(chǎng)景外,在工業(yè)場(chǎng)景中人機(jī)協(xié)作進(jìn)行裝配任務(wù)同樣需要預(yù)測(cè)人類未來(lái)行為軌跡,以免機(jī)器人和人發(fā)生碰撞[1]
Zhang
et
al.
Recurrent
neural
network
for
motion
trajectory
prediction
in
human-robot
collaborative
assembly.
2020
CIRP.90HARBIN
INSTITUTE
OF
TECHNOLOGY人類行為理解91HARBIN
INSTITUTE
OF
TECHNOLOGY人類行為理解即通過(guò)檢測(cè)姿勢(shì)、運(yùn)動(dòng)和環(huán)境線索來(lái)推斷其正在進(jìn)行的行為該領(lǐng)域超越了對(duì)基本動(dòng)作的識(shí)別,還包括對(duì)復(fù)雜行為的分析人物交互多人協(xié)作動(dòng)態(tài)環(huán)境中的自適應(yīng)行為最近的進(jìn)展側(cè)重于通過(guò)更深入的語(yǔ)義理解來(lái)建模這些行為人類行為理解:統(tǒng)一的動(dòng)作-語(yǔ)言生成預(yù)訓(xùn)練模型統(tǒng)一的動(dòng)作-語(yǔ)言生成預(yù)訓(xùn)練模型MotionGPT將人類動(dòng)作視為一種外語(yǔ),引入自然語(yǔ)言模型進(jìn)行動(dòng)作相關(guān)生成功能包括:給定文本生成動(dòng)作,給定動(dòng)作生成文本,動(dòng)作擴(kuò)增,文本動(dòng)作描述生成MotionGPT的演示[1]
Jiang
et
al.
Motiongpt:
Human
motion
as
a
foreign
language.
2024
NIPSMotionGPT的方法總覽92HARBIN
INSTITUTE
OF
TECHNOLOGY人類行為理解:可理解人類動(dòng)作和視頻的大語(yǔ)言模型可理解人類動(dòng)作和視頻的大語(yǔ)言模型MotionLLM收集并構(gòu)建了一個(gè)名為MoVid的大規(guī)模數(shù)據(jù)集和MoVid-Bench的基準(zhǔn)測(cè)試提出了一個(gè)結(jié)合視頻和動(dòng)作數(shù)據(jù)的統(tǒng)一框架,通過(guò)大語(yǔ)言模型來(lái)理解人類行為MotionLLM的基本架構(gòu)MotionLLM的兩階段訓(xùn)練[1]
Chen
L
H
et
al.
MotionLLM:
Understanding
Human
Behaviors
from
Human
Motions
and
Videos.
2024
arXiv
preprint
arXiv:2405.2034093HARBIN
INSTITUTE
OF
TECHNOLOGY表達(dá)感知RESEARCH
CENTER
FOR
SOCIAL
COMPUTING
AND
INFORMATION
RETRIEVAL哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心表達(dá)感知概述機(jī)器人想獲取人類的情感和意圖,可以通過(guò)人的:面部表情語(yǔ)音上述兩種模態(tài)信號(hào)的結(jié)合面部表情、語(yǔ)音情感、意圖95HARBIN
INSTITUTE
OF
TECHNOLOGY表達(dá)感知研究意義表達(dá)感知的研究意義:增強(qiáng)任務(wù)協(xié)作能力,從而提升機(jī)器人在人機(jī)交互中的自然性和有效性更準(zhǔn)確地感知用戶的情感變化與意圖,從而顯著提高用戶體驗(yàn)和滿意度可能應(yīng)用的實(shí)際場(chǎng)景:陪伴老年人、智慧家居、工業(yè)協(xié)作等陪伴機(jī)器人智慧家居工業(yè)機(jī)器人96HARBIN
INSTITUTE
OF
TECHNOLOGY面部情感感知面部表情數(shù)據(jù)采集一般是通過(guò)攝像頭設(shè)備進(jìn)行采集特征提取如幾何特征(關(guān)鍵點(diǎn)坐標(biāo))、紋理特征(局部二值模式,LBP)和動(dòng)作單元(Action
Units,AU)等面部情感識(shí)別的主要挑戰(zhàn)復(fù)雜環(huán)境下的面部情感感知可能包括光照變化、姿態(tài)變化、遮擋和不同的背景場(chǎng)景等,對(duì)準(zhǔn)確性和魯棒性要求更高[1]
Ma
F
et
al.
Facial
expression
recognition
with
visual
transformersand
attentional
selective
fusion.
2021
IEEE
Transactions
on
AffectiveComputing97HARBIN
INSTITUTE
OF
TECHNOLOGY面部情感感知:復(fù)雜環(huán)境下的面部情感感知Visual
Transformers與特征融合針對(duì)在野外(即非實(shí)驗(yàn)室控制環(huán)境)中的FER任務(wù),能夠處理遮擋、不同的頭部姿勢(shì)、面部變形和運(yùn)動(dòng)模糊等復(fù)雜情況區(qū)域注意力網(wǎng)絡(luò)RAN旨在解決現(xiàn)實(shí)世界中FER的遮擋魯棒性和姿態(tài)不變性問(wèn)題構(gòu)建了若干具有姿態(tài)和遮擋屬性的野外FER數(shù)據(jù)集,解決了對(duì)應(yīng)領(lǐng)域數(shù)據(jù)集缺乏的情況邊緣AI驅(qū)動(dòng)(
Edge-AI-driven)的FER框架該框架可以在低功耗設(shè)備上實(shí)現(xiàn)實(shí)時(shí)的面部表情識(shí)別,確保在有限的計(jì)算資源和能源消耗下,仍能保持高精度這對(duì)于智能穿戴設(shè)備、智能手機(jī)和遠(yuǎn)程醫(yī)療等應(yīng)用場(chǎng)景尤為重要Ma
F
et
al.
Facial
expression
recognition
with
visual
transformers
and
attentional
selective
fusion.
2021
IEEE
Transactions
on
Affective
ComputingWang
K
et
al.
Region
attention
networks
for
pose
and
occlusion
robust
facial
expression
recognition.
2020
IEEE
Transactions
on
ImageProcessingWu
Y
et
al.
Edge-AI-driven
framework
with
efficient
mobile
network
design
for
facial
expression
recognition.
2023
A
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年住宅保險(xiǎn)全保障服務(wù)協(xié)議
- 2025年借殼上市股權(quán)轉(zhuǎn)讓協(xié)議樣本
- 2025年住宅小區(qū)物管協(xié)議
- 二零二五年度高科技園區(qū)臨時(shí)用電安全管理合同模板4篇
- 2025私人擔(dān)保公司借款合同范本
- 采購(gòu)合同范本范例
- 室內(nèi)裝飾設(shè)計(jì)的合同范本
- 公司勞務(wù)派遣合同協(xié)議范文
- 2025電腦銷售合同模板
- 個(gè)人向公司借款協(xié)議合同范本
- 建筑保溫隔熱構(gòu)造
- 智慧財(cái)務(wù)綜合實(shí)訓(xùn)
- 安徽省合肥市2021-2022學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)試題(含答案)3
- 教育專家報(bào)告合集:年度得到:沈祖蕓全球教育報(bào)告(2023-2024)
- 肝臟腫瘤護(hù)理查房
- 護(hù)士工作壓力管理護(hù)理工作中的壓力應(yīng)對(duì)策略
- 2023年日語(yǔ)考試:大學(xué)日語(yǔ)六級(jí)真題模擬匯編(共479題)
- 皮帶拆除安全技術(shù)措施
- ISO9001(2015版)質(zhì)量體系標(biāo)準(zhǔn)講解
- 《培訓(xùn)資料緊固》課件
- 黑龍江省政府采購(gòu)評(píng)標(biāo)專家考試題
評(píng)論
0/150
提交評(píng)論