版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人-機器人交互技術(shù)人-機器人交互概述可以將人機交互簡單地理解為“人如何與機器或某個復雜系統(tǒng)的溝通和互動過程”。Schmidtler等人認為人-機器人交互是人類和機器人之間所有交互形式的總稱。人機交互實現(xiàn)的過程中存在三個不可忽略的關(guān)鍵主題:意圖檢測、角色分配和信息反饋。面向接觸式人機交互,研究者提出人與機器人共享控制的框架,包括三個關(guān)鍵思想:意圖檢測、意圖識別與行為響應(yīng)。協(xié)作機器人是下一代機器人的重要發(fā)展方向,其柔順控制技術(shù)對于實現(xiàn)安全穩(wěn)定的協(xié)作交互至關(guān)重要。人-機器人交互接口可以將人機交互簡單地理解為“人如何與機器或某個復雜系統(tǒng)的溝通和互動過程”。Schmidtler等人認為人-機器人交互是人類和機器人之間所有交互形式的總稱。人機交互實現(xiàn)的過程中存在三個不可忽略的關(guān)鍵主題:意圖檢測、角色分配和信息反饋。面向接觸式人機交互,研究者提出人與機器人共享控制的框架,包括三個關(guān)鍵思想:意圖檢測、意圖識別與行為響應(yīng)。常用人機交互設(shè)備和方式相機深度相機比普通相機多出深度維度,提供更多信息。應(yīng)用:微軟Kinect(人體骨骼追蹤)、英特爾RealSense、LeapMotion(手勢識別)。VR眼鏡HTCVivePro系列:六自由度交互、高刷新率與高分辨率。應(yīng)用:游戲與娛樂領(lǐng)域,減少眩暈感,增強沉浸感。語音交互代表技術(shù):Siri。肌電信號通過表面肌電信號反映肌肉運動狀態(tài),通過對手臂上的表面肌電信號進行放大濾波、提取特征值和模式識別等處理后,可用于判斷手部的動作意圖。常用人機交互設(shè)備和方式腦電信號腦電信號解讀人體運動意圖。腦機接口可以幫助用戶與機器人之間實現(xiàn)更好更自然的交互。手控器交互通過位姿指令控制機器人,分為三自由度和六自由度手控器,機械結(jié)構(gòu)上有串聯(lián)和并聯(lián)手控器。應(yīng)用:醫(yī)療手術(shù)、空間遙操作等。缺點:交互不自然,易引起疲勞。腦電信號靈活、高效,適合精細操控機器人。主要設(shè)備:穿戴式數(shù)據(jù)手套、外骨骼等。腦電接口圖數(shù)據(jù)手套ForceDimension手控器人機交互方式分類根據(jù)人機交互過程中人體動作控制信息的獲取方式,可分為:1.外設(shè)附著方式:即附著在人肢體上的感應(yīng)設(shè)備對人體動作信息進行采集。優(yōu)點:響應(yīng)速度快、識別精度高。缺點:需要額外設(shè)備,增加成本,交互不夠自然,不易普及,主要應(yīng)用于快速響應(yīng)和精確控制的工業(yè)領(lǐng)域。2.計算機視覺方式:通過視頻捕捉設(shè)備采集人體動作信息,分析RGB圖像、紅外圖像等數(shù)據(jù),提取動作信息。優(yōu)點:無需佩戴設(shè)備,設(shè)備要求低,輕便且易于普及。缺點:對環(huán)境和光照要求較高,處理速度可能受到限制。人機交互方式分類按自然交互的方式分類,可分為:1.體態(tài)語言交互:通過肢體語言和姿勢來與機器進行互動。手勢識別:通過具有符號功能的手勢來進行信息交流和控制機器人。肢體動作識別:多關(guān)節(jié)協(xié)同動作,通過全身動作與機器人交互。姿態(tài)行為理解:識別整體身體姿態(tài)及行為,理解用戶意圖。2.語音交互:通過語音指令與機器進行交流,實現(xiàn)控制與反饋。應(yīng)用:如智能助手(Siri、Alexa)、智能家居控制等。優(yōu)點:交互自然,不需要物理接觸,適合遠程操作。3.其他交互方式:如眼球、意念、表情、唇讀等,針對不同的應(yīng)用和人群,在特殊情況下更為有效。應(yīng)用:面部識別、情感識別、增強現(xiàn)實(AR)互動等。人-機器人協(xié)作控制被動協(xié)作控制:機器人沒有自己的運動意圖或期望運動軌跡,只是強調(diào)對外部交互力的響應(yīng),以順應(yīng)其伙伴,如人類伙伴的運動意圖。應(yīng)用:人-機器人拖動示教。例子:Ficuciello等采用被動阻抗調(diào)制策略,在KUKALWR4機器人上進行試驗,機器人順應(yīng)接觸力,但仍表現(xiàn)出負載特性。共享協(xié)作控制:機器人和人類伙伴都有各自的運動意圖或目標軌跡。機器人在外部干預下平衡自身運動意圖與環(huán)境順應(yīng)之間的關(guān)系。例子:Li等使用博弈論實現(xiàn)自然交互,Kucukyilmaz研究動態(tài)角色交換機制,Wang等提出參考軌跡自適應(yīng)方法。主動協(xié)作控制:機器人主動估計、預測或?qū)W習合作伙伴的運動意圖、任務(wù)分配、協(xié)作角色、動力學參數(shù)和成本函數(shù),增強協(xié)作的靈活性和自然性。人-機器人協(xié)作控制人類意圖理解行為識別:指檢測和分類給定輸入信息中的人類活動,從而理解人的行為。在人機協(xié)作中,行為識別幫助判斷人的意圖,并影響機器人的反應(yīng)。早期研究:主要聚焦于簡單行為(如跑步、行走)在固定背景下的識別,重點在設(shè)計運動特征和描述符。當前挑戰(zhàn):人機協(xié)作的特殊需求:在協(xié)作中,不同行為之間差異小且無明顯時間間隔,需要識別相似度高的行為。實時處理問題:現(xiàn)有算法仍主要處理整段數(shù)據(jù),無法實時處理片段數(shù)據(jù),限制了其在人機交互中的應(yīng)用。未來方向:需要開發(fā)適應(yīng)動態(tài)場景的實時行為檢測與識別算法。人-機器人協(xié)作控制人類意圖理解基于運動預測的意圖理解:通過識別人類當前的動作意圖,預測未來運動,幫助機器人動態(tài)理解人的意圖,完成互適應(yīng)的協(xié)作任務(wù)。在動態(tài)、不確定的情境下,機器人通過預測人的運動,實現(xiàn)更準確的協(xié)作。知識網(wǎng)絡(luò)與意圖理解:建立層次化的知識網(wǎng)絡(luò),機器人利用結(jié)構(gòu)化知識“讀取”人的意圖。手臂軌跡分析:通過神經(jīng)網(wǎng)絡(luò)建模動態(tài)運動信息,分析手臂軌跡,推理目標位置。使用Kinect數(shù)據(jù),在3D空間建模目標位置,并通過近似EM算法進行在線學習。建立意圖導向動態(tài)模型:利用貝葉斯理論推斷運動生成過程,并結(jié)合意圖理解,支持機器人的學習與協(xié)作。人-機器人協(xié)作控制人機交互安全性隨著老齡化社會和人力資源短缺,機器人從工廠擴展到家庭和辦公室等有人環(huán)境。安全性和可靠性是機器人成功融入有人環(huán)境的關(guān)鍵。機器人應(yīng)減少人類疲勞、提高力量、速度和精度,同時提供經(jīng)驗和理解力。然而,機器人在非結(jié)構(gòu)化環(huán)境中的自主行為可能帶來安全風險,特別是物理人機交互(pHRI)中的潛在傷害。目前,機器人安全標準尚不明確,尤其在實際應(yīng)用中仍需解決安全性問題。人-機器人協(xié)作控制1.安全框架擬人感知:人們期望機器人具備類似人類的品質(zhì)和能力,尤其在物理交互中,機器人設(shè)計類似人類機械臂更易理解。認知與任務(wù)執(zhí)行:機器人服務(wù)員側(cè)重任務(wù)執(zhí)行,而機器人同伴更注重認知交互。交互方式因人而異,機器人反應(yīng)也有所不同。交互界面設(shè)計:有效的溝通依賴共同理解領(lǐng)域,界面設(shè)計確保機器人始終處于控制之下。pHRI安全性:關(guān)注機器人與用戶的碰撞風險,評估機器人傳遞的能量和功率對用戶的潛在傷害。人-機器人協(xié)作控制2.安全pHRI中的力學和控制問題被動安全性限制:簡單添加被動順應(yīng)性覆蓋物不足以解決高沖擊載荷問題。大慣性機械臂難以根本解決此問題??刂撇呗裕哼m當控制律和復雜的軟件架構(gòu)能改善安全性,盡管無法完全彌補機械設(shè)計缺陷。力/阻抗控制:可以使用外部感知設(shè)備,用于監(jiān)控任務(wù)執(zhí)行,降低意外風險,但依然存在系統(tǒng)故障和不可預測行為的威脅。運動控制的局限:當前工業(yè)機器人多為位置控制,單一運動控制無法應(yīng)對非結(jié)構(gòu)化環(huán)境中的交互任務(wù)。力/阻抗控制的優(yōu)勢:提供柔順性,減少意外接觸力,實現(xiàn)更自然的物理交互。機器人動態(tài)行為控制阻抗控制:廣泛應(yīng)用于機器人與環(huán)境的物理交互,阻抗參數(shù)描述交互力與運動之間的關(guān)系。能夠調(diào)節(jié)交互點的動態(tài)行為,但僅為動態(tài)行為控制的一種方法。多點交互控制:在多點交互中,接觸點的行為與其他點的狀態(tài)相關(guān),傳統(tǒng)的阻抗模型無法完全描述,需要用更為一般的動態(tài)行為模型來描述。主動人-機器人協(xié)作人機協(xié)作在個性化制造中具有重要應(yīng)用,結(jié)合人的靈活性與機器人的精度優(yōu)勢。為了實現(xiàn)更好的協(xié)作,機器人需要實時感知、分析工作場景,并主動做出決策。當前的人機協(xié)作研究主要集中在人類認知上,但缺乏對工作場景中其他元素的全面考慮,尤其是當向主動協(xié)作發(fā)展時。隨著深度學習和計算機視覺技術(shù)的發(fā)展,人機協(xié)作系統(tǒng)正向多模態(tài)通信和上下文感知發(fā)展,從反應(yīng)式機器人輔助向更智能的協(xié)同任務(wù)執(zhí)行轉(zhuǎn)變。主動式人機協(xié)作的目標是實現(xiàn)人類操作員和機器人之間的自組織、雙向協(xié)作,以應(yīng)對復雜的工業(yè)任務(wù)。主動人-機器人協(xié)作主動場景理解:實現(xiàn)人機主動協(xié)作,全面理解人機協(xié)作場景,提取環(huán)境信息并轉(zhuǎn)化為決策與規(guī)劃知識。三個層次的視覺理解:對象層次:識別任務(wù)相關(guān)物體。人類層次:識別人類動作、意圖。環(huán)境層次:分析環(huán)境的影響因素。環(huán)境智能感知:獲取場景中物體屬性(如位置、狀態(tài)),并篩選與任務(wù)相關(guān)的信息(例如水杯的位置,排除無關(guān)數(shù)據(jù)如背景墻壁)。視覺注意力選擇性機制:模仿人類選擇性注意力,聚焦與任務(wù)相關(guān)的視覺信息,濾除干擾,提升場景理解效率。通過選擇性注意機制與語義分割技術(shù),精準提取關(guān)鍵物體,增強任務(wù)執(zhí)行成功率。主動人-機器人協(xié)作主動對象感知對象識別1)簡單地將物體分類為不同的類別,如扳手、螺釘、齒輪等;使用激光掃描、KNN、SVM等方法進行物體分類。2)根據(jù)利用率或?qū)傩裕ㄈ缱ノ瘴恢?、工具功能等)精心識別物體的功能可用性。以表示物體的交互特性,例如抓握點在哪里以及可以對物體執(zhí)行什么動作。對象定位1)檢測,它用對象周圍的邊界框表示對象位置;2)分割,基于對象的幾何信息定位對象并輸出像素級分割結(jié)果;3)其他,其主要依賴于先驗知識或幾何信息來定位對象。主動人-機器人協(xié)作主動對象感知目標姿態(tài)估計物體姿態(tài)估計是自主機器人操作的一塊缺失的拼圖,因為它可以以3D物體模型和感官觀察之間映射的形式提供精確的物體姿態(tài),根據(jù)主要輸入或特征源將其進一步分為兩類。1)2D特征:僅使用2D圖像作為輸入源來解決6自由度姿態(tài)估計。2)點云:盡管只使用2DRGB相機有好處,但深度信息在精確的6D姿態(tài)估計過程中仍然很重要。利用深度信息的常用方法是將深度或RGB-D圖像轉(zhuǎn)換為點云。主動人-機器人協(xié)作主動人員識別1.人員定位:為了實現(xiàn)有效的人-機器人協(xié)作,應(yīng)首先定位人類在人機協(xié)作場景中的位置,以便機器人能夠在不與人體碰撞的情況下主動規(guī)劃其協(xié)作動作。1)人體檢測:安全性是人機協(xié)作系統(tǒng)設(shè)計中的關(guān)鍵,防撞方法通過圖像處理技術(shù)(如邊緣檢測、形狀濾波)在RGB-D圖像中分割并檢測人體,從而計算危險指數(shù),但此方法在非受控環(huán)境中存在局限性。2)人臉檢測:人機協(xié)作利用人臉檢測來檢索人體位置信息,并獲得識別操作員的機會。2.人類活動1)識別:機器人應(yīng)該通過攝像機或其他傳感器了解一個人過去和現(xiàn)在的狀態(tài),從而了解人類從事的活動。2)預測:一些研究人員傾向于預測人類操作員的預期行為。主動人-機器人協(xié)作主動人員識別3.人體姿勢1)身體姿勢:人體姿勢通常被表述為從傳感器數(shù)據(jù)推斷出的骨骼或關(guān)節(jié)圖,以支持人機協(xié)作中的細粒度機器人規(guī)劃。Kinect相機和CNN模型廣泛用于靜態(tài)姿勢估計,如PoseNet和OpenPose用于關(guān)節(jié)位置估計和人體工程學分析。過融合傳感器數(shù)據(jù)和分類器(如CNN、KNN、SVM),可以識別工人的站立姿勢。2)手勢識別:早期方法依賴手工特征(如HOG、Hu矩)和分類器(如隨機森林、SVM)進行手勢分類,用于機器人控制和遙操作。近年來,基于深度學習的手勢識別逐漸取代傳統(tǒng)方法,提升了魯棒性。此外,還使用肌電圖(EMG)和腦電圖(EEG)等非視覺手段用于手勢識別和機器人控制。主動人-機器人協(xié)作主動環(huán)境分析為了處理更復雜的任務(wù),例如導航到看不見的地方以獲取人機協(xié)作組裝過程中所需的特定工具,機器人應(yīng)具備更全面地感知和建模整個工作環(huán)境的技能。1.場景圖:將環(huán)境的感知結(jié)果轉(zhuǎn)換為拓撲圖結(jié)構(gòu)。2.2D地圖:為了能夠表示場景元素的詳細幾何關(guān)系,2D地圖是遵循人類實踐經(jīng)驗的自然選擇,通常采用俯視圖的形式。3.3D表示:精細的3D信息(如點云和體素圖)被用來表示環(huán)境,支持更復雜的操作并避免碰撞。主動人-機器人協(xié)作主動視覺推理對物體、人和環(huán)境的感知可以提供對人機協(xié)作工作場景的整體理解。為了彌合場景理解和主動決策之間的差距,機器人在與人類操作員協(xié)作時需要一種推理機制。視覺推理是指通過對人機協(xié)作場景的視覺觀察,對視覺線索的潛在含義或未來機器人動作的指示進行推理。1.視覺提示基于視覺線索的推理是協(xié)作機器人更高層次認知智能的基本要求。早期工作包括使用貝葉斯決策方法推理裝配零件檢測的傳感模式和利用卷積變分自編碼(ConvVAE)與LSTM模型進行目標圖像推理,幫助機器人自動選擇零件。2.視覺和語言提示結(jié)合視覺和語言線索進行推理能提供更準確的信息。早期工作通過數(shù)學模型和知識庫模型結(jié)合視覺和語言信息,增強推理能力,例如集成對象定位、人類活動識別與語音識別進行推理。挑戰(zhàn)和未來方向1.基于功能可用性的智能物體認知機器人應(yīng)具備智能的認知能力,不僅識別物體類別,還能理解與后續(xù)動作相關(guān)的物體固有價值。在復雜的人機協(xié)作任務(wù)中,機器人可能面對未知對象,但依然需要根據(jù)已識別對象的功能進行拆卸規(guī)劃。2.協(xié)同操作對象的精確建模盡管計算機視覺在物體檢測和分類中廣泛應(yīng)用,人機協(xié)作中的精確物體建模仍存在挑戰(zhàn)。尤其在裝配任務(wù)中,實時的6-DoF目標姿態(tài)估計技術(shù)對精確建模至關(guān)重要,但受到依賴CAD模型、遮擋問題和計算效率等限制,影響了其實際應(yīng)用。3.更精細的人體感知計算機視覺中的密集人體姿勢和手勢建模趨勢,為更精細的人體感知提供了新的可能,尤其適用于主動式人機協(xié)作場景。挑戰(zhàn)和未來方向4.分層和混合工作空間建模傳統(tǒng)的工作空間建模方法(如場景圖、2D地圖、3D表示)無法滿足未來人機協(xié)作系統(tǒng)的需求,特別是在靈活制造車間中。為支持精細協(xié)作和中長導航任務(wù),分層和混合環(huán)境表示成為優(yōu)選方案,具備動態(tài)交替和交互機制,適應(yīng)不同粒度的應(yīng)用。5.視覺語言推理視覺和語言推理是實現(xiàn)人機協(xié)作中人機無縫協(xié)作的關(guān)鍵。盡管已有大量研究利用視覺和語言線索進行推理,但大多數(shù)工作忽視了知識庫的整合,并主要關(guān)注固定機械臂推理,而非移動機器人在更長時間和物理距離上的推理需求。6.基于視覺場景理解的延遲問題視覺傳感器在人機協(xié)作場景中的應(yīng)用受限于延遲問題,主要由低采樣率、大數(shù)據(jù)流和計算復雜性引起。隨著5G和Wi-Fi等技術(shù)的發(fā)展,數(shù)據(jù)流問題有所緩解,但如何減少算法級別的計算延遲仍是挑戰(zhàn)。利用神經(jīng)架構(gòu)搜索技術(shù)來搜索特定任務(wù)和硬件平臺的有效模型結(jié)構(gòu),希望自動獲得輕量級和低延遲模型。謝謝機器人-環(huán)境交互技術(shù)機器人-環(huán)境交互分類依據(jù)機器人與其環(huán)境之間交互的性質(zhì),可分為兩類:非接觸任務(wù)和接觸任務(wù)。第一種即自由空間中的無約束運動,如機器人攜帶攝像頭進行巡檢等,機器人對環(huán)境沒有任何的影響。在非接觸任務(wù)中,機器人自身的動力學對其性能有著至關(guān)重要的影響。與這些任務(wù)相反,許多復雜的高級機器人應(yīng)用屬于接觸任務(wù),如裝配和加工,需要機械臂與其他物體進行力耦合。機器人-環(huán)境交互建模剛性機械臂與環(huán)境交互的動力學模型由以下形式的向量微分方程描述:使用機器人雅可比矩陣,我們可以將機器人動力學模型從關(guān)節(jié)坐標系轉(zhuǎn)換為末端執(zhí)行器坐標系:由于力相互作用過程通常非常復雜,很難用精確的數(shù)學方法進行描述,因此不得不引入某些簡化,從而部分地將問題理想化。在實踐中,交互力
通常建模為機器人動力學的函數(shù),即末端執(zhí)行器的運動(位置、速度和加速度)和控制輸入的函數(shù):(1)(2)(3)機器人-環(huán)境交互控制對柔順運動控制中遇到的問題進行了廣泛的研究,提出并闡述了幾種控制策略和方案。這些方法可以根據(jù)柔順的種類進行初步的系統(tǒng)化。根據(jù)該標準,可以區(qū)分柔順運動的兩組基本控制概念,如下所示:被動柔順,由于機械手結(jié)構(gòu)、伺服或特殊柔順裝置中固有的柔順性,末端執(zhí)行器位置由接觸力本身調(diào)節(jié);主動柔順,其中柔順性通過構(gòu)建力反饋閉環(huán)來實現(xiàn),以便通過控制交互力或通過在機器人末端生成特定于任務(wù)的順應(yīng)性來實現(xiàn)可編程機器人反應(yīng)。主動柔順控制方法可分為力控制和阻抗控制。主動柔順控制方法力控制,即通常的位置/力控制,其中所需的交互力和機器人位置都受到控制。在力控制中,給定期望的力軌跡,并測量力以實現(xiàn)反饋控制。力控制方法可以分為力位混合控制、統(tǒng)一力/位置控制、并聯(lián)位置/力控制等。阻抗控制,它使用作用力和末端執(zhí)行器位置之間的不同關(guān)系來調(diào)整末端執(zhí)行器對外力的機械阻抗。阻抗控制問題可以定義為設(shè)計控制器的要求,以便交互力根據(jù)目標阻抗定律控制末端執(zhí)行器的標稱位置和實際位置之間的差異。阻抗控制可以分為基于力控制的阻抗控制和基于位置控制的阻抗控制。機器人-環(huán)境交互控制發(fā)展趨勢通過分析國內(nèi)外研究現(xiàn)狀,不難發(fā)現(xiàn)機器人-環(huán)境交互控制技術(shù)還不能滿足要求。在機器人-環(huán)境交互控制領(lǐng)域還有許多問題亟待解決:首先,對于機器人-環(huán)境交互問題,目前很多研究只考慮機器人的阻抗控制參數(shù),并未考慮環(huán)境模型參數(shù)。這使得系統(tǒng)模型并不完整。當機器人與環(huán)境相互作用時,將機器人與環(huán)境作為一個整體來考慮是很自然的。其次,對于機器人-環(huán)境交互問題,目前許多研究假設(shè)環(huán)境參數(shù)是已知的,這在實際應(yīng)用中通常無法實現(xiàn)。第三,對于機器人-環(huán)境交互問題,目前許多研究都假設(shè)交互只發(fā)生在單個接觸點上,而機器人-環(huán)境多點交互問題非常常見,但目前關(guān)于這方面的研究很少。第四,對于機器人-環(huán)境交互問題,通常采用阻抗控制方法。但是阻抗控制只是動態(tài)行為控制的一種特殊情況,其在很多復雜場合的應(yīng)用受到限制。為此,需要進一步研究更為一般的動態(tài)行為控制模型和框架來解決這類問題。展望
對于環(huán)境動力學模型和位置參數(shù)未知的機器人-環(huán)境交互問題,如何獲得優(yōu)化的交互性能是一個非常重要和復雜的問題。對于這類問題,強化學習方法提供了非常合適的工具。在強化學習方法中,系統(tǒng)與環(huán)境之間相互作用產(chǎn)生的強化信號是對當前行為的評價,然后根據(jù)強化信號更新控制策略以適應(yīng)環(huán)境。在機器人-環(huán)境交互中,交互作用力是對當前機器人-環(huán)境交互行為的一個評價標準,基于這一指標可以對阻抗行為進行更新以獲得優(yōu)化的交互性能。這兩種情況非常類似,因此可以使用強化學習方法解決機器人-未知環(huán)境交互控制問題。謝謝協(xié)作機器人操作控制目錄CONtants操作任務(wù)分類010203操作任務(wù)建模操作技能學習操作任務(wù)分類從是否需要進行力控制可以分為力控制操作任務(wù)和不需要力控制的操作任務(wù);從被操作環(huán)境的動力學特性可以分為剛性接觸、柔性接觸、塑性接觸、摩擦接觸等;
從機器人-環(huán)境耦合特性可以分為瞬時耦合、松耦合和緊耦合三種,瞬時耦合包括拾取并放置任務(wù),松耦合包括按壓按鈕、軸孔裝配或插入任務(wù),緊耦合包括開關(guān)門、轉(zhuǎn)動閥門等;從機器人-環(huán)境接觸狀態(tài)是否可變分為定接觸狀態(tài)任務(wù)和變接觸狀態(tài)任務(wù);從任務(wù)階段可分為單階段任務(wù)和多階段任務(wù);從環(huán)境是否可變可分為定常操作任務(wù)和變化操作任務(wù);從環(huán)境結(jié)構(gòu)性特點可分為結(jié)構(gòu)性操作任務(wù)和非結(jié)構(gòu)性操作任務(wù)。操作任務(wù)建模機器人-環(huán)境接觸動力學模型如下所示:技能學習意義隨著機器人技術(shù)的發(fā)展,人們期望機器人具備更強的自主操作能力,在更多領(lǐng)域代替人類完成更加復雜的操作任務(wù);在人工分析機器人行為特性和工作任務(wù)要求的基礎(chǔ)上,采用傳統(tǒng)復雜編程、遙操作或示教編程等常規(guī)方法可使機器人具備一定的操作技能,較好地勝任諸多結(jié)構(gòu)化工作環(huán)境和單一固定任務(wù)的工作場景,完成快速、準確、可重復位置和力控制的任務(wù);
采用傳統(tǒng)常規(guī)方法設(shè)計的機器人操作技能不能動態(tài)地適應(yīng)非結(jié)構(gòu)化工作環(huán)境或場景多變的工作場合,且機器人操作技能開發(fā)過程中存在著周期長、效率低、工作量大及不能滿足需求的多樣性等諸多難題;采用機器學習方法設(shè)計具備一定自主決策和學習能力的機器人操作技能學習系統(tǒng),使機器人在復雜、動態(tài)的環(huán)境中學習并獲取操作技能,能彌補傳統(tǒng)編程等常規(guī)方法的缺陷,極大提高機器人對環(huán)境的適應(yīng)能力。研究現(xiàn)狀近年來,機器人操作技能學習研究正逐漸成為機器人研究領(lǐng)域的前沿和熱點,新的學習方法被逐漸應(yīng)用于機器人的操作技能學習中,諸多著名研究機構(gòu)和公司,如DeepMind、加州大學伯克利分校、OpenAI、GoogleBrain、清華大學、等在此領(lǐng)域取得了一定的成果,但仍面臨著巨大挑戰(zhàn)??捎枚喾N機器學習算法實現(xiàn)機器人操作技能學習,機器人訓練數(shù)據(jù)的產(chǎn)生方式?jīng)Q定了機器人學習所要采用的具體方法。機器人操作技能學習所需數(shù)據(jù)大致可由機器人與環(huán)境交互產(chǎn)生或由專家提供。因此,機器人操作技能學習方法分為基于強化學習的方法,基于示教學習的方法和基于小樣本數(shù)據(jù)學習的方法?;趶娀瘜W習的方法馬爾科夫過程MDP(S,A,R,P,r)優(yōu)化目標值函數(shù)基于值函數(shù)的方法分為基于模型學習的值函數(shù)方法和無模型的值函數(shù)方法??傮w而言,基于無模型的值函數(shù)方法不需對系統(tǒng)建模,計算量小,但價值函數(shù)的獲取需要通過機器人與環(huán)境的不斷交互采樣估計得到?;趯W習模型的值函數(shù)方法首先需要依據(jù)機器人與環(huán)境的交互數(shù)據(jù)學習得到系統(tǒng)模型,并基于該模型采用仿真形式得到最優(yōu)策略,故其在真實環(huán)境中所需的樣本少,但計算量大?;趶娀瘜W習的方法使用參數(shù)化策略
時,強化學習的優(yōu)化目標為:策略梯度的計算公式如下:策略參數(shù)更新公式如下:在機器人操作技能學習領(lǐng)域,策略搜索比基于價值函數(shù)的強化學習更具優(yōu)勢,主要體現(xiàn)在:1)采用策略搜索方法可以較為方便的融入專家知識,可依據(jù)獲取的專家策略對神經(jīng)網(wǎng)絡(luò)參數(shù)進行初始化,以加速策略優(yōu)化的收斂過程;2)策略函數(shù)比價值函數(shù)具有更少的學習參數(shù),基于策略搜索的強化學習算法更加高效?;趶娀瘜W習的方法基于參數(shù)化策略的方法基于強化學習的方法基于深度神經(jīng)網(wǎng)絡(luò)的深度學習作為機器學習領(lǐng)域的新分支,其通過組合低層特征形成更加抽象的高層表示,以得到數(shù)據(jù)的分布式特征。近年來,諸多學者將深度學習和強化學習相結(jié)合得到的深度強化學習算法成功應(yīng)用于視頻游戲、圍棋等領(lǐng)域。與常規(guī)強化學習方法相比,深度強化學習算法將具有強表征能力的深度神經(jīng)網(wǎng)絡(luò)用于強化學習中價值函數(shù)和策略函數(shù)的表達,避免了人為手工設(shè)計特征,同時也易融入環(huán)境中的圖像感知信息,較適合于機器人操作技能學習。DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖基于深度強化學習的方法基于人機交互強化學習的方法使用人機交互式強
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 交通運輸行業(yè)二手房合同
- 道路橋梁施工合同備案說明
- 承包破樁工程合同范例
- 夜視儀租賃協(xié)議三篇
- 農(nóng)村土地集體收益分配合同三篇
- 貨款預存協(xié)議書模板
- 外調(diào)工作人員合同
- 退還合同保證金法條
- 工業(yè)機床煙霧凈化器技術(shù)協(xié)議書
- 集體合同備案交流材料工作總結(jié)
- nginx學習分享串講課件
- 并購功夫:2015本土并購十大經(jīng)典案例詳解
- 宇通客車新媒體運營與傳播方案
- 國家開放大學《行政組織學》形考1-5標準答案
- 租賃房屋交接清單49226
- 公司4M變更申請通知書
- 2014高考語文一輪復習課外文言訓練-文天祥傳
- 《愚公移山》比較閱讀16篇(歷年中考語文文言文閱讀試題匯編)(含答案與翻譯)(截至2021年)
- 食品安全BRCGS包裝材料全球標準第六版管理手冊及程序文件
- 交通信號控制系統(tǒng)檢驗批質(zhì)量驗收記錄表
- 物流公司人員配置及崗位職責(6篇)
評論
0/150
提交評論