




已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
上海大學(xué)研究生學(xué)位論文開題報告嵌入式計算機(jī)視覺系統(tǒng)對自然場景理解方法研究 指導(dǎo)老師 宋進(jìn) 姓 名 李賠龍 學(xué) 號 09721169 專 業(yè) 機(jī)械制造及其自動化 類 別 碩 士 日 期 2011年01月 10日 12目錄1計算機(jī)視覺與圖像理解11.1計算機(jī)視覺的定義11.2計算機(jī)視覺的原理及解析21.3圖像理解和自然場景認(rèn)知32本文的研究目的,背景和意義42.1研究目的42.2研究背景及技術(shù)發(fā)展趨勢42.3技術(shù)發(fā)展趨勢62.4研究意義62.4.1理論意義62.4.2實踐意義73主要研究內(nèi)容及理論創(chuàng)新73.1DSP嵌入式實驗平臺的搭建73.2課題解決的核心問題及難點93.3理論創(chuàng)新點94預(yù)期困難及達(dá)到結(jié)果105參考文獻(xiàn):11嵌入式計算機(jī)視覺系統(tǒng)對自然場景理解方法研究摘要:21世紀(jì)隨著移動機(jī)器人技術(shù)的迅猛發(fā)展,機(jī)器人要想發(fā)揮更大的作用,從室內(nèi)結(jié)構(gòu)化環(huán)境走向室外自然環(huán)境,機(jī)器人導(dǎo)航成為重點要解決的的問題。然而導(dǎo)航本身是一個很龐大的課題,涉及到多種關(guān)鍵技術(shù)。機(jī)器人能否像人類一樣感知環(huán)境并作出正確的理解與判斷將成為導(dǎo)航技術(shù)成敗的關(guān)鍵。環(huán)境感知是機(jī)器人進(jìn)行決策規(guī)劃的基礎(chǔ),環(huán)境感知能力的強(qiáng)弱直接影響機(jī)器人的控制決策能力。如何提高機(jī)器人對外界環(huán)境的感知理解能力是智能機(jī)器人研究中非常重要的課題,本課題從圖像理解的角度入手,依托嵌入式DSP系統(tǒng),研究算法重點解決自然場景的理解與感知問題,為機(jī)器人從室內(nèi)走向室外,為機(jī)器人的導(dǎo)航做準(zhǔn)備。關(guān)鍵詞:計算機(jī)視覺;嵌入式DSP系統(tǒng);圖像理解;1 計算機(jī)視覺與圖像理解1.1 計算機(jī)視覺的定義計算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學(xué)學(xué)科,計算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。這里所 指的信息指Shannon定義的,可以用來幫助做一個“決定”的信息。因為感知可以看作是從感官信號中提 取信息,所以計算機(jī)視覺也可以看作是研究如何使人工系統(tǒng)從圖像或多維數(shù)據(jù)中“感知”的科學(xué)。計算機(jī)視覺是使用計算機(jī)及相關(guān)設(shè)備對生物視覺的一種模擬。它的主要任務(wù)就是通過對采集的圖片或視頻進(jìn)行處理以獲得相應(yīng)場景的三維信息,就像人類和許多其他類生物每天所做的那樣。計算機(jī)視覺既是工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性重要研究領(lǐng)域。計算機(jī)視覺是一門綜合性的學(xué)科,它已經(jīng)吸引了來自各個學(xué)科的研究者參加到對它的研究之中。其中包括計算機(jī)科學(xué)和工程、信號處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué),神經(jīng)生理學(xué)和認(rèn)知科學(xué)等。1.2 計算機(jī)視覺的原理及解析計算機(jī)視覺就是用各種成象系統(tǒng)代替視覺器官作為輸入敏感手段,由計算機(jī)來代替大腦完成處理和解釋。計算機(jī)視覺的最終研究目標(biāo)就是使計算機(jī)能象人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。要經(jīng)過長期的努力才能達(dá)到的目標(biāo)。因此,在實現(xiàn)最終目標(biāo)以前,人們努力的中期目標(biāo)是建立一種視覺系統(tǒng),這個系統(tǒng)能依據(jù)視覺敏感和反饋的某種程度的智能完成一定的任務(wù)。例如,計算機(jī)視覺的一個重要應(yīng)用領(lǐng)域就是自主車輛的視覺導(dǎo)航,目前還沒有條件實現(xiàn)象人那樣能識別和理解任何環(huán)境,完成自主導(dǎo)航的系統(tǒng)。因此,目前人們努力的研究目標(biāo)是實現(xiàn)在高速公路上具有道路跟蹤能力,可避免與前方車輛碰撞的視覺輔助駕駛系統(tǒng)。這里要指出的一點是在計算機(jī)視覺系統(tǒng)中計算機(jī)起代替人腦的作用,但并不意味著計算機(jī)必須按人類視覺的方法完成視覺信息的處理。計算機(jī)視覺可以而且應(yīng)該根據(jù)計算機(jī)系統(tǒng)的特點來進(jìn)行視覺信息的處理。但是,人類視覺系統(tǒng)是迄今為止,人們所知道的功能最強(qiáng)大和完善的視覺系統(tǒng)。如在以下的章節(jié)中會看到的那樣,對人類視覺處理機(jī)制的研究將給計算機(jī)視覺的研究提供啟發(fā)和指導(dǎo)。因此,用計算機(jī)信息處理的方法研究人類視覺的機(jī)理,建立人類視覺的計算理論,也是一個非常重要和信人感興趣的研究領(lǐng)域。這方面的研究被稱為計算視覺(Computational Vision)。計算視覺可被認(rèn)為是計算機(jī)視覺中的一個研究領(lǐng)域。視覺是各個應(yīng)用領(lǐng)域,如制造業(yè)、檢驗、文檔分析、醫(yī)療診斷,和軍事等領(lǐng)域中各種智能自主系統(tǒng)中不可分割的一部分。由于它的重要性,一些先進(jìn)國家,例如美國把對計算機(jī)視覺的 圖1 計算機(jī)視覺與其他領(lǐng)域的關(guān)系研究列為對經(jīng)濟(jì)和科學(xué)有廣泛影響的科學(xué)和工程中的重大基本問題,即所謂的重大挑戰(zhàn)(grand challenge)。計算機(jī)視覺的挑戰(zhàn)是要為計算機(jī)和機(jī)器人開發(fā)具有與人類水平相當(dāng)?shù)囊曈X能力。機(jī)器視覺需要圖象信號,紋理和顏色建模,幾何處理和推理,以及物體建模。一個有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都緊密地集成在一起。作為一門學(xué)科,計算機(jī)視覺開始于60年代初,但在計算機(jī)視覺的基本研究中的許多重要進(jìn)展是在80年代取得的。計算機(jī)視覺與人類視覺密切相關(guān),對人類視覺有一個正確的認(rèn)識將對計算機(jī)視覺的研究非常有益。為此我們將先介紹人類視覺。 人類正在進(jìn)入信息時代,計算機(jī)將越來越廣泛地進(jìn)入幾乎所有領(lǐng)域。一方面是更多未經(jīng)計算機(jī)專業(yè)訓(xùn)練的人也需要應(yīng)用計算機(jī),而另一方面是計算機(jī)的功能越來越強(qiáng),使用方法越來越復(fù)雜。這就使人在進(jìn)行交談和通訊時的靈活性與目前在使用計算機(jī)時所要求的嚴(yán)格和死板之間產(chǎn)生了尖銳的矛盾。人可通過視覺和聽覺,語言與外界交換信息,并且可用不同的方式表示相同的含義,而目前的計算機(jī)卻要求嚴(yán)格按照各種程序語言來編寫程序,只有這樣計算機(jī)才能運行。為使更多的人能使用復(fù)雜的計算機(jī),必須改變過去的那種讓人來適應(yīng)計算機(jī),來死記硬背計算機(jī)的使用規(guī)則的情況。而是反過來讓計算機(jī)來適應(yīng)人的習(xí)慣和要求,以人所習(xí)慣的方式與人進(jìn)行信息交換,也就是讓計算機(jī)具有視覺、聽覺和說話等能力。這時計算機(jī)必須具有邏輯推理和決策的能力。具有上述能力的計算機(jī)就是智能計算機(jī)。智能計算機(jī)不但使計算機(jī)更便于為人們所使用,同時如果用這樣的計算機(jī)來控制各種自動化裝置特別是智能機(jī)器人,就可以使這些自動化系統(tǒng)和智能機(jī)器人具有適應(yīng)環(huán)境和自主作出決策的能力。這就可以在各種場合取代人的繁重工作,或代替人到各種危險和惡劣環(huán)境中完成任務(wù)。1.3 圖像理解和自然場景認(rèn)知圖像理解(image understanding, IU)就是對圖像的語義理解。它是以圖像為對象,知識為核心,研究圖像中有什么目標(biāo)、目標(biāo)之間的相互關(guān)系、圖像是什么場景以及如何應(yīng)用場景的一門學(xué)科。圖像理解屬于數(shù)字圖像處理的研究內(nèi)容之一,屬于高層操作。其重點是在圖像分析的基礎(chǔ)上進(jìn)一步研究圖像中各目標(biāo)的性質(zhì)及其相互關(guān)系,并得出對圖像內(nèi)容含義的理解以及對原來客觀場景的解釋,進(jìn)而指導(dǎo)和規(guī)劃行為。圖像理解所操作的對象是從描述中抽象出來的符號,其處理過程和方法與人類的思維推理有許多相似之處。 詞條圖冊更多圖冊給定一幅圖象,圖象理解程序不僅描述圖象本身,而且描述和解釋圖象所代表的景物,以便對圖象代表的內(nèi)容作出決定。在人工智能視覺研究的初期經(jīng)常使用景物分析這個術(shù)語,以強(qiáng)調(diào)二維圖象與三維景物之間的區(qū)別。圖象理解除了需要復(fù)雜的圖象處理以外還需要具有關(guān)于景物成象的物理規(guī)律的知識以及與景物內(nèi)容有關(guān)的知識。在建立計算機(jī)視覺系統(tǒng)時需要用到上述學(xué)科中的有關(guān)技術(shù),但計算機(jī)視覺研究的內(nèi)容要比這些學(xué)科更為廣泛。計算機(jī)視覺的研究與人類視覺的研究密切相關(guān)。為實現(xiàn)建立與人的視覺系統(tǒng)相類似的通用計算機(jī)視覺系統(tǒng)的目標(biāo)需要建立人類視覺的計算機(jī)理論。從認(rèn)知論的角度來考慮,為了能夠?qū)ψ匀粓鼍暗恼w或各局部區(qū)域進(jìn)行有效理解,首先必須對場景進(jìn)行有效的描述,其中特征選擇是其重要環(huán)節(jié)之一.對于室內(nèi)結(jié)構(gòu)化環(huán)境常常用邊緣、角點特征加以描述,而對于室外的自然場景,由于區(qū)域的模糊性往往無法找到類似的規(guī)則化特征,因此特征的選擇對自然場景的描述至關(guān)重要.采用顏色均值、顏色直方圖以及紋理等分層變長特征來表征不同地表物質(zhì).然而實際環(huán)境中顏色易受光照強(qiáng)度的影響,紋理易受尺度的影響,所以都不適用于復(fù)雜多變的自然環(huán)境.受生物視覺系統(tǒng)的啟發(fā),生物視覺皮層上的V1細(xì)胞具有類似Gabor濾波器和高斯拉普拉斯濾波器的作用,即該類細(xì)胞可將視覺信號分解為基頻信號分量的線性組合,由此得到的Texton特征在處理自然圖像上較為常用.采用局部描述符進(jìn)行移動機(jī)器人室外自定位和地理信息識別,這些特征對環(huán)境的尺度、平移、旋轉(zhuǎn)變換均具有較好的不變性.Lowe受生物視覺模型啟發(fā)得到尺度不變描述符SIFT.該模型基于一種復(fù)雜的視覺神經(jīng)細(xì)胞,認(rèn)為該細(xì)胞對場景中特定取向和空間頻率的梯度信息敏感,這種信息代表著某一場景的不變量,而SIFT正是對該不變量的描述.Serre等受生物視覺皮質(zhì)組織機(jī)理的啟發(fā)給出復(fù)雜度漸增的生物學(xué)新特征,該特征可更有效應(yīng)用于大尺度自然場景圖像的辨識和理解.其次從認(rèn)知的層次上看,Marr在他開創(chuàng)性的著作中給出了視覺理解過程的三個階段,即提取角點、邊緣、紋理等基本特征;獲取場景可見部分深度、法線方向和輪廓等信息;恢復(fù)、表示和識別三維物體.早期人們認(rèn)為對場景的理解過程首先是對場景中各物體的識別,然后才是對場景整體的認(rèn)識,即自下而上的過程.然而近年來認(rèn)知領(lǐng)域的發(fā)展對這一問題有了新認(rèn)識,人們只需少量的信息即可快速對場景做出判斷.如當(dāng)看到樹木及灌木,即可做出森林場景的判斷.Li等指出人們可以快速理解未知場景而無需對場景中的物體進(jìn)行仔細(xì)辨識.Oliva等和Greene等給出了場景的全局描述特征,可對多場景進(jìn)行分類辨識.同時選擇性注意機(jī)制模擬生物的視覺功能,為解決大數(shù)據(jù)量的計算,提高系統(tǒng)實時性提供了新的思路.2 本文的研究目的,背景和意義2.1 研究目的21世紀(jì)隨著移動機(jī)器人技術(shù)的迅猛發(fā)展,機(jī)器人要想發(fā)揮更大的作用,從室內(nèi)結(jié)構(gòu)化環(huán)境走向室外自然環(huán)境,機(jī)器人導(dǎo)航成為重點要解決的的問題。然而導(dǎo)航本身是一個很龐大的課題,涉及到多種關(guān)鍵技術(shù)。機(jī)器人能否像人類一樣感知環(huán)境并作出正確的理解與判斷將成為導(dǎo)航技術(shù)成敗的關(guān)鍵。環(huán)境感知是機(jī)器人進(jìn)行決策規(guī)劃的基礎(chǔ),環(huán)境感知能力的強(qiáng)弱直接影響機(jī)器人的控制決策能力。如何提高機(jī)器人對外界環(huán)境的感知理解能力是智能機(jī)器人研究中非常重要的課題。2.2 研究背景及技術(shù)發(fā)展趨勢目前視覺場景理解還沒有嚴(yán)格統(tǒng)一的定義.參考麻省理工、斯坦福等大學(xué)的國際名科研團(tuán)隊的研究工作,視覺場景理解可表述為在環(huán)境數(shù)據(jù)感知的基礎(chǔ)上,結(jié)合視覺分析與圖像處理識別等技術(shù)手段,從計算統(tǒng)計、行為認(rèn)知以及語義等不同角度挖掘視覺數(shù)據(jù)中的特征與模式,從而實現(xiàn)場景有效分析、認(rèn)知與表達(dá).近年來結(jié)合生物認(rèn)知特征和統(tǒng)計建模方法構(gòu)建的視覺場景認(rèn)知理解系統(tǒng),為室外場景辨識和物體識別提供了新的解決方案. 從20世紀(jì)70年代開始,美國、英國、德國等發(fā)達(dá)國家開始進(jìn)行智能車輛的研究,目前在可行性和實用化方面都取得了突破性的進(jìn)展。其中最具代表性的是由美國國防高級研究計劃局(Defence Advanced Research Projects Agency, DARPA)主辦的野外無人車挑戰(zhàn)賽,參賽無人車在室外復(fù)雜場景下通過圖象理解等技術(shù)深層感知環(huán)境并能夠穩(wěn)定運行推動了自然場理解在實際平臺上的技術(shù)轉(zhuǎn)化. 通用汽車和卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的研究者正在合作開發(fā)無人駕駛車,并希望在2018年前投入市場。車輛無人駕駛技術(shù)的優(yōu)點是使出行更安全(因為去除了人為失誤因素)、緩解交通壓力、并減少環(huán)境污染。美國的“勇氣號”和“機(jī)遇號”火星探測車,其中利用視覺系統(tǒng)理解機(jī)器人周圍的場景然后通過控制系統(tǒng)做出路徑的規(guī)劃,實施導(dǎo)航,成功實現(xiàn)火星表面的行走,為人類探測火星資源做出了重要貢獻(xiàn)。以上案例無不用到視覺系統(tǒng)的環(huán)境理解感知技術(shù),其核心問題是圖象理解。我國從20世紀(jì)80年代開始進(jìn)行無人駕駛汽車的研究,國防科技大學(xué)在1992年成功研制出我國第一輛真正意義上的無人駕駛汽車。 2005年,首輛城市無人駕駛汽車在上海交通大學(xué)研制成功,該車有望于兩年之內(nèi)率先在上海世紀(jì)公園進(jìn)行示范運營,并在2010年世博會上一展身手。到時游客只需在公園的入口處按下一個按鈕,一輛沒有司機(jī)的四座敞篷汽車就會從遠(yuǎn)處開過來緩緩?fù)O?,然后搭載著乘客前往他們想去的景點。通過以上調(diào)研可以知以視覺系統(tǒng)為基礎(chǔ)的場景理解技術(shù)是未來智能車,機(jī)器人發(fā)展的重要方向和關(guān)鍵技術(shù)之一,本課題從大量調(diào)研的基礎(chǔ)上出發(fā),以現(xiàn)有的實驗平臺和條件為基礎(chǔ),重點放在機(jī)器人對周圍環(huán)境中目標(biāo)(如車輛行人等動態(tài)目標(biāo))的識別及簡單的場景分類描述上。就當(dāng)前總體研究現(xiàn)狀來看,所發(fā)表的研究成果大多是針對算法的研究,而能在實際自然場景中加以驗證的研究結(jié)果則相對有限.因此要使該領(lǐng)域研究工作真正面向?qū)嵱没?特別要著重考慮如下研究重點:1)多種傳感器的協(xié)同工作.如何協(xié)調(diào)視覺、激光測距等不同傳感器之間的工作,以及在不同層次上對多源傳感器數(shù)據(jù)進(jìn)行融合,是確保移動機(jī)器人在室外自然場景中高效穩(wěn)定工作的關(guān)鍵.利用激光測距所構(gòu)建的野外環(huán)境模型雖然可提供典型地形環(huán)境特征,但由于對有遮擋的環(huán)境(灌木、草叢等)以及地表硬度狀況(沙土、砂石、水面、淤泥等)的分析能力有限,這就需要引入視覺傳感器來加強(qiáng)對特定環(huán)境的深度判斷與理解.視覺傳感器很容易區(qū)分在高程圖上很相似的自然場景,可避免“漏報”(如只根據(jù)測距信息將沼澤地歸屬到安全區(qū)域)和“誤報”(如將高草叢歸屬到危險區(qū)域)現(xiàn)象的發(fā)生.2)系統(tǒng)的集成與優(yōu)化.為了充分發(fā)揮視覺系統(tǒng)的功能,需要有效地對視覺系統(tǒng)的各子模塊加以組合,這就是系統(tǒng)集成問題.這些模塊具體包括實時圖像處理模塊、自學(xué)習(xí)模塊、知識庫模塊以及算法控制策略模塊等.顯然,即使各子模塊的功能很強(qiáng),但如果沒有一個好的系統(tǒng)架構(gòu)加以組織,系統(tǒng)的整體功能也無法優(yōu)于各子模塊的功能.比如一個易擴(kuò)展、易更新的全局知識結(jié)構(gòu)要求對內(nèi)具有高的內(nèi)聚性,對外具有簡單易訪問的接口,這樣可以方便地為整個系統(tǒng)所利用,從而提高系統(tǒng)的穩(wěn)定性.系統(tǒng)集成問題可以從軟件工程的角度加以考慮,所以利用軟件工程學(xué)為視覺系統(tǒng)設(shè)計良好的架構(gòu)也是該領(lǐng)域研究的重點.4)系統(tǒng)實時性能的保證.這需要從系統(tǒng)實用性的角度加以研究.現(xiàn)實中只將場景分割為沒有形成語義信息的不同區(qū)域,這對移動機(jī)器人的規(guī)劃與導(dǎo)航是毫無用處的.所以將分割和辨識技術(shù)相結(jié)合,并同時采用不同算法控制策略快速地對場景本身或感興趣區(qū)域進(jìn)行劃分,這才是實際應(yīng)用中迫切需要解決的問題.雖然國內(nèi)外很多學(xué)者對相關(guān)問題進(jìn)行了長期研究,但如何兼顧場景理解的實時性與辨識效果,從而提高系統(tǒng)的實用性仍是一大難點.而圖形處理器單元(Graphic processing unit, GPU)的使用以及分布式計算技術(shù)的運用,往往為提高系統(tǒng)的實時性提供輔助手段.5)系統(tǒng)對環(huán)境中不確定因素的適應(yīng).環(huán)境中的不確定因素主要包括:場景中同類物體間辨識的模糊性及不同類物體間辨識的混疊性;移動機(jī)器人運動所引起的幀抖動問題;場景整體理解的不確定性等.為了克服上述困難,往往采用場景多尺度表達(dá)、多層次特征聯(lián)合建模、圖像變換、幀間冗余信息處理等技術(shù)手段.但由于缺少統(tǒng)一的解決框架,使得該問題成為移動機(jī)器人自然場景理解研究的技術(shù)難點,同時也是該領(lǐng)域未來發(fā)展亟待解決的關(guān)鍵問題.6)融入視覺注意機(jī)制的場景分析辨識.視覺注意可分為三種類型:第一類是基于初級視覺,由數(shù)據(jù)驅(qū)動的自底向上的注意,其中最具代表性的是高斯金字塔模型.但大多數(shù)模型只考慮了顯著區(qū)域的局部特性,沒有考慮整幅圖像的整體統(tǒng)計特性.第二類是基于高層視覺,與任務(wù)、知識等相關(guān)的自頂向下的注意.相比于第一類,此類研究較少.較具有代表性的模型有神經(jīng)網(wǎng)絡(luò)模型、統(tǒng)計貝葉斯模型、馬爾可夫模型、任務(wù)導(dǎo)向模型等.第三類是自底向上和自頂向下處理過程的統(tǒng)計結(jié)合,但目前感知模型對自頂向下和自底向上的視覺注意之間的關(guān)系缺乏明確的計算理解,有待于進(jìn)一步的研究和建立完整合理的基于注意機(jī)制的神經(jīng)計算理論框架.2.3 技術(shù)發(fā)展趨勢由于室外自然場景所具有的非結(jié)構(gòu)化與不確定性特點,與傳統(tǒng)的視覺系統(tǒng)相比,室外基于視覺的移動機(jī)器人系統(tǒng)更要著重考慮運動狀態(tài)下對環(huán)境的自適應(yīng)性.相關(guān)領(lǐng)域的新技術(shù)和新思路也不斷涌現(xiàn),以下幾點是對該領(lǐng)域技術(shù)發(fā)展趨勢的展望:1)視頻理解技術(shù).圖像區(qū)域標(biāo)記方法僅針對圖像集中的單幅靜態(tài)圖像,并且圖像之間沒有相互關(guān)聯(lián).而室外移動機(jī)器人所要處理的自然場景圖像不僅是場景視頻中的某一幀,而且各視頻幀之間有很高的相關(guān)性,因此如何利用幀間相關(guān)信息來改善場景辨識效果,從而提高區(qū)域標(biāo)記的實時性是基于單幅圖像處理所無法實現(xiàn)的.Brostow等給出了第一個高標(biāo)準(zhǔn)標(biāo)記的參考視頻庫CamVid.使用該視頻數(shù)據(jù)庫,從攝像機(jī)自運動(Ego-motion)過程所獲得的三維點云數(shù)據(jù)中提取場景低維結(jié)構(gòu)特征向量,并將其投影到二維圖像平面,進(jìn)而采用訓(xùn)練過程中得到的隨機(jī)決策樹來辨識二維場景圖像中的物體.由于算法沒有使用基于外觀的描述符(如顏色、紋理等),所以對場景的尺度、天氣、光線變化有很強(qiáng)的適應(yīng)性,同時系統(tǒng)也具有高的實時性.基于場景運動特征的方法從另一個角度來分析處理場景視頻,使得該研究方法成為視頻分析與辨識研究領(lǐng)域的一個新熱點.2)動態(tài)知識結(jié)構(gòu).移動機(jī)器人實際運行前要經(jīng)過費時的訓(xùn)練或者憑借經(jīng)驗來構(gòu)建規(guī)模龐大的知識體系結(jié)構(gòu),這種知識庫所包含的信息相對固定,往往不易于更新.這一缺點使系統(tǒng)無法適應(yīng)超出訓(xùn)練集以外或各種非經(jīng)驗情況下環(huán)境信息的改變.而構(gòu)建系統(tǒng)動態(tài)知識結(jié)構(gòu)的目的在于選擇良好的知識表達(dá),如何將顯式知識結(jié)構(gòu)和隱式知識模型相結(jié)合,進(jìn)而建立優(yōu)良的知識框架,使得移動機(jī)器人可以與視覺信息相配合,有選擇地更新已有知識信息,從而確保系統(tǒng)實際運行的穩(wěn)定性和可靠性.3)對場景信息的自學(xué)習(xí).如何通過自學(xué)習(xí)使機(jī)器人能夠?qū)Νh(huán)境實現(xiàn)自主適應(yīng)是非常具有挑戰(zhàn)性的研究問題,而將不同的機(jī)器學(xué)習(xí)方法與視覺處理方法相融合正成為該領(lǐng)域的一大發(fā)展趨勢.現(xiàn)有的與視覺相結(jié)合的學(xué)習(xí)方法都有一定的局限性,如有監(jiān)督學(xué)習(xí)算法無法對場景進(jìn)行在線學(xué)習(xí);半監(jiān)督學(xué)習(xí)算法雖然減少了離線的訓(xùn)練量,但是算法往往不穩(wěn)定;自監(jiān)督學(xué)習(xí)也只是針對穩(wěn)定的感興趣區(qū)域進(jìn)行辨識.如何通過在線學(xué)習(xí)機(jī)制對自然場景進(jìn)行深度理解仍然是急需解決的熱點和難點問題.4)認(rèn)知學(xué)新特征與場景表達(dá)的融合.通過借鑒生物視覺模型,可將場景表達(dá)與來自認(rèn)知學(xué)新視覺特征進(jìn)行融合,為場景辨識提供一種新的技術(shù)手段.由于傳統(tǒng)的圖像分割和分類方法較耗時,同時所選用的特征也易受室外隨機(jī)因素的影響,所以從另一個角度來認(rèn)識該問題往往受到很大啟發(fā).例如提取自然場景中的顯著性區(qū)域作為自然路標(biāo),從而可以避免耗時的圖像處理.由此可見認(rèn)知學(xué)新特征與場景表達(dá)的融合也是未來該領(lǐng)域的一大發(fā)展趨勢.2.4 研究意義2.4.1 理論意義以計算機(jī)視覺的理論為基礎(chǔ),以人工智能的方法為依據(jù),探索經(jīng)典場景特征檢測算法的缺陷和不足之處,并加以改進(jìn)。模擬人類在未知環(huán)境中對目標(biāo)物體的識別和探測機(jī)理,從人工智能的角度出發(fā),應(yīng)用于智能機(jī)器人的環(huán)境感知系統(tǒng),進(jìn)一步提高機(jī)器人和外界環(huán)境的交互能力,增強(qiáng)機(jī)器人對環(huán)境的理解能力,為未來智能機(jī)器人在復(fù)雜環(huán)境中的導(dǎo)航打下理論基礎(chǔ),使之在復(fù)雜的未知的環(huán)境中完成人類所不能完成的任務(wù)。2.4.2 實踐意義依托嵌入式的DM642平臺,構(gòu)造出智能機(jī)器人的視覺環(huán)境場景感知模塊,采集機(jī)器人周邊環(huán)境信息并通過算法識別檢測出環(huán)境中目標(biāo)物體,追蹤環(huán)境場景中的信息改變,建立環(huán)境特征模型。這個嵌入式系統(tǒng)可固化為一個子模塊應(yīng)用于智能機(jī)器人或智能車輛中,完成導(dǎo)航等相關(guān)工作。本次研究工作在機(jī)器人從室內(nèi)走向室外自然環(huán)境,完成人類所交付的任務(wù),實現(xiàn)全自動導(dǎo)航,在智能車輛實際投入運行,輔助改善駕駛環(huán)境都有著重要的應(yīng)用意義。3 主要研究內(nèi)容及理論創(chuàng)新3.1 DSP嵌入式實驗平臺的搭建實驗平臺由嵌入式DM642圖像采集處理系統(tǒng),XDS560硬件仿真器,四輪移動機(jī)器人,CCD攝像機(jī)等主要部件構(gòu)成,可以進(jìn)行的仿真實驗,通過視覺系統(tǒng)采集機(jī)器人運行環(huán)境信息,經(jīng)過通信傳輸,交付DSP嵌入式系統(tǒng)進(jìn)行實時處理,將所得結(jié)果知識傳輸給機(jī)器人,控制系統(tǒng)可以由場景的分析結(jié)果控制機(jī)器人的動作。硬件的核心基于嵌入式視覺系統(tǒng)圖象處理平臺,依據(jù)其進(jìn)行試驗開發(fā)。在室外的非結(jié)構(gòu)化環(huán)境和隨機(jī)性很強(qiáng)的自然場景中,多種場景能夠以不同的形式進(jìn)行組合。同時在室外的環(huán)境中,由于其他不定性因素的影響。不容易提取出像室內(nèi)那樣簡單有效的結(jié)構(gòu)化的特征。同時增加了機(jī)器學(xué)習(xí)和相應(yīng)分類算法的難度。要實現(xiàn)移動機(jī)器人對室外自然場景的理解,首先要解決三個基本問題。(1)用何種圖像特征來有效的描述圖像,(2)用何種圖像分割的方式,對圖像的子塊或像素進(jìn)行有效的識別。(3)用何種機(jī)器學(xué)習(xí)的方法來有效的構(gòu)建識別模型。這涉及到圖像提取,圖像分割和圖像識別三大類基本圖像處理方法,它們又有各自不同的現(xiàn)已成熟的基本算法,課題的研究就是在利用這些基本處理算法的基礎(chǔ)上提出下述思想方法,對自然場景的圖像理解提供新的思路和方向。圖2 嵌入式DM642 實驗開發(fā)平臺圖3 SEED-XDS560 仿真器3.2 課題解決的核心問題及難點由于圖像理解的研究核心就是場景的描述以及場景中的目標(biāo)識別問題,本文從這兩點切入,研究簡單的動態(tài)目標(biāo)識別和場景環(huán)境背景描述的問題。在現(xiàn)有的實驗設(shè)備條件的基礎(chǔ)上,解決機(jī)器人在室外校園環(huán)境中的動態(tài)車輛檢測識別和校園環(huán)境背景的特征描述問題。從這些基本問題入手解決機(jī)器人在室外自然環(huán)境中的場景理解問題。技術(shù)問題的關(guān)鍵在于分層次的圖像表達(dá)、場景-目標(biāo)關(guān)聯(lián)的目標(biāo)識別、場景信息的動態(tài)知識庫建立與學(xué)習(xí)。下述的研究方法中將對這些關(guān)鍵問題的解決提供新的思路和研究算法。為了保證移動機(jī)器人進(jìn)行室外自然場景理解的穩(wěn)定性和自適應(yīng)性,系統(tǒng)除了要具有實時的圖像處理和分析能力以及優(yōu)良的學(xué)習(xí)算法外,還應(yīng)具有完善的系統(tǒng)知識結(jié)構(gòu)和視覺控制策略。首先,為解決場景辨識分類混淆的問題就需要對場景加以約束,即構(gòu)建場景的知識庫,其包括景物信息以及景物間的關(guān)聯(lián)信息,并且具有易操作性、易擴(kuò)展性和易更新性的知識結(jié)構(gòu)是必不可少的。其次,為了使室外自然場景的辨識與理解效果達(dá)到最佳,如何依據(jù)不同的場景結(jié)構(gòu)特征對算法流程進(jìn)行的排布是非常重要的,這會影響到整個系統(tǒng)的效率和功能.以上兩個方面就是要解決的關(guān)鍵技術(shù)難題。3.3 理論創(chuàng)新點(1)提出了一種分層的圖像理解算法,將自然場景圖像按照低、中、高 三種表達(dá)層次劃分為自然場景圖像的區(qū)域分割、區(qū)域標(biāo)記和圖像的分類與注釋三個層次.首先,在區(qū)域分割層析中,將分割和區(qū)域分類相融合,為了保證場景理解的實時性,采用面向特定應(yīng)用的分割方法,基于研究中機(jī)器人所處的校園環(huán)境場景,為了要完成動態(tài)目標(biāo)識別檢測和場景描述的任務(wù),拋開冗余信息,將場景中移動機(jī)器人感興趣的目標(biāo)區(qū)域分割出來,可顯著地降低計算量,從而滿足實時性的要求;其次,區(qū)域標(biāo)記的目的是要對場景圖像的各不同區(qū)域加以解釋,由于場景的復(fù)雜性使得辨識的難度加大,計算量也隨之上升.所以辨識過程要同時兼顧辨識效果與速度.潛在語義分析模型僅對局部區(qū)域進(jìn)行分類辨識,卻沒有考慮圖像空間結(jié)構(gòu)的關(guān)聯(lián)信息,而馬爾可夫隨機(jī)場模型可對場景的空間信息形成約束。從現(xiàn)有研究的基礎(chǔ)上,在算法的研究中將二者相結(jié)合希望能夠取得實時的辨識效果.通過訓(xùn)練從部分標(biāo)記的場景圖像中學(xué)習(xí)得到條件隨機(jī)場模型,該模型包含場景空間局部約束信息和場景的全局語境信息.由于訓(xùn)練圖像集只需進(jìn)行部分標(biāo)記,因而耗時降低,將會大大提高區(qū)域圖像的標(biāo)記效率;最后,圖像分類注釋對應(yīng)于圖像的高層表達(dá),是對整幅圖像信息的解釋,也稱為圖像注解.由于室外校園環(huán)境區(qū)分類別多,差別大.有校園道路,草坪,操場等多種場景層次。對于每一層次采用不同的場景特征與之相對應(yīng),采用全新的全局語義方法并輔以自頂向下算法結(jié)構(gòu),根據(jù)實際的校園環(huán)境分類特征,構(gòu)造實際特征空間,如粗糙度,延伸度,開放度等。這些特征的不同組合可得出新型的特征空間,利用這些特征空間對實際自然場景的辨識有大大的改善作用。(2)提出一種全新的基于實際場景特征引入場景-目標(biāo)關(guān)聯(lián),先驗信息作輔助的目標(biāo)識別思想方法。場景中的目標(biāo)識別通常將圖像區(qū)域的表達(dá)與目標(biāo)模型相匹配,匹配正確即為正確的目標(biāo)類別,匹配錯誤則拒絕背景區(qū)域,如果能夠充分運用場景知識,首先得出對場景的判斷,則之后的目標(biāo)識別過程在一定程度上就縮小了范圍。實際上總有一些圖像與場景在空間位置上有著密切的關(guān)系,且比較高概率出現(xiàn)在特定的場景中。場景目標(biāo)關(guān)聯(lián)方法從場景的整體分析入手,對給定的輸入圖像搜索有相似場景結(jié)構(gòu)的圖像、為了得到最佳的匹配圖像,可將包含于目標(biāo)標(biāo)簽中的語義知識轉(zhuǎn)化為輸入圖像中的檢測目標(biāo),同時,目標(biāo)之間類似深度排序的關(guān)聯(lián)信息也進(jìn)行相應(yīng)的轉(zhuǎn)換。由于數(shù)據(jù)集中的圖像是部分標(biāo)記的,因此可以將標(biāo)記知識轉(zhuǎn)化為查詢圖像。如操場中,包含語義知識的目標(biāo)作為整體的查詢圖像,可以將包含足球門,健身器材等語義知識的目標(biāo)作為整體場景查詢圖像,只要找出與之相似的場景圖像,檢測出這些目標(biāo)的可能性會大大增加,此時,場景中的目標(biāo)檢測識別問題就成為了場景對應(yīng)的問題。然后進(jìn)一步輔以先驗信息即根據(jù)上述方法所得到場景分類信息進(jìn)一步預(yù)測場景中可能存在的其他景物,快速實現(xiàn)模式匹配與識別,提高場景的理解速度和精度.總體來說,一正一反兩種思路(即先通過場景中目標(biāo)與場景相結(jié)合來的識別算法快速的定位出場景類型信息,再由先驗信息從場景的類型中得到可能會有的目標(biāo)物體來縮小搜索檢測范圍,實現(xiàn)快速的特征匹配)來對場景中的目標(biāo)識別檢測。以上(1)(2)兩種方法在應(yīng)用中是相互聯(lián)系,相互融合在一起的,第一種方法的區(qū)域標(biāo)記和語義表述方式是在第二種方法圖像的匹配過程作為依據(jù)的,為了得到最佳匹配效果,快速識別場景。第二種的目標(biāo)識別方法又為第一種多層圖像理解技術(shù)的區(qū)域分割引入了很好的反饋信息。在系統(tǒng)算法的研究過程中,依據(jù)上述兩種解決問題的思路和方法并結(jié)合硬件平臺可以構(gòu)建更加高效的視覺環(huán)境場景理解系統(tǒng)。4 預(yù)期困難及達(dá)到結(jié)果為了保證移動機(jī)器人進(jìn)行室外自然場景理解的穩(wěn)定性和自適應(yīng)性,系統(tǒng)除了要具有實時的圖像處理和分析能力以及優(yōu)良的學(xué)習(xí)算法外,還應(yīng)具有完善的系統(tǒng)知識結(jié)構(gòu)和視覺控制策略。首先,為解決場景辨識分類混淆的問題就需要對場景加以約束,即構(gòu)建場景的知識庫,其包括景物信息以及景物間的關(guān)聯(lián)信息,并且具有易操作性、易擴(kuò)展性和易更新性的知識結(jié)構(gòu)是必不可少的。其次,為了使室外自然場景的辨識與理解效果達(dá)到最佳,如何依據(jù)不同的場景結(jié)構(gòu)特征對算法流程進(jìn)行的排布是非常重要的,這會影響到整個系統(tǒng)的效率和功能.以上兩個方面就是要解決的關(guān)鍵技術(shù)難題。在嵌入式DSP平臺的基礎(chǔ)上開發(fā)圖像處理算法,分多層次理解圖像,完成場景分類和目標(biāo)的檢測識別,進(jìn)而讓機(jī)器人對場景信息作出準(zhǔn)確判斷,完成導(dǎo)航任務(wù)是預(yù)期所能達(dá)到的效果。但由于由于室外自然場景所具有的非結(jié)構(gòu)化與不確定性特點,與傳統(tǒng)的視覺系統(tǒng)相比,室外自然環(huán)境中基于視覺的移動機(jī)器人系統(tǒng)更要著重考慮運動狀態(tài)下對環(huán)境的自適應(yīng)性.這部分研究大都停留在理論方面,實際得到驗證的成果很少,所以必須融入更具創(chuàng)新性的思想和技術(shù),希望最終能夠在現(xiàn)有基礎(chǔ)上提高機(jī)器人對未知環(huán)境場景的感知理解與判斷能力。 基于視覺的室外自然場景的實時辨識與深入理解,是具有實時環(huán)境認(rèn)知與自主環(huán)境適應(yīng)能力的移動機(jī)器人系統(tǒng)中最為關(guān)鍵的共性技術(shù)之一.要在該領(lǐng)域取得創(chuàng)新性的研究成果,必須兼顧研究的創(chuàng)新性與實用性.多種技術(shù)的應(yīng)用以及不同傳感器之間的協(xié)作與融合都能有效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省鎮(zhèn)江市-八年級(上)期末地理試卷(含答案)
- 月嫂考試試題及答案大全
- 《動力電池及能量管理技術(shù)》課件-任務(wù)2 電動汽車動力電池基礎(chǔ)知識
- 三基測試題(附答案)
- 智慧商場與場景化設(shè)計-洞察闡釋
- 山東開放大學(xué)經(jīng)濟(jì)法學(xué)習(xí)心得
- 金融行業(yè)中的團(tuán)隊協(xié)作模式探討
- 酒莊旅游與體驗式消費的融合發(fā)展
- 跨領(lǐng)域商務(wù)演講的挑戰(zhàn)與機(jī)遇
- 跨界品牌授權(quán)合作策略探討
- 第5課 弘揚(yáng)勞動精神、勞模精神、工匠精神(教學(xué)設(shè)計) -【中職專用】中職思想政治《職業(yè)道德與法治》同步教學(xué)教學(xué)設(shè)計(高教版2023·基礎(chǔ)模塊)
- 行政費用管理控制辦法及規(guī)定
- 2025年產(chǎn)科門診護(hù)理考試題及答案
- 地鐵客運企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 建筑行業(yè)防震減災(zāi)技術(shù)培訓(xùn)計劃
- 2025年度生態(tài)旅游區(qū)景區(qū)入駐經(jīng)營合作協(xié)議
- 藥品儲存與養(yǎng)護(hù)課件
- 《進(jìn)化的脊椎動物》課件
- 三年級語文下冊《非連續(xù)性文本閱讀》期末復(fù)習(xí)專項課件
- 自動駕駛車輛事故分析模型-深度研究
- 第8章 商品零售購物籃分析
評論
0/150
提交評論