




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
..新型機(jī)器人室內(nèi)定位技術(shù)XXX軟件研究所一,技術(shù)背景機(jī)器人六十年代,自第一臺機(jī)器人裝置誕生以來,機(jī)器人的發(fā)展經(jīng)歷了一個從低級到高級的發(fā)展過程。第一代機(jī)器人為示教再現(xiàn)型機(jī)器人,是通過計算機(jī)來控制多自主的機(jī)械裝置,通過示教存儲程序把信息讀取出來并發(fā)出指令,也可以根據(jù)人示教的結(jié)果再現(xiàn)動作,它對于外界的環(huán)境沒有感知能力。在20世紀(jì)70年代后期人們開始研究第二代機(jī)器人:帶感覺的機(jī)器人。這種機(jī)器人有類似人類的力覺、觸覺、聽覺、視覺等。第三代機(jī)器人是智能機(jī)器人,它是當(dāng)今機(jī)器人發(fā)展的熱點(diǎn)和重點(diǎn),機(jī)器人通過各種傳感器獲取環(huán)境信息,利用人工智能識別、理解、推理并進(jìn)行判斷和決策來完成一定的任務(wù)。因此智能機(jī)器人除了具有感知環(huán)境和簡單的適應(yīng)環(huán)境能力外,還具有較強(qiáng)的識別理解能力和決策規(guī)劃能力。80年代中期,技術(shù)革命的第三次浪潮沖擊著全世界,機(jī)器人總數(shù)每年以30%以上的速度增長。1986年國家把智能機(jī)器人課題列為高技術(shù)發(fā)展計劃,進(jìn)入90年代,在國內(nèi)市場經(jīng)濟(jì)發(fā)展的推動下,確定了機(jī)器人及其應(yīng)用工程并重、以應(yīng)用帶動關(guān)鍵技術(shù)和基礎(chǔ)研究的發(fā)展方針,實(shí)現(xiàn)了高技術(shù)發(fā)展與國民經(jīng)濟(jì)主戰(zhàn)場的密切銜接,研制出有自主支持產(chǎn)權(quán)的工業(yè)機(jī)器人系列產(chǎn)品,并小批量試產(chǎn),完成了一批機(jī)器人應(yīng)用工程,建立了9個機(jī)器人產(chǎn)業(yè)化基地和7個科研基地。通過多年的努力,取得了舉世矚目的碩果。本公司的智能移動機(jī)器人具備超聲、紅外等多傳感器融合的導(dǎo)航系統(tǒng),可以在一定的室內(nèi)環(huán)境中自由行走,實(shí)現(xiàn)定位與自動避障等功能,在國內(nèi)處于先進(jìn)水平,具有一定影響力。隨著機(jī)器人技術(shù)的發(fā)展,具有移動行走功能、環(huán)境感知能力以及自主規(guī)劃能力智能移動機(jī)器人得到了各國研究人員的普遍重視,特別是在20世紀(jì)八、九十年代,隨著計算機(jī)技術(shù)、微電子技術(shù)、網(wǎng)絡(luò)技術(shù)等的快速發(fā)展,機(jī)器人技術(shù)的發(fā)展突飛猛進(jìn)。本公司的智能移動機(jī)器人的重要特點(diǎn)在于它的自主性和適應(yīng)性。自主性是指它可以在一定的環(huán)境中,不依賴外部控制,完全自主地執(zhí)行一定的任務(wù);適應(yīng)性是指它可以實(shí)時識別和測量周圍的物體,并根據(jù)環(huán)境變化,調(diào)節(jié)自身參數(shù)、動作策略以及處理緊急情況。隨著智能移動機(jī)器人技術(shù)的發(fā)展,其在軍事、醫(yī)療、商業(yè)等領(lǐng)域發(fā)揮著重要的作用,人們對智能移動機(jī)器人的需求和期望也越來越高,越來越迫切,移動機(jī)器人研究從而進(jìn)入了嶄新的發(fā)展階段。定位技術(shù)是智能移動機(jī)器人的研究核心,同時也是其實(shí)現(xiàn)完全自動化的關(guān)鍵技術(shù)。機(jī)器人只有準(zhǔn)確知道自身位置,工作空間中障礙物的位置以及障礙物的運(yùn)動情況等信息,才能安全有效地進(jìn)行移動,由此可見,自主定位和環(huán)境分析是移動機(jī)器人最重要的能力之一。本公司的機(jī)器人室內(nèi)定位技術(shù)是用于機(jī)器人在室內(nèi)環(huán)境中定位。此項技術(shù)的概念是通過場景主旨〔Gist和視覺顯著性〔Saliency模型算法,逼真,精確地模擬人腦的神經(jīng)元以及視覺行為體系,希望機(jī)器人從未知環(huán)境的未知地點(diǎn)出發(fā),在運(yùn)動過程中通過反復(fù)獲取、觀測周圍環(huán)境的特征信息,從而定位自身的位置。二,技術(shù)內(nèi)容2.1高斯金字塔高斯金字塔是在圖像處理、計算機(jī)視覺、信號處理上使用的一項技術(shù)。本質(zhì)上是信號的多尺度表示方法,亦即將同一信號或圖片多次的進(jìn)行高斯模糊,并且向下取樣,從而產(chǎn)生不同尺度下的多組信號或圖片用于后續(xù)處理。例如在影響辨識上,可以通過對比不同尺度下的圖片,防止要尋找的內(nèi)容在圖片上有不同的大小。高斯金字塔的理論基礎(chǔ)是尺度空間理論。給定一張圖片f〔x,y>,它的尺度空間表示方式L<x,y;t>定義為:影像信號f<x,y>和高斯函數(shù)的旋積。完整的表達(dá)式如下:其中分號代表旋積的對象為x,y,而分號右邊的t表示定義的尺度大小當(dāng)t>0是對于所有的t都會成立,不過通常只會選取特定的t值。其中t為高斯函數(shù)的變異數(shù),當(dāng)t越接近零的時候,使得L<x,y;t>=f<x,y>,這代表t=0的時候我們把這項操作視為圖片f本身,當(dāng)t增加時,L表示將影像f通過一個較大的高斯濾波器,從而使得影像的細(xì)節(jié)被去除更多。在建立高斯金字塔時,我們首先會將影像轉(zhuǎn)換為尺度空間的表示方式,即乘上不同大小的高斯函數(shù),之后再一句取定的尺度向下取樣。乘上的高斯函數(shù)大小和向下取樣的頻率通常會選為2的冪次。所以,在每次迭代的過程中,影像都會被乘上一個固定大小的高斯函數(shù),并且被以長寬各0.5的比率被向下取樣。如果將向下取樣過程的圖片一張一張疊在一起,就會呈現(xiàn)一個金字塔的樣子,因此這個成果稱為高斯金字塔。2.2尺度不變特征轉(zhuǎn)換<SIFT>SIFT是一種用于偵測與描述影像中局部性特征的視覺算法,它在空間尺度中尋找極值點(diǎn),并提取出其位置、尺度、旋轉(zhuǎn)不變數(shù),其應(yīng)用范圍包含物體辨識、機(jī)器人地圖感知與導(dǎo)航、影像縫合、3D模型建立、手勢辨識、影像追蹤和動作比對。局部影像特征的描述與偵測可以幫助辨識物體,SIFT特征是基于物體上的一些局部外觀的興趣點(diǎn)而與影像的大小和旋轉(zhuǎn)無關(guān)。對于光線、噪聲、些微視角改變的容忍度也相當(dāng)高?;谶@些特性,它們是高度顯著而且相對容易擷取,在母數(shù)龐大的特征數(shù)據(jù)庫中,很容易辨識物體而且鮮有誤認(rèn)。使用SIFT特征描述對于部分物體遮蔽的偵測率也相當(dāng)高,甚至只需要3個以上的SIFT物體特征就足以計算出位置與方位。在現(xiàn)今的電腦硬件速度下和小型的特征數(shù)據(jù)庫條件下,辨識速度可接近即時運(yùn)算。SIFT特征的信息量大,適合在海量數(shù)據(jù)庫中快速準(zhǔn)確匹配。2.3主成分分析<PCA>在多元統(tǒng)計分析中,主成分分析是一種分析、簡化數(shù)據(jù)集的技術(shù),用于分析數(shù)據(jù)及建立數(shù)理模型。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集中的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留主數(shù)據(jù)的最重要的方面。其方法主要是通過對共變異數(shù)矩陣進(jìn)行特征分解,以得出數(shù)據(jù)的特征向量它們的特征值。PCA是最簡單的以特征量分析多元統(tǒng)計分布的方法。其結(jié)果可以理解為對源數(shù)據(jù)中的方差作出解釋:哪一個方向上的數(shù)據(jù)值對方差的影響最大?換而言之,PCA提供了一種降低數(shù)據(jù)維度的有效方法;如果分析者在源數(shù)據(jù)中除掉最小的特征值所對應(yīng)的成分,那么所得的低緯度數(shù)據(jù)必定是最優(yōu)化的,因?yàn)檫@樣降低維度是失去信息最少的方法。PCA是最簡單的以特征量分析多元統(tǒng)計分布的方法。通常情況下,這種運(yùn)算可以看作是揭露數(shù)據(jù)的內(nèi)部結(jié)構(gòu),從而更好的解釋數(shù)據(jù)的變量的方法。如果一個多元數(shù)據(jù)集能夠在一個高維數(shù)據(jù)空間坐標(biāo)系中被顯現(xiàn)出來,那么PCA就能夠提供一副比較低維度的圖像,這幅圖像即為在訊息最多的點(diǎn)上原對象的一個‘投影’。PCA的數(shù)學(xué)定義是:一個正交化線性變換,把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得這一數(shù)據(jù)的任何投影的第一大方差在第一個坐標(biāo)上,第二大方差在第二個坐標(biāo)上,以此類推。定義一個n×m的矩陣,XT為去平均值〔以平均值為中心移動至原點(diǎn)的數(shù)據(jù),其行為數(shù)據(jù)樣本,列為數(shù)據(jù)類別〔注意,這里定義的是XT而不是X。則X的奇異值分解為X=WΣVT,其中m×m矩陣W是XXT的本征矢量矩陣,Σ是m×n的非負(fù)矩形對角矩陣,V是n×n的XTX的本征矢量矩陣。據(jù)此,當(dāng)m<n?1時,V在通常情況下不是唯一定義的,而Y則是唯一定義的。W是一個正交矩陣,YT是XT的轉(zhuǎn)置,且YT的第一列由第一主成分組成,第二列由第二主成分組成,依此類推。為了得到一種降低數(shù)據(jù)維度的有效辦法,我們可以把X映射到一個只應(yīng)用前面L個向量的低維空間中去,WL:wherewiththerectangularidentitymatrix.X的單向量矩陣W相當(dāng)于協(xié)方差矩陣的本征矢量C=XXT,在歐幾里得空間給定一組點(diǎn)數(shù),第一主成分對應(yīng)于通過多維空間平均點(diǎn)的一條線,同時保證各個點(diǎn)到這條直線距離的平方和最小。去除掉第一主成分后,用同樣的方法得到第二主成分。依此類推。在Σ中的奇異值均為矩陣XXT的本征值的平方根。每一個本征值都與跟它們相關(guān)的方差是成正比的,而且所有本征值的總和等于所有點(diǎn)到它們的多維空間平均點(diǎn)距離的平方和。PCA提供了一種降低維度的有效辦法,本質(zhì)上,它利用正交變換將圍繞平均點(diǎn)的點(diǎn)集中盡可能多的變量投影到第一維中去,因此,降低維度必定是失去訊息最少的方法。PCA具有保持子空間擁有最大方差的最優(yōu)正交變換的特性。然而,當(dāng)與離散余弦變換相比時,它需要更大的計算需求代價。非線性降維技術(shù)相對于PCA來說則需要更高的計算要求。PCA對變量的縮放很敏感。如果我們只有兩個變量,而且它們具有相同的樣本方差,并且成正相關(guān),那么PCA將涉及兩個變量的主成分的旋轉(zhuǎn)。但是,如果把第一個變量的所有值都乘以100,那么第一主成分就幾乎和這個變量一樣,另一個變量只提供了很小的貢獻(xiàn),第二主成分也將和第二個原始變量幾乎一致。這就意味著當(dāng)不同的變量代表不同的單位〔如溫度和質(zhì)量時,PCA是一種比較武斷的分析方法。一種使PCA不那么武斷的方法是使用變量縮放以得到單位方差。通常,為了確保第一主成分描述的是最大方差的方向,我們會使用平均減法進(jìn)行主成分分析。如果不執(zhí)行平均減法,第一主成分有可能或多或少的對應(yīng)于數(shù)據(jù)的平均值。另外,為了找到近似數(shù)據(jù)的最小均方誤差,我們必須選取一個零均值。假設(shè)零經(jīng)驗(yàn)均值,數(shù)據(jù)集X的主成分w1可以被定義為:為了得到第k個主成分,必須先從X中減去前面的個主成分:然后把求得的第k個主成分帶入數(shù)據(jù)集,得到新的數(shù)據(jù)集,繼續(xù)尋找主成分。PCA類似于一個線性隱層神經(jīng)網(wǎng)絡(luò)。隱含層K個神經(jīng)元的權(quán)重向量收斂后,將形成一個由前K個主成分跨越空間的基礎(chǔ)。但是與PCA不同的是,這種技術(shù)并不一定會產(chǎn)生正交向量。2.4獨(dú)立成分分析<ICA>在統(tǒng)計學(xué)中,ICA是一種利用統(tǒng)計原理進(jìn)行計算的方法。它是一個線性變換。這個變換把數(shù)據(jù)或信號分離成統(tǒng)計獨(dú)立的非高斯的信號源的線性組合。獨(dú)立成分分析的最重要的假設(shè)就是信號源統(tǒng)計獨(dú)立。這個假設(shè)在大多數(shù)盲信號分離的情況中符合實(shí)際情況。即使當(dāng)該假設(shè)不滿足時,仍然可以用獨(dú)立成分分析來把觀察信號統(tǒng)計獨(dú)立化,從而進(jìn)一步分析數(shù)據(jù)的特性。獨(dú)立成分分析的經(jīng)典問題是"雞尾酒會問題"〔cocktailpartyproblem。該問題描述的是給定混合信號,如何分離出雞尾酒會中同時說話的每個人的獨(dú)立信號。獨(dú)立成分分析并不能完全恢復(fù)信號源的具體數(shù)值,也不能解出信號源的正負(fù)符號、信號的級數(shù)或者信號的數(shù)值范圍。觀察的數(shù)據(jù)或者信號用隨機(jī)向量表示,獨(dú)立成分量可以定義為向量。獨(dú)立成分分析的目的是通過線性變換把觀察的數(shù)據(jù),轉(zhuǎn)換成獨(dú)立成分向量,而獨(dú)立成分分量滿足互相統(tǒng)計獨(dú)立的特性。統(tǒng)計獨(dú)立的量化通常通過某指定函數(shù)來衡量。2.5基于視覺顯著性<saliency>模型的快速場景分析Saliency模型是受早期靈長類動物的神經(jīng)結(jié)構(gòu)啟發(fā)提出的一種視覺注意的系統(tǒng)。多種不同比例的特征圖形結(jié)合形成一張saliency圖,然后由動態(tài)神經(jīng)網(wǎng)絡(luò)選取視覺上最引人注意的點(diǎn)來降低顯著性。該系統(tǒng)將復(fù)雜的場景理解問題,分解為快速的場景選擇,找出最引人注目的點(diǎn)。盡管靈長類動物的神經(jīng)元計算能力有限,但是對復(fù)雜場景的實(shí)時理解有著非常出色的能力。所謂的‘視覺焦點(diǎn)’,通過兩種方式掃描場景圖片,一種是快速的自底向上,saliency驅(qū)動,獨(dú)立于任務(wù)的方式,一種是自頂向下,緩慢,意志控制并基于任務(wù)的方式。注意力模型包括‘動態(tài)路由’模型,在這個模型中,只有視覺區(qū)域中的一小部分信息可以通過視覺皮層被處理。這些信息是通過自頂向下和自底向上控制下的皮層連接動態(tài)變化或者事件短時間模式建立的。該模型采用的是Koch和Ullman提出的第二種生物上可行的結(jié)構(gòu)。模型的理論基礎(chǔ)有許多模型。比如:特征結(jié)合理論,是對人類視覺搜索策略的一種解釋。首先將視覺輸入分解為一組特征圖,接著空間上的不同位置會相互競爭,直到找出顯著點(diǎn),因此只有局部顯著的點(diǎn)能夠被保留下來。所有特征圖自下而上匯總形成saliency圖,這樣就能找出整個場景的局部顯著點(diǎn)。這種方式,是靈長類動物大腦的后頂葉形成的對視覺輸入的處理結(jié)果圖,模型的saliency圖具有生成注意力轉(zhuǎn)換的能力。因此此模型可以表示自底向上的saliency模型說明,而不需要自頂向下的幫助進(jìn)行注意力轉(zhuǎn)移。這個框架的結(jié)構(gòu),對于計算機(jī)視覺計算技術(shù)而言,提供了大量的并行方法,我們可以通過快速選取出一組圖片中感興趣的點(diǎn)來分析更復(fù)雜和更消耗時間的物體識別過程。Saliency模型:程序輸入是一張靜態(tài)的彩色圖片,通常采用640*480的圖片,通過利用高斯金字塔構(gòu)建9種不同的空間尺度,對輸入圖像進(jìn)行低通過濾和二次采樣,生成從1:1到1:256這8個幅度的橫向和縱向的圖像縮小因素。每一個特征都是通過計算一組線性的"center-surround"運(yùn)算。類似于視覺接受域:典型的視覺神經(jīng)元對視野中心的區(qū)域一小塊區(qū)域特別敏感,而刺激更廣泛的外圍區(qū)域則會抑制神經(jīng)元的反應(yīng)。對局部不連續(xù)空間敏感的這樣一種結(jié)構(gòu),特別適合用于檢測明顯與周圍不同的局部特征,因此被用作模擬視網(wǎng)膜、外側(cè)膝狀體和初級視皮層的運(yùn)算法則。Center-surround在實(shí)現(xiàn)中會有從精細(xì)到粗獷的不同尺度。中心分別取每個像素取c為2倍、3倍、4倍,外圍則是每個像素對應(yīng)s對應(yīng)s=c+δ,δ取3或4。兩張圖的跨尺度區(qū)分是通過修改精細(xì)尺度和點(diǎn)對點(diǎn)做減法獲取的。通過使c和δ兩方面,可以獲取真正的中心區(qū)域和周圍區(qū)域的多尺度特征提取。2.6提取早期視覺特征模型研究的特征分為三種,分別為明暗特征,色彩特征和方向特征。r,g,b分別代表輸入圖像的紅色、綠色和藍(lán)色,圖像的亮度通道I通過I=<r+g+b>/3計算得到的。I用于創(chuàng)建高斯金字塔I<σ>,其中σ取0到8的整數(shù)。r,g,b通道通過計算I進(jìn)行正規(guī)化,將色彩從亮度中解耦。然而由于色彩變換在亮度特別低的時候是無法感知的,因此是不顯著的,因此正規(guī)化僅僅作用于I大于整張圖片亮度最大值十分之一的部位。4個調(diào)和后的色彩通道分別為紅色通道R=r-<g+b>/2,綠色通道G=g-<r+b>/2,藍(lán)色通道B=b-<r+g>/2和黃色通道Y=<r+g>/2-|r-g|/2-b,通過這4個通道,由此,我們可以創(chuàng)建R<σ>,G<σ>,B<σ>,andY<σ>四個高斯金字塔。前面定義的center-surround差值通過中心的精細(xì)比例c和外圍的粗糙比例s的差值產(chǎn)生了特征圖。第一組特征圖考慮的是亮度的對比,哺乳動物是通過神經(jīng)元對暗中心區(qū)域和亮外圍區(qū)域或亮中心區(qū)域作用于暗外圍區(qū)域的效果進(jìn)行分別的。這兩種類型的敏感是用6組亮度圖I<c,s>同時計算的,c分別取2,3,4,s=c+δ,δ分別取3或4:第二組特征圖與前面類似,是為色彩通道構(gòu)建的,在人類的視覺皮層中是通過一種稱為"雙色對比"的系統(tǒng)來處理色彩的:在感受野中部的神經(jīng)元會被一種顏色〔例如紅色刺激產(chǎn)生興奮而被另一種顏色〔例如綠色抑制。反之對外圍的神經(jīng)元也成立。這種空間色彩的對比在人腦視覺感受皮層中存在紅/綠、綠/紅、藍(lán)/黃和黃/藍(lán)4組對比。因此,通過創(chuàng)建模型中的RG<c,s>特征圖可以同時模擬紅/綠和綠/紅兩種對比,BY<c,s>則可以模擬藍(lán)/黃和黃/藍(lán)兩種對比:第三組特征圖是局部方向特征圖,通過Gabor金字塔作用于亮度圖I產(chǎn)生方向顯著圖O<σ,θ>,σ取0到8的正整數(shù)來表示比例,θ是表示的方向,分別取0°,45°,90°和135°。Gabor過濾是余弦光柵和2D高斯包絡(luò)的乘積,結(jié)果近似于初級視皮層感受野對方向的敏感辨識程度。方向特征圖O<c,s,θ>,表示了中心和周圍尺度的方向?qū)Ρ?。綜上所述,共通過計算生成了42張?zhí)卣鲌D,其中包括6張亮度圖,12張顏色圖和24張方向圖。2.7顯著圖〔TheSaliencyMap顯著圖用于通過常量表示一個區(qū)域的顯著性。顯著圖與特征圖結(jié)合起來,以動態(tài)神經(jīng)網(wǎng)絡(luò)為模型提供了自低向上的構(gòu)建特征圖的方法。在結(jié)合不同的特征圖時,由于各張?zhí)卣鲌D之間有著不同的值域,且提取方式不同,因此數(shù)值上不具有可比性。另外由于要結(jié)合所有的42張圖,因此出現(xiàn)在少數(shù)幾張圖中幾個位置的視覺顯著可能會被噪聲或者其他較為不顯著的物體遮擋。由于缺少自頂向下的監(jiān)督,我們提出一種對圖進(jìn)行正規(guī)化的方法,用N<.>來表示。通過正規(guī)化可以達(dá)到的效果為,增強(qiáng)只有少量顯著點(diǎn)的顯著圖,削弱顯著點(diǎn)較多的顯著圖,步驟如下:1.將每張圖進(jìn)行正規(guī)化到一個固定的值域[0..M],以消除振幅的差別。2.找出每張圖的全局極大值M,并計算所有局部極大值的平均值m3.對整個特征圖進(jìn)行運(yùn)算,乘上<M-m>^2只有局部極大值才會被計算,這樣正規(guī)化就可以忽略同質(zhì)的區(qū)域。比較整張圖的極大值和平均值可以看出最活躍的部位和平均值的區(qū)別。當(dāng)這個差別較大的時候,最活躍的區(qū)域就會較為明顯,若這個差別較小,則這張圖就會被抑制。正規(guī)化方法的生物學(xué)解釋在于,它簡單地重現(xiàn)了外側(cè)皮層的抑制機(jī)制,相鄰的類似特征會通過一種特殊的物理鏈接相互抑制。特征圖分別被合并到尺度為4的三張顯著圖,分別為亮度圖I,顏色圖C和方向圖O。計算方法如公式所示,其中跨尺度的加法是由將每幅圖降尺度到尺度四再進(jìn)行像素對像素的加法:對于方向而言,首先根據(jù)給定的角度和六張?zhí)卣鲌D生成中間步驟的四張圖,接著整合成一張方向特征圖。創(chuàng)建三張單獨(dú)的通道圖I,C,O和他們各自的正規(guī)化是基于假設(shè):類似的特征會為了顯著而激烈競爭,然而不同的特性對于顯著圖會有各自的表現(xiàn)。三張圖片經(jīng)過正規(guī)化后取平均值即可得到最終的saliency圖。在任意時刻,saliency圖的最大值定義了整張圖片最顯著的位置,也就是注意力焦點(diǎn)所在的位置〔FOA。我們可以簡單地認(rèn)為,圖片中最活躍的區(qū)域就是模型關(guān)注的下一個焦點(diǎn)。然而,在一個神經(jīng)元可行的實(shí)現(xiàn)中,我們利用比例為4的2D積聚觸發(fā)模型對saliency圖進(jìn)行建模。模型中的這些神經(jīng)元有一個電容可以將突觸輸入的電量聚集起來進(jìn)行充電,一個漏電導(dǎo)和一個電壓閾值。當(dāng)電壓達(dá)到了這個閾值,就會生成一個觸發(fā)原型,并且電容的電量會減少到0。尺寸為4的saliency圖會輸入到一個2D的贏家通吃〔WTA神經(jīng)網(wǎng)絡(luò),不同單元之間的突觸交互可以保證最活躍的區(qū)域被保留,而其他的區(qū)域都被抑制。顯著圖<SM>興奮接收區(qū)域的神經(jīng)元都是獨(dú)立的,在更加顯著位置的SM神經(jīng)元增長會更快〔然而這些神經(jīng)元僅用于單純的聚集但不觸發(fā)。每一個SM神經(jīng)元都會刺激周圍的WTA神經(jīng)元。所有的WTA神經(jīng)元都是獨(dú)自進(jìn)化的,知道其中一個首先達(dá)到閾值,同時觸發(fā)三個機(jī)制。過程可以概括成三個步驟,如下:1FOA轉(zhuǎn)移到贏家神經(jīng)元的區(qū)域;2對于WTA的抑制機(jī)制被處罰接著抑制WTA神經(jīng)元;3在SM區(qū)域,局部抑制被短暫觸發(fā),方式是在FOA的區(qū)域根據(jù)位置和大小進(jìn)行抑制。這樣不僅可以動態(tài)的轉(zhuǎn)移FOA,從而使得次顯著的點(diǎn)也能夠成為贏家,還可以防止FOA立即回到之前的位置。這種"返回抑制"已經(jīng)在人類視覺心理物理學(xué)中得到了證明。為了使得模型可以緊接著跳轉(zhuǎn)到當(dāng)前注意點(diǎn)附近的顯著點(diǎn)區(qū)域,會短暫地刺激在FOA附近的SM區(qū)域?!策@種方式被稱為Koch和Ulman法則。由于我們沒有創(chuàng)建任何自頂向下的注意部件,FOA僅是一個半徑固定為輸入圖片寬度或高度六分之一的圓盤,時間常數(shù),電導(dǎo),和模擬的神經(jīng)元閾值都是被選定的,從而FOA可以從一個顯著點(diǎn)在30-79毫秒左右跳到下一個顯著點(diǎn),并且上一個顯著點(diǎn)的區(qū)域會被抑制500-900毫秒,這個過程與視覺心理物理學(xué)中是被觀測到的。這些延遲使得可以充分掃描圖片并且避免了在幾個顯著點(diǎn)間反復(fù)循環(huán)。在具體實(shí)現(xiàn)中,這些參數(shù)是固定的,在研究中所有圖片在系統(tǒng)中的結(jié)果都是穩(wěn)定的。2.8與空間頻率內(nèi)容模型的比較Reinagel和Zador使用了眼球追蹤裝置分析根據(jù)人類自由觀看灰度圖像生成的沿眼掃描局部空間頻率分布。他們發(fā)現(xiàn),總的來說,在關(guān)注區(qū)域的空間頻率內(nèi)容要顯著高于隨機(jī)區(qū)域。雖然在意志力控制下,眼軌跡是可以與注意力軌跡不同的,但是視覺注意力經(jīng)常被認(rèn)為是一個先于眼球運(yùn)動的機(jī)制,對于自由的瀏覽有很大的影響。因此,我們便探究了是否我們的模型可以重現(xiàn)Reinagel和Zador的發(fā)現(xiàn)。對于空間頻率內(nèi)容〔SFC我們給出了一種簡單的表示方式:對于一個給定的圖像位置,從每個灰度、R、G、B、Y圖中提出一個16*16的圖像塊,然后對這個圖像塊進(jìn)行2D快速傅里葉變換〔FFTs。對于每個圖像塊而言,一個閾值用于計算不可忽略的FFT數(shù)系數(shù),閾值對應(yīng)于FFT剛感知光柵的豐富度〔1%的對比度。SFC表示五個相應(yīng)圖像塊不可忽視系數(shù)數(shù)目的平均值。選定相應(yīng)大小和尺度的圖像塊,從而使得SFC對RGB通道和灰度通道中進(jìn)行計算。通過這種方式,可以生成一個尺度為4的SFC圖,并于顯著圖進(jìn)行比較。是色彩圖片的例子;<b>是相應(yīng)的顯著圖輸入;<c>是空間頻率內(nèi)容〔SFC圖;<d>黃色圈標(biāo)出了通過顯著圖找出的顯著點(diǎn),紅色方框標(biāo)出了SFC找出的顯著點(diǎn),從結(jié)果可以看出,顯著圖對于噪聲的容忍度很高,然而SFC受噪聲干擾很大。顯著圖在FOA模型中常被用到,但是很少提到具體構(gòu)建和動態(tài)變化,在這里,我們研究了如何進(jìn)行前饋特征提取,圖像組合策略和顯著圖的時間特性都對于整體系統(tǒng)性能有貢獻(xiàn)。我們用許多人工圖像對模型進(jìn)行了測試從而確保它的正常運(yùn)作。比如,很多相同形狀但背景不同,按照對比度遞減的順序排列的物體。模型表現(xiàn)出了對于噪聲良好的容忍性,尤其是對于噪聲沒有直接影響目標(biāo)主要特征的圖。模型可以重現(xiàn)人類對于許多彈出任務(wù)的視覺表現(xiàn)。當(dāng)一個目標(biāo)在方向,顏色,灰度或者大小方面,與周圍干擾項不同時,它總是可以成為最顯著的點(diǎn)。反之,如果目標(biāo)與干擾項在多種特征中存在區(qū)別〔比如在紅色豎直條和綠色水平條圖中,有一個唯一的紅色水平條,找到顯著點(diǎn)所需的搜索時間與干擾項數(shù)目成正比。這兩種結(jié)果的結(jié)論已經(jīng)被廣泛地觀察和記錄在人類視覺研究中。我們還是用了真實(shí)圖片進(jìn)行了測試,比如真實(shí)的戶外圖片和人工圖畫,通過正規(guī)化對圖片進(jìn)行調(diào)整。由于這些圖片沒有被其他人作為實(shí)驗(yàn)素材使用,所以無從進(jìn)行比較。我們建立的Saliency模型是一個架構(gòu)和部件都模仿人類視覺屬性的模型,本模型可以良好的處理復(fù)雜的自然環(huán)境圖像,例如,它可以快速檢測到車流中的顯著交通信號〔圓形,三角形,正方形,長方形,顏色〔紅色,藍(lán)色,白色,橙色,黑色,和文字信息〔字母,箭頭,條紋,圓圈。從計算機(jī)的角度而言,此模型最大的優(yōu)勢在于有大量并行運(yùn)算,包括早期特征提取階段的大量操作和視覺注意系統(tǒng)。我們模型的結(jié)構(gòu)可以支持在硬件上進(jìn)行實(shí)時操作,這與之前其他模型有較大不同。2.9場景主旨模型〔Gist隨著計算機(jī)視覺技術(shù)的發(fā)展,機(jī)器場景識別的能力也在不斷提高,這方面的研究也日益豐富,目前主要分為基于物體場景識別、基于區(qū)域的場景識別、基于內(nèi)容的場景識別和生物可行場景識別。因?yàn)楸M管硬件性能和計算算法在不斷提升和優(yōu)化,目前的場景識別水平仍然和人眼相比差距甚遠(yuǎn),所以采用生物可行場景識別是一個新穎而充滿潛力的研究方向。gist算法是一種應(yīng)用于機(jī)器人的場景識別算法。這種算法的優(yōu)點(diǎn)在于,它具有生物學(xué)上的可行性,并且計算復(fù)雜度較低,與其他的視覺注意模型共享相同的底層特征,可以在機(jī)器人上與其他的模型進(jìn)行并行計算,計算速度快,效率高。2.10視覺皮層特征提取和視覺引導(dǎo),Saliency計算機(jī)制相同,人類還有一項絕妙的快速獲取圖像"要點(diǎn)〔Gist"的能力,比如快速在鏡頭和人眼前閃過一張圖像,僅僅是一閃而過,就足以讓觀察者回答圖像是一張室內(nèi)廚房的圖,圖中有很多五顏六色的物體。由此我們可以發(fā)現(xiàn),僅僅需要100ms或者更短的時間,人們就可以對圖像產(chǎn)生整體的印象〔比如,室內(nèi)還是室外,廚房還是辦公室等一些大體的特征也可以被獲取,然而,更讓人驚訝的是,如果需要觀察者回答,圖中是否有一只動物等問題,觀察者只需要28ms就可以做出正確的回答。Gist是在大腦中優(yōu)先相應(yīng)"位置"的區(qū)域中計算的,也就是對應(yīng)限制空間布局的視覺場景類型。空間內(nèi)容和顏色判斷會影響Gist的感知,這就促進(jìn)了當(dāng)前專門研究空間分析的計算機(jī)模型的發(fā)展。Gist廣義的心理學(xué)定義是觀察者看一眼獲取的圖像信息,我們討論的Gist表示是建立與這個定義的基礎(chǔ)上,指在一個短時間內(nèi)獲取的相對維度較低的場景圖。我們將Gist表示為特征空間的向量,如果對應(yīng)某個給定圖像的Gist向量可以被分類到某個特定的場景類別,那么基于Gist的場景分類就是可實(shí)現(xiàn)的。我們目前研究的重心集中在通過多個域的功能從圖片中提取Gist,計算它的整體特征,同時兼顧其大致的空間信息?,F(xiàn)有模型是根據(jù)Saliency模型提出的。2.11場景主旨〔Gist特征提取經(jīng)過底層的center-surround進(jìn)行特征提取后,每個子通道都會提取一個相應(yīng)特征圖的gist向量。將圖片分割為4X4的16個子區(qū)域,對每個字區(qū)域進(jìn)行均值計算。從獲取的結(jié)果的角度看,Gist和Saliency是相對的,因?yàn)間ist是對圖像的子區(qū)域進(jìn)行特征提取,而saliency是對整個區(qū)域進(jìn)行特征提取。但是,人類只有一個大腦,同時要進(jìn)行Gist和Saliency的計算,所以與saliency相同,在Saliency模型中,輸入圖像經(jīng)過一系列底層的視覺特征通道過濾,得到不同尺寸的色彩、亮度、方向特征圖,有些通道有許多子通道。每個子通道都有9種不同尺寸的金字塔來表示過濾后的輸出,在水平和豎直方向,比例都是從1:1到1:256,并且都要進(jìn)行5*5的高斯平滑。對于每個子通道i,模型采用center-surround操作進(jìn)行標(biāo)準(zhǔn)化。色彩和灰度通道公式如下:Mi<c,s>=|Oi<c>?Oi<s>|=|Oi<c>?Interps?c<Oi<s>>|Gist模型復(fù)用Saliency模型的方向、色彩和灰度通道,對于方向通道,對灰度輸入圖像采用Gabor濾波器從四個不同的角度,四個空間尺度計算十六個子通道的和。需要注意的是,Gabor濾波器不進(jìn)行center-surround因?yàn)檫@些濾波器本身已經(jīng)各不相同了。Mi<c>=Gabor<θi,c>對于色彩通道的處理,與Saliency相似。每個子通道從各自的特征圖中都能提出一個Gist向量。公式是對16個小的區(qū)域進(jìn)行亮度特征提取的方法,k和l分別是子區(qū)域在水平方向上和豎直方向上的序號。W和H分別是整張圖片的寬度和高度。類似地,我們可以得到方向通道的特征提取。盡管其他的數(shù)據(jù)統(tǒng)計可以提供不同的有效信息,然而它們的計算開銷太高,而且他們在生物學(xué)上的解釋仍有爭議,因此我們只進(jìn)行一階統(tǒng)計就可以進(jìn)行有效的分類。2.12顏色恒常算法利用這種基于統(tǒng)計的gist算法的優(yōu)點(diǎn)在于它的穩(wěn)定性可以屏蔽局部的或隨機(jī)的噪聲干擾。在gist算法中更重要的是全局的特征,例如光線對整張圖片的改變。顏色恒常算法例如grayworld算法和whitepatch算法就假設(shè)場景中的光線是恒定的。然而,在現(xiàn)實(shí)場景中光線并不一定會恒定。光線不僅會隨著時間的推移而改變,而且在同一場景中,光源也不一定是單點(diǎn)光源。由于光源的不穩(wěn)定性,場景中的不同物體會在不同的時間被照亮。值得注意的是,這一步的目標(biāo)不是為了高精度地對色彩進(jìn)行識別或正規(guī)化,而是生成穩(wěn)定的顏色亮度gist特征圖。我們也
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 完善流程合規(guī)性的工作策略計劃
- 倉庫服務(wù)質(zhì)量的提升路徑計劃
- 跨國公司投資決策的全球性財務(wù)分析案例
- 小學(xué)語文作文八十天環(huán)游世界讀后感1
- 新課標(biāo)天津?qū)S?024高考?xì)v史二輪復(fù)習(xí)專題提升訓(xùn)練17中外歷史人物評說
- 超聲圖像質(zhì)量分析與質(zhì)量控制策略
- 浙江2025年01月浙江省溫嶺市殯儀館2025年公開招考2名編制外工作人員筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 查鄉(xiāng)小學(xué)體育課教案
- 足浴店日常清潔消毒工作規(guī)范
- 運(yùn)動鍛煉在血液病治療中的作用
- 軟件工程導(dǎo)論課件(全)
- 水工-建筑物課件
- EBS-發(fā)運(yùn)管理操作實(shí)例
- 中職生心理特征和常見心理問題
- 北京商用密碼應(yīng)用方案集錦
- 晉中信息學(xué)院基本信息登記表
- 旋挖樁施工工藝
- 全國商用密碼應(yīng)用優(yōu)秀案例匯編
- 護(hù)理安全警示教育ppt
- GB/T 5392-2004林業(yè)機(jī)械油鋸技術(shù)條件
- 食品安全 PPT課件7農(nóng)獸藥化學(xué)性污染對食品安全性的影響
評論
0/150
提交評論