版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于空間變換網(wǎng)絡(luò)的人員行為識別方法通過分析人員行為相關(guān)的傳感器數(shù)據(jù),可提取到抽象高階的人員行為知識用于人員的行為識別(human activity recognition,HAR),在智能運動、智能家居、醫(yī)療健康領(lǐng)域有著較廣泛的應(yīng)用前景1,2。在智能運動領(lǐng)域,通過識別人員行為進(jìn)行運動模式或運動量的統(tǒng)計;在智能家居領(lǐng)域,通過識別人員的行為,自動改變家電狀態(tài);在醫(yī)療健康領(lǐng)域,通過傳感器數(shù)據(jù)對老人的跌倒進(jìn)行檢測等。隨著物聯(lián)網(wǎng)技術(shù)的日趨成熟和傳感器網(wǎng)絡(luò)的普及程度增加,傳感器的部署范圍越來越大,這意味著可獲取的傳感器數(shù)據(jù)種類越來越豐富。這些豐富的傳感器數(shù)據(jù)可以用于人員行為識別,為上述的智能運動等領(lǐng)域提供
2、服務(wù)。當(dāng)前可用于行為識別的傳感器大致可以分為3類3:可穿戴傳感器、物載傳感器和環(huán)境傳感器??纱┐鱾鞲衅魇侨藛T可隨身攜帶的傳感器,如智能手機(jī)、智能手環(huán)等;物載傳感器是裝載于物體上的傳感器,如射頻標(biāo)簽(radio frequency identification,RFID)等;環(huán)境傳感器是在人員生活工作環(huán)境中安裝的傳感器,可以對人員的活動進(jìn)行觀測,如WiFi、藍(lán)牙、麥克風(fēng)等。這3種傳感器中,最為普及的是第1類可穿戴傳感器,特別是智能手機(jī)作為搭載不同傳感器的平臺,可以提供豐富的傳感器數(shù)據(jù)用于人員行為識別,并且其普及度也最大,而物載傳感器和環(huán)境傳感器需要較大的部署成本,其應(yīng)用范圍較第1類更窄。在基于第
3、1類傳感器的行為識別應(yīng)用中,由于慣性數(shù)據(jù)容易獲得(通常來說,智能手機(jī)和智能手環(huán)都內(nèi)嵌慣性傳感器)并且維度較高、內(nèi)嵌信息豐富,因此基于慣性測量的人員行為識別具有較大的應(yīng)用前景。根據(jù)數(shù)據(jù)進(jìn)行人員行為識別后,后續(xù)可利用行為信息方便地與智能家居等應(yīng)用聯(lián)動,其應(yīng)用場景十分廣泛。傳統(tǒng)的識別方法通過特征提取后,再經(jīng)過機(jī)器學(xué)習(xí)的典型分類器,如決策樹(decision tree,DT)、支撐向量機(jī)(support vector machine,SVM)等進(jìn)行識別。這些經(jīng)典的識別方法通常識別率有限,且強(qiáng)烈依賴于人工提取特征的種類。然而在實際應(yīng)用中,可用于分類的特征通常難以明顯地表達(dá),不存在特定的物理意義,因此往往
4、不能通過人工方法獲取。本文研究基于智能手機(jī)內(nèi)嵌的傳感器數(shù)據(jù)的人員行為識別?;谏疃葘W(xué)習(xí)的方法能夠通過訓(xùn)練樣本提取到可用于分類的復(fù)雜深層次的特征4。典型的基于深度學(xué)習(xí)的人員行為識別方法通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行建模學(xué)習(xí)。1)基于CNN網(wǎng)絡(luò)的方法。文獻(xiàn)5對比了基于CNN網(wǎng)絡(luò)方法和經(jīng)典的機(jī)器學(xué)習(xí)方法的識別率:主成分分析(principal component analysis,PCA)方法、隨機(jī)森林方法、k近鄰方法等,證明了基于CNN網(wǎng)絡(luò)方法的識別率更高。文獻(xiàn)6提出
5、了基于多通道的CNN網(wǎng)絡(luò)行為識別方法,進(jìn)一步提高了識別率。文獻(xiàn)7研究了不同樣本特征作為輸入的情況,并且證明了相同樣本特征作為輸入的條件下,CNN方法相比于SVM方法有著更高的識別率。2)基于RNN網(wǎng)絡(luò)的方法。文獻(xiàn)8,9利用RNN模型進(jìn)行人員行為識別,相比于CNN網(wǎng)絡(luò)有著更高的識別率。以上方法利用長短時記憶(long-short term memory,LSTM)門控單元作為基本單元實現(xiàn)RNN網(wǎng)絡(luò)識別,該類型網(wǎng)絡(luò)具有“記憶”功能,能夠?qū)W(xué)習(xí)到時間序列的前后關(guān)系進(jìn)行分類,相比于CNN網(wǎng)絡(luò),其缺點是訓(xùn)練復(fù)雜度和難度增加。文獻(xiàn)10更進(jìn)一步利用雙向長短時記憶(Bi-LSTM)門控單元實現(xiàn)RNN網(wǎng)絡(luò),使該
6、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不僅能利用當(dāng)前狀態(tài)之前的信息,也能利用當(dāng)前狀態(tài)后續(xù)的信息進(jìn)行分類,使識別正確率進(jìn)一步提高,同時也進(jìn)一步增加了訓(xùn)練的復(fù)雜度。上述深度學(xué)習(xí)網(wǎng)絡(luò)中,可以根據(jù)帶標(biāo)簽的樣本,通過卷積層或基于時間的LSTM門控單元學(xué)習(xí)慣性數(shù)據(jù)中深層次的特征或時間域相關(guān)的特征,用于分類任務(wù)。池化層(pooling layer,PL)11通常應(yīng)用到上述網(wǎng)絡(luò)中對固定鄰域內(nèi)數(shù)據(jù)進(jìn)行總結(jié),獲取鄰域內(nèi)數(shù)據(jù)的一些統(tǒng)計量(如最大池化用鄰域內(nèi)數(shù)據(jù)的最大值作為該統(tǒng)計量,平均池化利用平均值作為該統(tǒng)計量)。用這些統(tǒng)計量替代原始數(shù)據(jù),一方面可降低訓(xùn)練或識別的復(fù)雜度,另一方面使網(wǎng)絡(luò)具備一定的對樣本變換的穩(wěn)定性12。在圖像識別領(lǐng)域,樣本中
7、存在同類物體的縮放、旋轉(zhuǎn)、平移等變換。由于池化層具有統(tǒng)計量替代原始數(shù)據(jù)的機(jī)理,其鄰域固定并且在工作過程中喪失了一定的位置信息13,因此應(yīng)對樣本變化的能力存在較大限制,無法適應(yīng)輸入樣本的較大改變。在基于慣性數(shù)據(jù)的人員行為識別中,相同行為的樣本同樣可能存在較大變化,如行走行為中快走和慢走的加速度幅值和頻率存在巨大變化。樣本變化需要對傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),從而提高整體的識別率。本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變換網(wǎng)絡(luò)(spatial transformer network,STN)14,使得深度網(wǎng)絡(luò)對樣本的幅度、頻率等變化更加穩(wěn)健。文獻(xiàn)14提出將空間變換網(wǎng)絡(luò)用于圖像識別領(lǐng)域,在傳統(tǒng)網(wǎng)絡(luò)中加入空間變
8、換單元從而提高識別率??臻g變換單元的構(gòu)成主要包含2個方面:建立基于仿射變換(affine transformation,AT)的參數(shù)模型,基于雙線性變換(bilinear interpolation)的參數(shù)變換。本文根據(jù)人員慣性數(shù)據(jù)的特點,對仿射變換的參數(shù)模型進(jìn)行了改進(jìn),使其能夠適應(yīng)慣性數(shù)據(jù)中同類行為的樣本變換,包含時間的平移、頻率的變化等。通過開源數(shù)據(jù)集對本文方法進(jìn)行了驗證,試驗結(jié)果表明,本文方法相對于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)的識別率有一定提高,比傳統(tǒng)的基于CNN網(wǎng)絡(luò)、RNN網(wǎng)絡(luò)方法的識別率分別提高了約5.1%、3.4%。1 識別方法本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變換單元進(jìn)行行為識別,利用樣本
9、中可能出現(xiàn)的現(xiàn)象建立參數(shù)模型,如樣本中的幅度或能量的改變、頻率的改變等等,從而能有效利用樣本變化的先驗信息,在一定程度上消除已知樣本變化對識別率的不利影響。1.1空間變換單元1.1.1應(yīng)用背景在多種圖像識別任務(wù)中,通常希望識別網(wǎng)絡(luò)對輸入圖像的變化有較強(qiáng)的魯棒性,從而使得網(wǎng)絡(luò)泛化能力更強(qiáng)。輸入圖像或樣本的變化存在一些已知的先驗信息(如圖像的縮放、視點的變化、畸變等),這些變化可通過數(shù)學(xué)模型表示。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入這樣的數(shù)學(xué)模型后,可使網(wǎng)絡(luò)對輸入圖像的變化更加穩(wěn)健,并且達(dá)到降低網(wǎng)絡(luò)復(fù)雜度和減少所需訓(xùn)練樣本數(shù)目的目的。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,池化層的存在已經(jīng)具備了一定的對輸入樣本變化(或上一層
10、輸入變化)的穩(wěn)健性。池化層的工作原理如圖1所示,通過對上一層的某小范圍鄰域內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)計(圖中是對22個像素進(jìn)行最大值統(tǒng)計)得到新的網(wǎng)絡(luò)層。圖1最大池化示意圖Fig.1Maximum pooling diagram池化層的運用存在如下缺點:1)信息缺失。對某鄰域的數(shù)據(jù)進(jìn)行一定的統(tǒng)計,可能導(dǎo)致神經(jīng)元大量減少(圖1中的神經(jīng)元減少了75%),從而使信息的利用不足。不當(dāng)?shù)乩贸鼗瘜涌赡軐?dǎo)致網(wǎng)絡(luò)難以收斂,并且由于存在“降采樣”,導(dǎo)致物體在圖像中的位置信息存在一定的丟失。2)輸入穩(wěn)健性增益有限。由于池化層的“降采樣”模式固定,即統(tǒng)計量和鄰域范圍固定,僅對小范圍的輸入變化(或上一層的輸入變化)存在穩(wěn)健性。
11、當(dāng)網(wǎng)絡(luò)輸入存在劇烈的變化時,池化層的輸入也會產(chǎn)生對應(yīng)的較為劇烈的變化,可能導(dǎo)致網(wǎng)絡(luò)的識別率下降。池化層這2個固有缺點需要在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變化單元,以提高輸入穩(wěn)健性,進(jìn)而提高識別率。1.1.2單元結(jié)構(gòu)空間變換單元的結(jié)構(gòu)如圖2所示,包含參數(shù)生成網(wǎng)絡(luò)、像素生成器和采樣器。圖2空間變換單元的結(jié)構(gòu)Fig.2Spatial transformer element structure1)參數(shù)生成網(wǎng)絡(luò)通常可用簡單的層數(shù)較淺的卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)15中的網(wǎng)絡(luò)是一個5層的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的輸出對應(yīng)輸入變換參數(shù)。2)像素生成器可利用參數(shù)生成網(wǎng)絡(luò)得到的參數(shù)對輸入產(chǎn)生相應(yīng)的變換。在圖像領(lǐng)域,該變換通常是
12、仿射變換,其變換數(shù)學(xué)模型如下:xoyo=142536xiyi1(1)式中:xi、yi為輸入像素的坐標(biāo);xo、yo為輸出像素的坐標(biāo);16為仿射變換包含的6個參數(shù),這6個參數(shù)表示圖像的縮放、旋轉(zhuǎn)、平移、線性畸變等變化。文獻(xiàn)16中詳細(xì)論述了不同參數(shù)對應(yīng)的不同變換。3)采樣器的目的是得到整數(shù)像素坐標(biāo)的值。式(1)中輸出的坐標(biāo)可能是小數(shù),可以通過雙線性插值得到整數(shù)像素坐標(biāo)的值(利用附近的4個像素點的坐標(biāo)值),該變化如下:v=y2yy2y1v1+yy1y2y1v2(2)其中v1=x2xx2x1v11+xx1x2x1v21(3)v2=x2xx2x1v12+xx1x2x1v22(4)式中:v為整數(shù)像素坐標(biāo)對應(yīng)
13、的像素值;v11、v21、v12和v22分別為附近4個像素點x1y1、x2y1、x1y2和x2y2對應(yīng)的像素值。文獻(xiàn)14中具體描述了空間變換單元結(jié)構(gòu)。在不同的圖像數(shù)據(jù)集的分類任務(wù)中,加入空間變換單元后相比于基于卷積神經(jīng)網(wǎng)絡(luò)的基準(zhǔn)方法,其識別率得到明顯提高。1.2利用空間變換單元進(jìn)行人員行為識別與圖像領(lǐng)域的空間變換單元應(yīng)用背景相似,在人員行為識別領(lǐng)域中,仍然存在一些輸入數(shù)據(jù)的變化,如信號的能量或幅度的變化、采樣頻率的變化(由于測量器件的不完美導(dǎo)致)等,這些變化能夠影響神經(jīng)網(wǎng)絡(luò)的穩(wěn)健性和識別率,同樣需要對傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行相應(yīng)的變化,加入空間變化單元。由于人員行為識別所用的數(shù)據(jù)與圖像領(lǐng)域
14、特點不同,空間變換單元的結(jié)構(gòu)也需要進(jìn)行相應(yīng)的變化。1.2.1改進(jìn)的仿射變換模版本文所用樣本由手機(jī)上的慣性傳感器采集得到,包含線性加速度(三軸)、加速度(三軸)、角速度(三軸)共9軸傳感器數(shù)據(jù)。單個輸入樣本的維度為9128,其中128為時間采樣點個數(shù),9為傳感器數(shù)據(jù)的總自由度??臻g變換單元對輸入的9128的樣本數(shù)據(jù)進(jìn)行處理,從而進(jìn)行參數(shù)變換。在人員行為識別中,不能用上文所述的原始仿射變換。此處的9軸傳感器數(shù)據(jù)可以看做是相互獨立的輸入,其代表了不同種類的物理觀測量或者不同正交軸的觀測量,而原始仿射變換中的旋轉(zhuǎn)等變換可能改變不同軸的相關(guān)性。本文對仿射變換的模版進(jìn)行了修改,如下式所示:142536a0
15、0cb0(5)式中:a、c為縮放相關(guān)參數(shù);b為平移相關(guān)參數(shù)。本文僅考慮單個維度的平移和縮放變換,所以可將傳統(tǒng)的仿射變換按照式(5)進(jìn)行改寫后,再利用該變換模版可實現(xiàn)傳感器單軸數(shù)據(jù)的縮放、平移變換,從而提供樣本中單軸數(shù)據(jù)的時間平移和頻率變化穩(wěn)健性,消除了經(jīng)典仿射變換中的旋轉(zhuǎn)效應(yīng)帶來的多軸數(shù)據(jù)相關(guān)性改變的問題,同時也減少了需要的參數(shù)數(shù)量,減小了傳統(tǒng)空間變換單元中的復(fù)雜度。1.2.2人員行為識別網(wǎng)絡(luò)結(jié)構(gòu)本文所用的人員行為識別網(wǎng)絡(luò)如圖3所示,包含空間變換單元(上)和識別網(wǎng)絡(luò)(下)2部分。從圖3可見,空間變換單元的本質(zhì)是對原始的傳感器數(shù)據(jù)進(jìn)行預(yù)處理,再輸入至對應(yīng)的識別網(wǎng)絡(luò)中。圖3人員行為識別網(wǎng)絡(luò)總體結(jié)構(gòu)
16、Fig.3The overall structure of the human activity recognition network空間變換網(wǎng)絡(luò)的功能如下:從輸入中獲取變換參數(shù),并對輸入進(jìn)行參數(shù)變換,得到變換后的輸出。識別網(wǎng)絡(luò)的功能是對預(yù)處理后的樣本進(jìn)行識別,得到該樣本所屬的類別??臻g變換單元主要有2個功能:1)獲取空間變換的參數(shù),較小規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)通過回歸的方式學(xué)習(xí)到空間變換參數(shù),與經(jīng)典的仿射變換參數(shù)模式不同,本文所用的空間變換參數(shù)僅包含3個參數(shù),分別為a、b、c;2)利用3個參數(shù)對輸入的樣本數(shù)據(jù)進(jìn)行空間變換,可對單軸的傳感器數(shù)據(jù)進(jìn)行時間的平移和頻率的變換,但是不影響多軸數(shù)據(jù)之間的相
17、關(guān)性。其中空間變換單元的子結(jié)構(gòu)如圖4所示,包含2層二維卷積層、2層全聯(lián)接層,這些層都利用線性整流函數(shù)(rectified linear unit,ReLU)作為激活函數(shù),該激活函數(shù)可表示為relu(x)=max(0,x)(6)式中:x表示上一層神經(jīng)網(wǎng)絡(luò)的輸出,最后一層為線性全聯(lián)接層,輸出為希望得到的空間變換參數(shù)(a、b、c)。該函數(shù)的引入可大大增強(qiáng)神經(jīng)網(wǎng)絡(luò)對非線性關(guān)系的擬合能力。該網(wǎng)絡(luò)可以看做是1個回歸網(wǎng)絡(luò),從樣本數(shù)據(jù)中通過回歸的方式得到空間變換的參數(shù),該參數(shù)可以控制輸入樣本中單軸的平移和頻率變換。得到參數(shù)后,通過式(5)對輸入樣本進(jìn)行對應(yīng)的變換。圖4基于空間變換的人員行為識別網(wǎng)絡(luò)結(jié)構(gòu)Fig.
18、4The spacial transformer based human activity recognition network structure經(jīng)過空間變換網(wǎng)絡(luò)后,樣本獲得了一定的輸入變換穩(wěn)健性,將這些樣本再通過一定的卷積網(wǎng)絡(luò)可以得到人員行為類別,該網(wǎng)絡(luò)如圖5所示,包含2層卷積層(帶relu激活函數(shù))、2層線性全聯(lián)接層(帶relu激活函數(shù))、Softmax層。經(jīng)過Softmax層后,輸出為該樣本屬于不同類的概率矢量,由該概率矢量與經(jīng)過獨熱編碼后的標(biāo)簽矢量可以得到交叉熵代價函數(shù)losscp:losscp=iYilog(Yi)(7)式中:Yi為經(jīng)過Softmax層得到的概率矢量;Yi為獨熱編
19、碼后的標(biāo)簽矢量;i為對應(yīng)矢量維度的索引。圖5人員行為識別空間變換子網(wǎng)絡(luò)(回歸網(wǎng)絡(luò))結(jié)構(gòu)Fig.5Structure of human activity recognition spatial transformer sub-network(regression network)概率矢量與獨熱編碼后的標(biāo)簽矢量,相同之處是兩者都為6維矢量(維度與行為識別的標(biāo)簽類別數(shù)目相同),不同之處在于標(biāo)簽矢量中對應(yīng)的某維(類)的值為1,其余維度為0,而概率矢量是樣本經(jīng)過神經(jīng)網(wǎng)絡(luò)前向計算后得到的該樣本屬于不同類別的概率,其不同維度的和值為1。交叉熵反映了真實類別和識別類別之間的差別,在本文方法中,將式(7)設(shè)置為
20、訓(xùn)練神經(jīng)網(wǎng)絡(luò)的代價函數(shù)。本文所用的數(shù)據(jù)集中包含6種不同的行為:平地行走、上樓行走、下樓行走、站立、坐下和平躺。2 試驗分析2.1訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)為能方便地與其他人員行為識別方法進(jìn)行橫向?qū)Ρ?,本文試驗采用了公開的數(shù)據(jù)集17,該數(shù)據(jù)集由加州大學(xué)爾灣分校(University of California Irvine,UCI)提供。該數(shù)據(jù)集從不同年齡段(1948歲)的人群中錄取,通過放在腰部的智能手機(jī)(三星銀河系列2)上的慣性傳感器采集人員不同行為的數(shù)據(jù),包含了線性加速度(三軸)、加速度(三軸)、角速度(三軸)共9軸的數(shù)據(jù),為真實對應(yīng)物理量在時間上的采樣,采樣率為50 Hz。這些數(shù)據(jù)事先經(jīng)過了降噪
21、處理,按照128采樣點(2.56 s)為一批形成樣本。由于是連續(xù)的采樣數(shù)據(jù),根據(jù)時間窗生成樣本時,存在時間上的重疊(50%)。因此最終的樣本數(shù)據(jù)的維度為9128,其中9為傳感器數(shù)據(jù)的自由度,128為采樣點的數(shù)目。樣本的標(biāo)簽(即人員的行為類別)包含6類:平地行走、上樓行走、下樓行走、站立、坐下和平躺。為能利用這些標(biāo)簽進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試,本文對這些標(biāo)簽進(jìn)行了6維的獨熱編碼。本文隨機(jī)將這些帶標(biāo)簽的樣本劃分成訓(xùn)練數(shù)據(jù)集和測試集,其中訓(xùn)練集占70%,測試集占30%。圖6為該數(shù)據(jù)集中的2個樣本,每個樣本對應(yīng)128個時間采樣點,不同顏色表示不同傳感器軸獲取的數(shù)據(jù)。圖6傳感器原始數(shù)據(jù)Fig.6Raw s
22、ensor data2.2縱向?qū)Ρ仍囼灲Y(jié)果本文中的深度學(xué)習(xí)網(wǎng)絡(luò)框架為開源的Tensorflow框架,該框架既存在成熟的高階深度網(wǎng)絡(luò)層,也可以方便地編寫定制的網(wǎng)絡(luò)層進(jìn)行研究。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練的過程中,本文采用經(jīng)典的交叉熵代價函數(shù)和Adam優(yōu)化器。由于數(shù)據(jù)量較大,在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,將訓(xùn)練樣本隨機(jī)劃分為1 000個樣本的小批次進(jìn)行訓(xùn)練。圖7為本文方法(圖3)和傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)方法(圖5)的測試集在不同訓(xùn)練次數(shù)下的識別率對比曲線。由圖7可見,本文方法識別率提升更快、網(wǎng)絡(luò)收斂更快,在訓(xùn)練循環(huán)次數(shù)超過200 000次時,本文方法識別率約為95.8%,傳統(tǒng)的卷積網(wǎng)絡(luò)的識別率約為90.7%,本文方法平均識
23、別率相比于傳統(tǒng)方法提高了約5.1%。本文方法對原始數(shù)據(jù)進(jìn)行預(yù)處理后,再輸入的數(shù)據(jù)形式更加標(biāo)準(zhǔn),因此可以加快訓(xùn)練的速度,并且本文方法最后的識別率也較純卷積網(wǎng)絡(luò)的方法更高,識別率提高了約5.1%。圖7本文所用網(wǎng)絡(luò)結(jié)構(gòu)與經(jīng)典的卷積網(wǎng)絡(luò)結(jié)構(gòu)對測試集識別率曲線對比Fig.7The recognition rate curve comparison between the proposed method and classical CNN based method2.3橫向?qū)Ρ仍囼灲Y(jié)果本文對比了2種方法及本文方法的基本參數(shù)設(shè)置(包含每一層的參數(shù)設(shè)置和總的參數(shù)數(shù)目),如表1所示(relu層、池化層、Soft
24、max層不引入新參數(shù),未在該表中列出)。表1中:“Conv-40,38”表示該層為卷積層,其通道數(shù)目為40,卷積核的大小為38,“Conv-20,48”意義相同;Linear-32表示線性層,32為線性層的神經(jīng)元數(shù)目;LSTM-32表示長短時記憶門控層,32為隱藏特征數(shù)目;Fc-6表示全連接層,6為輸出的維度,F(xiàn)c128、Fc256、Fc3意義相同。RNN方法利用了基于LSTM的門控單元組成網(wǎng)絡(luò),具體包含1層線性層(隱藏神經(jīng)元數(shù)目為32個)、2層LSTM門控單元層(每一層中隱藏特征的數(shù)目設(shè)置為32)、2層全連接層。CNN網(wǎng)絡(luò)中包含2層卷積層、2層全連接層。由于空間變換子網(wǎng)絡(luò)的引入,導(dǎo)致本文方法
25、中的層數(shù)變多,表1中空間變換子網(wǎng)絡(luò)的參數(shù)在第1層。綜上可見,本文提出的基于空間變換網(wǎng)絡(luò)方法中需要訓(xùn)練的參數(shù)數(shù)目最多,相比于經(jīng)典的CNN網(wǎng)絡(luò),多出的部分為空間變換子網(wǎng)絡(luò)的參數(shù)。而基于RNN網(wǎng)絡(luò)的方法中,由于LSTM門控單元共享相同的訓(xùn)練參數(shù),因此待訓(xùn)練的參數(shù)總數(shù)較少。表 1試驗中不同網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1Different network architecture parameters in the experiment方法參數(shù)設(shè)置參數(shù)總數(shù)第1層第2層第3層第4層第5層CNN網(wǎng)絡(luò)Conv-40,48Conv-40,48Fc-256Fc-6-5.2106RNN網(wǎng)絡(luò)Linear-32LSTM-32LSTM-32Fc-256Fc-61.8105本文Conv-20,48Conv-20,48Fc-128Fc-3Conv-40,48Conv-40,4
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 材料合同范例摳字眼
- 更換物業(yè)協(xié)議合同范例
- 宣傳設(shè)計服務(wù)合同范例
- 陜西工商職業(yè)學(xué)院《專業(yè)技能訓(xùn)練化學(xué)教學(xué)技能》2023-2024學(xué)年第一學(xué)期期末試卷
- 山場轉(zhuǎn)讓合同范例
- 聯(lián)合體 合同范例
- 2024年汽車抵押貸款風(fēng)險預(yù)警合同模板3篇
- 2024全新車輛抵押貸款還款計劃合同3篇
- 2024年離職員工福利補償合同范本一
- 2024年度教育培訓(xùn)機(jī)構(gòu)課程授權(quán)委托合同下載3篇
- 《美麗的草原我的家》-完整版PPT
- 接地裝置試驗作業(yè)指導(dǎo)書
- 手術(shù)通知單模板
- 網(wǎng)絡(luò)拓?fù)鋱D常用圖標(biāo)新版
- 《互聯(lián)網(wǎng)金融》試題A及參考答案
- artcam2008軟件及使用artcam的安裝和破解
- 企業(yè)微信的使用培訓(xùn)
- 普外科??谱o(hù)理規(guī)范及標(biāo)準(zhǔn)
- UML學(xué)生成績管理系統(tǒng)
- CA6132普通車床使用說明書
- 工程交工驗收會議監(jiān)理發(fā)言
評論
0/150
提交評論