基于空間變換網(wǎng)絡(luò)的人員行為識別方法

上傳人：笑*** IP屬地：廣東上傳時間：2022-10-01 格式：DOCX 頁數(shù)：17 大?。?6.64KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于空間變換網(wǎng)絡(luò)的人員行為識別方法通過分析人員行為相關(guān)的傳感器數(shù)據(jù)，可提取到抽象高階的人員行為知識用于人員的行為識別（human activity recognition，HAR），在智能運動、智能家居、醫(yī)療健康領(lǐng)域有著較廣泛的應(yīng)用前景1，2。在智能運動領(lǐng)域，通過識別人員行為進(jìn)行運動模式或運動量的統(tǒng)計；在智能家居領(lǐng)域，通過識別人員的行為，自動改變家電狀態(tài)；在醫(yī)療健康領(lǐng)域，通過傳感器數(shù)據(jù)對老人的跌倒進(jìn)行檢測等。隨著物聯(lián)網(wǎng)技術(shù)的日趨成熟和傳感器網(wǎng)絡(luò)的普及程度增加，傳感器的部署范圍越來越大，這意味著可獲取的傳感器數(shù)據(jù)種類越來越豐富。這些豐富的傳感器數(shù)據(jù)可以用于人員行為識別，為上述的智能運動等領(lǐng)域提供

2、服務(wù)。當(dāng)前可用于行為識別的傳感器大致可以分為3類3：可穿戴傳感器、物載傳感器和環(huán)境傳感器?？纱┐鱾鞲衅魇侨藛T可隨身攜帶的傳感器，如智能手機(jī)、智能手環(huán)等；物載傳感器是裝載于物體上的傳感器，如射頻標(biāo)簽（radio frequency identification，RFID）等；環(huán)境傳感器是在人員生活工作環(huán)境中安裝的傳感器，可以對人員的活動進(jìn)行觀測，如WiFi、藍(lán)牙、麥克風(fēng)等。這3種傳感器中，最為普及的是第1類可穿戴傳感器，特別是智能手機(jī)作為搭載不同傳感器的平臺，可以提供豐富的傳感器數(shù)據(jù)用于人員行為識別，并且其普及度也最大，而物載傳感器和環(huán)境傳感器需要較大的部署成本，其應(yīng)用范圍較第1類更窄。在基于第

3、1類傳感器的行為識別應(yīng)用中，由于慣性數(shù)據(jù)容易獲得（通常來說，智能手機(jī)和智能手環(huán)都內(nèi)嵌慣性傳感器）并且維度較高、內(nèi)嵌信息豐富，因此基于慣性測量的人員行為識別具有較大的應(yīng)用前景。根據(jù)數(shù)據(jù)進(jìn)行人員行為識別后，后續(xù)可利用行為信息方便地與智能家居等應(yīng)用聯(lián)動，其應(yīng)用場景十分廣泛。傳統(tǒng)的識別方法通過特征提取后，再經(jīng)過機(jī)器學(xué)習(xí)的典型分類器，如決策樹（decision tree，DT）、支撐向量機(jī)（support vector machine，SVM）等進(jìn)行識別。這些經(jīng)典的識別方法通常識別率有限，且強(qiáng)烈依賴于人工提取特征的種類。然而在實際應(yīng)用中，可用于分類的特征通常難以明顯地表達(dá)，不存在特定的物理意義，因此往往

4、不能通過人工方法獲取。本文研究基于智能手機(jī)內(nèi)嵌的傳感器數(shù)據(jù)的人員行為識別?；谏疃葘W(xué)習(xí)的方法能夠通過訓(xùn)練樣本提取到可用于分類的復(fù)雜深層次的特征4。典型的基于深度學(xué)習(xí)的人員行為識別方法通過卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）或循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）進(jìn)行建模學(xué)習(xí)。1）基于CNN網(wǎng)絡(luò)的方法。文獻(xiàn)5對比了基于CNN網(wǎng)絡(luò)方法和經(jīng)典的機(jī)器學(xué)習(xí)方法的識別率：主成分分析（principal component analysis，PCA）方法、隨機(jī)森林方法、k近鄰方法等，證明了基于CNN網(wǎng)絡(luò)方法的識別率更高。文獻(xiàn)6提出

5、了基于多通道的CNN網(wǎng)絡(luò)行為識別方法，進(jìn)一步提高了識別率。文獻(xiàn)7研究了不同樣本特征作為輸入的情況，并且證明了相同樣本特征作為輸入的條件下，CNN方法相比于SVM方法有著更高的識別率。2）基于RNN網(wǎng)絡(luò)的方法。文獻(xiàn)8，9利用RNN模型進(jìn)行人員行為識別，相比于CNN網(wǎng)絡(luò)有著更高的識別率。以上方法利用長短時記憶（long-short term memory，LSTM）門控單元作為基本單元實現(xiàn)RNN網(wǎng)絡(luò)識別，該類型網(wǎng)絡(luò)具有“記憶”功能，能夠?qū)W(xué)習(xí)到時間序列的前后關(guān)系進(jìn)行分類，相比于CNN網(wǎng)絡(luò)，其缺點是訓(xùn)練復(fù)雜度和難度增加。文獻(xiàn)10更進(jìn)一步利用雙向長短時記憶（Bi-LSTM）門控單元實現(xiàn)RNN網(wǎng)絡(luò)，使該

6、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不僅能利用當(dāng)前狀態(tài)之前的信息，也能利用當(dāng)前狀態(tài)后續(xù)的信息進(jìn)行分類，使識別正確率進(jìn)一步提高，同時也進(jìn)一步增加了訓(xùn)練的復(fù)雜度。上述深度學(xué)習(xí)網(wǎng)絡(luò)中，可以根據(jù)帶標(biāo)簽的樣本，通過卷積層或基于時間的LSTM門控單元學(xué)習(xí)慣性數(shù)據(jù)中深層次的特征或時間域相關(guān)的特征，用于分類任務(wù)。池化層（pooling layer，PL）11通常應(yīng)用到上述網(wǎng)絡(luò)中對固定鄰域內(nèi)數(shù)據(jù)進(jìn)行總結(jié)，獲取鄰域內(nèi)數(shù)據(jù)的一些統(tǒng)計量（如最大池化用鄰域內(nèi)數(shù)據(jù)的最大值作為該統(tǒng)計量，平均池化利用平均值作為該統(tǒng)計量）。用這些統(tǒng)計量替代原始數(shù)據(jù)，一方面可降低訓(xùn)練或識別的復(fù)雜度，另一方面使網(wǎng)絡(luò)具備一定的對樣本變換的穩(wěn)定性12。在圖像識別領(lǐng)域，樣本中

7、存在同類物體的縮放、旋轉(zhuǎn)、平移等變換。由于池化層具有統(tǒng)計量替代原始數(shù)據(jù)的機(jī)理，其鄰域固定并且在工作過程中喪失了一定的位置信息13，因此應(yīng)對樣本變化的能力存在較大限制，無法適應(yīng)輸入樣本的較大改變。在基于慣性數(shù)據(jù)的人員行為識別中，相同行為的樣本同樣可能存在較大變化，如行走行為中快走和慢走的加速度幅值和頻率存在巨大變化。樣本變化需要對傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)，從而提高整體的識別率。本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變換網(wǎng)絡(luò)（spatial transformer network，STN）14，使得深度網(wǎng)絡(luò)對樣本的幅度、頻率等變化更加穩(wěn)健。文獻(xiàn)14提出將空間變換網(wǎng)絡(luò)用于圖像識別領(lǐng)域，在傳統(tǒng)網(wǎng)絡(luò)中加入空間變

8、換單元從而提高識別率?？臻g變換單元的構(gòu)成主要包含2個方面：建立基于仿射變換（affine transformation，AT）的參數(shù)模型，基于雙線性變換（bilinear interpolation）的參數(shù)變換。本文根據(jù)人員慣性數(shù)據(jù)的特點，對仿射變換的參數(shù)模型進(jìn)行了改進(jìn)，使其能夠適應(yīng)慣性數(shù)據(jù)中同類行為的樣本變換，包含時間的平移、頻率的變化等。通過開源數(shù)據(jù)集對本文方法進(jìn)行了驗證，試驗結(jié)果表明，本文方法相對于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)的識別率有一定提高，比傳統(tǒng)的基于CNN網(wǎng)絡(luò)、RNN網(wǎng)絡(luò)方法的識別率分別提高了約5.1%、3.4%。1 識別方法本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變換單元進(jìn)行行為識別，利用樣本

9、中可能出現(xiàn)的現(xiàn)象建立參數(shù)模型，如樣本中的幅度或能量的改變、頻率的改變等等，從而能有效利用樣本變化的先驗信息，在一定程度上消除已知樣本變化對識別率的不利影響。1.1空間變換單元1.1.1應(yīng)用背景在多種圖像識別任務(wù)中，通常希望識別網(wǎng)絡(luò)對輸入圖像的變化有較強(qiáng)的魯棒性，從而使得網(wǎng)絡(luò)泛化能力更強(qiáng)。輸入圖像或樣本的變化存在一些已知的先驗信息（如圖像的縮放、視點的變化、畸變等），這些變化可通過數(shù)學(xué)模型表示。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入這樣的數(shù)學(xué)模型后，可使網(wǎng)絡(luò)對輸入圖像的變化更加穩(wěn)健，并且達(dá)到降低網(wǎng)絡(luò)復(fù)雜度和減少所需訓(xùn)練樣本數(shù)目的目的。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中，池化層的存在已經(jīng)具備了一定的對輸入樣本變化（或上一層

10、輸入變化）的穩(wěn)健性。池化層的工作原理如圖1所示，通過對上一層的某小范圍鄰域內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)計（圖中是對22個像素進(jìn)行最大值統(tǒng)計）得到新的網(wǎng)絡(luò)層。圖1最大池化示意圖Fig.1Maximum pooling diagram池化層的運用存在如下缺點：1）信息缺失。對某鄰域的數(shù)據(jù)進(jìn)行一定的統(tǒng)計，可能導(dǎo)致神經(jīng)元大量減少（圖1中的神經(jīng)元減少了75%），從而使信息的利用不足。不當(dāng)?shù)乩贸鼗瘜涌赡軐?dǎo)致網(wǎng)絡(luò)難以收斂，并且由于存在“降采樣”，導(dǎo)致物體在圖像中的位置信息存在一定的丟失。2）輸入穩(wěn)健性增益有限。由于池化層的“降采樣”模式固定，即統(tǒng)計量和鄰域范圍固定，僅對小范圍的輸入變化（或上一層的輸入變化）存在穩(wěn)健性。

11、當(dāng)網(wǎng)絡(luò)輸入存在劇烈的變化時，池化層的輸入也會產(chǎn)生對應(yīng)的較為劇烈的變化，可能導(dǎo)致網(wǎng)絡(luò)的識別率下降。池化層這2個固有缺點需要在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中加入空間變化單元，以提高輸入穩(wěn)健性，進(jìn)而提高識別率。1.1.2單元結(jié)構(gòu)空間變換單元的結(jié)構(gòu)如圖2所示，包含參數(shù)生成網(wǎng)絡(luò)、像素生成器和采樣器。圖2空間變換單元的結(jié)構(gòu)Fig.2Spatial transformer element structure1）參數(shù)生成網(wǎng)絡(luò)通常可用簡單的層數(shù)較淺的卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)15中的網(wǎng)絡(luò)是一個5層的卷積神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)的輸出對應(yīng)輸入變換參數(shù)。2）像素生成器可利用參數(shù)生成網(wǎng)絡(luò)得到的參數(shù)對輸入產(chǎn)生相應(yīng)的變換。在圖像領(lǐng)域，該變換通常是

12、仿射變換，其變換數(shù)學(xué)模型如下：xoyo=142536xiyi1(1)式中：xi、yi為輸入像素的坐標(biāo)；xo、yo為輸出像素的坐標(biāo)；16為仿射變換包含的6個參數(shù)，這6個參數(shù)表示圖像的縮放、旋轉(zhuǎn)、平移、線性畸變等變化。文獻(xiàn)16中詳細(xì)論述了不同參數(shù)對應(yīng)的不同變換。3）采樣器的目的是得到整數(shù)像素坐標(biāo)的值。式（1）中輸出的坐標(biāo)可能是小數(shù)，可以通過雙線性插值得到整數(shù)像素坐標(biāo)的值（利用附近的4個像素點的坐標(biāo)值），該變化如下：v=y2yy2y1v1+yy1y2y1v2(2)其中v1=x2xx2x1v11+xx1x2x1v21(3)v2=x2xx2x1v12+xx1x2x1v22(4)式中：v為整數(shù)像素坐標(biāo)對應(yīng)

13、的像素值；v11、v21、v12和v22分別為附近4個像素點x1y1、x2y1、x1y2和x2y2對應(yīng)的像素值。文獻(xiàn)14中具體描述了空間變換單元結(jié)構(gòu)。在不同的圖像數(shù)據(jù)集的分類任務(wù)中，加入空間變換單元后相比于基于卷積神經(jīng)網(wǎng)絡(luò)的基準(zhǔn)方法，其識別率得到明顯提高。1.2利用空間變換單元進(jìn)行人員行為識別與圖像領(lǐng)域的空間變換單元應(yīng)用背景相似，在人員行為識別領(lǐng)域中，仍然存在一些輸入數(shù)據(jù)的變化，如信號的能量或幅度的變化、采樣頻率的變化（由于測量器件的不完美導(dǎo)致）等，這些變化能夠影響神經(jīng)網(wǎng)絡(luò)的穩(wěn)健性和識別率，同樣需要對傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行相應(yīng)的變化，加入空間變化單元。由于人員行為識別所用的數(shù)據(jù)與圖像領(lǐng)域

14、特點不同，空間變換單元的結(jié)構(gòu)也需要進(jìn)行相應(yīng)的變化。1.2.1改進(jìn)的仿射變換模版本文所用樣本由手機(jī)上的慣性傳感器采集得到，包含線性加速度（三軸）、加速度（三軸）、角速度（三軸）共9軸傳感器數(shù)據(jù)。單個輸入樣本的維度為9128，其中128為時間采樣點個數(shù)，9為傳感器數(shù)據(jù)的總自由度?？臻g變換單元對輸入的9128的樣本數(shù)據(jù)進(jìn)行處理，從而進(jìn)行參數(shù)變換。在人員行為識別中，不能用上文所述的原始仿射變換。此處的9軸傳感器數(shù)據(jù)可以看做是相互獨立的輸入，其代表了不同種類的物理觀測量或者不同正交軸的觀測量，而原始仿射變換中的旋轉(zhuǎn)等變換可能改變不同軸的相關(guān)性。本文對仿射變換的模版進(jìn)行了修改，如下式所示：142536a0

15、0cb0(5)式中：a、c為縮放相關(guān)參數(shù)；b為平移相關(guān)參數(shù)。本文僅考慮單個維度的平移和縮放變換，所以可將傳統(tǒng)的仿射變換按照式（5）進(jìn)行改寫后，再利用該變換模版可實現(xiàn)傳感器單軸數(shù)據(jù)的縮放、平移變換，從而提供樣本中單軸數(shù)據(jù)的時間平移和頻率變化穩(wěn)健性，消除了經(jīng)典仿射變換中的旋轉(zhuǎn)效應(yīng)帶來的多軸數(shù)據(jù)相關(guān)性改變的問題，同時也減少了需要的參數(shù)數(shù)量，減小了傳統(tǒng)空間變換單元中的復(fù)雜度。1.2.2人員行為識別網(wǎng)絡(luò)結(jié)構(gòu)本文所用的人員行為識別網(wǎng)絡(luò)如圖3所示，包含空間變換單元（上）和識別網(wǎng)絡(luò)（下）2部分。從圖3可見，空間變換單元的本質(zhì)是對原始的傳感器數(shù)據(jù)進(jìn)行預(yù)處理，再輸入至對應(yīng)的識別網(wǎng)絡(luò)中。圖3人員行為識別網(wǎng)絡(luò)總體結(jié)構(gòu)

16、Fig.3The overall structure of the human activity recognition network空間變換網(wǎng)絡(luò)的功能如下：從輸入中獲取變換參數(shù)，并對輸入進(jìn)行參數(shù)變換，得到變換后的輸出。識別網(wǎng)絡(luò)的功能是對預(yù)處理后的樣本進(jìn)行識別，得到該樣本所屬的類別?？臻g變換單元主要有2個功能：1）獲取空間變換的參數(shù)，較小規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)通過回歸的方式學(xué)習(xí)到空間變換參數(shù)，與經(jīng)典的仿射變換參數(shù)模式不同，本文所用的空間變換參數(shù)僅包含3個參數(shù)，分別為a、b、c；2）利用3個參數(shù)對輸入的樣本數(shù)據(jù)進(jìn)行空間變換，可對單軸的傳感器數(shù)據(jù)進(jìn)行時間的平移和頻率的變換，但是不影響多軸數(shù)據(jù)之間的相

17、關(guān)性。其中空間變換單元的子結(jié)構(gòu)如圖4所示，包含2層二維卷積層、2層全聯(lián)接層，這些層都利用線性整流函數(shù)（rectified linear unit，ReLU）作為激活函數(shù)，該激活函數(shù)可表示為relu(x)=max(0,x)(6)式中：x表示上一層神經(jīng)網(wǎng)絡(luò)的輸出，最后一層為線性全聯(lián)接層，輸出為希望得到的空間變換參數(shù)（a、b、c）。該函數(shù)的引入可大大增強(qiáng)神經(jīng)網(wǎng)絡(luò)對非線性關(guān)系的擬合能力。該網(wǎng)絡(luò)可以看做是1個回歸網(wǎng)絡(luò)，從樣本數(shù)據(jù)中通過回歸的方式得到空間變換的參數(shù)，該參數(shù)可以控制輸入樣本中單軸的平移和頻率變換。得到參數(shù)后，通過式（5）對輸入樣本進(jìn)行對應(yīng)的變換。圖4基于空間變換的人員行為識別網(wǎng)絡(luò)結(jié)構(gòu)Fig.

18、4The spacial transformer based human activity recognition network structure經(jīng)過空間變換網(wǎng)絡(luò)后，樣本獲得了一定的輸入變換穩(wěn)健性，將這些樣本再通過一定的卷積網(wǎng)絡(luò)可以得到人員行為類別，該網(wǎng)絡(luò)如圖5所示，包含2層卷積層（帶relu激活函數(shù)）、2層線性全聯(lián)接層（帶relu激活函數(shù)）、Softmax層。經(jīng)過Softmax層后，輸出為該樣本屬于不同類的概率矢量，由該概率矢量與經(jīng)過獨熱編碼后的標(biāo)簽矢量可以得到交叉熵代價函數(shù)losscp：losscp=iYilog(Yi)(7)式中：Yi為經(jīng)過Softmax層得到的概率矢量；Yi為獨熱編

19、碼后的標(biāo)簽矢量；i為對應(yīng)矢量維度的索引。圖5人員行為識別空間變換子網(wǎng)絡(luò)（回歸網(wǎng)絡(luò)）結(jié)構(gòu)Fig.5Structure of human activity recognition spatial transformer sub-network(regression network)概率矢量與獨熱編碼后的標(biāo)簽矢量，相同之處是兩者都為6維矢量（維度與行為識別的標(biāo)簽類別數(shù)目相同），不同之處在于標(biāo)簽矢量中對應(yīng)的某維（類）的值為1，其余維度為0，而概率矢量是樣本經(jīng)過神經(jīng)網(wǎng)絡(luò)前向計算后得到的該樣本屬于不同類別的概率，其不同維度的和值為1。交叉熵反映了真實類別和識別類別之間的差別，在本文方法中，將式（7）設(shè)置為

20、訓(xùn)練神經(jīng)網(wǎng)絡(luò)的代價函數(shù)。本文所用的數(shù)據(jù)集中包含6種不同的行為：平地行走、上樓行走、下樓行走、站立、坐下和平躺。2 試驗分析2.1訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù)為能方便地與其他人員行為識別方法進(jìn)行橫向?qū)Ρ?，本文試驗采用了公開的數(shù)據(jù)集17，該數(shù)據(jù)集由加州大學(xué)爾灣分校（University of California Irvine，UCI）提供。該數(shù)據(jù)集從不同年齡段（1948歲）的人群中錄取，通過放在腰部的智能手機(jī)（三星銀河系列2）上的慣性傳感器采集人員不同行為的數(shù)據(jù)，包含了線性加速度（三軸）、加速度（三軸）、角速度（三軸）共9軸的數(shù)據(jù)，為真實對應(yīng)物理量在時間上的采樣，采樣率為50 Hz。這些數(shù)據(jù)事先經(jīng)過了降噪

21、處理，按照128采樣點（2.56 s）為一批形成樣本。由于是連續(xù)的采樣數(shù)據(jù)，根據(jù)時間窗生成樣本時，存在時間上的重疊（50%）。因此最終的樣本數(shù)據(jù)的維度為9128，其中9為傳感器數(shù)據(jù)的自由度，128為采樣點的數(shù)目。樣本的標(biāo)簽（即人員的行為類別）包含6類：平地行走、上樓行走、下樓行走、站立、坐下和平躺。為能利用這些標(biāo)簽進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試，本文對這些標(biāo)簽進(jìn)行了6維的獨熱編碼。本文隨機(jī)將這些帶標(biāo)簽的樣本劃分成訓(xùn)練數(shù)據(jù)集和測試集，其中訓(xùn)練集占70%，測試集占30%。圖6為該數(shù)據(jù)集中的2個樣本，每個樣本對應(yīng)128個時間采樣點，不同顏色表示不同傳感器軸獲取的數(shù)據(jù)。圖6傳感器原始數(shù)據(jù)Fig.6Raw s

22、ensor data2.2縱向?qū)Ρ仍囼灲Y(jié)果本文中的深度學(xué)習(xí)網(wǎng)絡(luò)框架為開源的Tensorflow框架，該框架既存在成熟的高階深度網(wǎng)絡(luò)層，也可以方便地編寫定制的網(wǎng)絡(luò)層進(jìn)行研究。在進(jìn)行網(wǎng)絡(luò)訓(xùn)練的過程中，本文采用經(jīng)典的交叉熵代價函數(shù)和Adam優(yōu)化器。由于數(shù)據(jù)量較大，在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時，將訓(xùn)練樣本隨機(jī)劃分為1 000個樣本的小批次進(jìn)行訓(xùn)練。圖7為本文方法（圖3）和傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)方法（圖5）的測試集在不同訓(xùn)練次數(shù)下的識別率對比曲線。由圖7可見，本文方法識別率提升更快、網(wǎng)絡(luò)收斂更快，在訓(xùn)練循環(huán)次數(shù)超過200 000次時，本文方法識別率約為95.8%，傳統(tǒng)的卷積網(wǎng)絡(luò)的識別率約為90.7%，本文方法平均識

23、別率相比于傳統(tǒng)方法提高了約5.1%。本文方法對原始數(shù)據(jù)進(jìn)行預(yù)處理后，再輸入的數(shù)據(jù)形式更加標(biāo)準(zhǔn)，因此可以加快訓(xùn)練的速度，并且本文方法最后的識別率也較純卷積網(wǎng)絡(luò)的方法更高，識別率提高了約5.1%。圖7本文所用網(wǎng)絡(luò)結(jié)構(gòu)與經(jīng)典的卷積網(wǎng)絡(luò)結(jié)構(gòu)對測試集識別率曲線對比Fig.7The recognition rate curve comparison between the proposed method and classical CNN based method2.3橫向?qū)Ρ仍囼灲Y(jié)果本文對比了2種方法及本文方法的基本參數(shù)設(shè)置（包含每一層的參數(shù)設(shè)置和總的參數(shù)數(shù)目），如表1所示（relu層、池化層、Soft

24、max層不引入新參數(shù)，未在該表中列出）。表1中：“Conv-40，38”表示該層為卷積層，其通道數(shù)目為40，卷積核的大小為38，“Conv-20，48”意義相同；Linear-32表示線性層，32為線性層的神經(jīng)元數(shù)目；LSTM-32表示長短時記憶門控層，32為隱藏特征數(shù)目；Fc-6表示全連接層，6為輸出的維度，F(xiàn)c128、Fc256、Fc3意義相同。RNN方法利用了基于LSTM的門控單元組成網(wǎng)絡(luò)，具體包含1層線性層（隱藏神經(jīng)元數(shù)目為32個）、2層LSTM門控單元層（每一層中隱藏特征的數(shù)目設(shè)置為32）、2層全連接層。CNN網(wǎng)絡(luò)中包含2層卷積層、2層全連接層。由于空間變換子網(wǎng)絡(luò)的引入，導(dǎo)致本文方法

25、中的層數(shù)變多，表1中空間變換子網(wǎng)絡(luò)的參數(shù)在第1層。綜上可見，本文提出的基于空間變換網(wǎng)絡(luò)方法中需要訓(xùn)練的參數(shù)數(shù)目最多，相比于經(jīng)典的CNN網(wǎng)絡(luò)，多出的部分為空間變換子網(wǎng)絡(luò)的參數(shù)。而基于RNN網(wǎng)絡(luò)的方法中，由于LSTM門控單元共享相同的訓(xùn)練參數(shù)，因此待訓(xùn)練的參數(shù)總數(shù)較少。表 1試驗中不同網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1Different network architecture parameters in the experiment方法參數(shù)設(shè)置參數(shù)總數(shù)第1層第2層第3層第4層第5層CNN網(wǎng)絡(luò)Conv-40,48Conv-40,48Fc-256Fc-6-5.2106RNN網(wǎng)絡(luò)Linear-32LSTM-32LSTM-32Fc-256Fc-61.8105本文Conv-20,48Conv-20,48Fc-128Fc-3Conv-40,48Conv-40,4

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于空間變換網(wǎng)絡(luò)的人員行為識別方法

文檔簡介

溫馨提示

最新文檔

評論

基于空間變換網(wǎng)絡(luò)的人員行為識別方法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔