版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于深度學(xué)習(xí)的疲勞駕駛檢測內(nèi)容摘要眼睛的作用對我們不光是看見世界的窗口,也是我們表情達(dá)意的一種載體。通過眼睛我們可以表現(xiàn)出多種狀態(tài),并且眼睛還具有傳達(dá)感情、體現(xiàn)人的精神狀態(tài)等功能。譬如人困乏的時候會頻繁眨眼,人精神充足時,眼睛就會更加生動。眨眼睛的頻率在一定程度上可以反映出人是否處在疲勞的狀態(tài),本文正是立足在檢測眼睛睜開閉合的頻度之上來判斷駕駛員是否正在疲勞駕駛。在駕駛車輛的狀態(tài)下,可以排除身體因素以外影響人眨眼頻率的情況,所以本文采用基于深度學(xué)習(xí)的檢測眼睛開閉頻率的方法來進(jìn)行疲勞駕駛檢測。本文主要工作內(nèi)容如下所示:(1) 基于深度學(xué)習(xí)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MultitaskConvolutionalNeuralNetwork,后文稱mtcnn)的模型修改、模型訓(xùn)練、人臉區(qū)域檢測及眼睛區(qū)域定位。這里選擇使用MTCNN,是因為它有識別率高、識別速度快的優(yōu)點。它具有三層級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)-Pnet、Rnet、Onet,對輸入的數(shù)據(jù)層層優(yōu)化精選出人臉特征,實質(zhì)上是特征分類和特征回歸,最終可以得到人臉區(qū)域的特征以及眼睛鼻子嘴巴的特征點,再經(jīng)過非極大值抑制(NMS),來獲得人臉部的。本文在此基礎(chǔ)上修改了MTCNN模型,使網(wǎng)絡(luò)模型通過新級聯(lián)的網(wǎng)絡(luò)層輸出得到的landmark_regress通過該層網(wǎng)絡(luò)回歸得到眼睛區(qū)域左上右下特征點的偏移量。(2) 通過上文提到的MTCNN進(jìn)行改進(jìn)得到人臉特征區(qū)域以及眼睛特征區(qū)域之后,裁剪眼睛特征區(qū)域圖像,并輸入疲勞判斷CNN層中,來判斷人員是否有疲勞的癥狀。該層模型主要是起分類的作用,來解決眼睛睜開與眼睛閉合的二分類問題。本文采用計算眼睛閉合再到睜開的時間與整體測試時間的百分率(PercentageofEyelidClosureOverthePupilOverTime,下文稱perclos),來判斷駕駛?cè)藛T是否出現(xiàn)疲勞現(xiàn)象。關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);MTCNN;PERCLOS;疲勞駕駛
緒論緒論1.1課題研究背景及意義我們的眼睛對于我們來說是非常重要的,它不光是我們用來感知世界以及獲取視覺信息的人體器官,還是我們表情達(dá)意的一種媒介,我們通過眼睛來獲取接受各種外界表露的信息與資訊。同時眼睛是人的各個器官中易于傳達(dá)內(nèi)心情感、顯示精神狀態(tài)的主要特征,比如人在困乏疲勞的時候眨眼睛的次數(shù)較平常會更少。由于我們生活越來越現(xiàn)代化,而現(xiàn)代化的生活中往往存在著需要駕駛車輛的情況。下圖1-1是高速公路車流量和貨物運輸量統(tǒng)計數(shù)據(jù)圖:為速公蹈車流星和貨物運輸星有車*里塁什由在m白年抑肇諸為在年有車*里塁什由在m白年抑肇諸為在年培砰*月Wt+!#注才月創(chuàng)5814^431110.630^1?io,104.0:01P042&二2J36C1033価1心L&lIH-1■e邛沖丄煩8ff>1OTJ呻丄*.125R1L52,W10B-.74J9-]0$!H.4H4JSUI2U詢血航1J2I1171067&釦LOU11142A231429丄&5T3ica1?75,4]7LfiMlU.ti],11?期LI3J303HLI1.(16■2iJ心194.410511好t04.1心3V3t-2MTS拘心49翡1M-.A2MH偵心]4<1煎ECTJ?S.7B21.4S111156J513.411ijaS5-24/512羽網(wǎng)tlBd!憤27*its$d.iMi]酒HlJ2578W3?阿県V331391IOf.32284LI4J7SL2J6100.$W1PW5IQW5E土?xí)rg挽】"IfrJLi3JISHl7>m37MLlfl-J御1147l&.StJ3州IOVPws3.orLttM.3WIff?3-15.1^l對1i(n#335'111JBJ627B『4ML3suw心網(wǎng):P37.1971瀕997W%gC12網(wǎng)1皿&7.CHSIS?4K54.5222.66dLI3,-ii雙2.71M網(wǎng)煩91.42.1IJ>_2Hri43?■.]?1UUrm豹TBJLT:招*做T§四tllJ7332i710512,S177?MJ明I*1卸形10347節(jié)嘉創(chuàng)心J,WtrjIfiLOZ4W|t?J0沖S14U75迎頌1004S奶1.9MEIS2#1E1"帝ttfiB単付:萬棲?萬將映西首看W海覽丈專酉古*?*江海臥遷徳堰■□布沔牝甬客內(nèi)wL5JII叫育最北天河山円禎古里上江彌宣!|日III河路演廣廣瀉里四烏云回圖1-1高速公路車流量和貨物運輸量從上圖我們可以看出,如此巨大的車流量,就算只有1%的人疲勞駕駛發(fā)生事故,在如此大的基數(shù)下,也是令人難以想象甚至是駭人聽聞的狀況。2015年,我國交通事故致死率為22%,死亡人數(shù)為3.3人/萬車,。道路交通安全已經(jīng)成為人們廣泛關(guān)注的問題。對于普通人,一旦在駕駛時存在疲勞駕駛的情況,會發(fā)生的后果是難以估計的。而對于專門從事司機(jī)行業(yè)的人來說,疲勞駕駛更是開車時的隱形殺手,出現(xiàn)重大事故的隱因50%是由于駕駛?cè)藛T疲勞駕駛導(dǎo)致的。人在疲勞時,反應(yīng)速度、身體協(xié)調(diào)能力等都會下降,并且由于困乏更會在不經(jīng)意間閉上眼睛丟失視野。假想若是在高速路段上發(fā)生了駕駛員疲勞駕駛的情況,那所造成的傷亡及損失是非常可怕的。綜上所述,疲勞駕駛檢測是非常具有重要的實際意義及應(yīng)用價值的事情。在學(xué)術(shù)研究中,對于疲勞駕駛檢測來說,最為重要的還是人臉及眼睛的定位,這是對駕駛?cè)藛T進(jìn)行疲勞檢測的前提。倘若人像都無法找到,何談分析駕駛?cè)藛T的疲勞程度呢?所以必須采用高效且快速的方法來檢測人臉區(qū)域,進(jìn)而檢測出眼睛區(qū)域,從而能夠進(jìn)行駕駛員駕駛狀態(tài)的判斷。在應(yīng)用中,市面上有一款名為疲勞駕駛預(yù)警系統(tǒng)的產(chǎn)品,該產(chǎn)品具有一套的軟硬件及設(shè)備,它能夠在駕駛員行駛過程中,全天對駕駛員的疲勞狀態(tài)、駕駛行為等進(jìn)行觀測,其算法采用視覺層次上的疲勞駕駛檢測。該產(chǎn)品會檢測出司機(jī)疲勞駕駛與異常動作,然后對駕駛?cè)藛T發(fā)出提醒語音等一系列措施。由此可見,對疲勞駕駛檢測算法的探究是非常需要且有必要的。1.2疲勞駕駛檢測國內(nèi)外研究現(xiàn)狀疲勞駕駛檢測作為一項有必要并且值得深入研究的課題,歷來引起國內(nèi)外許多學(xué)者與公司的興趣。疲勞駕駛的檢測方法眾多,文獻(xiàn)[1]按測量參數(shù)的不同,將其分為三類:①檢測駕駛員的個人體態(tài)特征(如面部特征、駕駛行為動作、駕駛姿態(tài)等)以及個人生理特征(如腦電波信號、心率信號、虹膜信號燈)②檢測車輛的運動參數(shù)(如剎車距離、轉(zhuǎn)彎時長、車輛速度、直線駕駛狀態(tài)等)③綜合法,即綜合以上兩種方法進(jìn)行檢測。駕駛員個人體態(tài)特征檢測和個人生理信號檢測,前者即采用圖像采集設(shè)備如攝像頭等進(jìn)行視覺層面上的信息采集,再轉(zhuǎn)換成算法需要的數(shù)據(jù)如RGB圖像矩陣,再輸入算法進(jìn)行疲勞駕駛判斷。主流的個體特征檢測算法常常采用面部特征檢測,大致流程為:使用攝像頭檢測捕捉人像->圖像數(shù)據(jù)使用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等算法定位人臉、人眼->判斷駕駛員面部特征是否處于疲勞時的特征->得出結(jié)果,歸根結(jié)底這是屬于計算機(jī)視覺處理的范疇,屬于非接觸式檢測。對于第二個流程中眼睛定位來說,文獻(xiàn)[2]從算法層面大概劃分為下列兩種:①基于圖像處理的方法;②基于分類器的方法?;趫D像處理的方法是利用眼睛位于人臉的輪廓區(qū)域、眼睛的性狀、圖像眼部區(qū)域與其他區(qū)域的對比度計算等方法。流程一般分為以下幾步:眼睛區(qū)域初定位,再使用濾波算法去噪聲-,然后對眼睛精確定位。眼睛初定位:使用圖像腐蝕算子對圖像進(jìn)行腐蝕之后對人臉上半部分做積分投影,這樣初步得到左眼右眼的相對橫向坐標(biāo);之后對眼睛區(qū)域(除去人臉部分的眼睛區(qū)域)進(jìn)行灰度化,再計算其最大灰度值。使用濾波器(如中值濾波等)再進(jìn)行一遍去噪聲。到精確定位再使用積分投影,采用最小鄰域均值投影。文獻(xiàn)[3]對輪廓模型ASM算法及AAM算法進(jìn)行驗證與改進(jìn),在其基礎(chǔ)上添加了對眼瞼的輪廓的對齊追蹤。此種方法由于受外界因素(如光線、人體動作姿態(tài)、圖像成像質(zhì)量等)的影響,導(dǎo)致這種采用閾值分割的方法對于結(jié)果的判斷很不理想?;诩壜?lián)分類器的方法:這種方法是通過大量的訓(xùn)練數(shù)據(jù)及樣本提取有用的特征信息,來訓(xùn)練一個可以對齊人臉部的分類器來定位人臉,然后采用前一種分類器裁剪出大量的人臉數(shù)據(jù),通過這種方式再訓(xùn)練眼部分類器對齊眼睛。常用的特征描述有Haar特征[4]、LBP特征[5]、HOG特征[6]、Gabor特征[7],此類方法的大致流程如下:使用大量圖像數(shù)據(jù)訓(xùn)練Haar級聯(lián)分類器->使用輸入設(shè)備獲取圖像->調(diào)用級聯(lián)分類器識別眼部區(qū)域。而此類使用分類器的方法最為關(guān)鍵的就是訓(xùn)練出一個識別率高的分類器,訓(xùn)練步驟大致如下所示:選擇大量具有需分類物體的數(shù)據(jù)集作為正樣本,選擇跟分類場景有關(guān)的數(shù)據(jù)集做負(fù)樣本(如在疲勞駕駛檢測中就需要車內(nèi)場景的數(shù)據(jù)集),再生成正樣本向量,使用opencv內(nèi)的程序開始訓(xùn)練,這里可以選擇是使用Haar特征還是LBT特征來訓(xùn)練級聯(lián)分類器。假設(shè)我們需要訓(xùn)練一個人臉識別分類器,訓(xùn)練過程中使用弱分類器采用積分圖算法計算Haar-like特征或者使用LBP算子提取LBP特征篩選出一部分類人臉的圖像,再通過多個弱分類器提取更多的haar-like特征或LBP特征對弱分類器篩選的圖像再進(jìn)行篩選,然后將多個強(qiáng)分類器級聯(lián)起來成為級聯(lián)分類器再進(jìn)行人臉的精確篩選。后者是通過生理信號采集器如腦電波儀、心電儀等來獲取疲勞與非疲勞時駕駛員的腦電波或心率等,從而對比結(jié)果得到駕駛員是否處于疲勞中。值得借鑒的研究成果主要有:SarojK.L.Lal⑻等人研究疲勞駕駛與未疲勞駕駛的腦電波、心率等的對比中發(fā)現(xiàn)腦信號是最適合作為疲勞駕駛判斷的生理信號。MarkA.Schier[9]實驗使用記錄腦電信號功率模擬駕駛過程中駕駛員的表現(xiàn)的方法來研究其與駕駛員的注意力的關(guān)聯(lián),結(jié)果表明腦電信號的變化隨著駕駛員注意力的變化而變化。文獻(xiàn)[10]提出一種基于心電信號的疲勞駕駛檢測算法,此算法使用采樣頻率512HZ、10min的心電信號,并根據(jù)時間段的不同劃分疲勞狀態(tài)與非疲勞狀態(tài)的樣本。此樣本屬于圖像數(shù)據(jù),于是采用Inception_V3模型并使用imageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練以提取特征。而檢測車輛運動參數(shù)的疲勞駕駛檢測,主要是研究駕駛?cè)藛T在正常情況下與疲勞的狀態(tài)下的車輛行為分析與統(tǒng)計。文獻(xiàn)[11]利用三軸加速度傳感器、方向盤轉(zhuǎn)角傳感器和計算機(jī)系統(tǒng)構(gòu)建出一種基于車輛運行軌跡的疲勞駕駛檢測系統(tǒng)。1.3疲勞駕駛檢測算法技術(shù)難點而在深度學(xué)習(xí)幾十年的發(fā)展中,越來越多的學(xué)者采用深度學(xué)習(xí)算法來實現(xiàn)疲勞駕駛檢測,其中文獻(xiàn)[12]中驗證了使用視覺特征檢測是一種無接觸的、實時性好的、高準(zhǔn)確性的算法。其中原理是通過攝像頭獲取圖像再使用深度學(xué)習(xí)算法捕捉人臉區(qū)域和眼睛區(qū)域,再對眼睛狀態(tài)進(jìn)行判斷與預(yù)測。但是由于視覺特征存在許多誤差,會導(dǎo)致深度學(xué)習(xí)的模型難以擬合或者缺少關(guān)鍵的泛化能力。使用攝像頭檢測時人的面部會轉(zhuǎn)動,并且成像條件、質(zhì)量會發(fā)生變化,有許多不可控因素,導(dǎo)致無法檢測出駕駛員眼睛或者無法判斷其疲勞狀態(tài)??梢钥闯鲞@是基于視覺特征的疲勞駕駛檢測算法的難點及弱點。簡單的疲勞檢測算法在復(fù)雜的環(huán)境因素下無法達(dá)到檢測駕駛員是否在疲勞駕駛的能力,所以這困擾著許多精益求精的研究人員,這成為了疲勞駕駛檢測的研究領(lǐng)域中的難點與重點。 對于基于面部視覺特征的疲勞駕駛檢測算法,首先面臨的是在復(fù)雜的環(huán)境下,如何解決對面部的識別,怎樣精確定位到人臉及人眼。這要求采取的算法模型具有抗干擾性強(qiáng)、泛化好,準(zhǔn)確度高的優(yōu)點,有比傳統(tǒng)人臉檢測算法好的長處,沒有傳統(tǒng)人臉檢測算法的短項,并需要迅速對駕駛員的疲勞狀態(tài)進(jìn)行判定,就是得保證算法模型的高效、快捷、準(zhǔn)確。而且面對多因素多角度的人臉姿態(tài),提取研究想要的特征會造成許多的誤差與困擾。再者傳統(tǒng)的面部檢測主要針對二維圖像提取特征檢測人臉與人眼,而在疲勞駕駛檢測中我們面對的是三維圖像,這也是傳統(tǒng)面部特征檢測人臉、人眼定位失敗的原因。綜上所述,基于面部特征的疲勞駕駛檢測目前遇到的難點是非常具有挑戰(zhàn)性的。1.4本文的研究內(nèi)容和關(guān)鍵技術(shù)本文研究的主要目的是解決在復(fù)雜環(huán)境下面部特征的提取、駕駛員臉部與眼部的區(qū)域定位與疲勞駕駛檢測。1)面部特征提取及定位的主要策略是使用mtcnn網(wǎng)絡(luò)模型[13]進(jìn)行人 臉定位與眼睛區(qū)域定位,本文對mtcnn模型的級聯(lián)網(wǎng)絡(luò)由三層增加到四層,既保證原mtcnn網(wǎng)絡(luò)的準(zhǔn)確率,又增加了提取眼部ROI的新能力。原mtcnn 模型Onet獲取面部的精確定位與5個人臉關(guān)鍵點(眼睛、鼻子、嘴巴), 本文中根據(jù)mtcnn的Onet層針對提取眼睛特征點設(shè)計出了新的一層級聯(lián)網(wǎng) 絡(luò)enet提取面部坐標(biāo)點及兩個眼睛的左上、右下坐標(biāo)點,來獲取面部區(qū)域的ROI與眼部區(qū)域的ROI。 2)然后再通過眼睛開合分類網(wǎng)絡(luò)得到一定時間段眼睛開合情況,疲勞駕駛判斷采用cnn模型輸入眼部ROI再根據(jù)在一定時間段眼睛開合情況計 算出PERCLOS指數(shù)來判斷駕駛?cè)藛T的架勢狀態(tài),從而具體達(dá)到疲勞駕駛判斷的要求。 1.5本文組織結(jié)構(gòu) 本文的具體結(jié)構(gòu)如下: 第一章:緒論。闡述了疲勞駕駛檢測的背景與意義,并通過分析國內(nèi)外 疲勞駕駛檢測的研究現(xiàn)狀來表現(xiàn)并描述了疲勞駕駛檢測中基于面部特征的 疲勞駕駛檢測所面臨的困難與挑戰(zhàn),并闡述了本文的主要內(nèi)容與框架機(jī)構(gòu)。 第二章:相關(guān)技術(shù)介紹及面部特征提取。本章節(jié)講述了本文所涉及到的 技術(shù)原理與理論,首先介紹了深度學(xué)習(xí)理論,再深度剖析了卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)及相關(guān)算法。第三章:改進(jìn)的MTCNN模型訓(xùn)練及提取特征。這里介紹了mtcnn的相關(guān)原理,敘說了模型訓(xùn)練的步驟及流程,并探究了如何使用mtcnn提取出眼部 區(qū)域,并使用在疲勞駕駛檢測中。 第四章:基于深度學(xué)習(xí)的疲勞駕駛檢測。本章使用前文提到的改進(jìn)的 mtcnn模型來進(jìn)行疲勞駕駛檢測,并采用PERCLOS的EM疲勞檢測法進(jìn)行疲勞檢測。第五章:實驗結(jié)果與分析。使用改進(jìn)的ntcnn模型與其他人臉檢測的模 型進(jìn)行對比,并將本文中基于深度學(xué)習(xí)的疲勞駕駛檢測與其他疲勞駕駛檢測 算法做對比。得出基于深度學(xué)習(xí)的疲勞駕駛檢測具備一定的優(yōu)越性的結(jié)論。第一章相關(guān)技術(shù)介紹及面部特征提取本文主要研究基于深度學(xué)習(xí)的疲勞駕駛檢測算法,將通過介紹卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)基礎(chǔ)知識并簡單介紹深度學(xué)習(xí)的現(xiàn)狀與理論,為本文提出的模型夯實基礎(chǔ)。2.1深度學(xué)習(xí)理論深度學(xué)習(xí)(DeepLearning)是機(jī)器學(xué)習(xí)(MachineLearning)的一個重要的分支與延伸,是具有多層次、多特征、多深度的神經(jīng)網(wǎng)絡(luò)。目的主要通過各種有監(jiān)督、無監(jiān)督的深度學(xué)習(xí)算法來達(dá)到提取深層特征、自動化學(xué)習(xí)等的,比如人工智能。2016年人工智能AlphaGO幾百圍棋世界冠軍李在石,掀起了人工智能的熱潮,深度學(xué)習(xí)這一概念也逐漸被推廣應(yīng)用。深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的不同之處,主要是應(yīng)用的目的不同,從而會導(dǎo)致其類算法與機(jī)器學(xué)習(xí)有巨大的差異。機(jī)器學(xué)習(xí)提取的特征數(shù)往往會少于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)提取的特征數(shù),而深度學(xué)習(xí)的結(jié)構(gòu)可以由淺入深,機(jī)器學(xué)習(xí)的算法不具有這種深度變化的特性。你可以根據(jù)數(shù)據(jù)的特性,合理且規(guī)范的搭建深度學(xué)習(xí)網(wǎng)絡(luò)模型,用以提取特征或者稱為規(guī)律。深度學(xué)習(xí)的原理是通過一系列算法對如圖像、音頻、文字等數(shù)據(jù)進(jìn)行特征變換,即一種類似于歸一化的特征操作,將數(shù)據(jù)從原來的樣本空間變換到一個全新的更容易體現(xiàn)數(shù)據(jù)特征的樣本空間。這個是一個復(fù)雜的過程,并且不同的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)也有不同的變換方法與方式,但一般簡單來說,即把數(shù)據(jù)從低維樣本空間映射到高維的樣本空間,維度的升高會帶來更多的數(shù)據(jù)特征,而深度學(xué)習(xí)網(wǎng)絡(luò)模型就通過學(xué)習(xí)新的樣本空間的規(guī)律來達(dá)到提取特征或其他的目的,比如分類、回歸等。2.2卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò),其簡單層次分為輸入層、隱含層、輸出層,而重要的部分是隱含層。隱含層包括但不限于卷積層、激勵層、池化層和全連接層,不同的卷積神經(jīng)網(wǎng)絡(luò)模型還會有其他的一些層如BN層等。顧名思義,首先我們應(yīng)該談到的是卷積操作。卷積在數(shù)學(xué)層面其實就是一個復(fù)合函數(shù)公式,其數(shù)學(xué)定義如下:h(x)=f(x)-g(x)=Jf(t)-g(x-1)d(t) (2-1)而在深度學(xué)習(xí)或一些相關(guān)領(lǐng)域成為卷積算子,其實現(xiàn)通過兩個函數(shù)進(jìn)行平移
翻轉(zhuǎn)并計算其重疊面積的積分。卷積神經(jīng)網(wǎng)絡(luò)就是使用卷積的方法映射樣本空間的前饋神經(jīng)網(wǎng)絡(luò),其重要的一環(huán)在于卷積層。卷積層使用了卷積核(或稱濾波器)的函數(shù)定義,有些資料將卷積核視為專用于對點相乘的權(quán)重矩陣,矩陣就具有尺寸這個概念,卷積核也有。卷積核的尺寸指的是每次對操作圖像矩陣所運算包括的長度和寬度,一般尺寸都設(shè)為MxM(M為奇數(shù))的形式。卷積層即是對圖像使用卷積核進(jìn)行卷積操作的網(wǎng)絡(luò)層,一般使用3x3的卷積核進(jìn)行操作。將圖像矩陣視為方格的話,該層使用卷積核每次對圖像方格進(jìn)行掃描式卷積運算,卷積之后橫向移動步長(卷積核卷積一次后移動的距離,人為設(shè)定)個單位直到此列卷積完成,在從下列開始直至結(jié)尾。這樣的卷積層操作的原理跟圖像處理中的濾波器是一樣的,不一樣的是卷積核與濾波器其核心函數(shù)的定義是不相同的。而關(guān)于卷積層的通道(channel),跟圖像的通道數(shù)有關(guān)。RGB圖像是由R、G、B三層分量疊加組成的,具體如圖2T所示:圖2-1RGB圖片三通道對圖像數(shù)據(jù)一般使用RGB顏色表示法,當(dāng)讀取到電腦等設(shè)備中,使用的是保存R、G、B分量的色度矩陣,其實就是一個三維矩陣,三通道就是R、G、B三分量的維度,RGB圖片就是我們常說的彩色圖片。對于三通道圖片,卷積層的卷積操作如圖2-2所示:
InputVpJmc(*padL)(7^7i3)Filter車。(3^3x3)InputVpJmc(*padL)(7^7i3)Filter車。(3^3x3)K[:J:f0] wO[:X:10]filterVI(3k3<3)Output赤1啊已〔3x3戒)icEfl-erwvtient圖2-2卷積操作的計算從圖1-2中上述卷積算法得出的特征圖我們可以看到FilterWO再經(jīng)過卷積之后出現(xiàn)了尺寸縮小的現(xiàn)象,所以提出一種在圖像周圍填充數(shù)值為0的元素,這樣卷積出來的特征圖可以保持原圖大小,這就是邊界填充(padding)。卷積層具有兩個特性,一個稱為權(quán)值共享,一個稱為局部連接。比如輸入一張圖片,給網(wǎng)絡(luò)設(shè)置的濾波器尺寸與偏置等就稱為權(quán)重,圖像被多個卷積核掃描,而卷積核的大小尺寸是相同的,所以卷積出來提取的featuremap也是一樣的,這就被叫做權(quán)值共享。局部連接是指卷積神經(jīng)網(wǎng)絡(luò)每一個神經(jīng)元與輸入神經(jīng)元的部分區(qū)域相連接,這部分區(qū)域叫做感受野。激勵層主要是對卷積層的輸入進(jìn)行一個非線性映射,因為見基層的計算還是一種線性計算,若沒有激勵層,會導(dǎo)致enn模型對于非線性數(shù)據(jù)的擬合程度達(dá)不到要求。激勵層具體是采用激勵函數(shù),對卷積層提取的圖像特征進(jìn)行變換,常用的激勵函數(shù)有sigmoid、relu>tanh、prelu等等。對于線性模型XW+b,輸入xl、x2、x3....,對于任意輸入采用模型核心算法Swx+b計算后,對每次輸入的數(shù)據(jù)使用激活函數(shù)f&)計算,得到下一層輸入的特征,而且激勵層常常與卷積層合在一起并稱卷積層。池化層即是對上一層輸入的圖像特征進(jìn)行池化的網(wǎng)絡(luò)層,池化又稱下采樣,目的是在能夠的到主要特征的前提下減少篩選出的圖像特征尺寸,主要作用是通過減少網(wǎng)絡(luò)參數(shù)來減小計算量,并且能在一定程度上控制過擬合。
其實籠統(tǒng)來說,就是在保持平移不變性(translationinvariance)的前提下,進(jìn)行特征降維。眾所周知,模型的參數(shù)量過大是非常容易引起過擬合的情況,所以池化層削減部分的不必要特征并且保留重要特征的方式使得模型泛化能力得到提高又不會喪失擬合的性能。池化常用的方法有最大池化(Maxpooling)和平均池化(Averagepooling),這里具體講述一下較為常用的最大池化的方法,如圖2-3所示:Singledepthslicemaxpoolwith2x2filtersandstride2maxpoolwith2x2filtersandstride2圖2-3池化操作從圖2-3可以看到,8*8的featuremap池化尺寸為2*2,每次在池化區(qū)域內(nèi)保留最大的特征或者色度,再移動步長2個單位,最終得到2*2的featuremapo由于這里采用池化的目的就是為了降維,所以這里沒有零填充來保持featuremap原形狀。對于全連接層的作用,抽象的理解在整個卷積神經(jīng)網(wǎng)絡(luò)的隱含層的末尾起分類器的作用。在實際使用中,可以將該層操作視為進(jìn)行了一次類卷積運算,但是實質(zhì)不是卷積。也有概念將該層進(jìn)行的操作成為扁平化(Flatten),即將多維特征矩陣變換為1*1*M(M是人為設(shè)置的超參數(shù))的特征矩陣。歸根結(jié)底,在這層中,對所有特征矩陣進(jìn)行了加權(quán),對經(jīng)過卷積或池化后的每一個特征矩陣的數(shù)據(jù)x,加上了設(shè)置的權(quán)重W,從而得到了新的多個改變了維度的特征矩陣,計算式如下:y=Wxo在這一層中,進(jìn)行篩選的是多個具有需要提取的特征在整個特征空間中的部分,再經(jīng)過輸出層的激活函數(shù)激活篩選出來的神經(jīng)元,得到整個圖像在每個分類(label)的置信度(即圖像在每一個分類中的概率),再輸出置信度最高的分類。2.3本章小結(jié)本章簡單介紹了深度學(xué)習(xí)理論,深入剖析卷積神經(jīng)網(wǎng)絡(luò),為本文采用的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型提供理論支撐。使用深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)是本文的關(guān)鍵,介紹相關(guān)知識是為了更好的理解基于深度學(xué)習(xí)的多任務(wù)神經(jīng)網(wǎng)絡(luò)。第三章改進(jìn)的MTCNN模型及訓(xùn)練3.1MTCNN模型詳述在無條件約束的環(huán)境下人臉檢測和對齊是非常具有挑戰(zhàn)性的,因為你要考慮不同的姿勢,光線的遮擋等。在這種情況下,文獻(xiàn)[]提出了MTCNN模型來進(jìn)行人臉檢測和對齊。Mtcnn其全稱是多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),顧名思義它的本質(zhì)就是使用級聯(lián)的方式串行一起的卷積神經(jīng)網(wǎng)絡(luò)。Mtcnn的結(jié)構(gòu)如圖3-1所示:圖3-1mtcnn流程圖mtcnn模型有三層結(jié)構(gòu)Pnet、Rnet、Onet,每一層都是有多個layer組成。Rnet將圖像金字塔生成的圖像進(jìn)行多次人臉定位并返回許多帶有人臉的圖像,再經(jīng)過Rnet定位到人臉,然后再通過Onet精確定位人臉及眼鼻口五個特征點。具體流程如下:1、生成圖像金字塔:輸入圖像數(shù)據(jù),會設(shè)置一個縮放因子,將圖片按照這個縮放因子p縮小,圖像尺寸每次乘以p倍,最后得到的最小圖像最短
的一邊要大于等于12。2、將圖片輸入Pnet,Pnet是一個全卷積網(wǎng)絡(luò),該層網(wǎng)絡(luò)不需要傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的全連接層,最后需要使用卷積層使用激活函數(shù)來進(jìn)行分類和回歸的工作,并需要reshape。結(jié)構(gòu)如圖3-2所示:P-NciConv:3x1Conv:3x3Cunv:3x3 |產(chǎn)|毎配MF"2x2 (classdkatioi]inputsize12x12x35x5x10匸色<6P-NciConv:3x1Conv:3x3Cunv:3x3 |產(chǎn)|毎配MF"2x2 (classdkatioi]inputsize12x12x35x5x10匸色<61x1x2boundingboxrcure^sion1x1x4、3x3x161x1x32laciallartdmark■localization圖3-2Pnet 最后一層輸入兩個特征圖譜,一個是是否為積極圖片的標(biāo)簽,一個邊界框回歸(boundingbox_regress)。前一個featuremap用于前后景分類,即所需的圖像與沒有人臉的圖像,此處的featuremap兩個通道分別對應(yīng)提取圖像部分的感受野的分類概率,即是人臉與不是人臉的概率。。后一個featuremap用于邊界框回歸,其具有四個通道,四個通道對應(yīng)的是原始圖像中有人臉區(qū)域的坐標(biāo)值的偏移量。這一層的分類使用交叉熵?fù)p失函數(shù),計算式3-1:TOC\o"1-5"\h\zLdet,-(ydetlog(pi)+(1-ydet)(1-log(pi))) (3-1)同時關(guān)于bbox_regression對每一個樣本,計算其歐氏距離,計算式如3-2:Tbox_||yboxybox\\2 (3LiT|yiyih2 (3-2)3、 利用輸出的兩個特征譜生成一些可能的proposal人臉框,然后通過非極大值抑制(NMS)過濾掉重疊的預(yù)測人臉框。4、 將Pnet返回的圖片再resize到24*24的尺寸輸入到Rnet里,Rnet最后一層是兩個全連接層分支,一個輸出為人臉概率預(yù)測分類概率,即是人臉和不是人臉的概率,是對proposal的再次篩選,另一個輸出為原始圖像有人臉的區(qū)域的坐標(biāo)值偏移量,是對Pnet人臉框坐標(biāo)的再次調(diào)整。具體結(jié)構(gòu)如圖3-3所示:
R-NctCorn:2\2Inciallandmarklocalizniitinhoundingboxregression 1R-NctCorn:2\2Inciallandmarklocalizniitinhoundingboxregression 1taucclassttlcation圖3-3Rnet5、將Rnet返回的坐標(biāo)從原圖中摳出再送入Onet再次調(diào)整oQnet與Rnet結(jié)構(gòu)類似,不同之處在于Qnet在最后使用三個全連接層分別輸出人臉概率、人臉坐標(biāo)點的偏移量以及人的眼睛、鼻子、嘴巴的中心坐標(biāo)點的偏移量,前兩個都是對人臉的再次篩選和調(diào)整,第三個是檢測出人臉框的5個landmark的10個坐標(biāo)。人臉特征點采用的回歸算法計算如-式_ylandmark
i(3-3)Alandmark^landmark_||y-_ylandmark
i(3-3)該層卷積連接網(wǎng)絡(luò)結(jié)構(gòu)如圖「絲心圖3-4QnetKaiiialbrtdmarklotaiijatirnJJJ Jliiily該層卷積連接網(wǎng)絡(luò)結(jié)構(gòu)如圖「絲心圖3-4QnetKaiiialbrtdmarklotaiijatirnJJJ Jliiilytontiett (KNetCtinv:3\5MR3.2MTCNN模型訓(xùn)練為了訓(xùn)練mtcnn模型,這里使用celebA數(shù)據(jù)集口。Mtcnn模型需要positives、negatives、partfaces、landmarks四種,positives是有整張人臉的圖片,negative是沒有人臉的圖片,partfaces是有部分人臉的圖片,landmarks是關(guān)鍵點。Mtcnn使用了IQU(重疊邊框區(qū)域面積比例)計算邊界框精度。置信度大于0.65的為positives,小于0.3的是negatives,0.4到0.65為partfaces。Landmarks的人臉框位置可由前兩個網(wǎng)絡(luò)得出或由landmark的坐標(biāo)位置擬合出來。下面是計算IQU算法的實現(xiàn):輸入兩個邊框坐標(biāo)數(shù)組boxl,box2計算boxl、box2的坐標(biāo)系計算兩個坐標(biāo)系的交集面積計算boxl、box2兩個邊框的面積計算兩個邊框并集的面積,計算方法是box1-交集面積、box2面積-交集面積IOU二交集面積/并集面積返回IOU 網(wǎng)絡(luò)中還有一個叫做非極大值抑制的算法,抑制不是極大值的元素,可以理解為局部最大搜索。在計算機(jī)視覺領(lǐng)域許多地方都使用NMS進(jìn)行圖像的抑制,如圖像腐蝕算子中就有使用NMS。它的原理其實很簡單,對所有輸入的邊界框計算它的IOU,保留IOU大于設(shè)定的閾值的概率最大的框,去除其他非極大的框。由于三層網(wǎng)絡(luò)的訓(xùn)練過程比較類似,這里僅詳細(xì)舉例Pnet的訓(xùn)練過程,簡單敘述Rnet及Onet的訓(xùn)練。這里使用keras訓(xùn)練,流程如下:讀取數(shù)據(jù)集使用IOU算法,篩選出positives、negatives和partfaces并resize成12*12再分別保存在”roi.imdb”文件中,將他們的標(biāo)簽保存在“cls.imdb"文件中。從兩個文件中讀取圖片及標(biāo)簽,將標(biāo)簽實行獨熱編碼轉(zhuǎn)換。將所有圖片轉(zhuǎn)化為numpy數(shù)組,準(zhǔn)備訓(xùn)練。搭建訓(xùn)練模型。開始訓(xùn)練。訓(xùn)練完成保存權(quán)重。Rnet訓(xùn)練使用24*24的圖片,與Pnet不同的是在后面使用兩個全連接層做回歸提取類別的特征譜和bbox特征譜。Onet訓(xùn)練使用48*48的圖片,與Rnet類似,不過多使用了一個全連接層做landmark的回歸。3.3改進(jìn)的MTCNN模型訓(xùn)練及提取特征本文通過在三層網(wǎng)絡(luò)之后再級聯(lián)一層眼睛landmark網(wǎng)絡(luò)(下文稱為Enet)來獲取眼部ROI,結(jié)構(gòu)網(wǎng)絡(luò)如Onet,本文通過使用大量樣本訓(xùn)練,采用了keras封裝的ReduceLROnPlateau,EarlyStopping技術(shù)以及dropout等正則化策略防止出現(xiàn)梯度爆炸和過擬合,使得Enet訓(xùn)練及預(yù)測準(zhǔn)確率達(dá)到99%以上,經(jīng)過試驗后達(dá)到使用要求。將四層網(wǎng)絡(luò)級聯(lián)后得到的識別效果如
下圖3-5所示:下圖3-5所示:圖3-5識別效果前三層Pnet、Rnet、Onet層模型上文講述了訓(xùn)練方法,這里詳細(xì)敘述關(guān)于Enet層的訓(xùn)練。數(shù)據(jù)集準(zhǔn)備:需要準(zhǔn)備具有眼部區(qū)域的圖片及eye_bbox標(biāo)注文件(本文采用人工標(biāo)注celebA數(shù)據(jù)集)。本文采用前三層級聯(lián)網(wǎng)絡(luò)獲取人臉ROL再通過人工標(biāo)注或深度學(xué)習(xí)網(wǎng)絡(luò)標(biāo)注的方法標(biāo)注人眼landmark,將裁剪下的圖片作為訓(xùn)練數(shù)據(jù),經(jīng)過歸一化的landmark作為標(biāo)簽,將兩種數(shù)據(jù)保存為.Imdb二進(jìn)制文件。從兩個二進(jìn)制文件中讀取圖片及標(biāo)簽。將所有圖片進(jìn)行shuffle并轉(zhuǎn)化為numpy數(shù)組,準(zhǔn)備訓(xùn)練。搭建如Onet層的模型,開始訓(xùn)練并保存權(quán)重。訓(xùn)練Enet網(wǎng)絡(luò)層如下圖3-6:LapsrOutputF込mmHlnpu.t_7 J4£.4&3?]ucanvlCCcovEJi)CtfanjBj院.蛤32>游6CWnrWa虻?46,S2>u23,23,22>iiccieW(CccwZD)CNone.21,21.64)eL?(E<wL£l:i31,21.心Ums*c_paialin■:Ed_LD ingIQLQ,64)n(Cctjw^ED)CBTainjSi,,9.£t.&1I郭能8mLEiReLUjCWona?擊8,64:lnl:ng氓口心皿4,dI,&i|ucanv4(CcovED]Cfkinab擊3GL2B)閃叫自mLg(KcLJJ;!QN口ififiL□u國12B>uperimjLie_3CPeruidtCKorwh3,3>fi■fl fnm11(TfaruBj1152)H£[>stx=c-1《麗皿.,此】29EH3Srfllu5(ReLnjCNohjb?W詞neam'fi(C>wtj=c-120E6圖3-6Enet本文在mtcnn模型后再級聯(lián)一個眼部區(qū)域提取網(wǎng)絡(luò)Enet,通過此網(wǎng)絡(luò)結(jié)構(gòu)得到眼部區(qū)域的坐標(biāo)點。此層網(wǎng)絡(luò)可以得到左右眼的左上、右下坐標(biāo),更方便使用與顯示。在前三層網(wǎng)絡(luò)得到人臉區(qū)域和眼睛中心點的坐標(biāo),再加上此層網(wǎng)絡(luò)提取的眼部區(qū)域坐標(biāo)點。該層網(wǎng)絡(luò)模型類似于Onet,采用相同輸入輸出,同樣的卷積-池化-全連接的結(jié)構(gòu),提取出1x1x8的landmark_eye,這個特征譜代表的是眼部區(qū)域的偏移量。該層網(wǎng)絡(luò)的關(guān)鍵在就是通過提取回歸特征譜后并進(jìn)行眼部特征點的解析得到眼部區(qū)域的坐標(biāo)點。由于本文無需Onet得到的五個1andmark,所以沒有顯示。對于Enet的算法,假設(shè)mtcnn網(wǎng)絡(luò)計算得到的眼睛關(guān)鍵點偏移量是b,輸入Enet的圖像為x,Enet網(wǎng)絡(luò)0為E,Enet回歸目標(biāo)函數(shù)可以寫成如下式3-1:arcminIIB-(b0-E(x,b0))II2 (3-4)其中B表示landmark_eye真實位置向量。公式(3-1)作用是訓(xùn)練出最優(yōu)的Enet,來矯正并得到最為真實的眼睛landmark。3.4本章小結(jié)本章詳細(xì)解釋了有關(guān)mtcnn的原理與研究,敘說了mtcnn的三層網(wǎng)絡(luò)結(jié)構(gòu)及其特點,以及談到了其中用到的比較關(guān)鍵的算法過程,并從實際上講了mtcnn模型的訓(xùn)練方法,并在此基礎(chǔ)上提出增加一層眼睛區(qū)域回歸Enet層,這樣會使mtcnn具有更廣闊的應(yīng)用與拓展,使得改進(jìn)后的mtcnn模型具有框出眼部區(qū)域的能力。并講述了如何訓(xùn)練Enet,級聯(lián)了Enet會大大拓深mtcnn的優(yōu)勢,并彌補(bǔ)mtcnn無法提取眼睛區(qū)域的的缺點。第四章基于深度學(xué)習(xí)的疲勞駕駛檢測4.1PERCLOS疲勞檢測方法4.1.1PERCLOS方法原理及背景PERCLOS是通過計算眼睛閉合時間在單位時間內(nèi)所占的比值并轉(zhuǎn)化為百分比率,原理如圖4-1所示:圖4-1眼睛開度與時間f代表眼睛閉合時間的百分比率,即PERCLOS值;t1代表眼睛完全張開再到眼睛閉合80%用時;t2代表眼睛80%閉合到20%閉合用時;t3是眼睛20%閉合到20%睜開用時;t4是眼睛20%睜開用時。PERCLOS的值計算方法如式4-1所示:TOC\o"1-5"\h\z一12f, x100% (4-1)-1180年代到90年代的研究表明發(fā)現(xiàn)PERCLOS是最具有潛力的判定疲勞測定方法之一。4.1.2本文使用的PERCLOS方法文獻(xiàn)[14]提供了三種PERCLOS檢測方法,分別是p70(以眼睛至少閉合70%的時間占特定時間的百分比為評價指標(biāo)),p80(以眼睛至少閉合80%的時間占特定時間的百分比為評價指標(biāo)),EM(眼睛閉合時間占特定時間百分比的平均值)。圖4-2是三種檢測方法準(zhǔn)確率對比圖:人員編號PERCLOSE廚電圖算法(EEG)頭位置測置法(HFM眨眼檢測法(EBM)F7Q⑴P30EM法1法2CE)怯!(6)法2(7)註1<E)法2⑶10.890,92爪990,830.82丄1020.330.S30.溟0.4G0.71爪2030.缶0.07爪950.010.850.釦40.840.330.83一a540.200_540.7750.940.970.950.&460.95G.830,940.570,950.100.5470.92。一940.SE0.36Q.310.930.32圖4-2PERCLOS方法對比 本文采用PERCLOS方法中的EM方法,EM方法的計算式如式4-2:(4-2)FCtotal(4-2)Ftotal 其中f為PERCLOS指數(shù),F(xiàn)total表示單位時間內(nèi)的視頻圖像幀數(shù);FCtotal表示該段時間段中被認(rèn)為是眼睛閉合狀態(tài)的視頻圖像幀數(shù)。4.2疲勞駕駛檢測流程 本文中使用基于深度學(xué)習(xí)的疲勞駕駛檢測來進(jìn)行駕駛狀態(tài)檢測。首先使用改進(jìn)的mtcnn模型提取面部及眼部區(qū)域特征,并將其坐標(biāo)與關(guān)鍵點標(biāo)記出來,之后再通過分類網(wǎng)絡(luò)層clsnet判斷眼部是處于睜開還是閉合的狀態(tài)。 從而計算駕駛員眼睛開合時間使用PERCLOS中的EM方法進(jìn)行疲勞估計。這 里選擇檢測區(qū)間時間為3秒,每隔3秒對攝像頭拍攝的視頻逐幀檢測,先判 斷眼部ROI的開合狀態(tài),在3秒內(nèi)超過閾值則判斷為處于疲勞狀態(tài)。具體檢測流程如下: 1、 使用opencv打開攝像頭,這里由于攝像頭幀率固定為30幀,無法提高幀率增加視頻流暢度,顯示攝像幀率。 2、 對該幀圖像使用高斯濾波,防止高斯噪點干擾識別與判斷,調(diào)用模型的detect方法,得到視頻流每幀人臉部與眼部ROI。 3、 使用cv2.rectangle方法繪制人臉部與眼部ROI,并裁剪出眼部區(qū)域的圖片。4、 調(diào)用模型的predict方法,重新設(shè)置尺寸,24x24,并reshape為[-1,24,24,3]的數(shù)組,使用clsnet對數(shù)組進(jìn)行分類預(yù)測,得到 對本文進(jìn)行數(shù)百次實驗來選擇進(jìn)行評估疲勞的PERCLOS指數(shù),這里顯 示前20次測試,如圖4-3所示:
.-■:k 疲勞程度是否披勞圖4-3疲勞指數(shù)根據(jù)上述實驗方法選擇的疲勞程度閾值為0.8,當(dāng)疲勞值小于0.8判定為未疲勞,疲勞值超過或等于0.8則判定為疲勞。判斷為疲勞后可以在視頻顯示窗口上進(jìn)行提示,并會發(fā)出報警音提示人員注意安全。具體展示效果如下圖4-4所示:圖4-4展示效果4.3mtcnn模型與基于級聯(lián)分類器的模型對比Mtcnn對比傳統(tǒng)視覺疲勞駕駛檢測算法,具有保證檢測準(zhǔn)確率高的前提下又使得檢測速度達(dá)到要求等優(yōu)勢,為了凸顯mtcnn模型的優(yōu)勢,這里與基于級聯(lián)分類器的模型進(jìn)行比較。這里自行設(shè)計一個簡單的檢測辦法,采用FDDB數(shù)據(jù)集400張,使用兩種模型對其進(jìn)行人臉對齊,計算識別數(shù),通過識別數(shù)與數(shù)據(jù)集總數(shù)的比值來進(jìn)行比較,識別率越高檢測效果越好。而檢測速度通過計算整個算法運行時間來比較,計算方式為完成時間-開始時間,時間差越小運行速度越快。通過上述方法,得到實驗測試結(jié)果如圖4-5所示:史驗?zāi)k姞N數(shù).總好逝打?時間運行時間并值1miciiTi40341796M鵬96.1778.7址ar特肝級底分資器5641713,例17.47FDDBm.tcnn4G341796一碩S3.18%98.2890.44陥M特征皺聯(lián)分發(fā)器5641713,憤343uncnn40341796.m99.883.34膈紅特征魏聯(lián)分獎器56417L3.42ffi16.461mtcnn351938379.7:%107)281048.55折ar特征皺朕分類器2S38370.60^22.12300Tmtcrin35193B3791.71%91.11%LOW.741038.03*眥特征飯聯(lián)分類器233837o.eo%22.二3mlennB51&SSS79]71%1065.681042.13話ar搟政聯(lián)分類聘2338370.60%蛤55圖4-5實驗結(jié)果4.4本章總結(jié)本章主要是闡述基于深度學(xué)習(xí)的疲勞駕駛檢測在實際場景中的應(yīng)用。通過疲勞駕駛檢測可以正確分析駕駛?cè)藛T的狀態(tài),當(dāng)超過疲勞檢測閾值時,本套檢測方法會自動提示,這在實際生活應(yīng)用中有很大的作用。本章介紹了PERCLOS疲勞檢測方法,闡明了如何檢測疲勞駕駛,并成功應(yīng)用于本文疲勞駕駛檢測中,驗證了該疲勞駕駛檢測的有效性。第五章實驗結(jié)果與分析5.1實驗環(huán)境本文所實現(xiàn)的基于深度學(xué)習(xí)的疲勞駕駛檢測算法的計算機(jī)系統(tǒng)硬件主機(jī)處理器為IntelCorei7-7500U,核心為八核,內(nèi)存大小為8G內(nèi)存,GPU為NvidiaGeforce940mx;開發(fā)系統(tǒng)環(huán)境:Windwos1064位操作系統(tǒng);采用keras以tensorflow-gpu做后臺的深度學(xué)習(xí)框架,使用NVIDIA加速工具:CUDNN-10.0.0,CUDAT0.0.0;開發(fā)語言:python。5.2實驗主要數(shù)據(jù)庫本文基于深度學(xué)習(xí),針對傳統(tǒng)視覺疲勞駕駛檢測面對光線、姿態(tài)等影響下無法識別提出一種基于mtcnn的疲勞駕駛檢測。本文訓(xùn)練眼部ROI網(wǎng)絡(luò)(Enet)采用了CelebA數(shù)據(jù)集。對于本章測試采用LFW數(shù)據(jù)庫測試集,總共249張圖片,圖片來源于網(wǎng)絡(luò),包括各種名人、網(wǎng)絡(luò)熱圖、畫像等隨機(jī)圖像,部分圖像集如圖5-1所示:圖5-1并隨機(jī)選取300W-3d數(shù)據(jù)庫3837張圖像進(jìn)行測試,包括多種姿態(tài)、遮擋的人臉,隨機(jī)選取FDDB數(shù)據(jù)集417張圖像進(jìn)行測試。5.3算法實驗結(jié)果分析本文通過使用三個數(shù)據(jù)集LFW、300w、FDDB進(jìn)行測試與驗證,測試結(jié)果如下圖5-2所示:數(shù)據(jù)集圖像總數(shù)識別數(shù) 腌部識別率眼部識別率LFWtest24922691%91%300V383了326286%86%FDDB41737990.80%90.80%圖5-2測試結(jié)果實驗結(jié)果表明,本文采用的基于深度學(xué)習(xí)的疲勞駕駛檢測方法具有比較好的檢測率,對于近5000張測試圖片準(zhǔn)確率達(dá)到85%以上。本文借助opencv,通過實驗對整個駕駛?cè)藛T疲勞檢測算法進(jìn)行驗證和分析,找出算法的缺陷和不足,為以后算法優(yōu)化和研究提供方法,以便促進(jìn)疲勞駕駛檢測的多種方法、方式的出現(xiàn)。為更好的檢查本文中使用的疲勞駕駛檢測方法,這里使用網(wǎng)絡(luò)下載并經(jīng)過裁剪的視頻,來評估模型對于視頻流的檢測,看此方法能否對攝像頭監(jiān)控起到非常良好的效果。該段視頻共821幀,通過多次實驗得到有人臉的幀總數(shù)為789幀,其中識別出700幀具有人臉與眼睛的圖像,識別率達(dá)到88%,與上文對圖像檢測臉部與眼部的相差無幾。經(jīng)過實驗得出,每幀圖像處理時間為0.16秒,平均每秒可處理6幀圖像。為探究該算法能否對疲勞狀態(tài)做出判斷,這里使用控制變量法,利用相同的筆記本攝像頭采集視頻,保持光線、人臉姿態(tài)等變量不變,對臉部與攝像頭的距離影響提出研究與探索。研究流程如下:1、 保持良好的光線、臉部姿態(tài)、無遮擋2、 計算臉部與攝像頭的距離并記錄下來,這里選定距離為50cm3、 開啟攝像頭,調(diào)用檢測算法,選定視頻時間為10so4、 要求實驗人員做出疲勞的姿態(tài)按間隔30s為時間周期分別表現(xiàn)疲勞和非疲勞狀態(tài)。記錄出現(xiàn)提示疲勞與非疲勞的時間段。開始疲勞與提示疲勞時長不超過5s則視為判斷成功。5、 進(jìn)行30次檢測,記錄結(jié)果。6、 進(jìn)行5組實驗這里采用判斷實驗人員疲勞成功的次數(shù)與總共實驗次數(shù)平均比值進(jìn)行評估。評估結(jié)果如下圖5-3所示:實驗編號檢測結(jié)果狀態(tài)識別率1疲勞疲勞93%O朮疲勞未疲労100%3疲勞疲勞90%4未疲勞未疲勞96%5疲勞疲勞96%6朮疲芬未疲勞100%1疲勞疲勞100%8未虹;未疲勞100%9疲勞疲勞100%10朮疲芬未疲步—100%
圖5-3測試結(jié)果為驗證本疲勞駕駛檢測算法的實際應(yīng)用是否具有可靠性,本文選擇直接在駕駛車輛內(nèi)進(jìn)行疲勞駕駛檢測。實驗分為兩步:首先進(jìn)行人臉對齊的檢測,令實驗人員調(diào)整臉部姿態(tài)與角度,分別進(jìn)行測試的轉(zhuǎn)動角度從-45。變化到45°(將臉部正對平視攝像頭的角度視為0°,向左轉(zhuǎn)動角度為負(fù)值,向右為正值)。通過不同的轉(zhuǎn)動角度來測試模型是否能成功對齊人臉。再進(jìn)行人員疲勞檢測,由實驗人員多次表現(xiàn)出疲勞的狀態(tài),整個系統(tǒng)做出判斷疲勞的反應(yīng)視為成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版南京大學(xué)與京東集團(tuán)電商人才培養(yǎng)合作合同4篇
- 2025年度鋼管行業(yè)市場調(diào)研與分析服務(wù)合同
- 二零二五年度企業(yè)廢棄包裝物清運合同模板
- 二零二五年度農(nóng)莊農(nóng)業(yè)保險合同模板
- 2025年度農(nóng)業(yè)科技創(chuàng)新實驗基地租賃合同范本3篇
- 二零二五版內(nèi)參內(nèi)容策劃與制作合同4篇
- 2025年度個人反擔(dān)保合同模板(保險業(yè)務(wù)風(fēng)險防范)
- 二零二五年度泥水工施工技術(shù)創(chuàng)新與推廣合同4篇
- 二零二五年度現(xiàn)代農(nóng)業(yè)科技項目質(zhì)押擔(dān)保合同3篇
- 二零二五年度瓷磚電商平臺銷售代理合同2篇
- 液化氣站其他危險和有害因素辨識及分析
- 建筑工程施工安全管理思路及措施
- 高中語文教學(xué)課例《勸學(xué)》課程思政核心素養(yǎng)教學(xué)設(shè)計及總結(jié)反思
- 中國農(nóng)業(yè)銀行小微企業(yè)信貸業(yè)務(wù)貸后管理辦法規(guī)定
- 領(lǐng)導(dǎo)干部的情緒管理教學(xué)課件
- 初中英語-Unit2 My dream job(writing)教學(xué)課件設(shè)計
- 市政道路建設(shè)工程竣工驗收質(zhì)量自評報告
- 優(yōu)秀支行行長推薦材料
- 中國版梅尼埃病診斷指南解讀
- 暨南大學(xué)《經(jīng)濟(jì)學(xué)》考博歷年真題詳解(宏觀經(jīng)濟(jì)學(xué)部分)
- 藥店員工教育培訓(xùn)資料
評論
0/150
提交評論