人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究_第1頁
人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究_第2頁
人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究_第3頁
人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究_第4頁
人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

...wd......wd......wd...人臉識(shí)別技術(shù)的發(fā)展與現(xiàn)狀研究摘要人臉識(shí)別是一個(gè)具有很高理論和應(yīng)用價(jià)值的研究課題。人臉是人類視覺中最為普遍的模式,它所反映的視覺信息在人與人的交流和交往中有著及其重要的作用意義。人臉的特殊性,使得人臉識(shí)別技術(shù)成為最具潛力的身份識(shí)別方式。人臉識(shí)別技術(shù)應(yīng)用廣泛,并且日益受到人們的廣泛關(guān)注并成為模式識(shí)別領(lǐng)域研究的熱點(diǎn)。同時(shí)人臉識(shí)別又是一個(gè)復(fù)雜和困難的課題,其原因有:人臉是由復(fù)雜的三維曲面構(gòu)成的可變形體,難以用數(shù)學(xué)描述;所有的人臉構(gòu)造高度相似,而人臉圖像又易受年齡和成像條件的影響。人臉識(shí)別涉及的技術(shù)很多,其中關(guān)鍵的是特征提取和分類方法,本文就以此為重點(diǎn)進(jìn)展了相關(guān)研究。主要工作包括以下幾個(gè)方面:1.在人臉圖像特征提取方面,提出了一利〞有效的基于ICA的人臉整體特征提取方法;2.在優(yōu)化ICA算法方面,提出了一種改良的FastICA算法,該算法通過減少耗時(shí)的雅可比矩陣求逆的次數(shù),進(jìn)一步加快了收斂速度;3.建設(shè)了SVM/HMM的混合人臉模型。關(guān)鍵詞:人臉識(shí)別主分量分析;獨(dú)立分量分析;隱馬爾可夫模型;支持向量機(jī)目錄第1章引言61.1人臉識(shí)別技術(shù)的應(yīng)用與難點(diǎn)61.1.1人臉識(shí)別技術(shù)的廣泛應(yīng)用61.1.2人臉識(shí)別技術(shù)的難點(diǎn)81.2人臉識(shí)別技術(shù)的開展與現(xiàn)狀81.2.1人臉識(shí)別技術(shù)開展的三個(gè)階段91.2.2國內(nèi)外開展現(xiàn)狀91.3人臉識(shí)別的研究內(nèi)容與主要方法101.3.1人臉識(shí)別的研究內(nèi)容101.3.2人臉識(shí)別的視覺機(jī)理111.3.3人臉識(shí)別系統(tǒng)的組成111.3.4主要的人臉識(shí)別方法121.4人臉識(shí)別測試數(shù)據(jù)庫161.5本文的主要內(nèi)容17第2章基于主分量分析的人臉識(shí)別方法182.1引言182.2主分量分析的理論根基182.2.1多維統(tǒng)計(jì)數(shù)據(jù)的線性變換192.2.2主分量分析方法202.3基于主分量分析的人臉識(shí)別方法212.3.1基于主分量分析的人臉特征提取212.3.2基于主分量分析的人臉分類識(shí)別222.4實(shí)驗(yàn)結(jié)果及分析242.5本章小結(jié)27第3章基于獨(dú)立分量分析的人臉識(shí)別方法283.1引言283.2獨(dú)立分量分析的理論根基283.2.1獨(dú)立分量分析與盲源別離283.2.2獨(dú)立分量分析的線性模型293.3基于獨(dú)立分量分析的人臉識(shí)別方法303.3.1人臉圖像的預(yù)處理313.3.2基于獨(dú)立分量分析的人臉特征提取323.3.3獨(dú)立分量的排序及選擇343.3.4基于ICA系數(shù)的人臉分類識(shí)別353.4獨(dú)立分量分析的算法研究353.4.1Informax算法363.4.2FastICA算法及其改良373.5實(shí)驗(yàn)結(jié)果及分析393.6本章小結(jié)41第4章基于隱馬爾可夫模型的人臉識(shí)別方法444.1引言444.2隱馬爾可夫模型的理論根基444.2.1馬爾可夫鏈444.2.2隱馬爾可夫模型464.2.3隱馬爾可夫模型中的三大問題474.2.4隱馬爾可夫模型的類型484.3基于隱馬爾可夫模型的人臉識(shí)別方法概述484.3.1基于HMM人臉識(shí)別的基本原理484.3.2基于HMM人臉識(shí)別的系統(tǒng)概述494.4基于一維隱馬爾可夫模型的人臉識(shí)別方法494.4.1特征提取504.4.2模型訓(xùn)練504.4.3分類識(shí)別524.5基于偽二維隱馬爾可夫模型的人臉識(shí)別方法524.6基于I以特征和SMV/1翎以的人臉識(shí)別方法534.7實(shí)驗(yàn)結(jié)果及分析544.8本章小結(jié)56第5章完畢語575.1人臉識(shí)別方法評估575.1.1人臉識(shí)別方法評估的性能指標(biāo)575.1.2本文中人臉識(shí)別方法的評估結(jié)果585.2本文工作的總結(jié)及進(jìn)一步研究方向的展望595.2.1本文的主要工作595.2.2進(jìn)一步研究方向的展望60第1章引言1.1人臉識(shí)別技術(shù)的應(yīng)用與難點(diǎn)人臉是自然界存在的一種特殊的、復(fù)雜的視覺模式,它包含著極其豐富的信息。首先,人臉具有一定的不變性和唯一性,人臉識(shí)別是人類在進(jìn)展身份確認(rèn)時(shí)使用的最為普遍的一種方式,其次,人臉圖像還能提供一個(gè)人的性別、年齡、種族等有關(guān)信息。人類在人臉識(shí)別中所表現(xiàn)出來的能力是令人驚異的,但是讓計(jì)算機(jī)能夠識(shí)別人臉,卻是非常困難的問題。迄今為止,人臉識(shí)別的認(rèn)知過程和內(nèi)在機(jī)理仍然是一個(gè)未解之謎,若何實(shí)現(xiàn)一個(gè)自動(dòng)的人臉識(shí)別系統(tǒng)仍然是一個(gè)懸而未決的難題。從上個(gè)世紀(jì)六十年代以來,隨著計(jì)算機(jī)和電子技術(shù)的迅猛開展,人們開場利用計(jì)算機(jī)視覺和模式識(shí)別等技術(shù)對人臉識(shí)別進(jìn)展研究。近年來,隨著相關(guān)技術(shù)的不斷開展和實(shí)際需求的日益增加,人臉識(shí)別已經(jīng)引起了越來越多的關(guān)注,成為了信息處理和人工智能等領(lǐng)域研究的熱點(diǎn)之一,新的研究成果和實(shí)用系統(tǒng)也不斷涌現(xiàn)。人臉識(shí)別技術(shù)的廣泛應(yīng)用一項(xiàng)技術(shù)的問世和開展與人類的迫切需求是密切相關(guān)的,飛速開展的社會(huì)經(jīng)濟(jì)和科學(xué)技術(shù)使得人類對安全(包括人身安全、隱私保護(hù)等)的認(rèn)識(shí)越來越重視。人臉識(shí)別的一個(gè)重要應(yīng)用就是人類的身份識(shí)別。一般來說,人類的身份識(shí)別方式分為三類:a.特殊物品,包括各種證件和憑證,如身份證、駕駛執(zhí)照、房門鑰匙、印章等;b.特殊知識(shí),包括各種密碼、口令和暗號等;c.人類生物特征,包括各種人類的生理和行為特征,如人臉、指紋、手形、掌紋、虹膜、DNA、簽名、語音等。前兩類識(shí)別方式屬于傳統(tǒng)的身份識(shí)別技術(shù),其特點(diǎn)是方便、快捷,但致命的缺點(diǎn)是安全性差、易偽造、易竊取。特殊物品可能被喪失、偷盜和復(fù)制,特殊知識(shí)容易被遺忘、混淆和泄露。相對比而言,由于生物特征是人的內(nèi)在屬性,具有很強(qiáng)的自身穩(wěn)定性和個(gè)體差異性,因此生物特征是身份識(shí)別的最理想依據(jù)?;谝陨舷鄬Κ?dú)特的生物特征,結(jié)合計(jì)算機(jī)技術(shù),開展了眾多的基于人類生物特征的身份識(shí)別技術(shù),如NDA識(shí)別技術(shù)、指紋識(shí)別技術(shù)、虹膜識(shí)別技術(shù)、語音識(shí)別技術(shù)和人臉識(shí)別技術(shù)等。表1-1為各種生物識(shí)別技術(shù)的綜合對比。表1-1各種生物特征識(shí)別技術(shù)的綜合對比生物識(shí)別技術(shù)在上個(gè)世紀(jì)己經(jīng)有了一定的開展,其中指紋識(shí)別技術(shù)己經(jīng)趨近成熟,但人臉識(shí)別技術(shù)的研究目前還處于起步階段。指紋、虹膜、掌紋等識(shí)別技術(shù)都需要被識(shí)別者的配合,有的識(shí)別技術(shù)還需要添置復(fù)雜昂貴的設(shè)備。人臉識(shí)別則可以用已有的照片或是攝像頭遠(yuǎn)距離捕捉圖像,無須特殊的采集設(shè)備,系統(tǒng)的成本低。并且自動(dòng)人臉識(shí)別可以在當(dāng)事人毫無覺察的情況下即完成身份確認(rèn)識(shí)別工作,這對反恐懼活動(dòng)等有非常重大的意義。由于人臉識(shí)別技術(shù)具有如此之多的優(yōu)勢,因此它的應(yīng)用前景非常廣闊,已成為最具潛力的生物特征識(shí)別技術(shù)之一。本文將人臉識(shí)別技術(shù)的各種應(yīng)用及其特點(diǎn)總結(jié)在表1-2中。表1-2人臉識(shí)別技術(shù)的應(yīng)用人臉識(shí)別最初的應(yīng)用源于公安部門關(guān)于罪犯照片的存檔管理和刑偵破案?,F(xiàn)在該技術(shù)在安全系統(tǒng)、商業(yè)領(lǐng)域和日常生活中都有很多應(yīng)用,主要有以下幾類應(yīng)用:1.刑偵破案。當(dāng)公安部門獲得罪犯的照片后,可以利用人臉識(shí)別技術(shù),在存儲(chǔ)罪犯照片的數(shù)據(jù)庫中找出最相像的人作為嫌疑犯,極大的節(jié)省了破案的時(shí)間和人力物力。還有一種應(yīng)用就是根據(jù)目擊證人的描述,先由專業(yè)人員畫出草圖,然后用此圖到庫里去找嫌疑犯。罪犯數(shù)據(jù)庫往往很大,由幾千幅圖像組成。如果這項(xiàng)搜索工作由人工完成,不僅效率低,而且容易出錯(cuò),因?yàn)槿嗽诳戳松习俜四槇D像后,記憶力會(huì)下降,而由計(jì)算機(jī)來完成則不會(huì)出現(xiàn)此問題。2.證件驗(yàn)證。身份證、駕駛執(zhí)照以及其他很多證件上都有照片;現(xiàn)在這些證件多由人工驗(yàn)證完成。如果應(yīng)用人臉識(shí)別技術(shù),這項(xiàng)工作就可以交給機(jī)計(jì)算機(jī)完成,從而實(shí)現(xiàn)自動(dòng)化及智能管理。當(dāng)前普遍使用的另一類證件是用符號或者條形碼標(biāo)記的,比方信用卡。這類卡的安全性對比低,可能遺失、被竊取,使用場合(比方自動(dòng)提款機(jī))的安全性也對比差。如果在這類卡上加上人臉的特征信息,則會(huì)大大改善其安全性能。3.入口控制。需要入口控制的范圍很廣,它可以是重要人物居住的住所、保存重要信息的單位,只要人類覺得安全性對比重要的地點(diǎn)都可以進(jìn)展入口控制,對比常用的檢查手段是核查證件。人員出入頻繁時(shí),保安人員再三檢查證件是很麻煩的,而且證件安全性也不高。在一些保密要求非常嚴(yán)格的部門,除了證件外,已經(jīng)使用了生物特征識(shí)別手段,如指紋識(shí)別、掌紋識(shí)別、虹膜識(shí)別和語音識(shí)別等。人臉識(shí)別與這些技術(shù)相比,具有直接、方便和友好的特點(diǎn)。當(dāng)前計(jì)算機(jī)系統(tǒng)的安全管理也備受重視,通常使用由字符和數(shù)字組成的口令(Password)進(jìn)展使用者的身份驗(yàn)證,但口令可能被遺忘,或被破解,如果將人臉作為口令,則既方便又安全。4.視頻監(jiān)控。在銀行、公司、公共場所等處設(shè)有24小時(shí)的視頻監(jiān)控,若何對視頻圖像進(jìn)展篩選分析,就需要用到人臉檢測、跟蹤和識(shí)別技術(shù)。除了以上應(yīng)用外,人臉識(shí)別技術(shù)還可以用于視頻會(huì)議、機(jī)器人的智能化研究等方面。尤其從美國9.11事件后,人的身份識(shí)別問題更是提升到了國家安全的角度,若何利用人臉信息迅速確定一個(gè)人的身份成了各個(gè)國家重點(diǎn)研究的技術(shù)。1.1.2人臉識(shí)別技術(shù)的難點(diǎn)雖然人類可以毫不困難地根據(jù)人臉來區(qū)分一個(gè)人,但是利用計(jì)算機(jī)進(jìn)展完全自動(dòng)的人臉識(shí)別,仍存在許多困難。人臉模式的差異性使得人臉識(shí)別成為一個(gè)非常困難的問題,表現(xiàn)在以下方面:1.人臉表情復(fù)雜,人臉具有多樣的變化能力,人的臉上分布著五十多塊面部肌肉,這些肌肉的運(yùn)動(dòng)導(dǎo)致不同面部表情的出現(xiàn),會(huì)造成人臉特征的顯著改變;2.人臉隨年齡而改變,隨著年齡的增長,皺紋的出現(xiàn)和面部肌肉的松弛使得人臉的構(gòu)造和紋理都將發(fā)生改變;3.人臉有易變化的附加物,例如改變發(fā)型,蓄留胡須或者佩戴帽子和眼鏡等飾物;4.人臉特征遮掩,人臉全部、局部遮掩將會(huì)造成錯(cuò)誤識(shí)別;5.人臉圖像的畸變,由于光照、視角、攝取角度不同,可能會(huì)造成圖像的灰度畸變、角度旋轉(zhuǎn)等,降低了圖像質(zhì)量,增大了識(shí)別難度。所以很難從有限張人臉圖像中提取出反映人臉內(nèi)在的、本質(zhì)的特征。另外人臉識(shí)別還涉及模式識(shí)別、圖像處理、計(jì)算機(jī)視覺、生理學(xué)和心理學(xué)等學(xué)科領(lǐng)域。這諸多因素使得人臉識(shí)別至今仍是一個(gè)有待深入研究,極富挑戰(zhàn)性的課題。同時(shí)一個(gè)成功的、具有商用價(jià)值的快速的人臉識(shí)別系統(tǒng)將會(huì)給社會(huì)帶來極大的影響。1.2人臉識(shí)別技術(shù)的開展與現(xiàn)狀人臉識(shí)別的研究可以追溯到20世紀(jì)60年代末,最早的研究見于文獻(xiàn)[1]。Bledsoe以人臉特征點(diǎn)的間距、比率等參數(shù)為特征,建成了一個(gè)半自動(dòng)的人臉識(shí)別系統(tǒng)。人臉識(shí)別的開展大致經(jīng)過了三個(gè)階段,其中伴隨開展了多樣的人臉識(shí)別技術(shù)。1.2.1人臉識(shí)別技術(shù)開展的三個(gè)階段第一階段一非自動(dòng)識(shí)別階段:主要研究若何提取人臉識(shí)別所需的特征。通過簡單的語句描述人臉數(shù)據(jù)庫成為待識(shí)別人臉設(shè)計(jì)逼真的摹寫來提高面部識(shí)別率。這是需要手工干預(yù)的階段。此階段以Bertillon、Allen和Parke為代表。在Bertillon系統(tǒng)中,用了一個(gè)簡單的語句與數(shù)據(jù)庫中的某一張臉相聯(lián)系,同時(shí)與指紋識(shí)別相結(jié)合,提供了一個(gè)較強(qiáng)的識(shí)別系統(tǒng)。為了提高面部識(shí)別率,Allen為待識(shí)別人臉設(shè)計(jì)了一種有效逼真的摹寫[2],Parke則用計(jì)算機(jī)實(shí)現(xiàn)了這一想法[3],并且產(chǎn)生了較高質(zhì)量的人臉灰度圖模型。在此階段,識(shí)別過程全部依賴于操作人員,所以不是一種自動(dòng)識(shí)別的系統(tǒng)。第二階段一人機(jī)交互階段:這一階段雖然實(shí)現(xiàn)了一定的自動(dòng)化,但還需要操作員的某些先驗(yàn)知識(shí),仍然不是一個(gè)完全自動(dòng)的識(shí)別系統(tǒng)。此階段的代表性工作有:Goldstion、Harmon和Lesk等人用幾何特征參數(shù)來表示人臉正面圖像[4]。他們采用21維特征矢量表示人臉面部特征,并設(shè)計(jì)了基于這一表示法的識(shí)別系統(tǒng)。Kaya和Kobayashi則采用了統(tǒng)計(jì)識(shí)別的方法,用歐氏距離來表示人臉特征[5],例如嘴和鼻子之間的距離,嘴唇的高度,兩眼之間的距離等。更進(jìn)一步的,T.Kanad設(shè)計(jì)了快速且有一定知識(shí)引導(dǎo)的半自動(dòng)回溯識(shí)別系統(tǒng)[6],創(chuàng)造性的運(yùn)用積分投影法從單幅圖像上計(jì)算出一組臉部特征參數(shù),再利用模式分類技術(shù)與標(biāo)準(zhǔn)人臉相匹配。Kanad的系統(tǒng)實(shí)現(xiàn)了快速、實(shí)時(shí)的處理,是一個(gè)很大的進(jìn)步??偟膩碚f,上述方法都需要利用操作員的某些先驗(yàn)知識(shí),始終擺脫不了人的干預(yù)。第三階段一自動(dòng)識(shí)別階段:這一階段真正實(shí)現(xiàn)了機(jī)器自動(dòng)識(shí)別,產(chǎn)生了眾多人臉識(shí)別方法,出現(xiàn)了多種機(jī)器全自動(dòng)識(shí)別系統(tǒng)。近十余年來,隨著高速度、高性能計(jì)算機(jī)的開展,人臉識(shí)別方法有了較大的突破,提出了多種機(jī)器全自動(dòng)識(shí)別系統(tǒng)[7]。近年來,人臉識(shí)別技術(shù)研究也非?;顫?,除了基于K一L變換的特征臉方法與奇異值特征為代表的代數(shù)特征方法取得了開展外[8][9],人工神經(jīng)網(wǎng)絡(luò)[10][11]、隱馬爾可夫模型·小波變換等也在人臉識(shí)別研究中得到了廣泛的應(yīng)用[12][13],而且出現(xiàn)了不少人臉識(shí)別的新方法[14][15][16]。本文將在1.3節(jié)介紹人臉識(shí)別的主要內(nèi)容與方法。1.2.2國內(nèi)外開展現(xiàn)狀目前,國外對人臉識(shí)別問題的研究對比多,其中對比著名的有MTI、CMU、Cornell和Rockfeller等,MPEG標(biāo)準(zhǔn)組織也已經(jīng)建設(shè)了專門的人臉識(shí)別草案小組。國際上發(fā)表的相關(guān)論文數(shù)量也大幅度增長,EIEE的著名國際會(huì)議,如EIEEInternationalConferenceonAutomaticFaceandGestureRecognition、InternationalConferenceonImageProcessing、ConferenceonComputerVisionandPatternRecognition等,每年都有大量關(guān)于人臉識(shí)別的論文。截至2005年3月,EIEE/IEE全文數(shù)據(jù)庫中收錄的關(guān)于“face〞的文章8916篇,其中有關(guān)“facerecognition〞的3280篇,約占36.8%,并且每年的文獻(xiàn)呈急劇上升趨勢。同樣在工程索引El中,至2005年3月,共有81657篇有關(guān)“face〞的文獻(xiàn),數(shù)目是驚人的,并且2000年后快速增長。國內(nèi)對人臉識(shí)別領(lǐng)域的研究起步較國外晚,但近十年來呈現(xiàn)飛速開展,據(jù)中國期刊網(wǎng)統(tǒng)計(jì),1996年至2005年3月,有關(guān)“人臉〞的文獻(xiàn)1467篇,其中人臉識(shí)別領(lǐng)域的文章494篇,并且再近幾年獲得快速增長,也預(yù)示人臉識(shí)別領(lǐng)域得到快速開展。目前國內(nèi)大局部高校有人從事人臉識(shí)別相關(guān)的研究,其中技術(shù)對比先進(jìn)的有中科院自動(dòng)化所、清華大學(xué)、浙江大學(xué)等。1.3人臉識(shí)別的研究內(nèi)容與主要方法自動(dòng)人臉識(shí)別技術(shù)(AFR)就是利用計(jì)算機(jī)技術(shù),根據(jù)數(shù)據(jù)庫的人臉圖像,分析提取出有效的識(shí)別信息,用來“識(shí)別〞身份的技術(shù)。人臉識(shí)別技術(shù)的研究始于六十年代末七十年代初,其研究領(lǐng)域涉及圖像處理、計(jì)算機(jī)視覺、模式識(shí)別、計(jì)算機(jī)智能等領(lǐng)域,是伴隨著現(xiàn)代化計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)開展起來的綜合穿插學(xué)科。1.3.1人臉識(shí)別的研究內(nèi)容人臉識(shí)別的研究范圍廣義上來講大致包括以下五個(gè)方面的內(nèi)容。1.人臉定位和檢測(FaceDetection):即從在動(dòng)態(tài)的場景與復(fù)雜的背景中檢測出人臉的存在并且確定其位置,最后別離出來。這一任務(wù)主要受到光照、噪聲、面部傾斜以及各種各樣遮擋的影響。2.人臉表征(FaceRepresentation)(也稱人臉特征提取):即采用某種表示方法表示檢測出人臉與數(shù)據(jù)庫中的己知人臉。通常的表示方法包括幾何特征(如歐氏距離、曲率、角度)、代數(shù)特征(如矩陣特征向量)、固定特征模板等。3.人臉識(shí)別(FaceIdentification):即將待識(shí)別的人臉與數(shù)據(jù)庫中人臉對比,得出相關(guān)信息。這一過程的核心是選擇適當(dāng)?shù)娜四槺碚鞣绞脚c匹配策略。4.表情姿態(tài)分析(Expression/GestureAnalysis):即對待識(shí)別人臉的表情或姿態(tài)信息進(jìn)展分析,并對其加以歸類。5.生理分類(PhysicalClassification):即對待識(shí)別人臉的生理特征進(jìn)展分析,得出其年齡、性別等相關(guān)信息,或者從幾幅相關(guān)的圖像推導(dǎo)出希望得到的人臉圖像,如從父母圖像推導(dǎo)出孩子的臉部圖像和基于年齡增長的人臉圖像估算等。人臉識(shí)別的研究內(nèi)容,從生物特征技術(shù)的應(yīng)用前景來分類,包括以下兩個(gè)方面:人臉驗(yàn)證與人臉識(shí)別。1.人臉驗(yàn)證(FaceVerification/Authentication):即是答復(fù)“是不是某人?(AmIwhomIclaimIam?)〞的問題。它是給定一幅待識(shí)別人臉圖像,判別它是否是“某人〞的問題,屬于“一對一〞的兩類模式分類問題,主要用于安全系統(tǒng)的身份驗(yàn)證。2.人臉識(shí)別(FaceIdentification/Recognition):即是答復(fù)“是誰?(WhoamI?)〞的問題。它是給定一幅待識(shí)別人臉圖像,在已有的人臉數(shù)據(jù)庫中,判別它的身份的問題。它是個(gè)“一對多〞的多類模式分類問題,通常所說的人臉識(shí)別即指此類問題,這也是本文的主要研究內(nèi)容。1.3.2人臉識(shí)別的視覺機(jī)理近幾年的研究說明[17],人類視覺數(shù)據(jù)處理是多層次的過程,其中最低層的視覺過程(視網(wǎng)膜功能)起到信息轉(zhuǎn)儲(chǔ)作用,即將大量圖像數(shù)據(jù)轉(zhuǎn)換為較為抽象的信息,這一任務(wù)由視網(wǎng)膜中的兩類細(xì)胞完成:低層次的細(xì)胞對空間的響應(yīng)與小波變換作用類似,高層次的細(xì)胞則依據(jù)低層次細(xì)胞的響應(yīng),而作出具體的線、面乃至物體模式的響應(yīng)。這說明在視覺處理過程中,神經(jīng)元并不是隨便的、不可靠的把視覺圖像的光照強(qiáng)度投射到感覺中樞,它們可以檢測模式單元,區(qū)分物體的深度,排除無關(guān)的變化因素,并組成一個(gè)令人感興趣的層次構(gòu)造。人臉識(shí)別不僅有著以上普通視覺過程的特點(diǎn),而且具有以下獨(dú)特之處[18-22][23]。1.人臉識(shí)別是大腦中一個(gè)特有的過程。針對人臉識(shí)別,大腦中存在一個(gè)專門的處理過程;2.在人臉感知與識(shí)別過程中,局部特征與整體特征均起作用。假設(shè)存在明顯的局部特征,整體特征將不起作用;3.不同的局部特征作用對識(shí)別的奉獻(xiàn)也不同。在正面人臉圖像中,頭發(fā)、人臉輪廓、眼睛以及嘴巴對識(shí)別和記憶有著重要影響,鼻子的作用則不是很重要。但在側(cè)面人臉識(shí)別中,鼻子對特征點(diǎn)的匹配很有作用。通常來講人臉的上部比下部對識(shí)別作用更大些;4.不同空間頻率上信息的作用不同。低頻信息代表了整體的描述,高頻信息包含了局部的細(xì)節(jié)。對于性別的判斷,僅利用低頻信息就足夠了,對于身份識(shí)別沒有高頻信息就無法完成;5.光照對視覺有影響。有實(shí)驗(yàn)說明,從人臉底部打光會(huì)導(dǎo)致識(shí)別困難;6.動(dòng)態(tài)信息比靜態(tài)信息更利于識(shí)別。研究還發(fā)現(xiàn),對熟悉的人臉,人類的識(shí)別能力在動(dòng)態(tài)場景中要高于靜態(tài)場景;7.十歲以下的兒童識(shí)別人臉較多的采用顯著特征,而較少的使用整體分析;8.不同的種族。性別的人臉識(shí)別的難易程度不同,這可能因?yàn)椴煌愋偷娜四槇D像具有不同的特征;9.面部表情的分析與人臉識(shí)別并行處理。通過對腦部受損的病人研究說明,表情的分析與識(shí)別雖有聯(lián)系,但總體來說是分開處理的。人臉識(shí)別是一種復(fù)雜的信息處理任務(wù),它的研究涉及計(jì)算機(jī)技術(shù)、心理學(xué)和神經(jīng)生理學(xué)。視覺機(jī)理、心理學(xué)和神經(jīng)生理學(xué)的研究結(jié)果無疑將非常有益于人臉識(shí)別技術(shù)的開展,這些結(jié)論對于設(shè)計(jì)有效的識(shí)別方法起到了一定啟發(fā)作用。但除少數(shù)文獻(xiàn)外[24],機(jī)器識(shí)別人臉的研究還是獨(dú)立于心理學(xué)和神經(jīng)生理學(xué)的研究的。1.3.3人臉識(shí)別系統(tǒng)的組成在人臉識(shí)別技術(shù)開展的幾十年中,研究者們提出了多種多樣的人臉識(shí)別方法,但大局部的人臉識(shí)別系統(tǒng)主要由三局部組成:圖像預(yù)處理、特征提取和人臉的分類識(shí)別。一個(gè)完整的自動(dòng)人臉識(shí)別系統(tǒng)還包括人臉檢測定位和數(shù)據(jù)庫的組織等模塊,如圖1-1。其中人臉檢測和人臉識(shí)別是整個(gè)自動(dòng)人臉識(shí)別系統(tǒng)中非常重要的兩個(gè)技術(shù)環(huán)節(jié),并且相對獨(dú)立。下面分別介紹這兩個(gè)環(huán)節(jié)。圖1-1人臉識(shí)別系統(tǒng)框圖人臉檢測與定位檢測圖像中是否有人臉,假設(shè)有,將其從背景中分割出來,并確定其在圖像中的位置。在某些可以控制拍攝條件的場合,如警察拍罪犯照片時(shí)將人臉限定在標(biāo)尺內(nèi),此時(shí)人臉的定位很簡單。證件照背景簡單,定位也對比容易。在另一些情況下,人臉在圖像中的位置預(yù)先是未知的,比方在復(fù)雜背景下拍攝的照片,這時(shí)人臉的檢測與定位將受以下因素的影響:1.人臉在圖像中的位置、角度、不固定尺寸以及光照的影響;2.發(fā)型、眼鏡、胡須以及人臉的表情變化等;3.圖像中的噪聲等。特征提取與人臉識(shí)別特征提取之前一般需要做幾何歸一化和灰度歸一化的工作。前者是指根據(jù)人臉定位結(jié)果將圖像中的人臉變化到同一位置和大小;后者是指對圖像進(jìn)展光照補(bǔ)償?shù)忍幚恚砸种乒庹兆兓挠绊懀庹昭a(bǔ)償能夠一定程度的抑制光照變化的影響而提高識(shí)別率。提取出待識(shí)別的人臉特征之后,即可進(jìn)展特征匹配。這個(gè)過程是一對多或者一對一的匹配過程,前者是確定輸入圖像為圖像庫中的哪一個(gè)人(即人臉識(shí)別),后者是驗(yàn)證輸入圖像的人的身份是否屬實(shí)(即人臉驗(yàn)證)。以上兩個(gè)環(huán)節(jié)的獨(dú)立性很強(qiáng)。在許多特定場合下人臉的檢測與定位相比照擬容易,因此“特征提取與人臉識(shí)別環(huán)節(jié)〞得到了更廣泛和深入的研究。近幾年隨著人們越來越關(guān)心各種復(fù)雜的情形下的人臉自動(dòng)識(shí)別系統(tǒng)以及多功能感知研究的興起,人臉檢測與定位才作為一個(gè)獨(dú)立的模式識(shí)別問題得到了較多的重視。本文主要研究人臉的特征提取與分類識(shí)別的問題。1.3.4主要的人臉識(shí)別方法人臉識(shí)別技術(shù)作為模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn),每年都有許多相應(yīng)的研究成果發(fā)表,并且涌現(xiàn)出各種各樣的識(shí)別方法,可以說信息處理領(lǐng)域的各種新方法的研究和算法的改良都嘗試在人臉識(shí)別中得到應(yīng)用。文獻(xiàn)[25][26]對近十年來人臉識(shí)別領(lǐng)域取得的成果進(jìn)展了總結(jié)。人臉識(shí)別方法的分類,根據(jù)研究角度的不同,可以有不同的分類方法,這是研究人臉識(shí)別方法首先遇到的問題。本文在深入研究國內(nèi)外人臉識(shí)別技術(shù)的開展和研究成果的同時(shí),將已有的不同的分類方法做一個(gè)對比,目的是希望能從不同角度認(rèn)識(shí)人臉識(shí)別問題,在較全面的了解各種方法優(yōu)缺點(diǎn)的根基上,給本文的人臉識(shí)別方法提供研究方向。根據(jù)輸入圖像中人臉的角度,人臉識(shí)別技術(shù)可分為基于正面、側(cè)面、傾斜人臉圖像的人臉識(shí)別。由于實(shí)際情況的要求,對人臉正面模式的研究最多,這也是本文的研究內(nèi)容。根據(jù)圖像來源的不同,人臉識(shí)別技術(shù)可分為兩大類:靜態(tài)人臉識(shí)別和動(dòng)態(tài)人臉識(shí)別。靜態(tài)人臉識(shí)別,即人臉來源為穩(wěn)定的二維圖像如照片。如果人臉的來源是一段視頻圖像,則人臉識(shí)別就屬于動(dòng)態(tài)人臉識(shí)別。在頭部運(yùn)動(dòng)和表情變化狀態(tài)下的人臉識(shí)別都可以看作動(dòng)態(tài)人臉識(shí)別,如視頻監(jiān)視中的人臉識(shí)別。動(dòng)態(tài)人臉識(shí)別具有更大的難度:首先,視頻輸出的圖像質(zhì)量較差:其次,背景較復(fù)雜,目前對動(dòng)態(tài)人臉識(shí)別的研究還局限于簡單背景,較少人物的情況,對靜態(tài)人臉識(shí)別的研究對比多。本文的研究也是基于靜止圖像的。根據(jù)人臉識(shí)別技術(shù)的開展歷史,人臉識(shí)別方法大致可分為基于幾何特征的人臉識(shí)別方法、基于模板匹配的人臉識(shí)別方法和基于模型的人臉識(shí)別方法。a.基于幾何特征的人臉識(shí)別方法這是人臉識(shí)別技術(shù)開展中,應(yīng)用最早的方法。該方法是通過提取人臉的幾何特征,包括人臉部件的歸一化的點(diǎn)間距離、比率以及人臉的一些特征點(diǎn),如眼角、嘴角、鼻尖等部位所構(gòu)成的二維拓?fù)錁?gòu)造進(jìn)展識(shí)別的方法。所構(gòu)造的幾何特征既要清晰區(qū)分不同對象人臉的差異,又要對光照背景條件不敏感,常規(guī)的幾何特征量很難滿足這些要求。因此該方法識(shí)別效果不理想。b.基于模板匹配的人臉識(shí)別方法基于模板匹配的方法,主要是利用計(jì)算模板和圖像灰度的自相關(guān)性來實(shí)現(xiàn)識(shí)別功能。一般基于人臉的全局特征,利用人臉模板和相關(guān)參數(shù)如灰度的相關(guān)性來進(jìn)展檢測和識(shí)別的。Berto在[27]中將基于幾何模型的人臉識(shí)別方法和模板匹配進(jìn)展了全面對比后,得出結(jié)論:前者具有識(shí)別速度快和內(nèi)存要求小的優(yōu)點(diǎn),但在識(shí)別率上后者要優(yōu)于前者。增加幾何特征對于基于幾何特征的人臉識(shí)別方法只能輕微的提高識(shí)別率,因?yàn)橐岣邘缀翁卣鞯奶崛≠|(zhì)量本身就十分困難,而且隨著圖像質(zhì)量的下降和人臉遮擋的引入,基于幾何特征的人臉識(shí)別效果會(huì)大幅下降??傊?,認(rèn)為模板匹配法要優(yōu)于幾何特征法。c.基于模型的人臉識(shí)別方法通過統(tǒng)計(jì)分析和匹配學(xué)習(xí)找出人臉和非人臉,以及不同人臉之間的聯(lián)系。該方法包括特征臉法(Eigenface)、神經(jīng)網(wǎng)絡(luò)方法(NN)、隱馬爾可夫模型方法(HMM)和支持向量機(jī)(SVM)等方法。和模板匹配的方法相比,基于模型方法的模板是通過樣本學(xué)習(xí)獲得,而非人為設(shè)定。所以該方法,從原理上更為先進(jìn)合理,實(shí)驗(yàn)中也表現(xiàn)出更好的識(shí)別效果。根據(jù)人臉表征方式(即特征提取)的不同,還可以將人臉識(shí)別技術(shù)分為三大類:基于幾何特征的識(shí)別方法、基于代數(shù)特征的識(shí)別方法和基于連接機(jī)制的識(shí)別方法。a.基于幾何特征的人臉識(shí)別方法該方法在上文中已有闡述,它將人臉用一個(gè)幾何特征矢量表示,用模式識(shí)別中層次聚類的思想設(shè)計(jì)分類器到達(dá)識(shí)別目的。該方法的困難在于沒有形成一個(gè)統(tǒng)一的、優(yōu)秀的特征提取標(biāo)準(zhǔn)。由于人面部的模式千變?nèi)f化,即使是同一個(gè)人的面部圖像,由于時(shí)間、光照、攝影機(jī)角度等不同,也很難用一個(gè)統(tǒng)一的模式來表達(dá),造成了特征提取的困難。不過,由于現(xiàn)在各種優(yōu)秀特征提取算法(如動(dòng)態(tài)模板、活動(dòng)輪廓等)的提出,使得人臉的幾何特征描述越來越充分。而且在表情分析方面,人臉的幾何特征仍然是最有力的判據(jù)。b.基于代數(shù)特征的人臉識(shí)別方法這類識(shí)別法仍然是將人臉用特征矢量表示,只不過用的是代數(shù)特征矢量。該方法在實(shí)際應(yīng)用中取得了一定的成功[28]。由于代數(shù)特征矢量(即人臉圖像向各種人臉子空間的投影)具有一定的穩(wěn)定性,識(shí)別系統(tǒng)對不同的傾斜角度,乃至不同的表情均有一定的魯棒性。所以,也說明了這種方法對表情的描述不夠充分,難以用于表情分析。c.基于連接機(jī)制的人臉識(shí)別方法這類識(shí)別法將人臉直接用灰度圖(二維矩陣)表征,利用了神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,NN)的學(xué)習(xí)能力及分類能力[29][30]。這種方法的優(yōu)勢在于保存了人臉圖像中的紋理信息及細(xì)微的形狀信息,同時(shí)防止了較為復(fù)雜的特征提取工作。而且,由于圖像被整體輸入,符合格氏塔(Gestalt)心理學(xué)中對人類識(shí)別能力的解釋。與前兩種識(shí)別方法相比,基于連接機(jī)制的識(shí)別法具有以下明顯不同:信息處理方式是并行而非串行;編碼存儲(chǔ)方式是分布式。但由于原始灰度圖像數(shù)據(jù)量十分龐大,因此神經(jīng)元數(shù)目通常很多,訓(xùn)練時(shí)間很長。另外,完全基于神經(jīng)網(wǎng)絡(luò)的識(shí)別法在現(xiàn)有的計(jì)算機(jī)系統(tǒng)(馮一諾伊曼構(gòu)造)上也有其內(nèi)在的局限性。神經(jīng)網(wǎng)絡(luò)雖然有較強(qiáng)的歸納能力,但當(dāng)樣本數(shù)目大量增加時(shí),其性能可能會(huì)嚴(yán)重下降。本文根據(jù)人臉表征方法與特征綜合方式的不同,認(rèn)為將人臉識(shí)別方法分為基于幾何特征的方法、基于模板匹配的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法,對比適宜。此分類方法即符合人臉識(shí)別技術(shù)開展的歷史,又將人臉特征提取與分類識(shí)別有機(jī)的結(jié)合在一起。識(shí)別人臉主要依據(jù)那些在不同個(gè)體之間存在較大差異,而對于同一個(gè)人對比穩(wěn)定的特征,具體的特征形式和綜合方式(分類方式)的不同決定了識(shí)別方法的不同。圖1-2列出了主要的人臉特征與綜合方法。早期靜態(tài)人臉識(shí)別方法研究較多的是基于幾何特征的方法和基于模板匹配方法。目前,靜止圖像的人臉識(shí)別方法主要是基于樣本通過統(tǒng)計(jì)學(xué)習(xí)識(shí)別人臉的方法,主要研究方向有:基于代數(shù)特征的識(shí)別方法,包括特征臉(Eigenface)方法[8]和隱馬爾可夫模型(HMM)方法[31];基于連接機(jī)制的識(shí)別方法,包括一般的神經(jīng)網(wǎng)絡(luò)方法和彈性圖匹配(ElasticGraphMatching)方法[32],以及以上方法的一些綜合方法?;诮y(tǒng)計(jì)學(xué)習(xí)的方法屬于基于整體的研究方法,它主要考慮了模式的整體屬性。因?yàn)榛谡w的人臉識(shí)別不僅保存了人臉部件的拓?fù)潢P(guān)系,而且也保存了各部件本身的信息。文獻(xiàn)[27]認(rèn)為基于整個(gè)人臉的分析要優(yōu)于基于部件的分析,理由是前者保存了更多信息。對于基于整個(gè)人臉的識(shí)別而言,由于把整個(gè)人臉圖像作為模式,那么光照、視角以及人臉尺寸會(huì)對人臉識(shí)別有很大的影響,因此若何能夠有效的去掉這些干擾就尤為關(guān)鍵。神經(jīng)網(wǎng)絡(luò)的方法在人臉識(shí)別上有其獨(dú)到的優(yōu)勢,即它防止了復(fù)雜的特征提取工作,可以通過學(xué)習(xí)的過程獲得其它方法難以實(shí)現(xiàn)的關(guān)于人臉識(shí)別的規(guī)律和規(guī)則的隱性表達(dá)。但是NN方法通常需要將人臉作為一個(gè)一維向量輸入,因此輸入節(jié)點(diǎn)龐大,降維就顯得尤為重要。根據(jù)文獻(xiàn)[32]對于自組織神經(jīng)網(wǎng)絡(luò)方法的分析,認(rèn)為可采用自組織神經(jīng)網(wǎng)絡(luò)的P個(gè)節(jié)點(diǎn)來表達(dá)原始的N個(gè)輸入(P<N),但由于將P個(gè)節(jié)點(diǎn)進(jìn)展分類,其識(shí)別的效果僅相當(dāng)于提取人臉空間特征向量后進(jìn)展的識(shí)別分類,因此采用此類神經(jīng)網(wǎng)絡(luò)進(jìn)展識(shí)別的效果只能是特征臉的水平。除此之外,由于人臉處在高維空間,如一幅不大的100x100的圖像為10000維,這樣神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)將很龐大,因此實(shí)際訓(xùn)練網(wǎng)絡(luò)的參數(shù)繁多,實(shí)現(xiàn)起來很困難。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn)是可以針對特定的問題進(jìn)展子空間設(shè)計(jì),比方用于人臉檢測、性別識(shí)別、種族識(shí)別等(不屬于本文的研究內(nèi)容)。鑒于以上考慮,本文未對此方法進(jìn)展重點(diǎn)研究。圖1-2可以提取的各種人臉特征,圖下方為各種特征的綜合方式通過對不同的人臉識(shí)別分類方法的總結(jié),多視角的、全面的介紹了主要的人臉識(shí)別方法。從對人臉識(shí)別方法的分析中可以看出,每種方法各有其優(yōu)缺點(diǎn),因此一些學(xué)者傾向于將多種方法綜合起來,或同時(shí)利用不同種類的特征,圖1-2為人臉圖像可以提取的特征以及可能的特征綜合方法。在對各種人臉識(shí)別方法進(jìn)展理論分析后,本文主要研究基于統(tǒng)計(jì)學(xué)習(xí)的、整體的人臉識(shí)別方法,包括特征臉法、基于獨(dú)立分量分析的人臉識(shí)別方法和基于隱馬爾可夫模型的人臉識(shí)別方法,并嘗試新的特征提取和分類方法。1.4人臉識(shí)別測試數(shù)據(jù)庫人臉識(shí)別是近年來研究的熱點(diǎn),各國研究人員提出了各種新的識(shí)別算法,為測試和對比各種識(shí)別技術(shù)的優(yōu)缺點(diǎn)及其識(shí)別率的上下,世界各研究機(jī)構(gòu)都建設(shè)了各自的人臉測試和測評數(shù)據(jù)庫,下面介紹一些著名的標(biāo)準(zhǔn)數(shù)據(jù)庫。英國ORL(O一OliverttiResearchLaboratory)人臉數(shù)據(jù)庫ORL人臉圖像庫是由英國劍橋011vetti實(shí)驗(yàn)室從1992年4月到1994年4月期間拍攝的一系列人臉圖像組成,共有40個(gè)不同年齡、不同性別和不同種族的對象。每個(gè)對象10幅圖像共計(jì)400幅灰度圖像組成,圖像尺寸為92xlZl,圖像背景為黑色。其中人臉局部表情和細(xì)節(jié)均有變化,例如笑與不笑,眼睛睜著或閉著,戴或不戴眼鏡等,人臉姿態(tài)也有變化,其深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20度,人臉的尺寸也有最多10%的變化。該庫是目前使用最廣泛的標(biāo)準(zhǔn)數(shù)據(jù)庫,它含有大量的對比結(jié)果。英國Manchester人臉數(shù)據(jù)庫該數(shù)據(jù)庫由30人的690幅圖像組成,圖像有不同的光照和背景特征,而且對于每個(gè)人而言,前后兩張照片之間的時(shí)間間隔至少為3周。訓(xùn)練集對光源有一定的約束。雖然Manchester人臉數(shù)據(jù)庫遠(yuǎn)比ORL數(shù)據(jù)庫全面,但因發(fā)表的對比結(jié)果不夠多,從而遠(yuǎn)不如ORL數(shù)據(jù)庫使用廣泛。Yale耶魯人臉庫該數(shù)據(jù)庫包括15人每個(gè)人11幅正視圖,每幅圖像具有不同的面部表情、有或者無眼鏡,這些圖像在不同光照條件下拍攝。該庫的特點(diǎn)就是光照變化顯著,且有面部局部遮掩。歐洲M2VTS多模型數(shù)據(jù)庫該庫是用來作為多模型輸入的通路控制實(shí)驗(yàn),它包括37個(gè)人的序列人臉圖像。每人的5幅圖像間隔一個(gè)星期,每個(gè)圖像序列包括從右側(cè)輪廓(-90度)到左側(cè)輪廓(90度)之間的圖像,而且拍攝時(shí)每個(gè)人用他們的母語從一到九數(shù)數(shù)。該庫主要用于測試多模式身份識(shí)別。美國FERET(FaceRecognitionTechnology)人臉數(shù)據(jù)庫FERET人臉數(shù)據(jù)庫是目前最大的人臉數(shù)據(jù)庫,由美國軍方研究實(shí)驗(yàn)室提供,其中每人的圖像數(shù)目不等,有些人提供了更多不同視點(diǎn)和不同表情的照片。該數(shù)據(jù)庫中不包含戴眼鏡的照片,拍攝條件也有一定的限制。人臉大小約束在規(guī)定范圍內(nèi)。1996年6月,該數(shù)據(jù)庫己存儲(chǔ)了1199個(gè)人的14126幅圖像,而且逐年增加。但到目前為止,該數(shù)據(jù)庫并未提供運(yùn)動(dòng)圖像系列或包含語言信息。FERTE數(shù)據(jù)庫的最大缺點(diǎn)是非美研究機(jī)構(gòu)的獲取不便。其他數(shù)據(jù)庫還有CMU(CarnegieMellonUniversity)正面人臉數(shù)據(jù)庫,MIT單人臉數(shù)據(jù)庫等。不同的人臉數(shù)據(jù)庫,圖像的質(zhì)量和內(nèi)容也是不同的,為了客觀的、全面的測試人臉識(shí)別方法的性能,考慮不同因素對識(shí)別方法的影響,本文的人臉識(shí)別方法主要應(yīng)用了ORL、Manchester、Yale和局部FERET人臉數(shù)據(jù)庫進(jìn)展測試。1.5本文的主要內(nèi)容本文主要研究基于靜止圖像的正面人臉識(shí)別技術(shù),方法包括基于主分量分析的人臉識(shí)別方法、基于獨(dú)立分量分析的人臉識(shí)別方法和基于隱馬爾可夫模型的人臉識(shí)別方法。在分析人臉識(shí)別方法理論根基的同時(shí),針對其中的特征提取與分類識(shí)別的關(guān)鍵環(huán)節(jié)進(jìn)展了改良,提高了識(shí)別性能。第2章基于主分量分析的人臉識(shí)別方法2.1引言早期的人臉識(shí)別方法主要是基于幾何特征的方法和基于模板匹配的方法。基于主分量分析(Pr1neipalComponentsAnalysis,PCA)的人臉識(shí)別方法是首次將人臉看作一個(gè)整體,特征提取由手工定義到利用統(tǒng)計(jì)學(xué)習(xí)自動(dòng)獲取特征,是人臉識(shí)別方法上的一個(gè)重要轉(zhuǎn)變。在該方法的開展過程中,sirovich和Kirby首先將K一L變換(Karhunen一LoeveTransfer)用于人臉圖像的最優(yōu)表示[33],Turk和Pentland進(jìn)一步提出了“特征臉〞(Eigenfaces)這個(gè)概念,該方法又被稱為“特征臉法〞[34]。特征臉法是將整個(gè)人臉的圖像區(qū)域看作一隨機(jī)向量,通過CPA獲取正交向量基的方法。其中對應(yīng)較大特征值的向量基具有與人臉相似的形狀,所以被稱為特征臉,如圖2-1。圖2-1FERET人臉庫中提取的特征臉例如利用這些向量基的線性組合可以描述、表達(dá)和逼近人臉圖像,因此可以進(jìn)展人臉的識(shí)別與合成。識(shí)別過程就是將人臉圖像映射到由特征臉張成的子空間上,對比其與己知人臉在特征臉空間中的位置,完成分類識(shí)別的。PAC至今仍是傳統(tǒng)的人臉特征提取方法。本章首先以多維數(shù)據(jù)的統(tǒng)計(jì)變換的概念引出主分量分析的基本理論和主要特點(diǎn);其次介紹基于CPA的人臉特征提取方法和人臉識(shí)別方法:最后從理論分析結(jié)合實(shí)驗(yàn)結(jié)果論述基于PCA的人臉識(shí)別方法存在缺乏。2.2主分量分析的理論根基人臉圖像原始特征的數(shù)量很大,或者說樣本處于一個(gè)高維空間中,通過映射(或變換)的方法可以用低維空間來表示樣本,這個(gè)過程稱為特征提取。如果不對特征進(jìn)展選擇而直接進(jìn)展分類器設(shè)計(jì),無論從計(jì)算的復(fù)雜程度還是分類器性能來看都是不適宜的。因此研究若何將高維數(shù)據(jù)空間壓縮到低維特征空間以便有效的識(shí)別分類便成為一個(gè)重要的課題。特征的選擇和提取的基本任務(wù)是從樣本的許多特征中找出那些最有效的特征,所以它滿足以下兩條原則:a.盡可能的去除人臉圖像中的相關(guān)性,降低人臉表示的維數(shù),減少數(shù)據(jù)計(jì)算量;b.抽取人臉最本質(zhì)的,最能表現(xiàn)不同人臉間差異的特征,以提高識(shí)別率。映射后的特征稱為二次特征,它們是原始特征的某種組合(通常是線性組合)。所謂特征提取在廣義上就是一種變換。2.2.1多維統(tǒng)計(jì)數(shù)據(jù)的線性變換在科學(xué)研究的眾多研究領(lǐng)域,一個(gè)普遍存在的問題是若何從采集的數(shù)據(jù)中獲取信息。隨著科技的高速開展,大量數(shù)據(jù)的測量及存儲(chǔ)已經(jīng)不再成為問題,但是獲取數(shù)據(jù)本身所含的信息是不夠的,提取產(chǎn)生這些數(shù)據(jù)的系統(tǒng)的固有的信息才是基本目的所在。在諸如數(shù)據(jù)分析、信號處理、神經(jīng)網(wǎng)絡(luò)等應(yīng)用領(lǐng)域,找到多維數(shù)據(jù)的一個(gè)恰當(dāng)?shù)拿枋鍪墙?jīng)常會(huì)遇到的問題。為了使問題盡可能的簡單化以及考慮到計(jì)算的復(fù)雜性,最好使得這種描述是一個(gè)對原始數(shù)據(jù)的線性變換,因?yàn)檫@會(huì)對各種形式的后繼分類帶來極大的方便,如數(shù)據(jù)壓縮、特征提取、模式識(shí)別等。在多維信號處理中,為了便于研究,通常把采集得到的數(shù)據(jù)(如一系列人臉圖像)看作多維隨機(jī)信號的一系列樣本值,以便于將隨機(jī)矢量的數(shù)值統(tǒng)計(jì)方法[36][37]應(yīng)用到原數(shù)據(jù)。這樣做雖然忽略了信號的時(shí)間特性,但是可以盡可能的利用其統(tǒng)計(jì)特性。假設(shè)所有分量都是零均值的,即有E{x}=0,如果不滿足此條件,通過減去其均值可以很容易獲得。對多維信號x=(x1,x2,…,xn)T的某一觀測樣本矢量,其中x1,i=l,2,…,n為各個(gè)分量,按照某種規(guī)則對其做線性變換,記為T:Rn→Rm,Y=Tx(2-1)y=(y1,y2,…,ym)T為變換后的結(jié)果。假設(shè)這里T是一個(gè)線性變換,于是y中的每個(gè)分量都是原數(shù)據(jù)所有分量的線性組合:(2-2)對應(yīng)每個(gè)yi的一組系數(shù)wij,j=1,2,…,n稱為一個(gè)基向量,式(2-2)寫出矩陣形式為:Y=Wx(2-3)所以多維數(shù)據(jù)的線性變換就是按照一定的準(zhǔn)則尋找一系列的加權(quán)系數(shù)瑪組成線性變換矩陣砰中的各個(gè)基向量(碎的行向量),而這m個(gè)基向量構(gòu)成一個(gè)新的坐標(biāo)系。將原數(shù)據(jù)在這樣一個(gè)坐標(biāo)系上展開,得到各個(gè)分量便是變換的結(jié)果。要求變換后的數(shù)據(jù)夕在最大程度上表達(dá)原數(shù)據(jù)間隱含的實(shí)質(zhì)構(gòu)造,并且y的各個(gè)分量盡可能的代表產(chǎn)生原數(shù)據(jù)的系統(tǒng)本身的物理機(jī)制?;诙嗑S隨機(jī)變量統(tǒng)計(jì)分析的框架,變換矩陣砰的尋找方法通常是建設(shè)在一個(gè)表達(dá)輸出結(jié)果y的統(tǒng)計(jì)特性的目標(biāo)函數(shù)g(y)的根基上。而這種統(tǒng)計(jì)特性因算法中的基本準(zhǔn)則不同而不同,可能是一階、二階的,如相關(guān)系數(shù)、協(xié)方差等;也可能是高階的,如互信息、非高斯性等,這樣隨之產(chǎn)生了不同的線性變換技術(shù),如主分量分析(PCA)、奇異值分解(SVD)、投影法(ProjectionPursuit)等[38]。簡而言之,所有的線性變換都是尋找這樣的砰矩陣,只是因輸出y的目標(biāo)函數(shù)的不同,使得不同方法得到不同的變換矩陣。2.2.2主分量分析方法主分量分析的目的是在數(shù)據(jù)空間中找到一組向量以盡可能的解釋數(shù)據(jù)的方差,最終將數(shù)據(jù)從原來的n維空間降到m維(n>m),降維后仍保存了數(shù)據(jù)中的主要信息。主分量分析是一種正交變換,在多維數(shù)據(jù)統(tǒng)計(jì)分析中是一個(gè)應(yīng)用廣泛的工具。假設(shè)原始向量特征維數(shù)為n,即xi=(xi1,xi2,…,xni)T,i=1,2,…,N,要求構(gòu)造N個(gè)新的特征yl,y2,…,yn,并使它們滿足以下的條件:a.每個(gè)新特征是原有特征的線性組合,即(2-4)b.各個(gè)新變量之間是不相關(guān)的,即相關(guān)系數(shù)為零:(2-5)c.wi使yi的能量到達(dá)極大,i=1,2,…,N可以證明滿足條件的城為樣本的協(xié)方差矩陣Sx=E{XXT},對應(yīng)于λi特征值的正交標(biāo)準(zhǔn)化的特征向量ui,滿足以上條件的新特征y1,y2,…,yn分別稱為樣本點(diǎn)的第1,2,…,N個(gè)主分量。令W=(ul,u2,…,un)T,且滿足正交歸一化,即(2-6)經(jīng)過Y=WTX的變換之后,因?yàn)閄的協(xié)方差矩陣SX為實(shí)對稱陣必然與一個(gè)對角陣相似,所以對應(yīng)于Y的協(xié)方差矩陣如下式:(2-7)這就是說,新特征y1,y2,…,yn兩兩之間的協(xié)方差為零,即它們是不相關(guān)的。由于yi也是零均值,每個(gè)特征的方差數(shù)值E{yi2}在一定意義下反映了它所包含的能量即信息量。由前面表達(dá)可知,所有這些映射矢量作為基向量,便構(gòu)成主分量分析對應(yīng)的變換矩陣W={w1,w2,…,wm,…,wn,}T其中前幾個(gè)基向量wl,w2,…,wm,對應(yīng)能量占主導(dǎo)地位的幾個(gè)主分量的映射方向,現(xiàn)將余下的基向量置零,得到W?={wl,w2,…,wm,0,0,…,0}T。利用W?對信號進(jìn)展近似恢復(fù),得到x?=W?W?Tx。其中W?Tx為所選擇的前m個(gè)主分量。重構(gòu)信號的均方誤差為E{||x-x?||2}。中選擇m個(gè)主分量去重構(gòu)原信號時(shí),由于原信號的維數(shù)n>m,所以從信號維數(shù)的角度來講PCA起到了對信號降維的作用。在很多情況下,有效的降維會(huì)使得在最大程度保持原信號中所蘊(yùn)涵的信息的情況下,大大降低運(yùn)算復(fù)雜度。譬如在進(jìn)展人臉識(shí)別應(yīng)用中,輸入的人臉圖像的維數(shù)往往很高,采用P以方法對其進(jìn)展特征提取可以降低樣本的維數(shù),從而降低計(jì)算復(fù)雜度,提高了計(jì)算速度。主分量分析是是一種基于統(tǒng)計(jì)特征的最正確正交變換,稱其為最正確變換是因?yàn)樗哂袃?yōu)良的性質(zhì),使變換后產(chǎn)生的新的分量正交或不相關(guān)。主分量分析也是一種最小均方誤差(MSE)意義下的最優(yōu)變換[39]。也就是說,變換后的信號能量主要集中在前幾個(gè)主分量中,而由這少數(shù)幾個(gè)主分量張成的子空間去重構(gòu)原信號,逼近效果從最小均方誤差意義下是最優(yōu)的。主分量分析使變換矢量更趨確定,能量更趨集中等,這使得它在特征提取、數(shù)據(jù)壓縮等方面都有著及其重要的作用。2.3基于主分量分析的人臉識(shí)別方法2.3.1基于主分量分析的人臉特征提取任何基于統(tǒng)計(jì)學(xué)習(xí)的模式識(shí)別系統(tǒng)都包括兩個(gè)過程,一個(gè)是訓(xùn)練階段(trainingProcess),二是測試階段(testingprocess),且兩個(gè)階段都需要特征提取,應(yīng)用CAP的人臉識(shí)別系統(tǒng)也不例外。假定在訓(xùn)練階段,數(shù)據(jù)庫中有K個(gè)人,每個(gè)人有M幅人臉灰度圖像,其中每一幅圖像都用NxN的二維數(shù)組I(x,y)來表示,數(shù)組元素表示象素點(diǎn)的灰度值。同樣,每一幅圖像都可以視為一個(gè)N2xI的向量。因此,它等同于N2維的人臉象素域空間中的一個(gè)點(diǎn)。設(shè)xij表示一個(gè)N2xI的向量來表示數(shù)據(jù)庫中第i個(gè)人的第j幅圖像(0≤i≤k-1,0≥j≥M-1)然后,定義平均人臉μ如下:(2-8)表示了每一幅人臉與平均人臉的差值,它是零均值的。它們組成了一個(gè)N2xMK的矩陣,=(00,01,…,K-1,M-1),PCA方法就是要找到對應(yīng)于矩陣T的前m個(gè)較大特征λi的正交標(biāo)準(zhǔn)化的特征向量μi:(2-9)因?yàn)門是N2xN2的矩陣,求它的N2個(gè)特征值的計(jì)算量非常大。一般而言,訓(xùn)練過程中人臉數(shù)據(jù)庫里的圖像數(shù)目MxK比人臉空間的維度N2要小,所以我們可以先求得T見的正交標(biāo)準(zhǔn)化的特征向量城μi?:(2-10)在式(2-10)兩邊左乘,然后與式(2-9)對比,我們可以得到:(2-11)這些特征向量,稱為特征臉,構(gòu)成了人臉空間的一個(gè)子空間的正交基,這個(gè)子空間就是通常所說的特征空間。特征空間有訓(xùn)練圖像的協(xié)方差的特征向量構(gòu)成,將數(shù)據(jù)庫中的每一幅人臉x從人臉空間轉(zhuǎn)化到特征空間:(2-12)既然每一幅人臉都可以用特征空間里的向量y=(w0,wl,…,wm-1)T,利用最近鄰法就可以在特征空間里進(jìn)展人臉識(shí)別。在訓(xùn)練階段,數(shù)據(jù)庫中的所有人臉xij到特征空間為,那么,第i個(gè)人在特征空間里的平均向量為:(2-13)在測試階段,給出測試人臉,首先,將按照同樣的步驟式(2-12)轉(zhuǎn)化到特征空間,得到在特征空間各坐標(biāo)上的系數(shù)向量。然后,利用最近鄰法則將判定為求得dj最小的一類:(2-14)綜上所述,基于主分量分析的人臉識(shí)別方法的具體步驟如下:a.初始化,獲得人臉圖像的訓(xùn)練集并計(jì)算特征臉,定義為人臉空間;b.輸入新的人臉圖像,將其映射到特征臉空間,得到一組坐標(biāo)系數(shù);c.通過檢查圖像與人臉空間的距離判斷它是否為人臉;d.假設(shè)為人臉,根據(jù)坐標(biāo)系數(shù)判斷它是否為數(shù)據(jù)庫中的某個(gè)人。2.3.2基于主分量分析的人臉分類識(shí)別人臉圖像被投影到特征空間中后,剩下的任務(wù)就是若何利用待識(shí)別人臉圖像在此特征子空間的投影系數(shù),實(shí)現(xiàn)分類識(shí)別了。此任務(wù)由兩局部構(gòu)成:一是相似性測量;二是分類器設(shè)計(jì)。傳統(tǒng)的分類識(shí)別是基于歐氏距離的最近鄰分類方法,實(shí)驗(yàn)證明效果并不理想。因?yàn)闅W氏距離容易受到圖像光線、噪聲等整體干擾因素的影響。分類器選取與特征提取一樣也是模式分類中的一個(gè)重要環(huán)節(jié),不同的分類器對不同特征空間的分類效果優(yōu)劣相差很大。本文采用兩個(gè)坐標(biāo)向量夾角的余弦值作為相似測度以及采用SVM分類器。實(shí)驗(yàn)證明比傳統(tǒng)的基于歐氏距離的最近鄰法效果好。具體方法如下。相似性測量假設(shè)為待測試人臉圖像的PCA系數(shù)向量,即PCA特征,為訓(xùn)練人臉庫中的樣本特征,二者歐氏距離計(jì)算公式如下:(2-15)其中n為特征向量的維數(shù)。相應(yīng)的的角度距離(Cosineistnaee)如下式:(2-16)分類器設(shè)計(jì)分類器的功能是先計(jì)算出c判別函數(shù)gj(x),再從中選出對應(yīng)判別函數(shù)最大值的類作為結(jié)果。分類器的核心是預(yù)先定義的判別函數(shù),根據(jù)其判別函數(shù)定義的不同可分為基于距離的分類器(如最近鄰法)、基于概率的分類器和基于智能方法的分類器(如SVM)。另外,根據(jù)分類器的輸出結(jié)果的多少,大致可分為兩類分類器和多類分類器。多類分類器可由兩類分類器按某種策略組合而成。最近鄰分類器是由Cover和Hart于1968年提出的[40],至今仍是模式識(shí)別非參數(shù)法中最重要的方法之一。假定有c模式類別{ωi,i=1,2,…,c}每類有標(biāo)明類別的Ni個(gè)樣本xji(i=1,2,…,Ni)。類的判別函數(shù)定義為:(2-17)其中xik的角標(biāo)i表示ωi類,k表示ωi類Ni個(gè)樣本中的第k個(gè)。按照式(2-17),決策規(guī)則可以寫為,假設(shè)(2-18)則決策x∈ωj。這一決策方法稱為最近鄰法(Nearestneighbor)。其直觀解釋是相當(dāng)簡單的,就是說對未知樣本x1只要對比x與個(gè)未知類別的樣本之間的歐氏距離或者角度距離,并決策:為與離它最近的樣本同類。此方法三直接基于模式樣本建設(shè)判決函數(shù)的方法。支持向量機(jī)(SupportVecorMachuines,SVM)源于統(tǒng)計(jì)學(xué)習(xí)理論,它使用構(gòu)造風(fēng)險(xiǎn)最小化(RSM)原理構(gòu)造決策超平面使每一類數(shù)據(jù)之間的分類間隔最大。SMV是從線性可分情況下的最優(yōu)分類面(OptimalHypePrlnae)提出的。最優(yōu)分類面要求分類面不僅能將兩類無誤的分開,而且要求兩類的分類空隙最大。前者是保證經(jīng)歷風(fēng)險(xiǎn)最小,而后者的作用是使推廣性的界中的置信范圍最小,從而使實(shí)際風(fēng)險(xiǎn)最小。對于非線性分類,首先使用一非線性映射?把數(shù)據(jù)從原空間X映射到高維特征空間Z,使數(shù)據(jù)在高維空間線性可分,從而可以在特征空間Z上建設(shè)最優(yōu)分類面。高維特征空間Z維數(shù)可能很高,但是因?yàn)樵诰€性情況下只用到了原空間的點(diǎn)積運(yùn)算,所以在非線性空間也只考慮在高維特征空間Z的點(diǎn)積運(yùn)算?(x)??(y)=K(x,y)稱為核函數(shù)。也就是說只需選擇一個(gè)核函數(shù)使其成為特征空間Z的一個(gè)點(diǎn)積,即存在函數(shù)滿足(2-19)徑向基形式的內(nèi)積函數(shù)和人的視覺特性很類似,所以在實(shí)驗(yàn)中,本文選擇了參數(shù)為δ2=0.3的徑向基函數(shù)學(xué)習(xí)機(jī)器:(2-20)SVM最初是用來解決兩類問題的識(shí)別問題,本文將其改良,使它能解決人臉識(shí)別這樣的多類模式識(shí)別問題。改良方法理論根基是,N類分類問題(N>2)和兩類分類問題之間存在一定的對應(yīng)關(guān)系,即如果一個(gè)分類問題N類可分,則這N類中的任何兩類間一定可分;反之,在一個(gè)N類分類問題中,如果己知其任意兩兩可分,則通過一定的組合法則,可由兩兩可分來最終實(shí)現(xiàn)N類可分。所以可以將支持向量基與二叉決策樹的基本思想結(jié)合起來構(gòu)成多類的分類器。本文采用了如圖2-2的SMV決策構(gòu)造。圖2-2SVM分類器構(gòu)造2.4實(shí)驗(yàn)結(jié)果及分析在ORL、Manchester、Yale和FERTE標(biāo)準(zhǔn)人臉庫中分別測試基于主分量分析的人臉識(shí)別方法,重點(diǎn)對比了改良的相似度測量和分類器對識(shí)別性能的影響。預(yù)處理階段將不同尺寸大小的圖像,都統(tǒng)一成60x50每象素8比特的圖像。以上人臉庫在引言1.4節(jié)中己有介紹。在ORL人臉庫中,本文選取了40人每人5幅圖像作為訓(xùn)練集,余下5幅構(gòu)成測試集。有關(guān)其他人臉庫的訓(xùn)練集和測試集的選取,參考表2-1,其中FERTE人臉庫中,同一人的圖像數(shù)目不同(3~13不等),本文只選擇了30個(gè)擁有正面圖像數(shù)目(含一定角度偏側(cè)面的圖像)6幅以上對象的圖像。表2.1訓(xùn)練集與測試集的組成本章實(shí)驗(yàn)主要測試了傳統(tǒng)特征臉法、改良相似測度(用角度距離代替歐氏距離)的特征臉法和相似測度和分類器都加以改良(用SMV代替最近鄰法)的特征臉法的識(shí)別性能,實(shí)驗(yàn)結(jié)果如表2-2。表2-2特征臉法在不同人臉庫中的識(shí)別性能對比由實(shí)驗(yàn)結(jié)果分析可得,基于角度的相似性測度優(yōu)于基于歐氏距離的相似性測度,這點(diǎn)在Yale人臉庫中尤為明顯,識(shí)別率將近提高了4%,這說明角度距離更適合人臉識(shí)別這樣的任務(wù)。在分類器的改良方面,SVM分類器要優(yōu)于最近鄰法,但是沒有相似測度的改良表現(xiàn)的明顯。同時(shí)由于SVM分類器遠(yuǎn)比最近鄰分類器復(fù)雜的多,所以在實(shí)際應(yīng)用中,應(yīng)綜合加以考慮。在不同人臉庫中的實(shí)驗(yàn)說明,相似性測度和分類器的改良雖然一定程度上改善了特征臉的識(shí)別效果,但是總的來說,特征臉的識(shí)別率并不高,表現(xiàn)在以下方面:在ORL人臉庫中,圖像質(zhì)量較好,背景均為黑色,統(tǒng)一的光照條件下,識(shí)別率最高可達(dá)84.7%;Manchester人臉庫中的圖像比ORL人臉庫,背景變化略多些,但由于背景占圖像很少一部分,并且光照條件也有所限制,所以識(shí)別效果基本和ORL相當(dāng)。與以上人臉庫相比,Yale人臉庫的特點(diǎn)就是光照變化明顯,如圖2-3。圖2.3YALE人臉庫中錯(cuò)誤識(shí)別例如(a)列為錯(cuò)誤識(shí)別例如(b)列為正確識(shí)別結(jié)果所以在Yale庫中,識(shí)別率明顯下降了約15%,F(xiàn)ERTE人臉庫中的圖像接近真實(shí)情況,變化因素對比多,所以識(shí)別率是最低的。分析實(shí)驗(yàn)結(jié)果本文得出以下結(jié)論:基于主分量分析的人臉特征提取,易受光照等因素影響(即對能量敏感),對細(xì)節(jié)不敏感,識(shí)別效果不理想,PCA提取的人臉特征,并不適合于人臉識(shí)別。相似度測量和分類方法的改良,未能基本改善特征臉法的識(shí)別性能,基于PCA的人臉特征提取方法存在理論上的缺陷。CPA提取人臉特征存在缺乏,但由于P以是最小均方誤差下的正交變換,極大的保存了人臉圖像的能量,Manchester人臉數(shù)據(jù)庫中的重構(gòu)實(shí)驗(yàn)證實(shí)了這點(diǎn),如圖2.4。并且CPA運(yùn)算速度快,所以是較好的降維方法。人臉本質(zhì)的、細(xì)節(jié)的特征可由后續(xù)特征提取來完成,比方本文下一章所提出的基于獨(dú)立分量分析的人臉特征提取方法。圖2-4Manchester人臉數(shù)據(jù)庫中的重構(gòu)實(shí)驗(yàn)(a)列為局部遮掩的圖像(b)列為重構(gòu)圖像(c)列為未經(jīng)遮掩處理的原圖2.5本章小結(jié)特征臉法是一種簡單、快速、實(shí)用的基于變換域系數(shù)的算法?!案牧己蟮奶卣髂樂ㄒ欢ǔ潭壬咸岣吡怂男阅?,該方法存在如下優(yōu)點(diǎn):a.圖像的原始灰度數(shù)據(jù)直接用來學(xué)習(xí)和識(shí)別,不需要任何低級或中級處理;b.通過低維子空間表示高維數(shù)據(jù),有效的對數(shù)據(jù)進(jìn)展了壓縮;c.不需要人臉的先驗(yàn)和幾何知識(shí);d.與基于幾何特征和基于模板匹配的方法相比,識(shí)別簡單有效。但是,由于特征臉法在本質(zhì)上依賴于訓(xùn)練集和測試集圖像的灰度相關(guān)度,所以它有著很大的局限性,表現(xiàn)在以下方面:a.對尺度變化很敏感,識(shí)別前必須進(jìn)展尺度歸一化處理,而且由于PCA在圖像空間是線性的,它不能處理幾何變化;b.只能處理正面人臉圖像,在姿態(tài)、發(fā)型和光照等發(fā)生變化時(shí)識(shí)別率明顯下降,對光照條件的改變尤為敏感;c.要求背景單一,對于復(fù)雜變化背景,需要先進(jìn)展復(fù)雜的圖像分割處理;d.擴(kuò)展性差。訓(xùn)練庫中添加新的圖像,必須重新計(jì)算訓(xùn)練庫的特征向量。綜上所述,基于主分量分析的人臉識(shí)別方法,并沒有提取出反映人臉本質(zhì)的,內(nèi)在的特征,人臉識(shí)別期待新的特征提取方法?;讵?dú)立分量分析的人臉識(shí)別方法3.1引言獨(dú)立分量分析(IndependentComponentAnalysis,ICA)是近年才開展起來的一種基于統(tǒng)計(jì)理論的信號處理技術(shù),該方法的目的是將觀察到的數(shù)據(jù)進(jìn)展線性變換,使其分解成統(tǒng)計(jì)獨(dú)立的分量。CIA與PCA同屬于基于子空間的特征提取方法,即用低維的子空間參數(shù)描述高維的數(shù)據(jù)特征。在PCA中,首先考慮的是若何保存信號的最大能量,在最小均方誤差的準(zhǔn)則下重構(gòu)數(shù)據(jù),并且要求主分量兩兩正交。而ICA的基本思想是用基函數(shù)來表示一個(gè)隨機(jī)變量集合,其基向量是統(tǒng)計(jì)獨(dú)立的,或者盡可能的獨(dú)立。ICA的概念可以看為是PCA的一種擴(kuò)展。目前ICA主要應(yīng)用于特征提取[43]、盲源信號別離[44]、語音信號分析[45]、圖像處理[46]和人臉識(shí)別[47]等。特征臉法應(yīng)用用傳統(tǒng)的PCA方法提取人臉特征,該方法只能考慮圖像數(shù)據(jù)間的二階統(tǒng)計(jì)特性,未能利用高階統(tǒng)計(jì)信息,同時(shí)要求提取的人臉特征兩兩正交。與PCA不同,基于ICA的特征提取方法得到的獨(dú)立圖像基,能夠反映像素間的高階統(tǒng)計(jì)特性,并且不要求向量基兩兩正交。在人臉識(shí)別中,重要的人臉信息一般存在于象素間的高階統(tǒng)計(jì)信息中,所以ICA可以看作是值得期待的人臉特征提取方法。本章首先簡要介紹了ICA的理論根基,包括ICA的起源和ICA的線性模型;然后介紹了基于ICA人臉識(shí)別方法,以及獨(dú)立元的選擇和改良的ICA快速算法;最后分析基于ICA人臉識(shí)別的實(shí)驗(yàn)結(jié)果。3.2獨(dú)立分量分析的理論根基獨(dú)立分量分析作為一種新的多維信號處理方法,主要用于提醒和提取多維統(tǒng)計(jì)信號中的潛在成分,是在具有較長研究歷史的盲源別離問題(BlindSourceSeparation,BSS)[36]中涌現(xiàn)出的新的信號分析技術(shù),二者聯(lián)系嚴(yán)密。ICA與傳統(tǒng)的多維信號分析方法截然不同的是,經(jīng)ICA處理得到的各個(gè)分量不僅去除了相關(guān)性,還是相互統(tǒng)計(jì)獨(dú)立的,并且是非高斯分布的。ICA在許多方面對傳統(tǒng)方法的重要突破使得其越來越成為信號處理中一個(gè)極具潛力的分析工具。3.2.1獨(dú)立分量分析與盲源別離ICA源于盲源別離問題的解決,該問題是信號處理中一個(gè)傳統(tǒng)而又極具挑戰(zhàn)性的課題。盲源別離是指僅從觀測的混合信號(通常是多個(gè)傳感器的輸出)中恢復(fù)獨(dú)立的源信號,這里的“盲〞是有兩層含義:其一是指源信號是不可觀測的;其二指混合系統(tǒng)是事先未知的。在科學(xué)研究和工程應(yīng)用中,很大觀測信號都可以假設(shè)成是不可見的源信號的混合。所謂的“雞尾酒會(huì)〞問題(cocktailPartyProblem)就是一個(gè)典型的例子,簡單來說就是當(dāng)很多人(作為不同的源信號)同時(shí)在一個(gè)房間里說話時(shí),聲音信號由一組麥克風(fēng)記錄下來,這樣每個(gè)麥克風(fēng)記錄的信號是所有人聲音的一個(gè)混合,也就是我們所說的觀測信號。接下來的問題是:若何從這組觀測信號中提取每個(gè)說話者的聲音信號,即源信號。由于輸入輸出兩端的連接權(quán)值是未知的,所以屬于盲源別離的范疇。如果這些連接權(quán)值是己知的,或者說混合矩陣是的,則上面的問題就退化成簡單的求逆過程,即求混合矩陣的逆矩陣。但是在更多的情況下,我們無法獲取混合系統(tǒng)的先驗(yàn)知識(shí),這就要求我們從觀測信號來推斷這個(gè)混合矩陣,實(shí)現(xiàn)盲源別離。ICA技術(shù)正是為了解決盲源別離問題而不斷開展起來的,并成為陣列信號處理和數(shù)據(jù)分析中的有力工具。將ICA應(yīng)用在盲源別離中,能夠從混合信號中重現(xiàn)不可觀測的源信號成分,所利用的僅僅是假設(shè)源信號統(tǒng)計(jì)獨(dú)立這樣一個(gè)容易滿足的先驗(yàn)條件。與傳統(tǒng)的基于二階統(tǒng)計(jì)特性的方法(比方PCA等)相比,ICA不僅可以去除各分量之間的一、二階相關(guān)性,同時(shí)還具有開掘并去除數(shù)據(jù)間的高階相關(guān)信息的能力,使得輸出分量相互獨(dú)立。目前ICA在諸如語音識(shí)別、通信、生物醫(yī)學(xué)信號處理等很多領(lǐng)域都得到了極大的重視。針對人臉識(shí)別中的人臉圖像樣本和人臉特征向量之間的關(guān)系,符合盲源別離中的觀測向量和源信號間的關(guān)系,本文嘗試將其應(yīng)用到人臉識(shí)別的特征提取中,取得了良好的實(shí)驗(yàn)結(jié)果。3.2.2獨(dú)立分量分析的線性模型ICA的起始點(diǎn)基于一個(gè)非常簡單的假設(shè),假設(shè)存在N個(gè)相互獨(dú)立的源信號,寫成矩陣形式為S=(s1,s2,…,sN)T,獨(dú)立表示有下式成立:(3-1)以及N個(gè)觀測信號,表示成矩陣形式為X=(x1,x2,…,xN)T。同時(shí)假設(shè)觀測信號是由源信號線性混合而成。(3-2)寫出矩陣形式就是:(3-3)其中A為稱為混合矩陣,由混合系數(shù)組成。對照式(3-2),矩陣A的每個(gè)行向量中的N個(gè)元素作為N個(gè)源信號的加權(quán)系數(shù)對源信號進(jìn)展混合,即得到對應(yīng)的一個(gè)觀測信號。ICA的基本目標(biāo)就是尋找一個(gè)線性變換W,稱之為別離矩陣。該矩陣使得觀測信號X經(jīng)過線性變換后,輸出信號Y=(y1,y2,…,yN)T向量間盡可能的相互獨(dú)立,表示成矩陣形式就是:(3-4)輸出Y就是源信號S的一個(gè)估計(jì),上述的ICA模型如圖3-1所示。圖3-1ICA模型的原理圖但是從盲源別離的觀點(diǎn)看,Y中各個(gè)分量與S相比存在次序的不同以及對應(yīng)分量幅度相差一個(gè)常數(shù)項(xiàng)的可能,這稱之為ICA問題的不確定性,造成這種不確定性的原因是由于沒有關(guān)于獨(dú)立源的先驗(yàn)知識(shí)。在線性變換中,為了便于說明其原理,均假設(shè)變換前后數(shù)據(jù)維數(shù)相等。在實(shí)際應(yīng)用中,當(dāng)觀測信號維數(shù)m大于源信號維數(shù)n時(shí),總可以通過降維的方法使得m=n,所以這種假設(shè)不失一般性。ICA、PCA和SVD均屬于線性變換技術(shù),但是后兩者只能按能量大小對數(shù)據(jù)進(jìn)展分解,消除數(shù)據(jù)之間的二階相關(guān)性,而ICA能夠消除輸入數(shù)據(jù)之間的高階相關(guān)性。在圖像中,可以提取的特征很多,特征之間存在相關(guān)性,并且重要特征一般隱藏在高階統(tǒng)計(jì)特性中,因此使用ICA方法能夠約減特征維數(shù),并且使特征保持高階相互獨(dú)立,而不像PCA和SVD只能消除二階相關(guān)性。3.3基于獨(dú)立分量分析的人臉識(shí)別方法一般情況下,人臉識(shí)別過程可以分三步完成:預(yù)處理、特征提取和分類識(shí)別?;贗CA的人臉識(shí)別方法也不例外。ICA涉及的預(yù)處理的方法除了傳統(tǒng)的幾何歸一化,灰度歸一化外,還有中心化和白化的過程,本節(jié)將主要闡述這兩種預(yù)處理方法。將工以應(yīng)用到人臉的特征提取中,則ICA問題可以描述如下:觀測的數(shù)據(jù)矢量就是人臉的訓(xùn)練樣本,令xi為一個(gè)人臉圖像樣本,則由n個(gè)訓(xùn)練圖像構(gòu)成訓(xùn)練集X=(sl,x2,…,xN)T是一樣數(shù)目的獨(dú)立源信號S=(s1,s2,…,sN)T經(jīng)過混合矩陣A線性混合而成,如式(3-3)。在人臉識(shí)別中,ICA的研究目的是從僅有的觀測數(shù)據(jù)(人臉圖像)X出發(fā)尋找一個(gè)別離矩陣W,使得Y=WX的各個(gè)分量統(tǒng)計(jì)獨(dú)立。圖3-2給出了人臉圖像CIA的原理圖,X中的人臉圖片被認(rèn)為是S中統(tǒng)計(jì)獨(dú)立源的線性組合,A是未知的混合矩陣,W是ICA算法估計(jì)得到的別離矩陣,Y就是ICA提取的人臉特征空間。圖3-2人臉圖像的ICA原理圖在獲得ICA人臉特征空間Y后,就可以給出人臉的特征表示,如圖3-3,其中(b1,b2,…,bN)為ICA系數(shù),即用人臉在特征空間Y上的投影來表示人臉。圖3-3人臉圖像的ICA特征表示3.3.1人臉圖像的預(yù)處理將ICA應(yīng)用于人臉識(shí)別,隨機(jī)向量即待訓(xùn)練的人臉圖像。矩陣運(yùn)算中,每幅人臉圖像就是一個(gè)行向量,行向量的維數(shù)為其包含的像點(diǎn)數(shù)。在對圖像進(jìn)展ICA前,必須對圖像進(jìn)展預(yù)處理。最基本的預(yù)處理是將X減去其均值,得到均值為零的X,如下式:(3-5)此過程稱為中心化,僅僅為了簡化運(yùn)算。在估計(jì)出混合矩陣后,中心化得到的源信號可以重新獲得它的均值(3-6)在應(yīng)用ICA之前,還有一個(gè)重要的預(yù)處理就是將觀測數(shù)據(jù)白化。所謂白化,是指各分量間互不相關(guān),且每個(gè)分量的能量是歸一化的,即(3-7)(3-8)根據(jù)統(tǒng)計(jì)獨(dú)立的概念,不相關(guān)是獨(dú)立的必要條件,而不是一個(gè)充分條件。源信號就是白化信號,對于獨(dú)立的源信號S=(sl,s2,…,sN)T,各分量必然是不相關(guān)的,所以有:(3-9)因?yàn)樵贗CA的輸出結(jié)果中,被提取出分量的幅度具有不確定性,某個(gè)分量s1乘上一個(gè)系數(shù)所產(chǎn)生的作用,只需讓混合矩陣A對應(yīng)的列向量a1除以一個(gè)一樣的數(shù)就可抵消。所以簡單起見,不妨假設(shè)獨(dú)立源的能量是歸一的。(3-10)其中U是由E{XXT}的特征向量組成的正交矩陣,是由特征值組成的對角陣,。白化對應(yīng)的變換矩陣就是,稱之為白化矩陣。白化后的數(shù)據(jù)為:(3-11)其中可由其對角線上的特征值開平方求得,,可以驗(yàn)證,過程如下:(3-12)(3-13)(3-14)(3-15)由白化數(shù)據(jù)計(jì)算得到混合矩陣為,由混合矩陣的定義得到:(3.16)數(shù)據(jù)的白化使得新的混合矩陣是正交的,如下式:(3-17)由于的正交性,需要估計(jì)的參數(shù)由一般矩陣包含的N2個(gè)元素,減少到正交矩陣包含的N(N-1)/2個(gè)元素,元素個(gè)數(shù)幾乎減少了一半。由此可見,白化這種常規(guī)方法作為ICA的預(yù)處理可以有效的降低問題的復(fù)雜度,降低了過學(xué)習(xí)(Overlearning)的可能性(這是ICA中可能遇到的問題),而且運(yùn)算簡單。下文中所指的X、A均指經(jīng)過預(yù)處理的、。3.3.2基于獨(dú)立分量分析的人臉特征提取本文2.2.2節(jié)可知,PCA方法有以下優(yōu)點(diǎn):a.可以完全去除原始樣本間的相關(guān)性;b.進(jìn)展數(shù)據(jù)壓縮時(shí),所得到的均方誤差最小,而且該均方誤差等于所舍去的特征值之和;c.假設(shè)將n個(gè)特征值按大小順序排列λ1≥λ2≥…≥λn,那么將λm+1,λm+2,…,λn舍去后,余下的λ1,λ2,…,λm就保存了最大的能量,樣本經(jīng)過K一L變換之后,仍保存原樣本的最大能量。PCA所獲得特征空間能夠很好的表示人臉,但是此特征空間是二階不相關(guān)的,高階仍然相關(guān),而且它所提取的特征向量只呈現(xiàn)出人臉的形狀。在人臉識(shí)別這樣的應(yīng)用中,由于人臉幾何特征以及人臉部件的特殊性,如果提取的特征具有區(qū)域性和高階不相關(guān)性,那么識(shí)別率將獲得提高。而這正是ICA方法的理論優(yōu)勢所在。本文3.2.2節(jié)可知,由ICA算法提取的特征空間的特征向量個(gè)數(shù)總是和輸入樣本數(shù)據(jù)的個(gè)數(shù)相當(dāng),所以當(dāng)輸入樣本個(gè)數(shù)非常龐大時(shí),會(huì)造成嚴(yán)重計(jì)算負(fù)擔(dān)。由圖3-2可知,假設(shè)X中的人臉圖像是一組未知統(tǒng)計(jì)獨(dú)立源的線性組合,所以即使用X中人臉圖像的某種其他線性組合來取代原始人臉圖像不會(huì)有什么影響。這為本文在對圖像數(shù)據(jù)進(jìn)展ICA之前,采用PCA降維提供了理論根基。本文采用訓(xùn)練圖像數(shù)據(jù)的前m個(gè)主元(principlecomponent一PC)近似原數(shù)據(jù)。由于PCA的局限性,此m個(gè)主元仍包含象點(diǎn)間的高階統(tǒng)計(jì)特性,此特性只能由ICA別離出來。設(shè)Pm表示前m個(gè)特征值對應(yīng)的特征向量組成的矩陣,每個(gè)主分量為一列。PmT包含原訓(xùn)練樣本矩陣X的最可能多的能量,認(rèn)為它近似于X。對PmT執(zhí)行ICA算法如下:(3-18)基于Pm可以得到X中一組零均值圖像的主分量表示:(3-19)則X的在最小均方誤差準(zhǔn)則下的近似重構(gòu)為:(3-20)由ICA算法訓(xùn)練得到別離矩陣W:(3-21)其中為白化矩陣,得到源信號的估計(jì)Y(3-22)因此可以得到:(3-23)式(3.24)表示,矩陣每一行包含的系數(shù)就是由統(tǒng)計(jì)獨(dú)立的特征圖像Y線性組合構(gòu)成的系數(shù)。于是,人臉圖像的獨(dú)立分量表示可由如下矩陣中的行向量給出:(3-24)對待識(shí)別的人臉圖像,基于獨(dú)立分量表示為:(3-25)這樣高維的人臉圖像數(shù)據(jù),經(jīng)過以PCA為根基的ICA提取特征后,就可以在低維的ICA特征空間進(jìn)展識(shí)別分類了。3.3.3獨(dú)立分量的排序及選擇PCA提取的特征向量對應(yīng)不同的特征值λi,并且按照特征值的大小排序。假設(shè)要使得重構(gòu)數(shù)據(jù)滿足最小均方誤差準(zhǔn)則,選擇前m個(gè)特征值對應(yīng)的特征向量即可。由本文3.2.2節(jié)可知,經(jīng)ICA提取的獨(dú)立分量存在排序的不確定性,所以選擇獨(dú)立分量存在困難。本節(jié)根據(jù)特征不同的分類能力(Classdiscriminability)選擇獨(dú)立分量,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論