數(shù)字音視頻處理 課件 第2章 聽(tīng)視覺(jué)處理的腦機(jī)制_第1頁(yè)
數(shù)字音視頻處理 課件 第2章 聽(tīng)視覺(jué)處理的腦機(jī)制_第2頁(yè)
數(shù)字音視頻處理 課件 第2章 聽(tīng)視覺(jué)處理的腦機(jī)制_第3頁(yè)
數(shù)字音視頻處理 課件 第2章 聽(tīng)視覺(jué)處理的腦機(jī)制_第4頁(yè)
數(shù)字音視頻處理 課件 第2章 聽(tīng)視覺(jué)處理的腦機(jī)制_第5頁(yè)
已閱讀5頁(yè),還剩81頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2章

聽(tīng)視覺(jué)處理的腦機(jī)制2.1聽(tīng)覺(jué)的生理基礎(chǔ)2.2視覺(jué)的生理基礎(chǔ)2.3本章小結(jié)

2.1聽(tīng)覺(jué)的生理基礎(chǔ)

隨著信息化社會(huì)的發(fā)展,生命科學(xué)正逐漸成為信息科學(xué)領(lǐng)域最值得期待的學(xué)科。腦和神經(jīng)系統(tǒng)的信息加工和信息處理方式已成為信息科學(xué)家們著力研究的對(duì)象。而信息科學(xué)的一個(gè)重要組成部分就是語(yǔ)音信息處理,研究人員的主要目標(biāo)是使計(jì)算機(jī)語(yǔ)音識(shí)別能夠逼近聽(tīng)覺(jué)感知過(guò)程,而對(duì)聽(tīng)覺(jué)感知模型的研究正是實(shí)現(xiàn)這一目標(biāo)的途徑。

聽(tīng)覺(jué)是一個(gè)接收、理解聲音信息的過(guò)程,是聽(tīng)者對(duì)說(shuō)話人所傳來(lái)的聲音信息進(jìn)行編碼的過(guò)程。感知是指作用于我們的聽(tīng)覺(jué)感受器官的聲音的各種屬性在我們大腦中的反應(yīng)。聽(tīng)覺(jué)感知模型研究是指用數(shù)學(xué)表達(dá)式對(duì)聽(tīng)覺(jué)系統(tǒng)的特征和信息處理方式作出抽象和描述,從而構(gòu)成具有人類聽(tīng)覺(jué)系統(tǒng)特性的語(yǔ)音信號(hào)處理系統(tǒng)。聽(tīng)覺(jué)感知模型研究是一項(xiàng)跨學(xué)科的研究,它涉及生理聲學(xué)(研究聽(tīng)覺(jué)器官和生理特征的科學(xué))、心理聲學(xué)(研究聲音的主觀感知與客觀參數(shù)間關(guān)系的科學(xué))、數(shù)理科學(xué)和信息科學(xué)等。

醫(yī)用人工耳蝸的研制與聽(tīng)覺(jué)感知模型有關(guān),但聽(tīng)覺(jué)感知模型研究的最重要的意義在于它將為信息科學(xué)和計(jì)算機(jī)科學(xué)提供新的線索和新的思路。

能否有效地將人的聽(tīng)覺(jué)處理機(jī)制融合到語(yǔ)音信號(hào)處理系統(tǒng)中,取得人們所期望的效果,取決于很多條件。首先,需要對(duì)聽(tīng)覺(jué)系統(tǒng)的處理機(jī)制有足夠的理解;其次,對(duì)于聽(tīng)覺(jué)系統(tǒng)的處理機(jī)制要能夠進(jìn)行有效的建模,并與相應(yīng)的語(yǔ)音處理系統(tǒng)有機(jī)地結(jié)合。

聽(tīng)覺(jué)心理學(xué)實(shí)驗(yàn)從宏觀角度研究聽(tīng)覺(jué)行為與現(xiàn)象,研究人對(duì)聲信號(hào)和語(yǔ)言的主觀感受能力,包括頻率選擇性、聲音響度、基音、聲信號(hào)在時(shí)間和空間域的處理、聽(tīng)覺(jué)模式的感知與語(yǔ)音處理。其主要研究方法是將人看成黑箱系統(tǒng),由輸入(聲音刺激)和輸出(人的反應(yīng))考察聽(tīng)覺(jué)系統(tǒng)的感知特性。

2.1.1聽(tīng)覺(jué)感知模型的國(guó)內(nèi)外研究現(xiàn)狀

計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)需要聽(tīng)覺(jué)感知模型研究解決的問(wèn)題有:

如何提高語(yǔ)音識(shí)別系統(tǒng)在嘈雜環(huán)境中的魯棒性和準(zhǔn)確性?(人類聽(tīng)覺(jué)系統(tǒng)可以在復(fù)雜的背景噪聲中有效地分辨出目標(biāo)語(yǔ)音,而計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)則往往受到噪聲的干擾而降低性能。)

如何提高語(yǔ)音識(shí)別系統(tǒng)對(duì)不同說(shuō)話人、不同口音、不同情感和不同語(yǔ)言的適應(yīng)性?(人類聽(tīng)覺(jué)系統(tǒng)可以根據(jù)不同的語(yǔ)音特征和語(yǔ)境進(jìn)行靈活的調(diào)整和學(xué)習(xí),而計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)則往往需要大量的標(biāo)注數(shù)據(jù)和訓(xùn)練時(shí)間來(lái)適應(yīng)新的場(chǎng)景。)

如何提高語(yǔ)音識(shí)別系統(tǒng)對(duì)語(yǔ)義和語(yǔ)用信息的理解和利用?(人類聽(tīng)覺(jué)系統(tǒng)可以根據(jù)語(yǔ)義和語(yǔ)用信息來(lái)推斷和糾正語(yǔ)音識(shí)別的錯(cuò)誤,而計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)則往往只關(guān)注字面上的匹配程度。)

自從1961年貝克西(Bekesy)揭示了內(nèi)耳基底膜機(jī)制以來(lái),隨著聽(tīng)覺(jué)心理和聽(tīng)覺(jué)生理科學(xué)的發(fā)展,對(duì)于聽(tīng)覺(jué)模型的研究出現(xiàn)了幾個(gè)高潮:

①20世紀(jì)60年代的物理模型,即對(duì)外耳、中耳和內(nèi)耳基底膜的物理特性的模型化,如對(duì)耳蝸管這種一端封閉短管的聲學(xué)特性進(jìn)行模塊化;

②20世紀(jì)70年代的神經(jīng)生理模型,即對(duì)內(nèi)毛細(xì)胞將聲波振動(dòng)轉(zhuǎn)化為電脈沖發(fā)放的機(jī)理和特性的模型化及對(duì)聽(tīng)覺(jué)神經(jīng)纖維電脈沖發(fā)放模式的模型化;

③20世紀(jì)80年代的表征模型,即對(duì)于聲信號(hào)在聽(tīng)覺(jué)系統(tǒng)中表征(Representation)模式的研究和模型化;

④20世紀(jì)90年代著名的聽(tīng)覺(jué)模型,即美國(guó)麻省理工學(xué)院的Seneff模型;

近年來(lái)主要以注意選擇為主的聽(tīng)覺(jué)模型。

1.注意的選擇理論

注意的選擇理論有以下四個(gè)。

1)過(guò)濾器理論

1958年,英國(guó)心理學(xué)家布羅德本特(Broadbent)根據(jù)雙耳分聽(tīng)的一系列實(shí)驗(yàn)結(jié)果,提出了一種解釋注意選擇作用的理論,即過(guò)濾器理論(FilterTheory)。

2)衰減理論

過(guò)濾器理論得到了某些實(shí)驗(yàn)結(jié)果的支持,但進(jìn)一步研究發(fā)現(xiàn),這種理論并不完善。

特瑞斯曼的理論與布羅德本特的理論對(duì)過(guò)濾裝置的具體作用有不同的看法,但兩種理論又有共同的地方:①

兩種理論有相同的出發(fā)點(diǎn),即主張人的信息加工系統(tǒng)的容量有限,所以,對(duì)外來(lái)的信息需要經(jīng)過(guò)過(guò)濾或衰減裝置加以篩選;②

兩種理論都假定信息的選擇過(guò)程發(fā)生在對(duì)信息的充分加工之前,只有經(jīng)過(guò)選擇以后的信息,才能進(jìn)一步加工和處理。

3)后期選擇理論

1963年,多伊奇(Deutsch)等人提出了選擇性注意的一種觀點(diǎn)——后期選擇理論,后由諾爾曼(Norman)加以完善。后期選擇理論認(rèn)為,所有進(jìn)入過(guò)濾或衰減裝置的信息是經(jīng)過(guò)充分分析的,因此對(duì)信息的選擇發(fā)生在加工后期的反應(yīng)階段。后期選擇理論也稱為完善加工理論、反應(yīng)選擇理論或記憶選擇理論。

4)多階段選擇理論

過(guò)濾器理論、衰減理論及后期選擇理論都假設(shè)注意的選擇過(guò)程發(fā)生在信息加工的某個(gè)特定階段。1978年,約翰斯頓(Johnston)等人提出了一個(gè)較靈活的模型,認(rèn)為選擇過(guò)程在不同的加工階段都有可能發(fā)生,這就是多階段選擇理論。這一理論的兩個(gè)主要假設(shè)是:①

進(jìn)行選擇之前的加工階段越多,所需要的認(rèn)知加工資源就越多;②

選擇發(fā)生的階段依賴于當(dāng)前的任務(wù)要求。多階段選擇理論看起來(lái)更有彈性,由于強(qiáng)調(diào)任務(wù)要求對(duì)選擇階段的影響,因而避免了過(guò)于絕對(duì)化的假設(shè)所帶來(lái)的問(wèn)題。

2.注意的認(rèn)知資源理論

上述理論試圖解釋注意對(duì)信息進(jìn)行選擇的機(jī)制,而認(rèn)知資源理論是關(guān)于注意分配的,它從另一個(gè)角度來(lái)解釋注意,即注意是如何協(xié)調(diào)不同的認(rèn)知任務(wù)或認(rèn)知活動(dòng)的。

不同的認(rèn)知活動(dòng)對(duì)注意提出的要求是不相同的。注意的認(rèn)知資源理論有以下兩個(gè)。

1)認(rèn)知資源分配理論

認(rèn)知資源分配理論是由心理學(xué)家卡里曼(Kahneman)提出的,他認(rèn)為注意資源和容量是有限的。

2)認(rèn)知資源雙加工理論

在注意的認(rèn)知資源分配理論的基礎(chǔ)上,謝夫林等人在1977年進(jìn)一步提出了雙加工理論。雙加工理論認(rèn)為,人類的認(rèn)知加工有兩種:自動(dòng)化加工和受意識(shí)控制的加工。

從研究范圍來(lái)看,目前對(duì)于聽(tīng)覺(jué)模型的研究在發(fā)達(dá)國(guó)家都在進(jìn)行,如美國(guó)、日本、俄羅斯、英國(guó)、加拿大、德國(guó)和法國(guó)等,印度也開(kāi)展了這方面的研究。我國(guó)起步較晚,但在國(guó)內(nèi)學(xué)者的努力下也取得了不錯(cuò)的成果,如趙鶴鳴教授和周旭東教授于1994年9月提出了聽(tīng)覺(jué)感知模型。目前國(guó)內(nèi)重點(diǎn)高校的研究小組對(duì)聽(tīng)覺(jué)模型也開(kāi)展了研究工作,如北京大學(xué)視覺(jué)與聽(tīng)覺(jué)信息處理國(guó)家重點(diǎn)實(shí)驗(yàn)室等。表2-1給出了國(guó)內(nèi)外知名聽(tīng)覺(jué)模型研究機(jī)構(gòu)及其研究方向。

2.1.2-人類聽(tīng)覺(jué)系統(tǒng)簡(jiǎn)介

1.人耳的結(jié)構(gòu)

耳朵是人類的聽(tīng)覺(jué)器官,其作用就是接收聲音并將聲音轉(zhuǎn)換成神經(jīng)刺激。聲音感知是指將所聽(tīng)到的聲音經(jīng)過(guò)大腦的處理后變成確定的含義。

人耳由外耳、中耳和內(nèi)耳三部分組成。圖2-1為人耳的結(jié)構(gòu)示意圖。其中,外耳、中耳和內(nèi)耳的耳蝸是聽(tīng)覺(jué)器官。內(nèi)耳的前庭窗和半規(guī)管分別是判定位置和進(jìn)行平衡的器官。

圖2-1人耳的結(jié)構(gòu)示意圖

2.聽(tīng)覺(jué)的形成

聲波經(jīng)外耳道傳到鼓膜,引起鼓膜振動(dòng),再經(jīng)過(guò)聽(tīng)小骨的傳遞作用于前庭窗,引起前庭階外淋巴的振動(dòng),繼而振動(dòng)耳蝸管中的內(nèi)淋巴,進(jìn)一步引起基底膜和螺旋器的振動(dòng)?;啄さ恼駝?dòng)以行波方式從基底膜底部沿其頂部傳播,使該處螺旋器的毛細(xì)胞與蓋膜之間的相對(duì)位置發(fā)生改變,從而使毛細(xì)胞由于受刺激而產(chǎn)生微音器電位。后者激發(fā)耳蝸神經(jīng)產(chǎn)生動(dòng)作電位,并經(jīng)過(guò)聽(tīng)神經(jīng)傳入大腦皮層顳葉聽(tīng)覺(jué)中樞,從而產(chǎn)生聽(tīng)覺(jué)。圖2-2為聽(tīng)覺(jué)產(chǎn)生模型。

圖2-2聽(tīng)覺(jué)產(chǎn)生模型

2.1.3聽(tīng)覺(jué)特性

人耳對(duì)不同強(qiáng)

度、不同頻率聲音的聽(tīng)覺(jué)范圍稱為聲域。人耳能聽(tīng)到的聲音頻率在20~20000Hz范圍內(nèi)。外耳具有一定長(zhǎng)度的耳道,會(huì)對(duì)某段頻率產(chǎn)生共鳴,致使靈敏度提高,這個(gè)頻率段大約在3~5kHz。在人耳的聲域范圍內(nèi),聲音聽(tīng)覺(jué)心理的主觀感受主要有響度、音高、音色以及掩蔽效應(yīng)、高頻定位等特性。其中,響度、音高、音色可以在主觀上用來(lái)描述具有振幅、頻率和相位三個(gè)物理量的任何復(fù)雜的聲音,故又稱為聲音“三要素”。下面簡(jiǎn)要介紹一下響度、音高、音色對(duì)聽(tīng)覺(jué)的影響。

1.響度

響度又稱為聲強(qiáng)、音量或者聲壓級(jí),它主要反映聲音能量的強(qiáng)弱程度,是由聲波振幅的大小決定的。聲音的響度一般用聲壓(單位為Dyn/cm2)或聲強(qiáng)(單位為W/cm2)來(lái)計(jì)量。

聲音呈現(xiàn)持續(xù)的時(shí)間也是影響響度的一個(gè)重要因素。恒定刺激法既可以用于測(cè)量絕對(duì)閾值又可以用來(lái)測(cè)量差別閾限。通常一個(gè)恒定的聲音刺激持續(xù)200ms或300ms時(shí)聽(tīng)覺(jué)器官感覺(jué)強(qiáng)度會(huì)增強(qiáng),也就是說(shuō),在很短的時(shí)間內(nèi)聽(tīng)一個(gè)聲音的強(qiáng)度與在相對(duì)持續(xù)較長(zhǎng)時(shí)間內(nèi)聽(tīng)一個(gè)聲音的閾值是有區(qū)別的。聲音持續(xù)時(shí)間越短,閾值越高;持續(xù)時(shí)間越長(zhǎng),閾值越低。

2.音高

音高也稱為音調(diào),是人耳對(duì)音調(diào)高低的主觀感受。音高主要取決于聲波基頻的高低,頻率高則音調(diào)高,頻率低則音調(diào)低。人耳對(duì)音高和頻率的感覺(jué)同樣有一個(gè)最低到最高的范圍,音高與頻率之間是非線性關(guān)系。此外,音高還與聲音的響度及其波形振幅變化有關(guān)。

3.音色

美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)將音色定義為一種感官屬性,聽(tīng)者可以根據(jù)它判斷出兩個(gè)具有相同的響度和音高的音是不相似的。它是由聲音波形的諧波頻率決定的。聲音波形包含的諧波的比例以及聲音頻率隨時(shí)間的衰減決定了聲源的音色。

2.1.4聽(tīng)覺(jué)掩蔽

聽(tīng)覺(jué)掩蔽效應(yīng)是指對(duì)較弱聲音的聽(tīng)覺(jué)感受受到另一個(gè)較強(qiáng)聲音(掩蔽音)影響的現(xiàn)象。聽(tīng)不到的聲音稱為被掩蔽音,而起掩蔽作用的聲音稱為掩蔽音。掩蔽音的實(shí)質(zhì)是掩蔽音的出現(xiàn)使人耳聽(tīng)覺(jué)的等響度曲線最小可聞閾值被提高了。

下面詳細(xì)介紹不同聽(tīng)覺(jué)刺激條件下的聽(tīng)覺(jué)掩蔽效應(yīng)。

1.純音的掩蔽效應(yīng)

對(duì)于純音的聽(tīng)覺(jué)刺激,產(chǎn)生的聽(tīng)覺(jué)掩蔽效應(yīng)有如下規(guī)律:

對(duì)處于中等強(qiáng)度的純音來(lái)說(shuō),最有效的掩蔽音是出現(xiàn)在該頻率附近的純音;

低頻的純音可以有效地掩蔽高頻的純音,而高頻的純音對(duì)低頻的純音的掩蔽效應(yīng)則要弱一些。

2.復(fù)合音對(duì)純音的掩蔽效應(yīng)

如果掩蔽音為多頻率純音合成的寬帶復(fù)合音,被隱蔽音為純音,則產(chǎn)生的掩蔽音在低頻段一般高于高頻段的復(fù)合音,當(dāng)隱蔽音超過(guò)500Hz時(shí),頻率每增加10倍,隱蔽音的輕度就增加10dB。如果掩蔽音為窄帶復(fù)合音,被掩蔽音為純音,則位于被掩蔽音附近的由純音組成的窄帶復(fù)合音的臨界頻帶產(chǎn)生的隱蔽作用最明顯。

3.實(shí)時(shí)與異步的聽(tīng)覺(jué)掩蔽效應(yīng)

1)頻域掩蔽效應(yīng)

一個(gè)強(qiáng)純音會(huì)隱蔽在其附近同時(shí)發(fā)生的弱純音,這種特性稱為頻域掩蔽,也稱為同時(shí)掩蔽。在現(xiàn)實(shí)生活中,可以發(fā)現(xiàn)人耳在安靜的環(huán)境中能夠分辨出輕弱的聲音,但在嘈雜的

環(huán)境中,即使人耳感覺(jué)靈敏的聲音也會(huì)被淹沒(méi)。這種當(dāng)聆聽(tīng)一個(gè)聲音的同時(shí),由于被另一個(gè)聲壓級(jí)較強(qiáng)的聲音所掩蓋致使聽(tīng)不到原始聲音的現(xiàn)象稱為聲掩蔽。由于頻率低的聲音在內(nèi)耳耳蝸基底膜上行波傳遞的距離大于頻率較高的聲音,故而低頻聲音容易掩蔽高頻率的聲音。

2)時(shí)域掩蔽效應(yīng)

除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象,稱為時(shí)域掩蔽,也稱非同時(shí)掩蔽。時(shí)域掩蔽又分為前向掩蔽和后向掩蔽,前向掩蔽指掩蔽音作用在被掩蔽音之前,后向掩蔽指掩蔽音作用在被掩蔽音之后。非同時(shí)掩蔽的特點(diǎn)是:掩蔽音在時(shí)間上越接近于被掩蔽音,掩蔽量就越大,也就是說(shuō)掩蔽效應(yīng)就越強(qiáng)。

當(dāng)掩蔽音與被掩蔽音在時(shí)間上比較靠近時(shí),后掩蔽作用就要大于前掩蔽作用。當(dāng)掩蔽音的聲壓級(jí)提高時(shí),所引起的掩蔽量并不是成比例增加的。例如掩蔽音的聲壓增大10dB,而掩蔽量?jī)H增加3dB。至于同時(shí)掩蔽情況,其比例將大大超過(guò)此值。表2-2給出了同時(shí)與非同時(shí)掩蔽效應(yīng)的分類及其效果。

3)其他聽(tīng)覺(jué)掩蔽效應(yīng)

其他一些聽(tīng)覺(jué)或者時(shí)間因素也可能引起聽(tīng)覺(jué)掩蔽效應(yīng)。例如,當(dāng)兩個(gè)不同頻率的聲音分別作用于兩耳時(shí),就會(huì)產(chǎn)生中樞掩蔽效應(yīng)。

聲音的掩蔽效應(yīng)是聽(tīng)覺(jué)實(shí)驗(yàn)中必須要注意和加以控制的重要因素。如果有同時(shí)或先后呈現(xiàn)的聽(tīng)覺(jué)刺激導(dǎo)致聽(tīng)覺(jué)掩蔽效應(yīng),那么實(shí)驗(yàn)結(jié)果的正確率、可靠性以及反應(yīng)速度都會(huì)受到影響。

2.1.5聽(tīng)覺(jué)加工理論

人耳對(duì)語(yǔ)音的感知主要是通過(guò)語(yǔ)音信號(hào)頻譜分量幅度獲取的,因此對(duì)各分量相位并不敏感,對(duì)頻率高低的感受近似與該頻率的對(duì)數(shù)值成正比。人耳除了能夠感受聲音的強(qiáng)度、音調(diào)、音色和空間方位外,還能夠在兩人或兩人以上的環(huán)境中分辨出自己所需的聲音,這種分辨能力是人體內(nèi)部語(yǔ)音理解機(jī)制具有的一種感知能力。人類的這種分離語(yǔ)音的能力與雙耳輸入效應(yīng)有關(guān),稱為“雞尾酒會(huì)效應(yīng)”。

聽(tīng)覺(jué)加工理論有以下幾種。

1.聲音的頻率理論

最早解釋聽(tīng)覺(jué)現(xiàn)象的理論是1886年物理學(xué)家盧瑟福提出的聲音頻率理論。頻率理論認(rèn)為,內(nèi)耳的基底膜是和鐙骨按相同頻率振動(dòng)的,振動(dòng)的數(shù)量與聲音的原有頻率是相適應(yīng)和一致的。

2.共鳴理論

共鳴理論(ResonanceTheory)是由郝?tīng)柲坊舸?H.L.F.vonHelmholtz)提出來(lái)的。郝?tīng)柲坊舸恼J(rèn)為,基底膜的橫纖維長(zhǎng)短不同,靠近蝸?lái)斴^寬,因而就像一部琴的琴弦一樣,能夠?qū)Σ煌l率的聲音產(chǎn)生共鳴。

3.行波理論

行波理論是20世紀(jì)40年代生理學(xué)家馮·貝凱西(G.VonBekesy)在郝?tīng)柲坊舸牡墓缠Q理論的基礎(chǔ)上提出的新的理論,用來(lái)解釋人類的聽(tīng)覺(jué)現(xiàn)象。行波理論認(rèn)為,聲波傳到人耳后引起基底膜的振動(dòng),基底膜振動(dòng)從耳蝸底部的某一部位開(kāi)始,當(dāng)振幅達(dá)到最大值時(shí),振動(dòng)就會(huì)停止并消失。

4.神經(jīng)齊射理論

神經(jīng)齊射理論(NeuralVolleyingTheory)是20世紀(jì)40年代由韋弗爾(E.G.Wever)提出的。該理論認(rèn)為,當(dāng)聲音頻率低于400Hz時(shí),個(gè)別聽(tīng)覺(jué)神經(jīng)纖維產(chǎn)生的神經(jīng)電頻率與聲音頻率一致;當(dāng)聲音頻率提高時(shí),聽(tīng)覺(jué)神經(jīng)纖維無(wú)法單獨(dú)對(duì)聲音作出反應(yīng),此時(shí),聽(tīng)覺(jué)神經(jīng)纖維則按照神經(jīng)齊射理論發(fā)生作用。個(gè)別聽(tīng)覺(jué)神經(jīng)纖維產(chǎn)生較低的頻率,它們聯(lián)合“齊射”,就可以對(duì)頻率較高的聲音作出反應(yīng)。

2.2視覺(jué)的生理基礎(chǔ)

2.2.1研究現(xiàn)狀人類通過(guò)人類視覺(jué)系統(tǒng)(HumanVisualSystem,HVS)來(lái)獲取外界圖像信息,當(dāng)光輻射刺激人眼時(shí),將會(huì)引起復(fù)雜的生理和心理變化,這種感覺(jué)就是視覺(jué)(Vision)。視覺(jué)是人類認(rèn)識(shí)自然、了解客觀世界的重要手段,同時(shí)也是理解人類認(rèn)知功能的突破口。HVS是由大量神經(jīng)細(xì)胞通過(guò)一定的連接組成的一個(gè)復(fù)雜的信息處理系統(tǒng),研究它的目的是感知視覺(jué)世界的空間存在,了解視覺(jué)世界的空間結(jié)構(gòu)、特點(diǎn)、組成以及它們的空間運(yùn)動(dòng)變化規(guī)律。

HVS的研究包括色度學(xué)、光學(xué)、視覺(jué)生理學(xué)、視覺(jué)心理學(xué)、神經(jīng)科學(xué)、解剖學(xué)和認(rèn)知科學(xué)等許多科學(xué)領(lǐng)域。人眼類似于一個(gè)光學(xué)信息處理系統(tǒng),但它不僅僅是一個(gè)簡(jiǎn)單的光學(xué)信息處理系統(tǒng)。從物理結(jié)構(gòu)看,HVS由光學(xué)系統(tǒng)、視網(wǎng)膜和視覺(jué)通路組成,其視覺(jué)信息處理模型如圖2-3所示。

圖2-3HVS視覺(jué)信息處理模型

人類視覺(jué)系統(tǒng)的許多獨(dú)特機(jī)制,給我們研究數(shù)字圖像處理等方面提供了一個(gè)很好的啟迪,可以利用這些特殊的性質(zhì)設(shè)計(jì)更好的圖像處理算法。這些特性大致可歸納為以下幾點(diǎn):

(1)視網(wǎng)膜上神經(jīng)節(jié)細(xì)胞輸出的是目標(biāo)的特征信息,但由于神經(jīng)節(jié)細(xì)胞所占比例很小,因此視網(wǎng)膜在提取特征時(shí)的效率很高。這為特征提取、目標(biāo)識(shí)別等提供了一個(gè)很好的參考。

(2)人眼可以接受1010數(shù)量級(jí)的光強(qiáng)變化范圍,人眼的這種強(qiáng)適應(yīng)能力可利用圖像處理學(xué)的直方圖適應(yīng)性調(diào)整。

(3)人眼處于高頻率無(wú)意識(shí)的振動(dòng)之中。實(shí)驗(yàn)顯示,如果這種振動(dòng)停止,人眼成像就會(huì)變得模糊,可見(jiàn)人眼的振動(dòng)可確保獲取的圖像質(zhì)量,因此如何模擬眼球振動(dòng)對(duì)圖像質(zhì)量的影響是改善圖像清晰度的一條比較有效的途徑。

(4)人眼可分辨比視網(wǎng)膜傳感器單元小得多的信息差別,因此可以利用人眼的這種超分辨特性來(lái)設(shè)計(jì)出較高精度的信息獲取系統(tǒng)。

(5)人眼具有廣闊視野的同時(shí)又具有局部分辨能力,可以使人們?cè)趯?duì)感興趣的目標(biāo)保持高分辨的同時(shí),又對(duì)視野的其他部分保持警戒。這就為多目標(biāo)跟蹤提供了一個(gè)重要的參考。

(6)人類視覺(jué)系統(tǒng)是一個(gè)并行的多通道系統(tǒng),視網(wǎng)膜中的神經(jīng)節(jié)細(xì)胞構(gòu)成了視覺(jué)系統(tǒng)進(jìn)行前端處理的若干個(gè)并行通道,分別承擔(dān)著不同的信息傳輸和處理功能。人類視覺(jué)系統(tǒng)的這種復(fù)雜并行結(jié)構(gòu),在并行計(jì)算方面為我們提供了一個(gè)新的思路。

人類視覺(jué)的研究可分為基于視覺(jué)生理學(xué)(VisualPhysiology)和基于視覺(jué)心理學(xué)(VisualPsychophysics)方面的研究。其中,視覺(jué)生理學(xué)剖析了生物系統(tǒng)是如何實(shí)現(xiàn)視覺(jué)感知的,視覺(jué)心理學(xué)研究視覺(jué)感知和人類心理的相互關(guān)系。我們希望通過(guò)一系列深入研究設(shè)計(jì)出相應(yīng)的計(jì)算模型來(lái)還原視覺(jué)系統(tǒng),進(jìn)而為計(jì)算機(jī)視覺(jué)及現(xiàn)代圖像處理技術(shù)提供理論基礎(chǔ)。

2.2.2-視覺(jué)感知

視覺(jué)研究是一個(gè)很大的研究領(lǐng)域。

1.視覺(jué)感知的生理學(xué)基礎(chǔ)

人類主要是通過(guò)視覺(jué)、觸覺(jué)、聽(tīng)覺(jué)和嗅覺(jué)等來(lái)感知外部世界的,其中最主要的是視覺(jué)。人類感知的外界信息中80%以上來(lái)自視覺(jué),讓計(jì)算機(jī)或機(jī)器人具有視覺(jué)是人類多年以來(lái)的夢(mèng)想,也是人類科學(xué)研究中所面臨的最大挑戰(zhàn)之一。雖然,目前還不能讓計(jì)算機(jī)像生物那樣也具有高效靈活的視覺(jué),但這種希望正在逐步被實(shí)現(xiàn)。

視覺(jué)皮層包括很多區(qū)域并按照一定的層次結(jié)構(gòu)進(jìn)行組織,圖2-4為視覺(jué)通路的層次結(jié)構(gòu)。圖2-4視覺(jué)通路的層次結(jié)構(gòu)

視覺(jué)系統(tǒng)是神經(jīng)系統(tǒng)的一個(gè)組成部分,它使物體具有了視知覺(jué)能力。人類視覺(jué)系統(tǒng)示意圖如圖2-5所示,主要包括以下幾個(gè)部分。

圖2-5人類視覺(jué)系統(tǒng)示意圖

1)眼睛

圖2-6所示是人眼球剖面圖。眼的前方被一層稱為角膜(Cornea)的透明表面所覆蓋,表面的其余部分稱為鞏膜(Sclera),它由包圍著脈絡(luò)膜(Choroid)的纖維外殼組成。脈絡(luò)膜的內(nèi)側(cè)是視網(wǎng)膜(Retina),它由桿狀和錐狀細(xì)胞兩種接收器組成,連到視網(wǎng)膜的神經(jīng)通過(guò)光神經(jīng)束而離開(kāi)眼球。進(jìn)入角膜的光線通過(guò)水晶體(相當(dāng)于透鏡)十字聚焦到視網(wǎng)膜上。水晶體在肌肉控制下改變其形狀,以執(zhí)行聚焦功能。虹膜(Iris)的作用就如同照相機(jī)的光圈一樣,控制進(jìn)入眼睛的光通量,虹膜又稱為瞳孔。

視網(wǎng)膜中的桿狀細(xì)胞是長(zhǎng)而薄的接收器,而錐狀細(xì)胞一般短而厚。桿狀細(xì)胞比錐狀細(xì)胞更具有光靈敏度。在低照度下,桿狀細(xì)胞提供被稱為“微光視覺(jué)”的視覺(jué)響應(yīng),但它沒(méi)有色覺(jué);錐狀細(xì)胞則提供被稱為“亮視覺(jué)”的視覺(jué)響應(yīng),它有色覺(jué)。視網(wǎng)膜上分布著約650萬(wàn)個(gè)錐狀細(xì)腦和1億個(gè)桿狀細(xì)胞。在靠近光神經(jīng)束的被稱為“黃斑區(qū)”的中心凹(Fovea)處錐狀細(xì)胞的密度最大,這是最尖銳的亮視覺(jué)區(qū),色覺(jué)很強(qiáng)。在緊靠光神經(jīng)束的地方,有一個(gè)既無(wú)桿狀細(xì)胞也無(wú)錐狀細(xì)胞的區(qū)域,稱為“盲點(diǎn)”。

錐狀細(xì)胞和桿狀細(xì)胞的光覺(jué)和色覺(jué)不同,說(shuō)明了在觀看明亮的物體時(shí),依靠錐狀細(xì)胞工作,色覺(jué)很強(qiáng);而在觀看夜晚微光情況下的物體時(shí),依靠桿狀細(xì)胞工作,沒(méi)有色覺(jué),只有灰度不同的感覺(jué)。

圖2-6人眼球剖面圖

2)視網(wǎng)膜

人眼中最重要的視網(wǎng)膜實(shí)際上是由許多種神經(jīng)細(xì)胞組成的復(fù)雜的神經(jīng)系統(tǒng)。在厚約250pm的無(wú)色透明的薄膜內(nèi),無(wú)間隙地排列著視細(xì)胞層、雙極(Bipolar)細(xì)胞層、神經(jīng)節(jié)(Ganglion)細(xì)胞層(即下、中、上三層)以及水平(Horizontal)細(xì)胞層和無(wú)長(zhǎng)突細(xì)胞層。前述視細(xì)胞即錐狀細(xì)胞和桿狀細(xì)胞作為光電變換器件,從光的入射方向看是處在最遠(yuǎn)的一層,它的輸出經(jīng)雙極細(xì)胞傳送到作為視網(wǎng)膜輸出細(xì)胞的神經(jīng)節(jié)細(xì)胞。水平細(xì)胞和無(wú)長(zhǎng)突細(xì)胞則是在其間對(duì)信號(hào)進(jìn)行某種處理。

這些神經(jīng)細(xì)胞之間并不足以一對(duì)一相

耦合,而是在“突

觸(Synapse)”處的特定領(lǐng)域與特定的神經(jīng)細(xì)胞相耦合。神經(jīng)節(jié)細(xì)胞收到的是處理過(guò)的模擬信號(hào);但是由神經(jīng)行細(xì)胞經(jīng)過(guò)神經(jīng)纖維(OpticNerveFibers)輸出到神經(jīng)中樞(腦)的則是脈沖密度調(diào)制的脈沖信號(hào)。在接收信號(hào)的中樞細(xì)胞上,由于積分作用,將脈沖密度調(diào)制信號(hào)解調(diào)成模擬信號(hào)。

人們?cè)缫亚宄暰W(wǎng)膜的基本結(jié)構(gòu),但對(duì)它的各類神經(jīng)細(xì)胞的機(jī)能研究,只是利用微小電極的探針、放大器及示波器等電子設(shè)備,進(jìn)行動(dòng)物實(shí)驗(yàn),進(jìn)一步外推到人的視覺(jué)機(jī)制上而得到相關(guān)結(jié)論的。視網(wǎng)膜結(jié)構(gòu)圖如圖2-7所示。

圖2-7視網(wǎng)膜結(jié)構(gòu)圖

它主要由以下幾個(gè)方面構(gòu)成:

(1)視細(xì)胞。人們發(fā)現(xiàn),把微小電極插入鯉魚(yú)的錐狀細(xì)胞中,可成功地記錄視細(xì)胞對(duì)光的反應(yīng),其內(nèi)部電位因光的作用而有負(fù)方向的變化。

(2)雙極細(xì)胞。與視細(xì)胞不同,雙極細(xì)胞的反應(yīng)有兩種形式:一種與視細(xì)胞的反應(yīng)一樣,是負(fù)極性的,稱為“OFF型”雙極細(xì)胞;另一種的反應(yīng)則相反,隨著光強(qiáng)度增大電位呈正方向變化,稱為“ON型”雙極細(xì)胞。

(3)神經(jīng)節(jié)細(xì)胞。作為視網(wǎng)膜輸出細(xì)胞的神經(jīng)節(jié),從上述接收區(qū)域收到雙極細(xì)胞傳來(lái)的信號(hào)。

3)外膝體

視網(wǎng)膜神經(jīng)節(jié)細(xì)胞軸突形成視神經(jīng),經(jīng)視交叉和視束到達(dá)外膝體(LateralGeniculateNucleus,LGN)。外膝體屬丘腦,是眼睛到視皮層視通路的中繼站。

外膝體是丘腦的一個(gè)感覺(jué)中繼核團(tuán),人類的LGN有六層,規(guī)則地排列為彎曲的結(jié)構(gòu),外膝體結(jié)構(gòu)圖如圖2-8所示。其3、4、5、6層內(nèi)細(xì)胞較小,稱為小細(xì)胞層(ParvocellularLayers,P層);1、2層內(nèi)細(xì)胞較大,稱為大細(xì)胞層(MagnocellularLayers,M層)。

圖2-8外膝體結(jié)構(gòu)圖

(1)對(duì)單側(cè)外膝體核來(lái)說(shuō),其1、4、6層只接受對(duì)側(cè)眼(鼻側(cè))的視網(wǎng)膜來(lái)的投射輸入,而2、3、5層僅接受同側(cè)眼(顳側(cè))的視網(wǎng)膜來(lái)的投射輸入,單側(cè)外膝體只能得到雙眼輸入的對(duì)側(cè)視野內(nèi)的視覺(jué)信息。

(2)來(lái)自視網(wǎng)膜相應(yīng)點(diǎn)的神經(jīng)節(jié)細(xì)胞軸突,投射到外膝體核各層時(shí)是有規(guī)律的,如將外膝體各層接收投射的響應(yīng)細(xì)胞部位連接起來(lái),就會(huì)得到大體上與各層邊界垂直的線,稱為投射線。

(3)視網(wǎng)膜中央?yún)^(qū)細(xì)胞在外膝體所占的投射區(qū)面積要比視網(wǎng)膜邊緣區(qū)細(xì)胞在外膝體所占的投射區(qū)大得多,因?yàn)樵谝暰W(wǎng)膜中央?yún)^(qū),各類視網(wǎng)膜細(xì)胞密度最高。

4)視皮層

視皮層結(jié)構(gòu)圖如圖2-9所示?,F(xiàn)在已知與視覺(jué)有關(guān)的大腦皮層多達(dá)35個(gè),自皮層表圖2-9視皮層結(jié)構(gòu)圖面到白質(zhì)分為6層,外膝體核處理后的視覺(jué)信息首先傳到皮層17區(qū)(第Ⅰ視區(qū)或紋狀皮層)。外膝體細(xì)胞軸突末梢終止于第4層內(nèi),然后再與第2、第3層細(xì)胞,第5、第6層細(xì)胞建立突觸聯(lián)系。V1為紋狀皮層(17區(qū)),V為第2視區(qū),MST為內(nèi)側(cè)上顳區(qū),MT為中央顳區(qū)。細(xì)胞類型有星形細(xì)胞(StellateCell)和錐體細(xì)胞(PyramidalCell)。

圖2-9視皮層結(jié)構(gòu)圖

具體地說(shuō),視皮層17區(qū)和18區(qū)的細(xì)胞可分為簡(jiǎn)單細(xì)胞(SimpleCells)和復(fù)雜細(xì)胞(ComplexCells)兩大類。簡(jiǎn)單細(xì)胞主要分布在視皮層17區(qū)的第4層內(nèi),感受野較小,呈狹長(zhǎng)形,用小光點(diǎn)可以測(cè)定,對(duì)大面積的彌散光不作反應(yīng),而對(duì)處于拮抗區(qū)邊緣一定方位一定寬度的條形刺激有較強(qiáng)的反應(yīng),因此比較適合于檢測(cè)具有明暗對(duì)比的直邊,對(duì)邊緣的位置和方位有嚴(yán)格的選擇性,對(duì)每一個(gè)簡(jiǎn)單細(xì)胞,都有一個(gè)最優(yōu)方位,在此方位上細(xì)胞的反應(yīng)最強(qiáng)烈。簡(jiǎn)單細(xì)胞的方位選擇性如圖2-10所示。

圖2-10簡(jiǎn)單細(xì)胞的方位選擇性

2.視覺(jué)感知的心理物理學(xué)基礎(chǔ)

實(shí)際上,在計(jì)算機(jī)圖像生成和處理的過(guò)程中,都需要人去觀看,處理的中間過(guò)程需進(jìn)行交互,即使是中間過(guò)程不需要顯示。例如,紅外熱圖像處理,最終也要轉(zhuǎn)化成可見(jiàn)光圖像給用戶觀看。因此,除了需要了解人眼構(gòu)造外,還需要掌握人眼視覺(jué)特征,這樣才能為計(jì)算機(jī)圖像生成提供更加可靠的科學(xué)依據(jù)。

1)視覺(jué)敏銳度

視覺(jué)敏銳度(VisualAcuity)也稱為視敏度、視力,它表示視覺(jué)中用來(lái)分辨細(xì)小物體或是物體某個(gè)細(xì)小部分的能力。它表明我們能夠觀察或是感覺(jué)到的刺激有多么細(xì)微或是不同刺激之間的差別有多大。在一定條件下,人的眼睛能觀察到的物體越小,表示視覺(jué)敏銳度越大。

人眼的視敏度還與所處環(huán)境的亮度有關(guān)。一般在昏暗的環(huán)境中,人眼會(huì)變得特別敏感,所以能檢測(cè)到細(xì)微的亮度變化。但對(duì)物體的細(xì)節(jié)特征和顏色的識(shí)別就變?nèi)趿?。而?dāng)處于亮光充足的環(huán)境中時(shí),人就擁有比較敏銳的色覺(jué)和很強(qiáng)的視敏度。但此時(shí)對(duì)于亮度的敏感度就會(huì)變低,需要較大的變化量才能被人所感覺(jué)到。這個(gè)現(xiàn)象首先是由沙勒(Shlaer)在1937年做實(shí)驗(yàn)后提出的,根據(jù)他的實(shí)驗(yàn)可以得到背景亮度同視敏度的關(guān)系。

2)對(duì)比度

對(duì)比度表示相鄰物體間亮度的差異,一般用兩者之間的亮度比來(lái)表示對(duì)比度,也可用最大亮度和最小亮度之間的比例關(guān)系表示,定義如下

其中,Lmax和Lmin分別代表最大亮度和最小亮度。當(dāng)Lmax大于Lmin時(shí),C的值將總是小于1.0。

在相同亮度的情況下,對(duì)比度越高,給人的感覺(jué)就越強(qiáng)烈。也就是說(shuō),人對(duì)亮度的感覺(jué)還跟背景的亮度有關(guān)系。同樣絕對(duì)亮度的物體,放置在不同背景亮度的環(huán)境中,也會(huì)給人完全不同的感覺(jué)。目標(biāo)與背景不同對(duì)比度示意圖如圖2-11所示。盡管中間矩形框的亮度值實(shí)際上都是一樣的,但是由于它們所在的背景亮度不同,所以看起來(lái)這些矩形框的亮度是不同的,其中最左邊圖中的矩形框看起來(lái)要比最右邊圖中的矩形框亮度值低些。

圖2-11目標(biāo)與背景不同對(duì)比度示意圖

3)色彩學(xué)基礎(chǔ)

顏色是人的視覺(jué)系統(tǒng)因接收到不同波長(zhǎng)的光信號(hào)而產(chǎn)生的感覺(jué)反應(yīng)。這里需要注意的是,顏色不屬于物理量而是屬于感知的范疇。在現(xiàn)實(shí)世界中,光在空間中的傳輸可以被看

成粒子或波在空間傳輸,可以用不同的頻率來(lái)表示。人的視覺(jué)能夠接受400~700nm之間的光譜。

通過(guò)實(shí)驗(yàn)數(shù)據(jù),可以在RGB顏色空間和CIEXYZ顏色空間之間通過(guò)矩陣變換而相互轉(zhuǎn)化,用公式表示為

2.2.3人類視覺(jué)系統(tǒng)概述

俗話說(shuō):“眼睛是心靈的窗戶,是人與外界溝通的橋梁”。人類視覺(jué)系統(tǒng)具有高度并行的特點(diǎn),且擁有非常特殊精密的結(jié)構(gòu)。它對(duì)信息的處理非???,外界的感官刺激到達(dá)人眼后,轉(zhuǎn)化為神經(jīng)信號(hào)傳輸?shù)酱竽X中進(jìn)行實(shí)時(shí)處理。在這個(gè)處理過(guò)程中,各種信息如位置、深度、顏色、紋理、運(yùn)動(dòng)和外觀都能被提取出來(lái)。

人類視覺(jué)系統(tǒng)主要由視覺(jué)器官、視覺(jué)通路和多級(jí)視覺(jué)中樞組成,實(shí)現(xiàn)視覺(jué)信息的產(chǎn)生、傳遞和處理。但由于視覺(jué)信息傳遞過(guò)程比較復(fù)雜,科學(xué)家們又將其劃分為視感覺(jué)處理和視知覺(jué)處理兩個(gè)階段。人眼視覺(jué)信息的傳遞過(guò)程如圖2-12所示。

圖2-12人眼視覺(jué)信息的傳遞過(guò)程

目前人類的視覺(jué)信息處理過(guò)程已經(jīng)發(fā)展到較完善的階段。神經(jīng)解剖學(xué)和神經(jīng)生理學(xué)的研究表明,視覺(jué)信息在大腦中按照一定的通路進(jìn)行傳遞。

圖2-13為視覺(jué)信息從視網(wǎng)膜到視皮層的處理過(guò)程。

圖2-13視覺(jué)信息從視網(wǎng)膜到視皮層的處理過(guò)程

對(duì)人類視覺(jué)系統(tǒng)的描述如下:

(1)人類視覺(jué)系統(tǒng)是分層的光學(xué)系統(tǒng)。

(2)人類視覺(jué)系統(tǒng)是能抓主要矛盾的光學(xué)系統(tǒng)。

(3)人類視知覺(jué)是能夠自我完善的知覺(jué),是對(duì)事物的各種屬性、各個(gè)部分及其相互關(guān)系的綜合的、整體的反映。

2.2.4視覺(jué)注意機(jī)制

1.早期的理論模型

1)基于位置的理論

基于位置的理論認(rèn)為,視覺(jué)系統(tǒng)不能同時(shí)對(duì)視野范圍內(nèi)的所有的刺激都進(jìn)行有效的加工,因?yàn)樽⒁庠谌魏螘r(shí)刻都只能聚焦于視覺(jué)空間中的某一個(gè)區(qū)域,只有該區(qū)域內(nèi)的刺激才能被加工

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論