版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能技術(shù)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)第二章
人的大腦中有近860億個神經(jīng)元,每個神經(jīng)元都與其它103~105個神經(jīng)元相連,組成巨大的復(fù)雜的神經(jīng)網(wǎng)絡(luò)系統(tǒng),支配人的行為和思想活動。受到大腦神經(jīng)系統(tǒng)的啟發(fā),人工智能的研究人員通過建立神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型來近似模擬大腦的神經(jīng)系統(tǒng),這類數(shù)學(xué)模型稱為人工神經(jīng)網(wǎng)絡(luò)。
含有多隱層的深度神經(jīng)網(wǎng)絡(luò)已成為當(dāng)今人工智能的核心技術(shù)。在許多任務(wù)中,例如聽覺、視覺和自然語言理解上,該網(wǎng)絡(luò)已取得重大突破,達到甚至超越普通人的水平,解決了人工智能應(yīng)用中的很多疑難問題。
本章從生物神經(jīng)網(wǎng)絡(luò)出發(fā),介紹人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的核心算法-誤差反向傳播算法以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理和常用技巧。2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)簡介學(xué)習(xí)目標(biāo)2神經(jīng)網(wǎng)絡(luò)基礎(chǔ)1.了解生物神經(jīng)元與生物神經(jīng)網(wǎng)絡(luò);2.掌握人工神經(jīng)元模型,以及以人工神經(jīng)元模型為基礎(chǔ)的人工神經(jīng)網(wǎng)絡(luò)的類型;3.學(xué)習(xí)前向神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu);4.學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的誤差反向傳播算法;5.了解神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方面處理數(shù)據(jù)和訓(xùn)練模型的技巧。目錄Contents2.12.22.32.42.5人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)
生物神經(jīng)元與生物神經(jīng)網(wǎng)絡(luò)前向神經(jīng)網(wǎng)絡(luò)2.6反向傳播算法處理數(shù)據(jù)和訓(xùn)練模型的技巧本章小結(jié) 01生物神經(jīng)元與生物神經(jīng)網(wǎng)絡(luò)2.1生物神經(jīng)元與生物神經(jīng)網(wǎng)絡(luò)2.1.1生物神經(jīng)元圖2-1生物神經(jīng)元
圖2-2突觸結(jié)構(gòu)2.1生物神經(jīng)元與生物神經(jīng)網(wǎng)絡(luò)2.1.2生物神經(jīng)網(wǎng)絡(luò)
生物神經(jīng)網(wǎng)絡(luò)(BiologicalNeuralNetwork)是由許多生物神經(jīng)元互相連接,以拓撲結(jié)構(gòu)形成的網(wǎng)絡(luò)結(jié)構(gòu)。在生物神經(jīng)網(wǎng)絡(luò)中,大腦的記憶主要源自于無數(shù)神經(jīng)元之間的突觸聯(lián)系。這些突觸聯(lián)系大部分是由生物出生后受到的外界刺激而生長起來的。外界刺激會不斷地激活神經(jīng)元,導(dǎo)致各個神經(jīng)元之間的連接強度發(fā)生相應(yīng)變化。正因為如此,大腦才有學(xué)習(xí)和存儲信息的能力。
這種生物學(xué)上的奇妙設(shè)計也啟發(fā)了人工智能研究者,人工神經(jīng)網(wǎng)絡(luò)就是對生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一種抽象、簡化和模擬。02人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)2.2人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)2.2.1人工神經(jīng)元
人工神經(jīng)元(ArtificialNeuron)是組成人工神經(jīng)網(wǎng)絡(luò)的基本單元。1943年,McCulloch和Pitts根據(jù)生物神經(jīng)元的基本特性,提出了M-P模型,是當(dāng)前人工神經(jīng)網(wǎng)絡(luò)中人工神經(jīng)元模型。圖2-3人工神經(jīng)元2.2人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)2.2.1人工神經(jīng)元2.2人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)2.2.2激活函數(shù)
最初引入激活函數(shù)(ActivationFunction)的目的是反映生物神經(jīng)元的抑制和興奮兩種狀態(tài),隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的進步,激活函數(shù)不再僅采用階躍函數(shù),而是發(fā)展出了Sigmoid函數(shù)和ReLU函數(shù)等多種形式,從而提高了人工神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練性和非線性表示能力,使得人工神經(jīng)網(wǎng)絡(luò)在解決特征提取、分類和預(yù)測等諸多實際問題上取得非常好的效果。常用的激活函數(shù)有以下幾種:常見的激活函數(shù)Sigmoid函數(shù)
Tanh函數(shù)
ReLU函數(shù)
LeakyReLU函數(shù)
Maxout單元
激活函數(shù)
Sigmoid函數(shù)Tanh激活函數(shù)是Sigmoid函數(shù)的變形
圖2-4Sigmoid和Tanh激活函數(shù)激活函數(shù)ReLU激活函數(shù)
LeakyReLU激活函數(shù)圖2-5ReLU函數(shù)和Leaky
ReLU函數(shù)激活函數(shù)GeLU函數(shù)是某些函數(shù)(比如雙曲正切函數(shù)
tanh)與近似數(shù)值的組合。圖2-6GeLU函數(shù)曲線2.2人工神經(jīng)元與人工神經(jīng)網(wǎng)絡(luò)2.2.3人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是由大量人工神經(jīng)元按一定規(guī)則連接構(gòu)建成的網(wǎng)絡(luò)結(jié)構(gòu),是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為特征具有分布式并行信息處理能力的數(shù)學(xué)模型。
人工神經(jīng)網(wǎng)絡(luò)主要分為以下3種類型:(a)前饋型網(wǎng)絡(luò)
(b)反饋型網(wǎng)絡(luò)
(c)自組織神經(jīng)網(wǎng)絡(luò)圖2-7三種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)03前向神經(jīng)網(wǎng)絡(luò)2.3前向神經(jīng)網(wǎng)絡(luò)
前向神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,F(xiàn)NN)是最早提出的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是最常見和常用的前饋型網(wǎng)絡(luò),具有很強的擬合能力,常見的連續(xù)非線性函數(shù)都可以用前向神經(jīng)網(wǎng)絡(luò)來逼近。
多層前向神經(jīng)網(wǎng)絡(luò)又稱多層感知機(Multi-LayerPerceptron,MLP),是由輸入層、輸出層和多個隱層組成。圖2-8多層前向神經(jīng)網(wǎng)絡(luò)2.3前向神經(jīng)網(wǎng)絡(luò)
多層前向網(wǎng)絡(luò)可以看作輸入到輸出的映射函數(shù):
。評判一個模型的好壞,應(yīng)判斷這個模型是否與真實數(shù)據(jù)保持一致。04反向傳播算法2.4反向傳播算法反向傳播(BP)算法,即誤差反向傳播(ErrorBack-Propagation),是用于訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的常見方法。最早由ArthurE.Bryson等人在1969年提出。1974年Werbos在哈佛大學(xué)的博士論文中也研究了誤差反向傳播。Parker在1985年發(fā)表的技術(shù)報告也論述了誤差反向傳播算法。1986年Rumelhart等發(fā)表了誤差反向傳播算法,有力的推動了人工神經(jīng)網(wǎng)絡(luò)的發(fā)展和應(yīng)用。2.4反向傳播算法2.4.1鏈?zhǔn)椒▌t2.4反向傳播算法2.4.1鏈?zhǔn)椒▌t2.4反向傳播算法2.4.1鏈?zhǔn)椒▌t2.4反向傳播算法2.4.2梯度下降法2.4反向傳播算法2.4.3反向傳播算法第n次迭代,第k個神經(jīng)元的期望輸出圖2-8誤差反向傳播示意圖2.4反向傳播算法
傳統(tǒng)的誤差反向傳播有兩種實現(xiàn)方式:
第一種方法稱為單樣本修正法,即針對每一個送入網(wǎng)絡(luò)的訓(xùn)練樣本,通過網(wǎng)絡(luò)前向傳播計算得到網(wǎng)絡(luò)輸出與期望輸出的誤差來更新權(quán)重;第一種方法,針對每個樣本都更新參數(shù),計算量大,穩(wěn)定性差。
第二種方法稱為批量梯度下降法,即每一次迭代時使用所有樣本進行梯度的更新。第二種方法每次更新參數(shù)時都需要遍歷訓(xùn)練集中的所有樣本,計算量比第一種方法小,穩(wěn)定性更好。2.4.4反向傳播算法2.4反向傳播算法2.4.4反向傳播算法的改進算法1.動量法(Momentum)2.4反向傳播算法2.4.4反向傳播算法的改進算法2.自適應(yīng)學(xué)習(xí)率法在BP算法中,學(xué)習(xí)率
的作用在于控制權(quán)重更新的幅度非常重要。學(xué)習(xí)率
越大則網(wǎng)絡(luò)收斂的越快。但學(xué)習(xí)率也并非越大越好,因為學(xué)習(xí)率取值過大有可能造成網(wǎng)絡(luò)無法收斂。學(xué)習(xí)率
過小,雖然可以有效避免網(wǎng)絡(luò)振蕩或發(fā)散,會導(dǎo)致訓(xùn)練網(wǎng)絡(luò)時的收斂速度變慢1)Adagrad算法2.4反向傳播算法2.4.4反向傳播算法的改進算法2.自適應(yīng)學(xué)習(xí)率法2)RMSprop算法2.4反向傳播算法2.4.4反向傳播算法的改進算法2.自適應(yīng)學(xué)習(xí)率法3)Adam算法Adam算法是一種綜合型的學(xué)習(xí)方法,可以看成是RMSprop和動量法結(jié)合的學(xué)習(xí)方法,可以達到比RMSprop更好的效果。在實際訓(xùn)練中,一般將Adam作為默認算法。2.4反向傳播算法2.4.4反向傳播算法的改進算法3.隨機梯度下降法(SGD)
隨機梯度下降法是梯度下降法的一個變形,是針對目前大數(shù)據(jù)量情況下有效訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一種BP算法的優(yōu)化方法。與常規(guī)的梯度下降法不同的是,要累積一個批次(Batchsize)的數(shù)據(jù)后再計算梯度,進行參數(shù)更新。采用隨機梯度下降法可以降低運算時間,且在極大程度上避免了計算時容易陷入局部極值的問題。05處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.1數(shù)據(jù)預(yù)處理-數(shù)據(jù)標(biāo)準(zhǔn)化(1)Z-Score標(biāo)準(zhǔn)化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.1數(shù)據(jù)預(yù)處理-數(shù)據(jù)標(biāo)準(zhǔn)化1.Z-Score標(biāo)準(zhǔn)化(a)
(b)
(c)圖2-9Z-Score標(biāo)準(zhǔn)化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2數(shù)據(jù)預(yù)處理-數(shù)據(jù)標(biāo)準(zhǔn)化最小最大標(biāo)準(zhǔn)化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化1.隨機數(shù)初始化隨機數(shù)權(quán)重初始化的實現(xiàn)方法是生成符合標(biāo)準(zhǔn)正態(tài)分布的隨機數(shù),并適當(dāng)縮?。ǔ艘砸粋€小于1的數(shù))。公式如下所示。其中
為生成的符合標(biāo)準(zhǔn)正態(tài)分布的權(quán)重向量。隨機數(shù)權(quán)重初始可以保證每個人工神經(jīng)元的權(quán)重向量都被初始化為一個服從高斯分布的隨機向量。2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化2.校準(zhǔn)方差2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化2)Xavier初始化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化3)He初始化2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.2權(quán)重初始化數(shù)據(jù)增強解決過擬合最有效的方法就是盡可能的擴充數(shù)據(jù)集,但大幅度的增加數(shù)據(jù)是比較困難的。因此可以通過一定規(guī)則擴充數(shù)據(jù),例如采用平移、翻轉(zhuǎn)、縮放、切割等手段成倍擴充數(shù)據(jù)庫。網(wǎng)絡(luò)結(jié)構(gòu)
過擬合主要是由于數(shù)據(jù)太少以及模型太復(fù)雜兩個原因造成的,可以通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元的個數(shù)來限制網(wǎng)絡(luò)的擬合能力。訓(xùn)練時間
在初始化網(wǎng)絡(luò)時,一般都是初始為較小的權(quán)值。訓(xùn)練時間越長,部分網(wǎng)絡(luò)權(quán)值可能越大。如果在合適的時間停止訓(xùn)練,就可以將網(wǎng)絡(luò)的能力限制在一定范圍內(nèi)。
2.5處理數(shù)據(jù)和訓(xùn)練模型的技巧2.5.3防止過擬合的常用方法正則化Dropout
Dropout方法由Hinton等人提出,該方法在單個訓(xùn)練批次中將一半左右的隱層節(jié)點值設(shè)為0,使得網(wǎng)絡(luò)中的每個節(jié)點在每次訓(xùn)練時都與不同的節(jié)點相連,削弱人工神
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物聯(lián)網(wǎng)技術(shù)下的城市社區(qū)教育設(shè)施規(guī)劃策略
- 2024年四年級英語下冊 Unit 4 There are seven days in a week Lesson 20說課稿 人教精通版(三起)
- 現(xiàn)代服務(wù)業(yè)在區(qū)域經(jīng)濟發(fā)展中的角色
- 2024-2025學(xué)年新教材高中英語 Unit 2 Wildlife protection突破 語法大沖關(guān)說課稿 新人教版必修第二冊
- 未來教育中的科技倫理與隱私保護
- 生產(chǎn)數(shù)據(jù)的質(zhì)量管理與改進措施
- 環(huán)保型辦公環(huán)境的構(gòu)建與實施
- 現(xiàn)代商業(yè)中的生產(chǎn)成本管控新模式
- 廣西2025年廣西總工會陸川溫泉療養(yǎng)院招聘4人筆試歷年參考題庫附帶答案詳解
- 2023六年級數(shù)學(xué)上冊 四 圓的周長和面積 2圓的面積(二)說課稿 冀教版
- 國家電網(wǎng)培訓(xùn)課件
- 五年級上冊口算練習(xí)400題及答案
- 駱駝祥子選擇題100道及答案
- 2024年公務(wù)員考試題庫附答案【完整版】
- 關(guān)于闖紅燈的調(diào)查報告
- T-GDWCA 0019-2018 輻照工藝操作規(guī)范
- 為什么偉大不能被計劃
- 精神障礙患者的社交技巧訓(xùn)練
- 司機考核管理制度
- 重慶八中2024屆高三12月高考適應(yīng)性月考卷(四) 語文試卷(含答案)
- 出差報銷單-中英對照版
評論
0/150
提交評論