《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)

上傳人：y*** IP屬地：山東上傳時(shí)間：2023-11-30 格式：PPTX 頁(yè)數(shù)：69 大小：4.58MB 積分：15 舉報(bào) 版權(quán)申訴

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)_第2頁(yè)

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)_第3頁(yè)

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)_第4頁(yè)

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)_第5頁(yè)

已閱讀5頁(yè)，還剩64頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

單元8神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)電氣與信息工程系CONTENTS

目錄010203任務(wù)8.1MINIST數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)8.2訓(xùn)練神經(jīng)網(wǎng)絡(luò)任務(wù)8.3深度學(xué)習(xí)引例描述

人類可以很輕松地分辨出手寫的數(shù)字是多少，但是對(duì)電子計(jì)算機(jī)來說，實(shí)現(xiàn)手寫數(shù)字乃至手寫文字的分類卻是艱難的。試想，如果計(jì)算機(jī)能夠像人類的大腦一樣“思考”，擁有一層層連接的“神經(jīng)元”，模擬人腦的思考活動(dòng)，那么它能不能對(duì)手寫的數(shù)字甚至文字進(jìn)行判斷、分類呢？使用算法模擬人腦進(jìn)行智能運(yùn)算的結(jié)構(gòu)與模型被稱為神經(jīng)網(wǎng)絡(luò)。本單元通過使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手寫數(shù)字識(shí)別來使大學(xué)了解當(dāng)下人工智能的熱點(diǎn)話題——神經(jīng)網(wǎng)絡(luò)問題。（a）（b）（a：人與電子計(jì)算機(jī)對(duì)話。電子計(jì)算機(jī)：我不認(rèn)得這是什么？人：這些數(shù)字很好認(rèn)啊b：我學(xué)會(huì)使用神經(jīng)網(wǎng)絡(luò)啦，這是3?。﹫D8-1情景描述任務(wù)8.1MNIST數(shù)據(jù)集導(dǎo)入與數(shù)據(jù)預(yù)處理任務(wù)情景

人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetwork，ANN）在本書中簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)（NeuralNetwork，NN），是一種模擬生物神經(jīng)網(wǎng)絡(luò)的算法結(jié)構(gòu)與模型。由于其擁有強(qiáng)大的適應(yīng)性和處理能力，所以其在圖像處理、分類等方面有著廣泛的應(yīng)用。MNIST數(shù)據(jù)集是經(jīng)典的機(jī)器學(xué)習(xí)數(shù)據(jù)集，本任務(wù)旨在對(duì)MNIST數(shù)據(jù)集進(jìn)行數(shù)據(jù)的讀取與導(dǎo)入，分離出需要用到的訓(xùn)練集與測(cè)試集、標(biāo)簽值與特征值。該數(shù)據(jù)集由美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院整理，自1998年起，該數(shù)據(jù)集被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等領(lǐng)域，在k-NN算法、SVM算法、神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等方面都得到了廣泛的應(yīng)用。任務(wù)情景MNIST數(shù)據(jù)集（該數(shù)據(jù)集可從華信教育資源網(wǎng)該書資源處下載）一共統(tǒng)計(jì)了來自250個(gè)不同的人手寫的數(shù)字圖片，其中，50%來自高中生，50%來自人口普查局的工作人員。MNIST的四個(gè)文件如圖8-2所示。圖8-2MNIST的四個(gè)文件訓(xùn)練集train-images.idx3-ubyte和train-labels.idx1-ubyte共包含60

000張圖像和標(biāo)簽，測(cè)試集t10k-images.idx3-ubyte和t10k-labes.idx1-ubyte共包含10

000張圖像和標(biāo)簽，測(cè)試集中的前5000個(gè)數(shù)據(jù)為美國(guó)人口普查局的員工手寫數(shù)據(jù)，后5000個(gè)數(shù)據(jù)為大學(xué)生手寫數(shù)據(jù)。

實(shí)現(xiàn)idx文件的讀取與解析，要求能夠讀取數(shù)據(jù)的條數(shù)與矩陣的大小，并輸出一部分訓(xùn)練集的手寫數(shù)字圖片。訓(xùn)練集的大小如圖8-3所示。圖8-3訓(xùn)練集的大小部分訓(xùn)練集標(biāo)簽如圖8-4所示。圖8-4部分訓(xùn)練集標(biāo)簽任務(wù)布置前8張訓(xùn)練集手寫數(shù)字圖片展示如圖8-5所示。圖8-5前8張訓(xùn)練集手寫數(shù)字圖片展示任務(wù)布置測(cè)試集的大小如圖8-6所示。圖8-6測(cè)試集的大小圖8-7部分訓(xùn)練集標(biāo)簽部分測(cè)試集標(biāo)簽如圖8-7所示。任務(wù)布置前8張測(cè)試集手寫數(shù)字圖片展示如圖8-8所示。圖8-8前8張測(cè)試集手寫數(shù)字圖片展示任務(wù)布置知識(shí)準(zhǔn)備1．idx文件讀取下載得到的四個(gè)文件并不是常用的csv文件或者圖片文件，而是idx1-ubyte和idx3-ubyte為后綴的文件，這是一種idx數(shù)據(jù)格式的文件。根據(jù)MNIST官網(wǎng)，idx1-ubype文件的數(shù)據(jù)格式如圖8-9所示。圖8-9idx1-ubyte文件的數(shù)據(jù)格式知識(shí)準(zhǔn)備其中，第0～3個(gè)字節(jié)表示的是32位整形數(shù)據(jù)，Idx3-ubyte文件的數(shù)據(jù)格式如圖8-10所示。圖8-10Idx3-ubyte文件的數(shù)據(jù)格式測(cè)試集的文件類型與訓(xùn)練集相同。根據(jù)數(shù)據(jù)集的文件格式，我們需要讀取magicnumber，這是一種對(duì)文件協(xié)議的描述，要先采用struct.unpack()函數(shù)讀取magic值，再采用np.fromfile()函數(shù)將字節(jié)讀入NumPyarray

中。知識(shí)準(zhǔn)備課堂隨練8-1讀取本地文件夾下的train-labels.idx1-ubyte標(biāo)簽數(shù)據(jù)集。運(yùn)行結(jié)果知識(shí)準(zhǔn)備課堂隨練8-2讀取本地文件夾下的train-images.idx3-ubyte訓(xùn)練集。運(yùn)行結(jié)果知識(shí)準(zhǔn)備

接下來，對(duì)數(shù)據(jù)進(jìn)行圖形化展示。在MNIST數(shù)據(jù)集中，每張圖片都是由28×28個(gè)像素點(diǎn)構(gòu)成的，在讀入數(shù)據(jù)時(shí)，將其展開成784維度的向量。若想展示圖片，則將其繼續(xù)重組為28×28的像素矩陣，再展示出來。圖8-11展示的第二張圖片課堂隨練8-3通過plot展示一張訓(xùn)練集中的圖片。其中，j表示展示的是第幾張圖片，當(dāng)j=1時(shí)，展示的第二張圖片如圖8-11所示。知識(shí)準(zhǔn)備

以上是我們采用struct直接讀取下載好的ubyte文件的程序代碼。下面我們介紹一個(gè)適用于神經(jīng)網(wǎng)絡(luò)的庫(kù)keras。keras庫(kù)一般集成在TensorFlow上，是一個(gè)由Python編寫的開源的神經(jīng)網(wǎng)絡(luò)庫(kù)，可以作為TensorFlow、Microsoft-CNTK和Theano的高階應(yīng)用程序接口，用于深度學(xué)習(xí)模型的設(shè)計(jì)、調(diào)試、評(píng)估、應(yīng)用和可視化。keras的安裝步驟如下：（1）在AnacondaNavigator中選擇Environments選項(xiàng)。（2）從未下載中找到keras并下載應(yīng)用，也可以在AnacondaPrompt中輸入命令pipinstallkeras進(jìn)行下載。知識(shí)準(zhǔn)備可以僅通過以下命令讀取數(shù)據(jù)：為了方便，本單元我們采用keras模塊進(jìn)行神經(jīng)網(wǎng)絡(luò)的搭建。知識(shí)準(zhǔn)備2．?dāng)?shù)據(jù)預(yù)處理

通過shape函數(shù)，我們可以看到由mnist.load_data()函數(shù)得到的訓(xùn)練集的維度是60000×28×28，測(cè)試集的維度是10000×28×28，其中，第一維是指數(shù)據(jù)集的長(zhǎng)度（即樣本的個(gè)數(shù)），第二維與第三維是指圖片的寬度與高度。對(duì)于多層感知機(jī)（MLP），需要輸入二維向量，因此在數(shù)據(jù)預(yù)處理的過程中，我們需要使用reshape函數(shù)將28×28的數(shù)組轉(zhuǎn)化成784長(zhǎng)度的向量。課堂隨練8-4將維度為X.shape[0]*X.shape[1]*X.shape[2]的數(shù)據(jù)X轉(zhuǎn)化成二維數(shù)據(jù)。知識(shí)準(zhǔn)備

同時(shí)，讀取數(shù)據(jù)集之后的灰度值在0～255范圍內(nèi)，但為了使模型的訓(xùn)練效果更好，通常將訓(xùn)練數(shù)值歸一化映射到0～1范圍內(nèi)。像素的歸一化可總結(jié)為機(jī)器學(xué)習(xí)中一般的歸一化方法：x'=(x-X_min)/(X_max-X_min)。課堂隨練8-5將數(shù)組array=[1,2,3,4,5]中的數(shù)據(jù)歸一化。知識(shí)準(zhǔn)備3．獨(dú)熱編碼

獨(dú)熱編碼又被稱為一位有效編碼，可以將其理解為對(duì)N種分類或狀態(tài)使用N位狀態(tài)寄存器進(jìn)行的編碼，每種類別或者狀態(tài)都有獨(dú)立的寄存器的位置，并且不能兩種狀態(tài)并存，即同一時(shí)刻只能一位有效。通常情況下，使用二進(jìn)制向量來表示獨(dú)熱編碼，將類別映射到二進(jìn)制向量中的整數(shù)值，該位為1，其他位置標(biāo)記為0。下面將通過幾個(gè)例子來對(duì)獨(dú)熱編碼進(jìn)行說明：（1）假設(shè)對(duì)人的性別【男、女】進(jìn)行獨(dú)熱編碼，類別狀態(tài)有2個(gè)，即有2位的狀態(tài)寄存器，可以有如下表示：男表示為[1,0]，女表示為[0,1]。知識(shí)準(zhǔn)備（2）假設(shè)對(duì)圖形的形狀【方形、圓形、三角形】進(jìn)行獨(dú)熱編碼，類別狀態(tài)有3個(gè)，即有3位的狀態(tài)寄存器，可以有如下表示：方形表示為[1,0,0]，圓形表示為[0,1,0]，三角形表示為：[0,0,1]。（3）假設(shè)對(duì)人的情感狀態(tài)【憤怒、驚訝、沮喪、快樂、恐懼、悲傷】進(jìn)行獨(dú)熱編碼，類別狀態(tài)有6個(gè)，即有6位的狀態(tài)寄存器，可以有如下表示：憤怒表示為[1,0,0,0,0,0]，驚訝表示為[0,1,0,0,0,0]，沮喪表示為[0,0,1,0,0,0]，快樂表示為[0,0,0,1,0,0]，恐懼表示為[0,0,0,0,1,0]，悲傷表示為[0,0,0,0,0,1]。知識(shí)準(zhǔn)備MNIST數(shù)據(jù)集包括的標(biāo)簽表示為0～9，即10個(gè)類別，轉(zhuǎn)化成獨(dú)熱編碼則有10位的狀態(tài)寄存器。在keras庫(kù)中，我們使用keras.np_utils.to_categorical函數(shù)將整形標(biāo)簽值轉(zhuǎn)化為獨(dú)熱編碼，例如當(dāng)某個(gè)訓(xùn)練數(shù)據(jù)的標(biāo)簽值為數(shù)字6時(shí)，其獨(dú)熱編碼表示為[0,0,0,0,0,0,1,0,0,0]。課堂隨練8-6將標(biāo)簽值[1,2]轉(zhuǎn)化為獨(dú)熱編碼。任務(wù)實(shí)施Step1：引入相關(guān)模塊，本次實(shí)驗(yàn)為了方便采用開源的神經(jīng)網(wǎng)絡(luò)庫(kù)keras，將MNIST數(shù)據(jù)集引入其中。Step2：加載數(shù)據(jù)集，輸出訓(xùn)練集樣本數(shù)與測(cè)試集樣本數(shù)。Step3：將三維數(shù)據(jù)集轉(zhuǎn)化為二維數(shù)據(jù)集。Step4：將歸一化像素值歸一化。Step5：將標(biāo)簽值轉(zhuǎn)化為獨(dú)熱編碼。任務(wù)實(shí)施使用獨(dú)熱編碼前后的標(biāo)簽值如圖8-12所示。（a）使用獨(dú)熱編碼前的標(biāo)簽值（b）使用獨(dú)熱編碼后的標(biāo)簽值圖8-12獨(dú)熱編碼前后的標(biāo)簽值任務(wù)8.2訓(xùn)練神經(jīng)網(wǎng)絡(luò)任務(wù)情景

本任務(wù)旨在使讀者了解神經(jīng)網(wǎng)絡(luò)的算法原理及其模型的搭建，并使讀者學(xué)會(huì)使用Python搭建神經(jīng)網(wǎng)絡(luò)。訓(xùn)練集為MNIST數(shù)據(jù)集，調(diào)整參數(shù)可以得到較好的效果。

人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)，顧名思義，是一種模仿人腦處理信息的方式來處理數(shù)據(jù)的系統(tǒng)。任務(wù)布置要求可以簡(jiǎn)單查看模型摘要，模型摘要如圖8-13所示。圖8-13模型摘要任務(wù)布置

要求通過建立模型，訓(xùn)練多層的神經(jīng)網(wǎng)絡(luò)，對(duì)MNIST數(shù)據(jù)集進(jìn)行訓(xùn)練，得到測(cè)試集的預(yù)測(cè)準(zhǔn)確率，通過調(diào)整Epoch值、激活函數(shù)等觀看預(yù)測(cè)結(jié)果。Epoch值為q時(shí)的訓(xùn)練結(jié)果如圖8-14所示。圖8-14Epoch值為9時(shí)的訓(xùn)練結(jié)果知識(shí)準(zhǔn)備1．神經(jīng)元

人工神經(jīng)網(wǎng)絡(luò)（本書中簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)）由人工神經(jīng)元（本書中簡(jiǎn)稱神經(jīng)元）組成，這些神經(jīng)元在概念上源自生物神經(jīng)元。每個(gè)神經(jīng)元都有輸入并能產(chǎn)生單個(gè)輸出，該輸出可以發(fā)送到多個(gè)其他神經(jīng)元。神經(jīng)元模型示意圖如圖8-15所示。其中，表示輸入信息，可以是圖像、文檔、語(yǔ)言或者來自其他神經(jīng)元的信息；表示對(duì)輸入信息賦予的權(quán)重；對(duì)輸入信息加權(quán)求和得到的結(jié)果與閾值比較，將比較結(jié)果通過函數(shù)進(jìn)行映射后得到輸出；稱為激勵(lì)函數(shù)（激活函數(shù)）。該神經(jīng)元的輸出，其中，圖8-15神經(jīng)元模型示意圖知識(shí)準(zhǔn)備

圖8-15所示的模型是1943年由心理學(xué)家WarrenMcCulloch和數(shù)學(xué)家WalterPitts提出的M-P模型。在M-P模型中，神經(jīng)元只有兩種狀態(tài)——興奮和抑制，因此輸出y也只有0和1兩種結(jié)果，早期的激活函數(shù)只是一個(gè)階躍函數(shù)，這個(gè)函數(shù)的特性是在輸入為零時(shí)會(huì)發(fā)生跳轉(zhuǎn)，形狀像一個(gè)臺(tái)階。在圖8-16中，當(dāng)階躍函數(shù)的輸入小于或等于0時(shí)，輸出為0，而在其他情況下，輸出為1。圖8-15神經(jīng)元模型示意圖圖8-16階躍函數(shù)示意圖知識(shí)準(zhǔn)備

當(dāng)神經(jīng)元感覺到溫度經(jīng)過了一定的“閾值”處理（例如對(duì)于大于43℃的水，我們會(huì)覺得燙），通過激活函數(shù)發(fā)出判斷：手離開（1）或者不離開（0）。這種只有0和1的二分類問題可以通過階躍函數(shù)來實(shí)現(xiàn)，可如果我們希望感受到不同的溫度，例如20℃左右，大于30℃，40多攝氏度這種非線性的結(jié)果，那么這時(shí)簡(jiǎn)單的階躍函數(shù)不能滿足非線性的需求。

從生物學(xué)的角度，可以這樣理解階躍函數(shù)：將手放在一個(gè)水要燒開的鍋的鍋蓋上，鍋蓋的溫度就是神經(jīng)元的輸入，神經(jīng)元感受到燙后會(huì)發(fā)出指令：手離開（1）或者不離開（0）。知識(shí)準(zhǔn)備常用的激活函數(shù)還包括以下幾種。1）sigmoid函數(shù)圖8-17sigmoid函數(shù)示意圖sigmoid函數(shù)可以將輸入的整個(gè)實(shí)數(shù)范圍內(nèi)的任意值映射到[0,1]范圍內(nèi)，當(dāng)輸入值較大時(shí)，會(huì)返回一個(gè)接近于1的值；當(dāng)輸入值較小時(shí)，會(huì)返回一個(gè)接近于0的值。在TensorFlow中，通過tf.sigmoid(x)直接調(diào)用sigmoid函數(shù)。sigmoid函數(shù)的數(shù)學(xué)公式為知識(shí)準(zhǔn)備2）softmax函數(shù)softmax函數(shù)實(shí)際上是在sigmoid函數(shù)的基礎(chǔ)上所做的提升，它可以將所有輸出映射成概率的形式，即值在[0,1]范圍內(nèi)且概率總和為1。在TensorFlow中，可以通過tf.nn.softmax()來調(diào)用softmax函數(shù)。softmax函數(shù)的數(shù)學(xué)公式為知識(shí)準(zhǔn)備3）tanh函數(shù)tanh函數(shù)與sigmoid函數(shù)相似，但它能將值映射到[-1,1]范圍內(nèi)。與sigmoid函數(shù)相比，它的輸出均值是0，使得其收斂速度比sigmoid函數(shù)快，減少了迭代次數(shù)，但冪運(yùn)算的問題依然存在。tanh函數(shù)的數(shù)學(xué)公式為圖8-18tanh函數(shù)示意圖知識(shí)準(zhǔn)備4）ReLU函數(shù)ReLU函數(shù)，是目前使用最頻繁的激活函數(shù)，ReLU函數(shù)在x<0時(shí)，輸出始終為0。由于x>0時(shí)，ReLU函數(shù)的導(dǎo)數(shù)為1，即保持輸出為x，所以ReLU函數(shù)能夠在x>0時(shí)保持梯度不斷衰減，從而緩解梯度消失的問題，還能加快收斂速度。ReLU函數(shù)的數(shù)學(xué)公式為圖8-19ReLU函數(shù)示意圖知識(shí)準(zhǔn)備2．多層神經(jīng)網(wǎng)絡(luò)

單層的感知機(jī)模型因?yàn)榧せ詈瘮?shù)通常只有兩個(gè)輸出，所以一般只用于二分類的輸出，若我們將多個(gè)感知機(jī)組合，再加上可輸出值為0與1之間的連續(xù)值的激活函數(shù)，就可以實(shí)現(xiàn)從輸入到輸出的任意非線性的映射。

下面我們將學(xué)習(xí)將多個(gè)單層的感知機(jī)組合成為多層感知機(jī)的組合，這種特殊類型的全連接網(wǎng)絡(luò)被稱為多層感知機(jī)（Multi-LayerPerceptron，MLP）模型。圖8-20所示為一個(gè)三層的MLP模型。圖8-20一個(gè)三層的MLP模型知識(shí)準(zhǔn)備

在MLP模型中，除了輸入層和輸出層，中間還可以有很多隱藏層。在圖8-20中，輸入層上的全部單元都連接著隱藏層，隱藏層上的全部單元都連接著輸出層，當(dāng)MLP模型中有一個(gè)以上的隱藏層時(shí)，稱其為深度神經(jīng)網(wǎng)絡(luò)。

從原則上講，只要隱藏層中神經(jīng)元的個(gè)數(shù)足夠多，且神經(jīng)元的激活函數(shù)為非線性函數(shù)，這樣的多層神經(jīng)網(wǎng)絡(luò)可以逼近任何函數(shù)。MLP可以從運(yùn)行過程區(qū)分模型的結(jié)構(gòu)，模型的結(jié)構(gòu)分為前向部分和后向部分，前向部分稱為前向傳播算法，指的是從輸入層開始計(jì)算逐步向后輸出的過程；后向部分稱為反向傳播算法，指的是通過神經(jīng)網(wǎng)絡(luò)反向求導(dǎo)降低誤差來更新神經(jīng)網(wǎng)絡(luò)參數(shù)的過程。

能否解決確定神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中的參數(shù)這一問題是影響神經(jīng)網(wǎng)絡(luò)發(fā)展的關(guān)鍵，誤差反向傳播算法的發(fā)明使得多層神經(jīng)網(wǎng)絡(luò)得以快速發(fā)展。知識(shí)準(zhǔn)備1）前向傳播算法

前向傳播算法就是將上一層的輸出作為下一層的輸入，并計(jì)算下一層的輸出，直到運(yùn)算到輸出層為止。在圖8-20中，隱藏層Layer2的輸出

、和的計(jì)算公式（其中，假設(shè)激活函數(shù)為sigmoid函數(shù)，用符號(hào)表示）為輸出層Layer3的輸出

、的計(jì)算公式為將其寫成矩陣

乘法的形式為圖8-21前向傳播算法示意圖知識(shí)準(zhǔn)備2）反向傳播算法

反向傳播算法是一種與最佳化方法（如梯度下降算法）結(jié)合使用的，用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的常見方法。該方法對(duì)網(wǎng)絡(luò)中所有權(quán)重計(jì)算代價(jià)函數(shù)的梯度。這個(gè)梯度會(huì)反饋給最佳化方法，用來更新權(quán)重以最小化代價(jià)函數(shù)?！胺聪騻鞑ァ边@個(gè)術(shù)語(yǔ)經(jīng)常被誤解為用于多層神經(jīng)網(wǎng)絡(luò)的整個(gè)學(xué)習(xí)算法。實(shí)際上，反向傳播算法僅指用于計(jì)算梯度的方法。而隨機(jī)梯度下降算法是使用該梯度來學(xué)習(xí)的。另外，反向傳播算法還經(jīng)常被誤解為僅適用于多層神經(jīng)網(wǎng)絡(luò)，但是從原則上講，它可以計(jì)算任何函數(shù)的導(dǎo)數(shù)（對(duì)于一些函數(shù)，正確的響應(yīng)為報(bào)告函數(shù)的導(dǎo)數(shù)是未定義的）。知識(shí)準(zhǔn)備

微積分中的鏈?zhǔn)椒▌t用于計(jì)算復(fù)合函數(shù)的導(dǎo)數(shù)。反向傳播算法是一種計(jì)算鏈?zhǔn)椒▌t的算法，使用高效的特定運(yùn)輸順序。設(shè)是實(shí)數(shù)，

和是從實(shí)數(shù)映射

到實(shí)數(shù)的函數(shù)。假設(shè)

且，那么鏈?zhǔn)椒▌t為假設(shè)用最常用的MSE來作為代價(jià)函數(shù)，代價(jià)函數(shù)記為，其中，為對(duì)訓(xùn)練樣本計(jì)算的輸出；為訓(xùn)練樣本的真實(shí)值。加入系數(shù)是為了抵消微分出來的指數(shù)。知識(shí)準(zhǔn)備（1）輸出層的梯度輸出層的梯度的計(jì)算公式如下：其中，為Hadamard積符號(hào)，即兩個(gè)維度相同的矩陣對(duì)應(yīng)元素的乘積。在求解輸出層梯度時(shí)，有公共的部分，記為知識(shí)準(zhǔn)備（2）隱藏層的梯度。

我們已經(jīng)將輸出層的梯度計(jì)算出來，那么如何計(jì)算層的梯度、層的梯度呢？

之前已經(jīng)求出了輸出層的誤差，根據(jù)誤差反向傳播的原理，可以將當(dāng)前層的誤差理解為上一層所有神經(jīng)元誤差的復(fù)合函數(shù)，即用上一層的誤差來表示當(dāng)前層誤差，并依次遞推。采用數(shù)學(xué)歸納法，假設(shè)

層的已經(jīng)求出，那么我們?cè)撊绾吻蟪龅?/p>

層的

呢？知識(shí)準(zhǔn)備而

和的關(guān)系如下：由此得出則。在得出的遞推關(guān)系式后，就可以求出層的

和的對(duì)應(yīng)梯度：知識(shí)準(zhǔn)備對(duì)反向傳播算法的歸納如下：

輸入總層數(shù)L，各隱藏層與輸出層的神經(jīng)元個(gè)數(shù)，激活函數(shù)，代價(jià)函數(shù)，迭代步長(zhǎng)，最大迭代次數(shù)MAX，以及停止迭代閾值。輸出的個(gè)訓(xùn)練樣本為（1）初始化參數(shù)W、b。（2）前向傳播算法。forto:（3）通過代價(jià)函數(shù)計(jì)算輸出層的梯度。知識(shí)準(zhǔn)備（4）執(zhí)行反向傳播算法。forto2：（5）更新W、b。通過梯度下降算法更新權(quán)重W和偏置的值，為學(xué)習(xí)率（步長(zhǎng)），。（6）如果所有W、b的變化值都小于停止迭代閾值e，則跳出迭代循環(huán)。（7）輸出隱藏層與輸出層的線性關(guān)系系數(shù)矩陣W和偏置b。知識(shí)準(zhǔn)備代碼實(shí)例1：利用Python實(shí)現(xiàn)三層感知機(jī)對(duì)MNIST數(shù)據(jù)集中手寫數(shù)字的識(shí)別代碼實(shí)例2：利用TensorFlow實(shí)現(xiàn)三層感知機(jī)對(duì)MNIST數(shù)據(jù)集中手寫數(shù)字的識(shí)別任務(wù)實(shí)施（1）搭建神經(jīng)網(wǎng)絡(luò)模型，創(chuàng)建一個(gè)函數(shù)，建立三層感知機(jī)模型（含有一個(gè)隱藏層），在keras庫(kù)中有兩種深度學(xué)習(xí)的模型：序列模型和通用模型，序列模型是實(shí)現(xiàn)全連接網(wǎng)絡(luò)的最好方式，序列模型各層之間是依次順序的線性關(guān)系，序列模型是多個(gè)網(wǎng)絡(luò)層的線性堆棧，可以從keras庫(kù)中導(dǎo)入序列模型。（2）建立輸入層與第一個(gè)隱藏層。keras庫(kù)中已經(jīng)內(nèi)建了各種神經(jīng)網(wǎng)絡(luò)層，只需將各層的模型添加到整體框架中，并設(shè)置各層的參數(shù)，即可完成封裝。需要先添加輸入層和隱藏層，因?yàn)樘砑虞斎雽蛹刺砑虞斎氲墓?jié)點(diǎn)數(shù)，這里需要搭配一個(gè)隱蔽層來完成參數(shù)的設(shè)置，輸入神經(jīng)元的個(gè)數(shù)由輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)來決定。其中，784表示輸出個(gè)數(shù)，即下一層的輸入個(gè)數(shù)；input_dim參數(shù)表示本層為輸入層；kernel_initializer表示使用正態(tài)分布的隨機(jī)數(shù)來初始化權(quán)重和方差；activation表示使用activation定義激活函數(shù)，在此層，我們可以使用ReLU函數(shù)。任務(wù)實(shí)施（3）建立輸出層。輸出層與前一個(gè)隱藏層相連，不用設(shè)定輸入個(gè)數(shù)，第一個(gè)參數(shù)用于設(shè)定輸出神經(jīng)單元的個(gè)數(shù)，這里的10為用獨(dú)熱碼表示的10種樣本標(biāo)簽。之后，我們可以通過summary()函數(shù)查看模型摘要，并查看每層的參數(shù)。（4）使用compile函數(shù)定義訓(xùn)練方式。使用loss參數(shù)設(shè)定代價(jià)函數(shù)，此處選擇交叉熵的方式；optimizer參數(shù)表示使用的是何種優(yōu)化器，Adam優(yōu)化器可以使訓(xùn)練的收斂速度更快；將metrics參數(shù)設(shè)定為'accuracy'，即使用準(zhǔn)確率來評(píng)估模型。優(yōu)化器的選擇還包括隨機(jī)梯度下降、AdaGrad、RMSprop等多種方式，不同的優(yōu)化器適用于不同的情況。在實(shí)際應(yīng)用中，Adam優(yōu)化器最常用。任務(wù)實(shí)施（5）訓(xùn)練模型。使用fit()函數(shù)訓(xùn)練模型，epochs參數(shù)表示訓(xùn)練周期，batch_size表示每批訓(xùn)練的數(shù)據(jù)的項(xiàng)數(shù)（以下簡(jiǎn)稱每批項(xiàng)數(shù)），訓(xùn)練周期和每批項(xiàng)數(shù)都可以根據(jù)測(cè)試進(jìn)行調(diào)整，此處只訓(xùn)練9次。需要注意的是，訓(xùn)練周期的增加確實(shí)會(huì)使準(zhǔn)確率變高，但同時(shí)會(huì)帶來過擬合的問題，因此要均衡考慮過擬合程度和訓(xùn)練時(shí)間的問題。（6）評(píng)估模型。使用evaluate函數(shù)評(píng)估準(zhǔn)確率，其中，scores[0]輸出的為損失率，scores[0]輸出的為準(zhǔn)確率

。任務(wù)8.3深度學(xué)習(xí)任務(wù)情景相信很多人對(duì)“深度學(xué)習(xí)”這個(gè)詞語(yǔ)已經(jīng)不陌生了，但是，“人工智能”、“深度學(xué)習(xí)”、“機(jī)器學(xué)習(xí)”及“神經(jīng)網(wǎng)絡(luò)”這些詞語(yǔ)之間有什么關(guān)系呢？在此，本將任務(wù)作為拓展部分來為大家簡(jiǎn)單介紹在人工智能領(lǐng)域發(fā)光發(fā)熱的深度學(xué)習(xí)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域，其動(dòng)機(jī)在于建立模擬人腦進(jìn)行分析、學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，模仿人腦的機(jī)制來解釋數(shù)據(jù)，如圖像、聲音和文本。深度學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。包含多個(gè)隱藏層的MLP就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征，從而發(fā)現(xiàn)數(shù)據(jù)的分布式特征。任務(wù)情景下面我們通過深度學(xué)習(xí)中著名的卷積神經(jīng)網(wǎng)絡(luò)（ConvolutionalNeuralNetwork，CNN）進(jìn)行MNIST集中手寫數(shù)字的識(shí)別。卷積神經(jīng)網(wǎng)絡(luò)的基本模塊是由輸入層、輸出層和多個(gè)隱藏層組成的，隱藏層可分為卷積層、池化層、線性整流（ReLU）層和全連接層。與其他圖像分類算法相比，卷積神經(jīng)網(wǎng)絡(luò)算法使用相對(duì)較少的預(yù)處理操作。這意味著卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)使用傳統(tǒng)算法中手工設(shè)計(jì)的過濾器。它們

可用于圖像和視頻識(shí)別，推薦系統(tǒng)，圖像分類，醫(yī)學(xué)圖像分析，以及自然語(yǔ)言處理。知識(shí)準(zhǔn)備1．與MLP的對(duì)比

MLP有幾個(gè)缺點(diǎn)，特別是在圖像處理方面。MLP對(duì)每個(gè)輸入使用一個(gè)感知機(jī)（例如，對(duì)于圖像中的像素，在RGB情況下乘以3）。對(duì)于大圖像，權(quán)重迅速變得難以管理。想象一個(gè)圖像，該圖像擁有224×224×3個(gè)像素，且用全連接層作為直接第一個(gè)隱藏層，具有100

000個(gè)感知機(jī)，連接總數(shù)將是224×224×3×100

000=1

502

800

000個(gè)（約150億個(gè)），這是不可能處理的。另外，MLP對(duì)輸入圖像及其移位版本的反應(yīng)不同，它們不是平移不變的，且當(dāng)圖像變平為MLP時(shí)，空間信息會(huì)丟失?？拷墓?jié)點(diǎn)很重要，因?yàn)樗鼈冇兄诙x圖像的特征。因此，我們需要掌握一種利用圖像特征（像素）的空間相關(guān)性的方法。知識(shí)準(zhǔn)備

可以用以下3點(diǎn)概括用全連接神經(jīng)網(wǎng)絡(luò)處理大尺寸圖像所具有的3個(gè)明顯的缺點(diǎn)：（3）大量的參數(shù)很快會(huì)導(dǎo)致網(wǎng)絡(luò)過擬合。（1）將圖像展開為向量會(huì)丟失空間信息。（2）參數(shù)過多導(dǎo)致效率低下及訓(xùn)練困難。知識(shí)準(zhǔn)備

與常規(guī)神經(jīng)網(wǎng)絡(luò)不同，卷積神經(jīng)網(wǎng)絡(luò)的各層中的神經(jīng)元是按三維排列的，具有寬度、高度和深度。其中的寬度和高度是很好理解的，因?yàn)楸旧砭矸e就是一個(gè)二維模板。但是卷積神經(jīng)網(wǎng)絡(luò)中的深度指的是激活數(shù)據(jù)體的第三個(gè)維度，而不是整個(gè)網(wǎng)絡(luò)的深度，整個(gè)網(wǎng)絡(luò)的深度指的是網(wǎng)絡(luò)的層數(shù)。舉個(gè)例子來理解寬度、高度和深度的概念，假如用CIFAR-10中的圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)體，該輸入數(shù)據(jù)體的維度是32×32×3（寬度×高度×深度）。我們將看到，層中的神經(jīng)元將只與前一層中的一小塊區(qū)域連接，而不是采取全連接方式。至于對(duì)CIFAR-10中的圖像進(jìn)行分類的卷積網(wǎng)絡(luò)，其最后的輸出層的維度是1×1×10，因?yàn)樵诰矸e神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的最后部分，將會(huì)把全尺寸的圖像壓縮為包含分類評(píng)分的一個(gè)向量，向量是在深度方向上排列的。全連接神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的對(duì)比圖如圖8-22所示。圖8-22全連接神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的對(duì)比圖知識(shí)準(zhǔn)備圖8-22的左側(cè)是一個(gè)3層的全連接神經(jīng)網(wǎng)絡(luò)；圖8-22的右側(cè)是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，將它的神經(jīng)元排列成3個(gè)維度（寬度、高度和深度）。卷積神經(jīng)網(wǎng)絡(luò)的每層都將三維的輸入數(shù)據(jù)變化為神經(jīng)元三維的激活數(shù)據(jù)并輸出。在圖8-22的右側(cè)，紅色的輸入層代表輸入圖像，所以它的寬度和高度就是圖像的寬度和高度，它的深度是3（代表了紅、綠、藍(lán)3種顏色通道），與紅色相鄰的藍(lán)色部分是經(jīng)過卷積和池化的激活值（也可以看作是神經(jīng)元），后面是卷積池化層。圖8-22全連接神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的對(duì)比圖知識(shí)準(zhǔn)備2．卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)通常包含以下幾種層：

（1）卷積層（ConvolutionalLayer），卷積神經(jīng)網(wǎng)路中的每個(gè)卷積層由若干卷積單元組成，每個(gè)卷積單元的參數(shù)都是通過反向傳播算法優(yōu)化得到的。卷積運(yùn)算的目的是提取輸入的不同特征，第一個(gè)卷積層可能只能提取一些低級(jí)的特征（如邊緣、線條和角等），更多層的網(wǎng)絡(luò)能從低級(jí)特征中迭代提取更復(fù)雜的特征。（2）線性整流層（RectifiedLinearUnitsLayer，ReLULayer，即ReLU層），這一層神經(jīng)的活性化函數(shù)（ActivationFunction）使用ReLU函數(shù)，即f(x)=max(0,x)。知識(shí)準(zhǔn)備（3）池化層（PoolingLayer），通常在卷積層之后會(huì)得到維度很大的特征，將特征切成幾個(gè)區(qū)域，取其最大值或均值，得到新的、維度較小的特征。（4）全連接層（Fully-Connectedlayer），把所有的局部特征結(jié)合形成全局特征，用來計(jì)算最后每類的得分。知識(shí)準(zhǔn)備1）卷積層卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心。在圖像識(shí)別里提到的卷積是二維卷積，即離散二維濾波器（也稱作卷積核）與二維圖像進(jìn)行卷積操作，簡(jiǎn)單來講，就是二維濾波器滑動(dòng)到二維圖像上的所有位置，并在每個(gè)位置上與該像素點(diǎn)及其領(lǐng)域像素點(diǎn)做內(nèi)積。卷積操作被廣泛應(yīng)用于圖像處理領(lǐng)域，用不同的卷積核可以提取不同的特征。在深層卷積神經(jīng)網(wǎng)絡(luò)中，通過卷積操作可以提取出圖像中從低級(jí)到高級(jí)的特征。圖8-23卷積層的提取方式知識(shí)準(zhǔn)備

卷積操作是通過卷積核對(duì)每個(gè)通道的矩陣先從左到右（卷積核一般是3×3的矩陣）再?gòu)纳现料碌剡M(jìn)行互相關(guān)運(yùn)算（卷積操作也會(huì)保留位置信息），就像一個(gè)小的窗口一樣，從左上角一步步滑動(dòng)到右下角，滑動(dòng)的步長(zhǎng)是個(gè)超參數(shù)，互相關(guān)運(yùn)算的意思就是對(duì)應(yīng)位置相乘再相加，最后

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《機(jī)器學(xué)習(xí)技術(shù)》課件 第八章 神經(jīng)網(wǎng)絡(luò)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《機(jī)器學(xué)習(xí)技術(shù)》課件第八章神經(jīng)網(wǎng)絡(luò)