![深度學習Deep-Learning【精品PPT文檔】_第1頁](http://file4.renrendoc.com/view/becfcefa8648d349e46ffecbd664ffbf/becfcefa8648d349e46ffecbd664ffbf1.gif)
![深度學習Deep-Learning【精品PPT文檔】_第2頁](http://file4.renrendoc.com/view/becfcefa8648d349e46ffecbd664ffbf/becfcefa8648d349e46ffecbd664ffbf2.gif)
![深度學習Deep-Learning【精品PPT文檔】_第3頁](http://file4.renrendoc.com/view/becfcefa8648d349e46ffecbd664ffbf/becfcefa8648d349e46ffecbd664ffbf3.gif)
![深度學習Deep-Learning【精品PPT文檔】_第4頁](http://file4.renrendoc.com/view/becfcefa8648d349e46ffecbd664ffbf/becfcefa8648d349e46ffecbd664ffbf4.gif)
![深度學習Deep-Learning【精品PPT文檔】_第5頁](http://file4.renrendoc.com/view/becfcefa8648d349e46ffecbd664ffbf/becfcefa8648d349e46ffecbd664ffbf5.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、深度學習Deep Learning目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用深度學習概念機器學習(Machine Learning,ML)主要是研究如何使計算機從給定的數(shù)據(jù)中學習規(guī)律,即從觀測數(shù)據(jù)(樣本)中尋找規(guī)律,并利用學習到的規(guī)律(模型)對未知或無法觀測的數(shù)據(jù)進行預測。目前,主流的機器學習算法是基于統(tǒng)計的方法,也叫統(tǒng)計機器學習。人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN),也簡稱神經(jīng)網(wǎng)絡,是眾多機器學習算法中比較接近生物神經(jīng)網(wǎng)絡特性的數(shù)學模型。人工神經(jīng)網(wǎng)絡通過模擬生物神經(jīng)網(wǎng)絡(大腦)的結構和功能,由大量的節(jié)點(或
2、稱“神經(jīng)元”,或“單元”)和之間相互聯(lián)接構成,可以用來對數(shù)據(jù)之間的復雜關系進行建模。深度學習概念2006 年,Hinton and Salakhutdinov 發(fā)現(xiàn)多層前饋神經(jīng)網(wǎng)絡可以先通過逐層預訓練,再用反向傳播算法進行精調的方式進行有效學習。并且近年來計算機計算能力的提高(大規(guī)模并行計算,GPU),計算機已經(jīng)可以訓練大規(guī)模的人工神經(jīng)網(wǎng)絡。隨著深度的人工神經(jīng)網(wǎng)絡在語音識別和圖像分類等任務上的巨大成功,越來越多的人開始關注這一個“嶄新”的研究領域:深度學習。深度學習(Deep Learning,DL)是從機器學習中的人工神經(jīng)網(wǎng)絡發(fā)展出來的新領域。早期所謂的“深度”是指超過一層的神經(jīng)網(wǎng)絡。但隨著
3、深度學習的快速發(fā)展,其內涵已經(jīng)超出了傳統(tǒng)的多層神經(jīng)網(wǎng)絡,甚至機器學習的范疇,逐漸朝著人工智能的方向快速發(fā)展。深度學習歷史1958 年Rosenblatt 感知器1969 年Minsky XOR1986 年Hinton、LeCun 人工神經(jīng)網(wǎng)絡(BP算法)1998 年LeCun 卷積神經(jīng)網(wǎng)絡2006 Hinton在DBN中提出了一種逐層預訓練方法, 解決了梯度彌散問題2008 Vincent等提出了降噪自編碼器2011 Rafir等提出了收縮自編碼器2012 微軟研究員建立深度神經(jīng)網(wǎng)絡隱馬爾科夫混合模型, 在語音識別領域取得突深度學習歷史2012 Krizhevsky 等提出應用于ImageNe
4、t的AlexNet, 在圖像分類領域取得突破2012 Ng在“GoogleBrain”項目中使用無監(jiān)督深度學習方法2015 Xu提出了結合注意力的場景識別2015 微軟研究員He等人提出了擁有152層的深度殘差網(wǎng)絡深度學習難點參數(shù)過多,影響訓練非凸優(yōu)化問題:即存在局部最優(yōu)而非全局最優(yōu)解,影響迭代下層參數(shù)比較難調參數(shù)解釋起來比較困難計算資源要大數(shù)據(jù)要多算法效率要好:即收斂快深度學習的局限性模型規(guī)模與訓練速度、訓練精度之間的權衡。 一般地,相同數(shù)據(jù)集下,模型規(guī)模越大,訓練精度越高,訓練速度會越慢。如何在保證一定的訓練精度的前提下,提高訓練速度,是深度學習方向研究的課題之一。深度學習網(wǎng)絡的架構規(guī)模、
5、參數(shù)選擇等問題都是由經(jīng)驗來確定。深度學習由于缺乏邏輯推理能力, 在面對需要復雜推理的任務時受到一定限制。目前大多數(shù)的深度學習方法都基于有監(jiān)督學習。而在實際生活中, 大部分事物都是未知的、不帶標記的, 這就增加了可以發(fā)現(xiàn)事物內在結構關系的無監(jiān)督學習算法的需求。深度學習的優(yōu)勢深度學習緩解了傳統(tǒng)訓練算法的局部最小性。深度學習具有多層非線性映射的深層結構,可以完成復雜的函數(shù)逼近。深度學習理論上可獲取分布式表示,即可通過逐層學習算法獲取輸入數(shù)據(jù)的主要驅動變量。目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用向量向量的模和范數(shù)常見的向量矩陣矩陣的基本運算矩陣的基本
6、運算常見的矩陣常見的矩陣導數(shù)向量導數(shù)導數(shù)法則導數(shù)法則導數(shù)法則常用函數(shù)及其導數(shù)常用函數(shù)及其導數(shù)向量函數(shù)及其導數(shù)按位計算的向量函數(shù)及其導數(shù)logistic函數(shù)softmax函數(shù)softmax函數(shù)softmax函數(shù)softmax函數(shù)目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用機器學習中的一些概念數(shù)據(jù):指所有能被計算機程序處理的對象的總稱,可以是數(shù)字、字母和符號等。在不同的任務中,表現(xiàn)形式不一樣,比如圖像、聲音、文字、傳感器數(shù)據(jù)等。特征:機器學習中很多算法的輸入要求是數(shù)學上可計算的。而在現(xiàn)實世界中,原始數(shù)據(jù)通常是并不都以連續(xù)變量或離散變量的形式存在的。我們
7、首先需要將抽取出一些可以表征這些數(shù)據(jù)的數(shù)值型特征。這些數(shù)值型特征一般可以表示為向量形式,也稱為特征向量。機器學習中的一些概念特征學習:原始數(shù)據(jù)的特征有很多,但是并不是所有的特征都是有用的。并且,很多特征通常是冗余并且易變的。我們需要抽取有效的、穩(wěn)定的特征。傳統(tǒng)的特征提取是通過人工方式進行的,這需要大量的人工和專家知識。即使這樣,人工總結的特征在很多任務上也不能滿足需要。因此,如何自動地學習有效的特征也成為機器學習中一個重要的研究內容,也就是特征學習,也叫表示學習。特征學習分成兩種,一種是特征選擇,是在很多特征集合選取有效的子集;另一種是特征提取,是構造一個新的特征空間,并將原始特征投影在新的空
8、間中。機器學習中的一些概念樣本:是指按照一定的抽樣規(guī)則從全部數(shù)據(jù)中取出的一部分數(shù)據(jù),是指實際觀測得到的數(shù)據(jù)。在有監(jiān)督學習中,需要提供一組有輸出目標的樣本用來學習模型以及檢驗模型的好壞。正例和負例:對于兩類分類問題,類別可以表示為+1,1,或者直接用正負號表示。因此,常用正例和負例來分別表示屬于不同類別的樣本。機器學習中的一些概念判別函數(shù):經(jīng)過特征抽取后,一個樣本可以表示為k 維特征空間中的一個點。為了對這個特征空間中的點進行區(qū)分,就需要尋找一些超平面來將這個特征空間分為一些互不重疊的子區(qū)域,使得不同類別的點分布在不同的子區(qū)域中,這些超平面就成為判別界面。為了定義這些用來進行空間分割的超平面,就
9、需要引入判別函數(shù)的概念。假設變量 為特征空間中的點,這個超平面由所有滿足函數(shù)f(z) = 0 的點組成。這里的 f(z)就稱為判別函數(shù)。有了判別函數(shù),分類就變得很簡單,就是看一個樣本在特征空間中位于哪個區(qū)域,從而確定這個樣本的類別。判別函數(shù)的形式多種多樣,在自然語言處理中,最為常用的判別函數(shù)為線性函數(shù)。機器學習中的一些概念學習算法:就是如何從訓練集的樣本中,自動學習決策函數(shù)的參數(shù)。不同機器學習算法的區(qū)別在于決策函數(shù)和學習算法的差異。相同的決策函數(shù)可以有不同的學習算法。比如線性分類器,其參數(shù)的學習算法可以是感知器、支持向量機以及梯度下降法等。通過一個學習算法進行自動學習參數(shù)的過程也叫作訓練過程。
10、機器學習機器學習損失函數(shù)過擬合結構風險最小化原則損失函數(shù)損失函數(shù)損失函數(shù)損失函數(shù)機器學習算法類型:有監(jiān)督學習機器學習算法類型:無監(jiān)督學習參數(shù)估計梯度下降法Early-Stop學習率設置:動量法學習率設置:AdaGrad學習率設置:AdaDelta學習率設置:AdaDelta線性回歸平方損失函數(shù)平方損失函數(shù)最小二乘法估計梯度下降法線性分類線性分類圖中給了一個兩維數(shù)據(jù)的判別函數(shù)以及對應的判別界面。在二維空間中,分類界面為一個直線。在三維空間中,分類界面為一個平面。在高維空間中,分類界面為一個超平面。對于線性函數(shù)來說,權重向量在線性空間中垂直于分類界面的向量。Logistic回歸Logistic回歸
11、梯度下降法多類線性分類多類線性分類SoftMax回歸SoftMax回歸SoftMax回歸梯度下降法梯度下降法梯度下降法評價方法評價方法F1值F1 值是根據(jù)正確率和召回率二者給出的一個綜合的評價指標,具體定義如下:目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用感知器生物神經(jīng)細胞生物神經(jīng)細胞感知器模型感知器兩類感知器算法目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用人工神經(jīng)網(wǎng)絡神經(jīng)元神經(jīng)元示例激活函數(shù)激活函數(shù)激活函數(shù)前饋神經(jīng)網(wǎng)絡前饋計算前饋計算將前饋網(wǎng)絡應用于機器學習參數(shù)估計反向傳播算法反向傳播算法反向傳播算法
12、誤差項反向傳播反向傳播算法梯度消失問題梯度消失問題梯度消失問題我們可以看到,sigmoid型函數(shù)的值域都小于1。這樣誤差經(jīng)過每一層傳遞都會不斷衰減。當網(wǎng)絡層數(shù)很深時,梯度就會不停的衰減,甚至消失,使得整個網(wǎng)絡很難訓練。這就是所謂的梯度消失問題(Vanishing Gradient Problem),也叫梯度彌散。減輕梯度消失問題的一個方法是使用線性激活函數(shù)(比如rectifier 函數(shù))或近似線性函數(shù)(比如softplus 函數(shù))。這樣,激活函數(shù)的導數(shù)為1,誤差可以很好地傳播,訓練速度得到了很大的提高。目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用卷
13、積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡由卷積層和下采樣層交替層疊而成。卷積層采用權重共享, 使得網(wǎng)絡的參數(shù)減少;下采樣層由于采用最大值或均值下采樣的方式, 使得圖像維度降低。通過卷積和下采樣學習到的特征具有平移、旋轉不變性。卷積神經(jīng)網(wǎng)絡架構非常適合處理圖像數(shù)據(jù), 隨著網(wǎng)絡層數(shù)的增加, 卷積神經(jīng)網(wǎng)絡能夠從原始數(shù)據(jù)中抽取更抽象的特征, 更加有利于圖像的識別。卷積兩維卷積卷積層:用卷積來代替全連接卷積層:用卷積來代替全連接全連接層和卷積層二維卷積層特征映射特征映射兩維卷積層的映射關系連接表兩維卷積層示例子采樣層子采樣層卷積神經(jīng)網(wǎng)絡示例:LeNet-5LeNet 示例LeNet 示例LeNet 示例梯度計
14、算卷積層的梯度卷積層的梯度卷積層的梯度卷積層的梯度子采樣層的梯度子采樣層的梯度目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用循環(huán)神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡從數(shù)學上講,公式7.1可以看成一個動態(tài)系統(tǒng)。動態(tài)系統(tǒng)是指系統(tǒng)的狀態(tài)按照一定的規(guī)律隨時間變化的系統(tǒng)。因此,活性值 在很多文獻上也稱為狀態(tài)。但這里的狀態(tài)是數(shù)學上的概念,區(qū)別與我們在前饋網(wǎng)絡中定義的神經(jīng)元的狀態(tài)。理論上循環(huán)神經(jīng)網(wǎng)絡可以近似任意的動態(tài)系統(tǒng)。圖給出了循環(huán)神經(jīng)網(wǎng)絡的示例。循環(huán)神經(jīng)網(wǎng)絡的參數(shù)訓練可以通過隨時間進行反向傳播(Backpropaga -tion ThroughTime,BPTT)算法。但循環(huán)
15、神經(jīng)網(wǎng)絡的一個最大問題是訓練時梯度需要隨著時間進行反向傳播。當輸入序列比較長時,會存在梯度爆炸和消失問題。長短時記憶神經(jīng)網(wǎng)絡(long short memory neural network,LSTM)是循環(huán)神經(jīng)網(wǎng)絡的一個擴展。循環(huán)神經(jīng)網(wǎng)絡的示例簡單循環(huán)網(wǎng)絡簡單循環(huán)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡又稱遞歸神經(jīng)網(wǎng)絡。遞歸神經(jīng)網(wǎng)絡會對前面的信息進行記憶,并應用于當前層計算輸出, 即隱層之間的節(jié)點有連接。遞歸神經(jīng)網(wǎng)絡一次處理一個輸入序列元素, 每個節(jié)點同時包含過去時刻序列元素的歷史信息。遞歸神經(jīng)網(wǎng)絡主要用于處理時序數(shù)據(jù), 常應用在預測文本和語音識別中。梯度梯度梯度長期依賴問題改進方案改進方案為了解決這個問題,Hoc
16、hreiter和Schmidhuber提出一個非常好的解決方案,就是引入門機制(Gating Mechanism)來控制信息的累積速度,并可以選擇遺忘之前累積的信息。這就是下面要介紹的長短時記憶神經(jīng)網(wǎng)絡。長短時記憶神經(jīng)網(wǎng)絡:LSTM長短時記憶神經(jīng)網(wǎng)絡:LSTMLSTM結構示例門限循環(huán)單元:GRU目錄深度學習簡介數(shù)學基礎機器學習簡介感知器前饋神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡循環(huán)神經(jīng)網(wǎng)絡深度學習應用AlphaGo概述計算機圍棋起源于20世紀60年代, 長期以來, 它被認為是人工智能領域的一大挑戰(zhàn), 并為智能學習算法的研究提供了一個很好的測試平臺。圍棋的計算復雜度約為250。如果采用傳統(tǒng)的暴力搜索方式, 按照現(xiàn)
17、有的計算能力是遠遠無法解決圍棋問題的。人工智能領域一個里程碑式的工作是由Deep-Mind 在2016年初發(fā)表于Nature上的圍棋AI:AlphaGo。AlphaGo概述AlphaGo的問世將深度強化學習的研究推向了新的高度。它創(chuàng)新性地結合深度強化學習和蒙特卡羅樹搜索, 通過策略網(wǎng)絡選擇落子位置降低搜索寬度, 使用價值網(wǎng)絡評估局面以減小搜索深度, 使搜索效率得到了大幅提升, 勝率估算也更加精確。與此同時, AlphaGo使用強化學習的自我博弈來對策略網(wǎng)絡進行調整, 改善策略網(wǎng)絡的性能, 使用自我對弈和快速走子結合形成的棋譜數(shù)據(jù)進一步訓練價值網(wǎng)絡。最終在線對弈時, 結合策略網(wǎng)絡和價值網(wǎng)絡的蒙特
18、卡羅樹搜索在當前局面下選擇最終的落子位置。AlphaGo原理分析AlphaGo創(chuàng)新性地結合深度強化學習和蒙特卡羅樹搜索, 通過價值網(wǎng)絡(value network)評估局面以減小搜索深度, 利用策略網(wǎng)絡(policy network)降低搜索寬度, 使搜索效率得到大幅提升, 勝率估算也更加精確。AlphaGo的原理流程主要包含線下學習和在線對弈兩部分。AlphaGo原理分析AlphaGo的線下學習AlphaGo的線下學習包含3個階段:第1 階段, 深智團隊使用棋圣堂圍棋服務器(Kiseido Go server, KGS)上3000萬個專業(yè)棋手對弈棋譜的落子數(shù)據(jù), 基于監(jiān)督學習得到一個策略網(wǎng)絡
19、, 來預測棋手的落子情況, 稱之為監(jiān)督學習的策略網(wǎng)絡 。訓練策略網(wǎng)絡時采用隨機梯度升序法更新網(wǎng)絡權重 (197) 在使用全部48個輸入特征的情況下, 預測準確率達到了55.7%, 這遠遠高于其他方法的結果。同時他們也使用了局部特征匹配和線性回歸的方法訓練了一個快速走子策略網(wǎng)絡 ,在犧牲部分準確度的情況下極大地提高了走棋的速率。 AlphaGo的線下學習第2階段,在第1階段結果的基礎上, 使用強化學習進一步對策略網(wǎng)絡進行學習, 得到強化學習的策略網(wǎng)絡 。訓練過程中先使用監(jiān)督學習的策略網(wǎng)絡對強化學習的策略網(wǎng)絡進行初始化, 然后兩者通過“自我博弈”來改善策略網(wǎng)絡的性能。訓練過程中采用策略梯度算法,
20、按照預期結果最大值的方向, 更新權重。 (198)其中 是在時間步長為t 時的獎賞, 勝方為+1、敗方為1。在與監(jiān)督學習的策略網(wǎng)絡 的對弈中, 強化學習的策略網(wǎng)絡 能夠獲得80%的勝率。AlphaGo的線下學習第3階段, 使用“自我博弈”產(chǎn)生的棋譜, 根據(jù)最終勝負結果來訓練價值網(wǎng)絡 。訓練價值網(wǎng)絡時, 使用隨機梯度降序法來最小化預測值 和相應結果z間的差值。 (199)訓練好的價值網(wǎng)絡可以對棋局進行評估, 預測最終勝負的概率。AlphaGo的線下學習AlphaGo的在線對弈AlphaGo通過蒙特卡羅樹搜索將策略網(wǎng)絡和價值網(wǎng)絡結合起來, 利用前向搜索選擇動作, 主要包含5個步驟。預處理: 利用當
21、前棋盤局面提取特征, 作為深度網(wǎng)絡的輸入, 最終的AlphaGo網(wǎng)絡輸入包含了48個特征層。選擇: 每次模擬時從根節(jié)點出發(fā)遍歷搜索樹, 根據(jù)最大動作值Q和激勵值u(s,a)選擇下一個節(jié)點。 (200) 其中N(s,a)是訪問次數(shù)。遍歷進行到步驟L時, 節(jié)點記為 。 AlphaGo的在線對弈展開: 訪問次數(shù)達到一定數(shù)目時, 葉節(jié)點展開, 展開時被監(jiān)督學習策略網(wǎng)絡 處理一次, 此時的輸出概率保存為對應動作的前向概率P(s, a)= ,根據(jù)前向概率計算不同落子位置往下發(fā)展的權重。評估: 葉節(jié)點有兩種評估方式: 價值網(wǎng)絡的估值 和快速走子產(chǎn)生的結果 。這是因為棋局開始時, 價值網(wǎng)絡的估值比較重要, 隨
22、著棋局的進行, 局面狀態(tài)變得復雜, 這時會更加看重快速走子產(chǎn)生的結果。兩者通過加權的方式計算葉節(jié)點的估值 。AlphaGo的在線對弈備份: 將評估結果作為當前棋局下一步走法的Q值。 (201)其中1(s,a,i)表示進行第i次模擬時狀態(tài)動作對(s,a)是否被訪問。Q值越大, 之后的模擬選擇此走法的次數(shù)越多。模擬結束時, 遍歷過的節(jié)點的狀態(tài)動作值和訪問次數(shù)得到更新。每個節(jié)點累計經(jīng)過此節(jié)點的訪問次數(shù)和平均估值。反復進行上述過程達到一定次數(shù)后搜索完成, 算法選取從根節(jié)點出發(fā)訪問次數(shù)最多的那條路徑落子。AlphaGo的原理圖AlphaGo的弱點攻其策略網(wǎng)絡,加大搜索空間。進入中盤后,職業(yè)選手如能建立起
23、比較復雜的局面,每一步棋都牽連很多個局部棋的命運(避免單塊、局部作戰(zhàn)),則AlphaGo需要搜索空間則急劇加大,短時間內得到的解的精度就會大打折扣。通俗地說,非常復雜的變化,人算不清楚,現(xiàn)階段計算機的計算力更沒辦法。為了在一定的時間內有結果,只能放棄搜索精度。AlphaGo的弱點攻其價值網(wǎng)絡,萬劫不復。AlphaGo的價值網(wǎng)絡極大地提高了之前單純依靠MCTS來做局勢判斷的精度,但離準確判斷圍棋局勢還有不小的差距。神經(jīng)網(wǎng)絡還不能完全避免在某些時候出現(xiàn)一些怪異(甚至錯誤)的判斷,更何況其訓練樣本還遠遠不足。這也是為什么有了價值網(wǎng)絡還仍然需要依靠快速走棋來判斷局勢。大家都曾經(jīng)懷疑過AlphaGo的打
24、劫能力,也感覺到了AlphaGo有躲避打劫的跡象。不能說AlphaGo不會打劫,而是害怕在棋局早期的多劫并存。打劫要乘早,太晚了搜索空間變小,即便價值網(wǎng)絡失效,還可以靠快速走棋網(wǎng)絡來彌補。開劫應該以在剛剛進入中盤時期為好(太早劫財還不夠),并且保持長時間不消劫,最好在盤面上能同時有兩處以上打劫。沒有了價值網(wǎng)絡的AlphaGo其實水平也就職業(yè)3-5段左右。AlphaGo評價圍棋因為復雜的落子選擇和龐大的搜索空間在人工智能領域具有顯著的代表性。 AlphaGo基于深度卷積神經(jīng)網(wǎng)絡的策略網(wǎng)絡和價值網(wǎng)絡減小了搜索空間, 并且在訓練過程中創(chuàng)新性地結合了監(jiān)督學習和強化學習, 最后成功地整合蒙特卡羅樹搜索算
25、法。其智能突出體現(xiàn)以下4點:棋譜數(shù)據(jù)可以完全獲取, 知識能夠自動表達。AlphaGo能夠較好地應對對手下一步棋的不確定性, 按搜索和評價策略進行決策。以標準賽制產(chǎn)生的人類棋手為智能標準, 設計了較好的智能評價準則。AlphaGo通過“自我博弈”產(chǎn)生3000萬盤棋,深度模仿人類頂尖棋手的對弈, 提升系統(tǒng)的智能水平。AlphaGo Zero概述在AlphaGo的基礎上, DeepMind進一步提出了AlphaGo Zero。AlphaGo Zero與之前的版本有很大不同, 如表6所示。AlphaGo Zero概述神經(jīng)網(wǎng)絡權值完全隨機初始化。 AlphaGo Zero不利用任何人類專家的經(jīng)驗或數(shù)據(jù)。
26、無需先驗知識。 AlphaGo Zero不再需要人工設計特征,僅利用棋盤上的黑白棋子的擺放情況作為原始數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡中。神經(jīng)網(wǎng)絡結構復雜性降低。舍棄快速走子網(wǎng)絡。神經(jīng)網(wǎng)絡引入殘差結構。硬件資源需求更少。學習時間更短。AlphaGo Zero棋力提升的關鍵因素一是使用基于殘差模塊構成的深度神經(jīng)網(wǎng)絡,不需要人工制定特征,通過原始棋盤信息便可提取相關表示特征。二是使用新的神經(jīng)網(wǎng)絡構造啟發(fā)式搜索函數(shù),優(yōu)化蒙特卡羅樹搜索算法,使用神經(jīng)網(wǎng)絡估值函數(shù)替換快速走子過程,使算法訓練學習和執(zhí)行走子所需要的時間大幅減少。AlphaGo Zero的訓練過程深度殘差網(wǎng)絡深度殘差網(wǎng)絡, 由何愷明等在2016年提出。深
27、度殘差網(wǎng)絡是真正意義上的“深度學習”, 與其他深度神經(jīng)網(wǎng)絡模型相比, 深度殘差網(wǎng)絡能進行成百乃至上千層的網(wǎng)絡學習。深度殘差網(wǎng)絡由多層“殘差單元”堆疊而成, 其通式表達為 (202) (203)其中, 是神經(jīng)網(wǎng)絡權值, 是中間輸出, 和 分別是第l個單元的輸入和輸出, F是一個殘差函數(shù),h是恒等映射, f為常用ReLU函數(shù)的激活函數(shù)。深度殘差網(wǎng)絡的優(yōu)點深度殘差網(wǎng)絡與其他常見的卷積型前向神經(jīng)網(wǎng)絡的最大不同在于多了一條跨層傳播直連接通路, 使得神經(jīng)網(wǎng)絡在進行前向傳播和后向傳播時, 傳播信號都能從一層直接平滑地傳遞到另一指定層。殘差函數(shù)引入批歸一化(batch normalization, BN)作優(yōu)
28、化, 使神經(jīng)網(wǎng)絡輸出分布白化, 從而使數(shù)據(jù)歸一化來抑制梯度彌散或是爆炸現(xiàn)象。AlphaGo Zero神經(jīng)網(wǎng)絡結構的主要模塊AlphaGo Zero中的蒙特卡羅樹搜索圍棋棋面總共有 19 * 19 = 361 個落子位置。假如電腦有足夠的計算能力,理論上來說,我們可以窮舉黑白雙方所有可能的落子位置,找到最優(yōu)落子策略。如果窮舉黑白雙方所有可能的落子位置,各種組合的總數(shù),大約是 250150 數(shù)量級。這個數(shù)太大了,以至于用當今世界最強大云計算系統(tǒng),算幾十年也算不完。有沒有不窮舉所有組合,就能找到最優(yōu)或者次優(yōu)落子策略的算法呢?有,蒙特卡羅樹搜索就是這樣一種算法。AlphaGo Zero中的蒙特卡羅樹搜
29、索AlphaGo Zero中的蒙特卡羅樹搜索搜索樹的當前狀態(tài)為s, 選擇動作為a, 各節(jié)點間的連接邊為e(s, a), 各條邊e存儲了四元集為遍歷次數(shù)N(s, a)、動作累計值W(s, a), 動作平均值Q(s, a), 先驗概率P(s, a)。與AlphaGo以往版不同, AlphaGo Zero將原來蒙特卡羅樹搜索所需要的4個階段合并成3個階段, 將原來的展開階段和評估階段合并成一個階段, 搜索過程具體為選擇階段、展開與評估階段、回傳階段。最后通過執(zhí)行階段選擇落子位置。AlphaGo Zero中的蒙特卡羅樹搜索:選擇階段假定搜索樹的根節(jié)點為 , 從根節(jié)點 到葉子節(jié)點 需要經(jīng)過的路徑長度為L
30、, 在路徑L上的每步t中,根據(jù)當前時刻的搜索樹的數(shù)據(jù)存儲情況, 由下式所得, 選擇值對應當前狀態(tài) 的最大動作值作為搜索路徑。 (204) (205) (206)AlphaGo Zero中的蒙特卡羅樹搜索:選擇階段其中: 是重要的超參數(shù), 平衡探索與利用間的權重分配, 當 較大時, 驅使搜索樹向未知區(qū)域探索,反之則驅使搜索樹快速收斂; 表示經(jīng)過狀態(tài) 的所有次數(shù); 為深度神經(jīng)網(wǎng)絡 的策略輸出對應動作a的概率值, 并且引入噪聲服從Dirchlet(0.03)分布, 慣性因子 = 0.25, 從而使神經(jīng)網(wǎng)絡的估值魯棒性得到增強.AlphaGo Zero中的蒙特卡羅樹搜索:展開與評估階段在搜索樹的葉子節(jié)
31、點, 進行展開與評估。當葉子節(jié)點處于狀態(tài) 時, 由神經(jīng)網(wǎng)絡 得到策略輸出 和估值輸出 。然后初始化邊 中的四元集: 。在棋局狀態(tài)估值時,需要對棋面旋轉n45,n0,1,7或雙面反射后輸入到神經(jīng)網(wǎng)絡。在神經(jīng)網(wǎng)絡進行盤面評估時, 其他并行線程皆會處于鎖死狀態(tài), 直至神經(jīng)網(wǎng)絡運算結束。AlphaGo Zero中的蒙特卡羅樹搜索:回傳階段當展開與評估階段完成后, 搜索樹中各節(jié)點連接邊的信息都已經(jīng)得到. 此時需要將搜索后所得最新結構由葉子節(jié)點回傳到根節(jié)點上進行更新. 訪問次數(shù) 、動作累計值 、動作平均值 。具體的更新方式為 (207) (208) (209)其中 為神經(jīng)網(wǎng)絡 的估值輸出。從式中可見, 隨
32、著模擬次數(shù)的增加, 動作平均值 會逐漸趨于穩(wěn)定, 且從數(shù)值形式上與神經(jīng)網(wǎng)絡的策略輸出 沒有直接關系。AlphaGo Zero中的蒙特卡羅樹搜索:執(zhí)行階段經(jīng)過1600次蒙特卡羅樹搜索, 樹中的各邊存儲著歷史信息, 根據(jù)這些歷史信息得到落子概率分布 , 是由葉子節(jié)點的訪問次數(shù)經(jīng)過模擬退火算法得到, 具體表示為 (210)其中模擬退火參數(shù)初始為1, 在前30步走子一直為1,然后隨著走子步數(shù)的增加而減小趨向于0。引入了模擬退火算法后, 極大地豐富圍棋開局的變化情況, 并保證在收官階段能夠作出最為有利的選擇。AlphaGo Zero中的蒙特卡羅樹搜索:執(zhí)行階段在執(zhí)行完落子動作后, 當前搜索樹的擴展子節(jié)點
33、及子樹的歷史信息會被保留, 而擴展子節(jié)點的所有父節(jié)點及信息都會被刪除, 在保留歷史信息的前提下,減少搜索樹所占內存空間。并最終以擴展節(jié)點作為新的根節(jié)點, 為下一輪蒙特卡羅樹搜索作準備。AlphaGo Zero的訓練流程AlphaGo Zero的訓練流程第1階段 假設當前棋面狀態(tài)為 , 以 作為數(shù)據(jù)起點, 得到距今最近的本方歷史7步棋面狀態(tài)和對方歷史8步棋面狀態(tài),分別記作 和 。并記本方執(zhí)棋顏色為c,拼接在一起, 記輸入元 為 。并以此開始進行評估。第2階段 使用基于深度神經(jīng)網(wǎng)絡 的蒙特卡羅樹搜索展開策略評估過程, 經(jīng)過1600次蒙特卡羅樹搜索, 得到當前局面 的策略 和參數(shù)下深度神經(jīng)網(wǎng)絡 輸出
34、的策略函數(shù) 和估值 。AlphaGo Zero的訓練流程第3階段 由蒙特卡羅樹搜索得到的策略 ,結合模擬退火算法, 在對弈前期, 增加落子位置多樣性, 豐富圍棋數(shù)據(jù)樣本。 一直持續(xù)這步操作, 直至棋局終了,得到最終勝負結果z。第4階段 根據(jù)上一階段所得的勝負結果z與價值 使用均方和誤差, 策略函數(shù) 和蒙特卡羅樹搜索的策略 使用交叉信息熵誤差, 兩者一起構成損失函數(shù)。同時并行反向傳播至神經(jīng)網(wǎng)絡的每步輸出, 使深度神經(jīng)網(wǎng)絡 的權值得到進一步優(yōu)化。深度學習在其他領域的應用在機器人領域的應用Levine等以卷積神經(jīng)網(wǎng)絡作為策略特征表示, 提出指導性策略搜索算法(guided policy search
35、,GPS), 將策略搜索轉化為監(jiān)督學習, 以視覺圖像作為輸入樣本, 實現(xiàn)直接端到端的從眼到手的機械臂操作控制。LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies J. Journal of Machine Learning Research,2016, 17(39): 1 40.深度學習在其他領域的應用在智能駕駛領域的應用普林斯頓大學的Chen等使用深度學習算法, 根據(jù)攝像頭采集的圖像數(shù)據(jù)預測目標的距離, 同時輸出操作指令。CHEN C, SEFF A, KORNHAUSER A
36、, et al. Deepdriving: learning affordance for direct perception in autonomous driving C /Proceedings of the IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2015: 2722 2730.深度學習在其他領域的應用在智能醫(yī)療領域的應用谷歌的Gulshan等使用深度卷積神經(jīng)網(wǎng)絡對13萬個視網(wǎng)膜照片進行訓練, 最終表現(xiàn)的水平和單個眼科醫(yī)生的水平相當。 斯坦福大學的Esteva等采用了深度卷積神經(jīng)網(wǎng)絡
37、, 對皮膚損傷照片進行訓練, 判斷水平達到了皮膚病學家的分類水平。GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs J. Jama, 2016, 316(22): 2402 2410.ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification o
38、f skin cancer with deep neural networks J. Nature,2017, 542(7639): 115 118.深度學習在其他領域的應用在大規(guī)模圖像數(shù)據(jù)集中領域的應用A Krizhevsky 等首次將卷積神經(jīng)網(wǎng)絡應用于ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽( ImageNet large scale visual recognition chall -enge,ILSVC) 中,所訓練的深度卷積神經(jīng)網(wǎng)絡在ILSVC2012 挑戰(zhàn)賽中,取得了圖像分類和目標定位任務的第一。KRIZHEVSKY A, SUTSKEVE I, HINTON G EImagenet classification with deep convolutional neural networksCAdvances in Neural Information Processing Systems ed Hook,NY: Cu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB37-T 4697-2024 溶劑型涂料生產(chǎn)企業(yè)安全生產(chǎn)風險管控和隱患排查治理體系建設實施指南
- 電商平臺的綠色產(chǎn)品定價策略探討
- 監(jiān)護人申請書范文
- 2024-2025版高中數(shù)學第三章空間向量與立體幾何3.1.5空間向量運算的坐標表示練習含解析新人教A版選修2-1
- 2024-2025學年四年級語文上冊第二單元明月5飛向月球備課教案北師大版
- 幼兒困難補助申請書
- 貧困生補助申請書表格
- 公證 強制執(zhí)行申請書
- 二零二五年度離婚協(xié)議范本:遺產(chǎn)繼承與債務清償協(xié)議3篇
- 電商平臺的會員制度設計與運營策略分析
- 部編版八年級語文上冊期末考試卷
- 2024年江蘇淮陰城市產(chǎn)業(yè)投資集團有限公司招聘筆試沖刺題(帶答案解析)
- 部編版人教版語文八年級下冊全冊課件
- 2024年太倉高新控股有限公司招聘筆試沖刺題(帶答案解析)
- 人教版七年級地理下冊《全冊完整》
- 2024年02月中央軍委后勤保障部2024年公開招考專業(yè)技能崗位文職人員筆試參考題庫附帶答案詳解
- 小學數(shù)學三年級下冊第八單元《數(shù)學廣角-搭配(二)》大單元集體備課整體設計
- 10kv高壓送電專項方案
- (高清版)TDT 1031.6-2011 土地復墾方案編制規(guī)程 第6部分:建設項目
- 2024年江蘇省高中學業(yè)水平測試生物試卷
- 露天采場危險有害因素辨識
評論
0/150
提交評論