2025神經網(wǎng)絡與深度學習

上傳人：1*** IP屬地：山東上傳時間：2025-01-13 格式：PPTX 頁數(shù)：752 大?。?7.16MB 積分：40 舉報 版權申訴

已閱讀5頁，還剩747頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

《神經網(wǎng)絡與深度學習》2025緒論《神經網(wǎng)絡與深度學習》20251.神經網(wǎng)絡與深度學習緒論,pptx2.神經網(wǎng)絡與深度學習機器學習概述,pptx3.神經網(wǎng)絡與深度學習前饋神經網(wǎng)絡.pptx4.神經網(wǎng)絡與深度學習線性模型,pptx5.神經網(wǎng)絡與深度學習無監(jiān)督學習.pptx6.神經網(wǎng)絡與深度學習深度信念網(wǎng)絡,pptx7.神經網(wǎng)絡與深度學習概率圖模型.pptx8.神經網(wǎng)絡與深度學習卷積神經網(wǎng)絡.pptx9.神經網(wǎng)絡與深度學習深度強化學習.pptx10.神經網(wǎng)絡與深度學習注意力機制與外部記憶.pptx11.神經網(wǎng)絡與深度學習深度生成模型,pptx12.神經網(wǎng)絡與深度學習序列生成模型,pptx13.神經網(wǎng)絡與深度學習網(wǎng)絡優(yōu)化與正則化.pptx關于本課程人工智能的一個子領域神經網(wǎng)絡：一種以（人工）神經元為基本單元的模型深度學習：一類機器學習問題，主要解決貢獻度分配問題。神經網(wǎng)絡深度學習《神經網(wǎng)絡與深度學習》3更詳細的課程概括《神經網(wǎng)絡與深度學習》4概述機器學習概述線性模型基礎網(wǎng)絡模型前饋神經網(wǎng)絡卷積神經網(wǎng)絡循環(huán)神經網(wǎng)絡網(wǎng)絡優(yōu)化與正則化記憶與注意力機制無監(jiān)督學習《神經網(wǎng)絡與深度學習》5進階模型概率圖模型玻爾茲曼機深度信念網(wǎng)絡深度生成模型深度強化學習序列生成模型課程大綱預備知識《神經網(wǎng)絡與深度學習》6線性代數(shù)微積分數(shù)學優(yōu)化概率論信息論《數(shù)學基礎》推薦教材《神經網(wǎng)絡與深度學習》7邱錫鵬,神經網(wǎng)絡與深度學習,機械工業(yè)出版社,2020，ISBN

9787111649687提供配套練習阿斯頓·張等,動手學深度學習,ISBN:

9787115505835https://d2l.ai/有PyTorch版Bishop,

C.M.

(2006).

Pattern

recognition

and

MachineLearning.

Springer.

ISBN

9780387310732.網(wǎng)上有中文版by馬春鵬推薦教材

Wright,

S.,

Nocedal,

(1999).

Numerical

optimization.Springer

Science,

35(67-68),

Boyd,

S.,

Vandenberghe,

(2004).

Convex

optimization.Cambridge

university

press.《神經網(wǎng)絡與深度學習》8推薦課程《神經網(wǎng)絡與深度學習》9

斯坦福大學CS224n:

Deep

Learning

for

Natural

LanguageProcessing/class/archive/cs/cs224n/cs224n.1194/ChrisManning主要講解自然語言處理領域的各種深度學習模型

斯坦福大學CS231n:

Convolutional

Neural

Networks

for

VisualRecognition/Fei-Fei

Andrej

Karpathy

主要講解CNN、RNN在圖像領域的應用加州大學伯克利分校CS

294:

Deep

Reinforcement

Learning/deeprlcourse/推薦材料《神經網(wǎng)絡與深度學習》10林軒田“機器學習基石”“機器學習技法”https://.tw/~htlin/mooc/李宏毅“1天搞懂深度學習”.tw/~tlkagk/slide/Tutorial_HYLee_Deep.pptx李宏毅“機器學習2020”https:///video/av94519857/頂會論文NeurIPS、ICLR、ICML、AAAI、IJCAIACL、EMNLPCVPR、ICCV

…《神經網(wǎng)絡與深度學習》11成績（研究生）《神經網(wǎng)絡與深度學習》12課程建設40%期末作業(yè)60%2人一組編程語言：Python人工智能《神經網(wǎng)絡與深度學習》13

人工智能（artificialintelligence，AI）就是讓機器具有人類的智能。“計算機控制”+“智能行為”人工智能這個學科的誕生有著明確的標志性事件，就是1956年的達特茅斯（Dartmouth）會議。在這次會議上，“人工智能”被提出并作為本研究領域的名稱。人工智能就是要讓機器的行為看起來就像是人所表現(xiàn)出的智能行為一樣。John

McCarthy（1927-2011）圖靈測試Alan

Turing《神經網(wǎng)絡與深度學習》14“一個人在不接觸對方的情況下，通過一種特殊的方式，和對方進行一系列的問答。如果在相當長時間內，他無法根據(jù)這些問題判斷對方是人還是計算機，那么就可以認為這個計算機是智能的”。---Alan

Turing

[1950]《Computing

Machinery

and

Intelligence》人工智能的研究領域《神經網(wǎng)絡與深度學習》15讓機器具有人類的智能機器感知（計算機視覺、語音信息處理）學習（模式識別、機器學習、強化學習）語言（自然語言處理）記憶（知識表示）決策（規(guī)劃、數(shù)據(jù)挖掘）發(fā)展歷史《神經網(wǎng)絡與深度學習》16如何開發(fā)一個人工智能系統(tǒng)？專家知識（人工規(guī)則）《神經網(wǎng)絡與深度學習》17What’s

theRule?機器學習《神經網(wǎng)絡與深度學習》18機器學習≈構建一個映射函數(shù)語音識別圖像識別圍棋機器翻譯f

“你好”f

“9”f

“6-5”f

“Hello!”“你好！”(落子位置)《神經網(wǎng)絡與深度學習》19芒果機器學習https:///How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-Science-people如果判斷芒果是否甜蜜？《神經網(wǎng)絡與深度學習》20芒果機器學習《神經網(wǎng)絡與深度學習》21從市場上隨機選取的芒果樣本（訓練數(shù)據(jù)），列出每個芒果的所有特征：如顏色，大小，形狀，產地，品牌以及芒果質量（輸出變量）：甜蜜，多汁，成熟度。設計一個學習算法來學習芒果的特征與輸出變量之間的相關性模型。下次從市場上買芒果時，可以根據(jù)芒果（測試數(shù)據(jù)）的特征，使用前面計算的模型來預測芒果的質量。知識知道怎么做專家系統(tǒng)…不知道怎么做容易做機器學習圖像識別自然語言處理語音識別不容易做強化學習圍棋《神經網(wǎng)絡與深度學習》22如何開發(fā)一個人工智能系統(tǒng)？規(guī)則深度學習機器學習當我們用機器學習來解決一些模式識別任務時，一般的流程包含以下幾個步驟：

淺層學習（Shallow

Learning）：不涉及特征學習，其特征主要靠人工經驗或特征轉換方法來抽取。特征工程（Feature

Engineering）《神經網(wǎng)絡與深度學習》24語義鴻溝：人工智能的挑戰(zhàn)之一底層特征VS

高層語義人們對文本、圖像的理解無法從字符串或者圖像的底層特征直接獲得床前明月光，疑是地上霜。舉頭望明月，低頭思故鄉(xiāng)?！渡窠浘W(wǎng)絡與深度學習》25表示學習《神經網(wǎng)絡與深度學習》26數(shù)據(jù)表示是機器學習的核心問題。特征工程：需要借助人類智能表示學習如何自動從數(shù)據(jù)中學習好的表示難點沒有明確的目標Bengio,

Yoshua,

Aaron

Courville,

and

Pascal

Vincent.

"Representation

learning:

reviewand

new

perspectives."

IEEE

transactions

pattern

analysis

and

machine

intelligence35.8

(2013):

1798-1828.什么是好的數(shù)據(jù)表示？《神經網(wǎng)絡與深度學習》27“好的表示”是一個非常主觀的概念，沒有一個明確的標準。但一般而言，一個好的表示具有以下幾個優(yōu)點：應該具有很強的表示能力。應該使后續(xù)的學習任務變得簡單。應該具有一般性，是任務或領域獨立的。語義表示如何在計算機中表示語義？局部（符號）表示分布式表示知識庫、規(guī)則嵌入：壓縮、低維、稠密向量《神經網(wǎng)絡與深度學習》28One-Hot向量一個生活中的例子：顏色《神經網(wǎng)絡與深度學習》29表示形式局部表示離散表示、符號表示One-Hot向量分布式(distributed)表示壓縮、低維、稠密向量用O(N)個參數(shù)表示O(2k)區(qū)間k為非0參數(shù)，k<N局部表示分布式表示A[1

000][0.250.5]B[0

100][0.2

0.9]C[0

010][0.8

0.2]D[0

001][0.9

0.1]分布式表示《神經網(wǎng)絡與深度學習》30詞嵌入（Word

Embeddings）https://indico.io/blog/visualizing-with-t-sne/《神經網(wǎng)絡與深度學習》31上海北京高興難過表示學習與深度學習一個好的表示學習策略必須具備一定的深度特征重用指數(shù)級的表示能力抽象表示與不變性抽象表示需要多步的構造/2008/11/24/concrete-and-abstract-representations-using-mathematical-tools/《神經網(wǎng)絡與深度學習》32傳統(tǒng)的特征提取《神經網(wǎng)絡與深度學習》33特征提取線性投影（子空間）PCA、LDA非線性嵌入LLE、Isomap、譜方法自編碼器特征提取VS表示學習特征提?。夯谌蝿栈蛳闰瀸θコ裏o用特征表示學習：通過深度模型學習高層語義特征深度學習通過構建具有一定“深度”的模型，可以讓模型來自動學習好的特征表示（從底層特征，到中層特征，再到高層特征），從而最終提升預測或識別的準確性?！渡窠浘W(wǎng)絡與深度學習》34表示學習與深度學習《神經網(wǎng)絡與深度學習》35深度學習的數(shù)學描述…淺層學習深度學習當??l

連續(xù)時，

比如??l

?? =

??l??l

，這個復合函數(shù)稱為神經網(wǎng)絡。??l??

為非線性函數(shù)，不一定連續(xù)?！渡窠浘W(wǎng)絡與深度學習》36神經網(wǎng)絡生物神經元單個神經細胞只有兩種狀態(tài)：興奮和抑制video:

structure

ofbrain《神經網(wǎng)絡與深度學習》38人腦有860億個神經元神經網(wǎng)絡如何學習？《神經網(wǎng)絡與深度學習》39赫布法則Hebb'sRule“當神經元A的一個軸突和神經元B很近，足以對它產生影響，并且持續(xù)地、重復地參與了對神經元B的興奮，那么在這兩個神經元或其中之一會發(fā)生某種生長過程或新陳代謝變化，以致于神經元A作為能使神經元B興奮的細胞之一，它的效能加強了?！?---加拿大心理學家Donald

Hebb，《行為的組織》，1949人腦有兩種記憶：長期記憶和短期記憶。短期記憶持續(xù)時間不超過一分鐘。如果一個經驗重復足夠的次數(shù)，此經驗就可儲存在長期記憶中。短期記憶轉化為長期記憶的過程就稱為凝固作用。人腦中的海馬區(qū)為大腦結構凝固作用的核心區(qū)域。人工神經元《神經網(wǎng)絡與深度學習》40人工神經網(wǎng)絡《神經網(wǎng)絡與深度學習》41人工神經網(wǎng)絡主要由大量的神經元以及它們之間的有向連接構成。因此考慮三方面：神經元的激活規(guī)則主要是指神經元輸入到輸出之間的映射關系，一般為非線性函數(shù)。網(wǎng)絡的拓撲結構不同神經元之間的連接關系。學習算法通過訓練數(shù)據(jù)來學習神經網(wǎng)絡的參數(shù)。人工神經網(wǎng)絡人工神經網(wǎng)絡由神經元模型構成，這種由許多神經元組成的信息處理網(wǎng)絡具有并行分布結構。雖然這里將神經網(wǎng)絡結構大體上分為三種類型，但是大多數(shù)網(wǎng)絡都是復合型結構，即一個神經網(wǎng)絡中包括多種網(wǎng)絡結構?！渡窠浘W(wǎng)絡與深度學習》42神經網(wǎng)絡??

(??3(??2(??1

))??l?? =

??l??l

??《神經網(wǎng)絡與深度學習》43如果解決貢獻度分配問題？偏導數(shù)貢獻度?

??(????)《神經網(wǎng)絡與深度學習》44???? ??

????

???????????

?????神經網(wǎng)絡天然不是深度學習，但深度學習天然是神經網(wǎng)絡。神經網(wǎng)絡發(fā)展史《神經網(wǎng)絡與深度學習》45神經網(wǎng)絡的發(fā)展大致經過五個階段。第一階段：模型提出在1943年，心理學家Warren

McCulloch和數(shù)學家Walter

Pitts和最早描述了一種理想化的人工神經網(wǎng)絡，并構建了一種基于簡單邏輯運算的計算機制。他們提出的神經網(wǎng)絡模型稱為MP模型。阿蘭·圖靈在1948年的論文中描述了一種“B型圖靈機”。(赫布型學習)1951年，McCulloch和Pitts的學生MarvinMinsky建造了第一臺神經網(wǎng)絡機，稱為SNARC。Rosenblatt[1958]最早提出可以模擬人類感知能力的神經網(wǎng)絡模型，并稱之為感知器（Perceptron），并提出了一種接近于人類學習過程（迭代、試錯）的學習算法。神經網(wǎng)絡發(fā)展史《神經網(wǎng)絡與深度學習》46第二階段：冰河期1969年，MarvinMinsky出版《感知器》一書，書中論斷直接將神經網(wǎng)絡打入冷宮，導致神經網(wǎng)絡十多年的“冰河期”。他們發(fā)現(xiàn)了神經網(wǎng)絡的兩個關鍵問題：1）基本感知器無法處理異或回路。2）電腦沒有足夠的能力來處理大型神經網(wǎng)絡所需要的很長的計算時間。1974年，哈佛大學的PaulWebos發(fā)明反向傳播算法，但當時未受到應有的重視。1980年，KunihikoFukushima（福島邦彥）提出了一種帶卷積和子采樣操作的多層神經網(wǎng)絡：新知機（Neocognitron）神經網(wǎng)絡發(fā)展史《神經網(wǎng)絡與深度學習》47第三階段：反向傳播算法引起的復興1983年，物理學家JohnHopfield對神經網(wǎng)絡引入能量函數(shù)的概念，并提出了用于聯(lián)想記憶和優(yōu)化計算的網(wǎng)絡（稱為Hopfield網(wǎng)絡），在旅行商問題上獲得當時最好結果，引起轟動。1984年，GeoffreyHinton提出一種隨機化版本的Hopfield網(wǎng)絡，即玻爾茲曼機。1986年，DavidRumelhart和JamesMcClelland對于聯(lián)結主義在計算機模擬神經活動中的應用提供了全面的論述，并重新發(fā)明了反向傳播算法。1986年，Geoffrey

Hinton等人將引入反向傳播算法到多層感知器1989年，LeCun等人將反向傳播算法引入了卷積神經網(wǎng)絡，并在手寫體數(shù)字識別上取得了很大的成功。神經網(wǎng)絡發(fā)展史《神經網(wǎng)絡與深度學習》48第四階段：流行度降低在20世紀90年代中期，統(tǒng)計學習理論和以支持向量機為代表的機器學習模型開始興起。相比之下，神經網(wǎng)絡的理論基礎不清晰、優(yōu)化困難、可解釋性差等缺點更加凸顯，神經網(wǎng)絡的研究又一次陷入低潮。神經網(wǎng)絡發(fā)展史《神經網(wǎng)絡與深度學習》49第五階段：深度學習的崛起

2006年，Hinton等人發(fā)現(xiàn)多層前饋神經網(wǎng)絡可以先通過逐層預訓練，再用反向傳播算法進行精調的方式進行有效學習。深度神經網(wǎng)絡在語音識別和圖像分類等任務上的巨大成功。2013年，AlexNet：第一個現(xiàn)代深度卷積網(wǎng)絡模型，是深度學習技術在圖像分類上取得真正突破的開端。AlexNet不用預訓練和逐層訓練，首次使用了很多現(xiàn)代深度網(wǎng)絡的技術隨著大規(guī)模并行計算以及GPU設備的普及，計算機的計算能力得以大幅提高。此外，可供機器學習的數(shù)據(jù)規(guī)模也越來越大。在計算能力和數(shù)據(jù)規(guī)模的支持下，計算機已經可以訓練大規(guī)模的人工神經網(wǎng)絡。深度學習革命《神經網(wǎng)絡與深度學習》50AI領域語音識別：可以使得詞錯誤率從1/4下降到1/8計算機視覺：目標識別、圖像分類等自然語言處理：分布式表示、機器翻譯、問題回答等信息檢索、社會化網(wǎng)絡三個Deep：DeepBlueDeep

QADeep

LearningToronto

大學Hinton

年Edinburgh

大學博士NYULecun

(Now

Facebook)87

年Hinton博士后Montreal大學Bengio

年M.

Jordan

博士后IDSIAJürgen

Schmidhuber早期的學術機構2018圖靈獎獲得者《神經網(wǎng)絡與深度學習》51常用的深度學習框架簡易和快速的原型設計自動梯度計算無縫CPU和GPU切換《神經網(wǎng)絡與深度學習》54課后作業(yè)復習數(shù)學知識附錄《數(shù)學基礎》編程練習熟悉基本的Numpy操作Numpy是Python中對于矩陣處理很實用的工具包/nndl/exercisechap1_warmup《神經網(wǎng)絡與深度學習》55《神經網(wǎng)絡與深度學習》2025前饋神經網(wǎng)絡內容神經網(wǎng)絡神經元網(wǎng)絡結構前饋神經網(wǎng)絡參數(shù)學習計算圖與自動微分優(yōu)化問題《神經網(wǎng)絡與深度學習》2神經網(wǎng)絡神經網(wǎng)絡《神經網(wǎng)絡與深度學習》4神經網(wǎng)絡最早是作為一種主要的連接主義模型。20世紀80年代后期，最流行的一種連接主義模型是分布式并行處理（Parallel

Distributed

Processing，PDP）網(wǎng)絡，其有3個主要特性：1）信息表示是分布式的（非局部的）；2）記憶和知識是存儲在單元之間的連接上；3）通過逐漸改變單元之間的連接強度來學習新的知識。引入誤差反向傳播來改進其學習能力之后，神經網(wǎng)絡也越來越多地應用在各種機器學習任務上。神經元生物神經元單個神經細胞只有兩種狀態(tài)：興奮和抑制video:

structure

ofbrain《神經網(wǎng)絡與深度學習》6人工神經元一個簡單的線性模型！《神經網(wǎng)絡與深度學習》7激活函數(shù)的性質《神經網(wǎng)絡與深度學習》8連續(xù)并可導（允許少數(shù)點上不可導）的非線性函數(shù)。可導的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來學習網(wǎng)絡參數(shù)。激活函數(shù)及其導函數(shù)要盡可能的簡單有利于提高網(wǎng)絡計算效率。激活函數(shù)的導函數(shù)的值域要在一個合適的區(qū)間內不能太大也不能太小，否則會影響訓練的效率和穩(wěn)定性。單調遞增???常見激活函數(shù)非零中心化的輸出會使得其后一層的神經元的輸入發(fā)生偏置偏移（biasshift），并進一步使得梯度下降的收斂速度變慢。《神經網(wǎng)絡與深度學習》9性質：飽和函數(shù)Tanh函數(shù)是零中心化的，而logistic函數(shù)的輸出恒大于0常見激活函數(shù)計算上更加高效生物學合理性單側抑制、寬興奮邊界在一定程度上緩解梯度消失問題《神經網(wǎng)絡與深度學習》10死亡ReLU問題（Dying

ReLU

Problem）常見激活函數(shù)Swish函數(shù)《神經網(wǎng)絡與深度學習》11常見激活函數(shù)高斯誤差線性單元（Gaussian

Error

Linear

Unit，GELU）其中P(X≤x)是高斯分布N(μ,σ2)的累積分布函數(shù)，其中μ,σ為超參數(shù)，一般設μ=0,σ=1即可由于高斯分布的累積分布函數(shù)為S型函數(shù)，因此GELU可以用Tanh函數(shù)或Logistic函數(shù)來近似《神經網(wǎng)絡與深度學習》12常見激活函數(shù)及其導數(shù)《神經網(wǎng)絡與深度學習》13人工神經網(wǎng)絡《神經網(wǎng)絡與深度學習》14人工神經網(wǎng)絡主要由大量的神經元以及它們之間的有向連接構成。因此考慮三方面：神經元的激活規(guī)則主要是指神經元輸入到輸出之間的映射關系，一般為非線性函數(shù)。網(wǎng)絡的拓撲結構不同神經元之間的連接關系。學習算法通過訓練數(shù)據(jù)來學習神經網(wǎng)絡的參數(shù)。網(wǎng)絡結構人工神經網(wǎng)絡由神經元模型構成，這種由許多神經元組成的信息處理網(wǎng)絡具有并行分布結構。圓形節(jié)點表示一個神經元，方形節(jié)點表示一組神經元?！渡窠浘W(wǎng)絡與深度學習》15前饋神經網(wǎng)絡網(wǎng)絡結構前饋神經網(wǎng)絡（全連接神經網(wǎng)絡、多層感知器）各神經元分別屬于不同的層，層內無連接。相鄰兩層之間的神經元全部兩兩連接。整個網(wǎng)絡中無反饋，信號從輸入層向輸出層單向傳播，可用一個有向無環(huán)圖表示?！渡窠浘W(wǎng)絡與深度學習》17前饋網(wǎng)絡給定一個前饋神經網(wǎng)絡，用下面的記號來描述這樣網(wǎng)絡：《神經網(wǎng)絡與深度學習》18信息傳遞過程前饋神經網(wǎng)絡通過下面公式進行信息傳播。前饋計算：《神經網(wǎng)絡與深度學習》19深層前饋神經網(wǎng)絡《神經網(wǎng)絡與深度學習》20通用近似定理根據(jù)通用近似定理，對于具有線性輸出層和至少一個使用“擠壓”性質的激活函數(shù)的隱藏層組成的前饋神經網(wǎng)絡，只要其隱藏層神經元的數(shù)量足夠，它可以以任意的精度來近似任何從一個定義在實數(shù)空間中的有界閉集函數(shù)?！渡窠浘W(wǎng)絡與深度學習》21應用到機器學習神經網(wǎng)絡可以作為一個“萬能”函數(shù)來使用，可以用來進行復雜的特征轉換，或逼近一個復雜的條件分布。分類器神經網(wǎng)絡如果??(?)為Logistic回歸，那么Logistic回歸分類器可以看成神經網(wǎng)絡的最后一層。《神經網(wǎng)絡與深度學習》22參數(shù)學習應用到機器學習對于多分類問題如果使用Softmax回歸分類器，相當于網(wǎng)絡最后一層設置C個神經元，其輸出經過Softmax函數(shù)進行歸一化后可以作為每個類的條件概率。采用交叉熵損失函數(shù)，對于樣本(x,y)，其損失函數(shù)為《神經網(wǎng)絡與深度學習》24參數(shù)學習??=1給定訓練集為??

= {(??(??),

??(??)

)}??

，將每個樣本??(??)輸入給前饋神經網(wǎng)絡，得到網(wǎng)絡輸出為???(??)，其在數(shù)據(jù)集D上的結構化風險函數(shù)為：梯度下降《神經網(wǎng)絡與深度學習》25梯度下降Loss

?初始化w重復計算梯度???Τ????更新參數(shù)??←?????

???Τ????梯度：????(??)

=??

????????????→0??(??+????)????w網(wǎng)絡參數(shù)《神經網(wǎng)絡與深度學習》26如何計算梯度？神經網(wǎng)絡為一個復雜的復合函數(shù)鏈式法則反向傳播算法根據(jù)前饋網(wǎng)絡的特點而設計的高效方法一個更加通用的計算方法自動微分（Automatic

Differentiation，AD）??

??5(??4(??3(??2(??11

5?? ))))

→

????

????????

??x

????1

????2

????3

????4《神經網(wǎng)絡與深度學習》27矩陣微積分

矩陣微積分（Matrix

Calculus）是多元微積分的一種表達方式，即使用矩陣和向量來表示因變量每個成分關于自變量每個成分的偏導數(shù)。分母布局標量關于向量的偏導數(shù)向量關于向量的偏導數(shù)《神經網(wǎng)絡與深度學習》28鏈式法則

鏈式法則（Chain

Rule）是在微積分中求復合函數(shù)導數(shù)的一種常用方法?！渡窠浘W(wǎng)絡與深度學習》29反向傳播算法誤差項《神經網(wǎng)絡與深度學習》30計算《神經網(wǎng)絡與深度學習》31反向傳播算法《神經網(wǎng)絡與深度學習》32計算圖與自動微分計算圖與自動微分自動微分是利用鏈式法則來自動計算一個復合函數(shù)的梯度。計算圖《神經網(wǎng)絡與深度學習》34計算圖當x=1,w=0,b=0時，可以得到《神經網(wǎng)絡與深度學習》35自動微分《神經網(wǎng)絡與深度學習》36前向模式和反向模式反向模式和反向傳播的計算梯度的方式相同如果函數(shù)和參數(shù)之間有多條路徑，可以將這多條路徑上的導數(shù)再進行相加，得到最終的梯度。反向傳播算法(自動微分的反向模式）《神經網(wǎng)絡與深度學習》37前饋神經網(wǎng)絡的訓練過程可以分為以下三步前向計算每一層的狀態(tài)和激活值，直到最后一層反向計算每一層的參數(shù)的偏導數(shù)更新參數(shù)靜態(tài)計算圖和動態(tài)計算圖《神經網(wǎng)絡與深度學習》38靜態(tài)計算圖是在編譯時構建計算圖，計算圖構建好之后在程序運行時不能改變。Theano和Tensorflow動態(tài)計算圖是在程序運行時動態(tài)構建。兩種構建方式各有優(yōu)缺點。DyNet，Chainer和PyTorch靜態(tài)計算圖在構建時可以進行優(yōu)化，并行能力強，但靈活性比較差低。動態(tài)計算圖則不容易優(yōu)化，當不同輸入的網(wǎng)絡結構不一致時，難以并行計算，但是靈活性比較高。如何實現(xiàn)？《神經網(wǎng)絡與深度學習》39Getting

started:

seconds

Keras《神經網(wǎng)絡與深度學習》40from

keras.models

import

Sequentialfrom

keras.layers

import

Dense,

Activationfrom

keras.optimizersimport

SGDmodel

Sequential()model.add(Dense(output_dim=64,

input_dim=100))model.add(Activation("relu"))model.add(Dense(output_dim=10))model.add(Activation("softmax"))pile(loss='categorical_crossentropy',optimizer='sgd',

metrics=['accuracy'])model.fit(X_train,

Y_train,

nb_epoch=5,

batch_size=32)loss

=model.evaluate(X_test,

Y_test,

batch_size=32)深度學習的三個步驟Deep

Learning

simple

……定義網(wǎng)絡1損失函數(shù)2優(yōu)化3《神經網(wǎng)絡與深度學習》41優(yōu)化問題優(yōu)化問題《神經網(wǎng)絡與深度學習》43難點參數(shù)過多，影響訓練非凸優(yōu)化問題：即存在局部最優(yōu)而非全局最優(yōu)解，影響迭代梯度消失問題，下層參數(shù)比較難調參數(shù)解釋起來比較困難需求計算資源要大數(shù)據(jù)要多算法效率要好：即收斂快優(yōu)化問題非凸優(yōu)化問題《神經網(wǎng)絡與深度學習》44優(yōu)化問題梯度消失問題（Vanishing

Gradient

Problem）??

??5(??4(??3(??2(??1

))))???? ????1

????2

????3

????4

????5=????

??x ????1

????2

????3

????4《神經網(wǎng)絡與深度學習》45課后練習知識點激活函數(shù)誤差反向傳播自動微分與計算圖編程練習1使用Numpy實現(xiàn)前饋神經網(wǎng)絡chap4_

simple

neural

network編程練習2理論和實驗證明，一個兩層的ReLU網(wǎng)絡可以模擬任何有界閉集函數(shù)。chap4_

simple

neural

network《神經網(wǎng)絡與深度學習》46謝

謝《神經網(wǎng)絡與深度學習》卷積神經網(wǎng)絡2025全連接前饋神經網(wǎng)絡權重矩陣的參數(shù)非常多局部不變性特征自然圖像中的物體都具有局部不變性特征尺度縮放、平移、旋轉等操作不影響其語義信息。全連接前饋網(wǎng)絡很難提取這些局部不變特征《神經網(wǎng)絡與深度學習》2卷積神經網(wǎng)絡《神經網(wǎng)絡與深度學習》3卷積神經網(wǎng)絡（Convolutional

Neural

Networks，CNN）一種前饋神經網(wǎng)絡受生物學上感受野（Receptive

Field）的機制而提出的在視覺神經系統(tǒng)中，一個神經元的感受野是指視網(wǎng)膜上的特定區(qū)域，只有這個區(qū)域內的刺激才能夠激活該神經元。卷積神經網(wǎng)絡有三個結構上的特性：局部連接權重共享空間或時間上的次采樣卷積《神經網(wǎng)絡與深度學習》4卷積經常用在信號處理中，用于計算信號的延遲累積。假設一個信號發(fā)生器每個時刻t產生一個信號xt

，其信息的衰減率為wk

，即在k?1個時間步長后，信息為原來的wk

倍假設w1

=1,w2

=1/2,w3

=1/4時刻t收到的信號yt

為當前時刻產生的信息和以前時刻延遲信息的疊加。卷積卷積經常用在信號處理中，用于計算信號的延遲累積。假設一個信號發(fā)生器每個時刻t產生一個信號xt

，其信息的衰減率為wk

，即在k?1個時間步長后，信息為原來的wk

倍假設w1

=1,w2

=1/2,w3

=1/4時刻t收到的信號yt

為當前時刻產生的信息和以前時刻延遲信息的疊加濾波器（filter）或卷積核（convolution

kernel）《神經網(wǎng)絡與深度學習》5卷積給定一個輸入信號序列??和濾波器??,卷積的輸出為：Filter:

[-1,0,1]??????

????????????+1??=1《神經網(wǎng)絡與深度學習》6卷積不同的濾波器來提取信號序列中的不同特征低頻信息《神經網(wǎng)絡與深度學習》7高頻信息??

′′(??)

??(??

2??(??)二階微分卷積擴展引入濾波器的滑動步長S和零填充P《神經網(wǎng)絡與深度學習》8卷積類型《神經網(wǎng)絡與深度學習》9卷積的結果按輸出長度不同可以分為三類：窄卷積：步長??

，兩端不補零??

=0，卷積后輸出長度為??

???+

1寬卷積：步長??

=1，兩端補零??

=??

，卷積后輸出長度??

+??

?1等寬卷積：步長??

，兩端補零??

=(??

?1)/2

，卷積后輸出長度??在早期的文獻中，卷積一般默認為窄卷積。而目前的文獻中，卷積一般默認為等寬卷積。兩維卷積在圖像處理中，圖像是以二維矩陣的形式輸入到神經網(wǎng)絡中，因此我們需要二維卷積。《神經網(wǎng)絡與深度學習》10卷積作為特征提取器《神經網(wǎng)絡與深度學習》11二維卷積步長1，零填充0步長2，零填充0步長1，零填充1步長2，零填充1《神經網(wǎng)絡與深度學習》12卷積神經網(wǎng)絡用卷積層代替全連接層《神經網(wǎng)絡與深度學習》13互相關計算卷積需要進行卷積核翻轉。卷積操作的目標：提取特征。翻轉是不必要的！互相關除非特別聲明，卷積一般指“互相關”。《神經網(wǎng)絡與深度學習》14多個卷積核《神經網(wǎng)絡與深度學習》15特征映射（Feature

Map）：圖像經過卷積后得到的特征。卷積核看成一個特征提取器卷積層輸入：D個特征映射M×N×D輸出：P個特征映射M′×N′×P卷積層的映射關系《神經網(wǎng)絡與深度學習》16步長2

filter3*3filter個數(shù)6零填充1卷積層典型的卷積層為3維結構《神經網(wǎng)絡與深度學習》18匯聚層卷積層雖然可以顯著減少連接的個數(shù)，但是每一個特征映射的神經元個數(shù)并沒有顯著減少。《神經網(wǎng)絡與深度學習》19卷積網(wǎng)絡結構卷積網(wǎng)絡是由卷積層、匯聚層、全連接層交叉堆疊而成。趨向于小卷積、大深度趨向于全卷積典型結構一個卷積塊為連續(xù)M個卷積層和b個匯聚層（M通常設置為2

～5，b為0或1）。一個卷積網(wǎng)絡中可以堆疊

N個連續(xù)的卷積塊，然后在接著K個全連接層（N的取值區(qū)間比較大，比如1

～100或者更大；K一般為0～2）?！渡窠浘W(wǎng)絡與深度學習》20表示學習《神經網(wǎng)絡與深度學習》21表示學習《神經網(wǎng)絡與深度學習》22其它卷積種類轉置卷積/微步卷積低維特征映射到高維特征《神經網(wǎng)絡與深度學習》24如何增加輸出單元的感受野增加卷積核的大小增加層數(shù)來實現(xiàn)在卷積之前進行匯聚操作空洞卷積通過給卷積核插入“空洞”來變相地增加其大小?？斩淳矸e《神經網(wǎng)絡與深度學習》25典型的卷積網(wǎng)絡LeNet-5LeNet-5

是一個非常成功的神經網(wǎng)絡模型。基于LeNet-5的手寫數(shù)字識別系統(tǒng)在90年代被美國很多銀行使用，用來識別支票上面的手寫數(shù)字。LeNet-5

層。需要多少個卷積核？《神經網(wǎng)絡與深度學習》27Large

Scale

Visual

Recognition

Challenge《神經網(wǎng)絡與深度學習》28AlexNet《神經網(wǎng)絡與深度學習》292012

ILSVRC

winner（top

error

16%

compared

runner-up

with

26%

error）第一個現(xiàn)代深度卷積網(wǎng)絡模型首次使用了很多現(xiàn)代深度卷積網(wǎng)絡的一些技術方法

使用GPU進行并行訓練，采用了ReLU作為非線性激活函數(shù)，使用Dropout防止過擬合，使用數(shù)據(jù)增強5個卷積層、3個匯聚層和3個全連接層Inception網(wǎng)絡2014

ILSVRC

winner

（22層）參數(shù)：GoogLeNet：4M

AlexNet：60M錯誤率：6.7%Inception網(wǎng)絡是由有多個inception模塊和少量的匯聚層堆疊而成。《神經網(wǎng)絡與深度學習》30Inception模塊v1在卷積網(wǎng)絡中，如何設置卷積層的卷積核大小是一個十分關鍵的問題。在Inception網(wǎng)絡中，一個卷積層包含多個不同大小的卷積操作，稱為Inception模塊。Inception模塊同時使用1

×1、3

×3、5

×5等不同大小的卷積核，并將得到的特征映射在深度上拼接（堆疊）起來作為輸出特征映射。卷積和最大匯聚都是等寬的。《神經網(wǎng)絡與深度學習》31Inception模塊v3用多層小卷積核替換大卷積核，以減少計算量和參數(shù)量。使用兩層3x3的卷積來替換v1中的5x5的卷積使用連續(xù)的nx1和1xn來替換nxn的卷積?！渡窠浘W(wǎng)絡與深度學習》32殘差網(wǎng)絡殘差網(wǎng)絡（ResidualNetwork，ResNet）是通過給非線性的卷積層增加直連邊的方式來提高信息的傳播效率。假設在一個深度網(wǎng)絡中，我們期望一個非線性單元（可以為一層或多層的卷積層）f(x,θ)去逼近一個目標函數(shù)為h(x)。將目標函數(shù)拆分成兩部分：恒等函數(shù)和殘差函數(shù)《神經網(wǎng)絡與深度學習》33殘差單元《神經網(wǎng)絡與深度學習》34ResNet2015

ILSVRC

winner

（152層）錯誤率：3.57%《神經網(wǎng)絡與深度學習》35Ngram特征與卷積如何用卷積操作來實現(xiàn)？《神經網(wǎng)絡與深度學習》36文本序列的卷積《神經網(wǎng)絡與深度學習》37基于卷積模型的句子表示Y.

Kim.

“Convolutional

neural

networks

for

sentence

classification”.

In:

arXivpreprintarXiv:1408.5882

(2014).《神經網(wǎng)絡與深度學習》38文本序列的卷積模型Filter輸入卷積層Pooling層輸出《神經網(wǎng)絡與深度學習》39CNN

可視化：濾波器AlexNet中的濾波器（96

filters[11x11x3]）《神經網(wǎng)絡與深度學習》40卷積的應用AlphaGo分布式系統(tǒng)：1202

個CPU

和176

塊GPU單機版：48

個CPU

和8

塊GPU走子速度：3

毫秒-2微秒《神經網(wǎng)絡與深度學習》42目標檢測（Object

Detection）《神經網(wǎng)絡與深度學習》43Mask

RCNN《神經網(wǎng)絡與深度學習》44OCR《神經網(wǎng)絡與深度學習》45圖像生成《神經網(wǎng)絡與深度學習》46Deep

Dream《神經網(wǎng)絡與深度學習》47畫風遷移《神經網(wǎng)絡與深度學習》48對抗樣本《神經網(wǎng)絡與深度學習》49課后作業(yè)CNN的局部性假設合理嗎？如何改進？編程練習/nndl/exercise/chap5_CNN圖像分類《神經網(wǎng)絡與深度學習》50謝

謝《神經網(wǎng)絡與深度學習》序列生成模型2025序列數(shù)據(jù)神經網(wǎng)絡與深度學習2在深度學習的應用中，有很多數(shù)據(jù)是以序列的形式存在，比如聲音、語言、視頻、DNA序列或者其它的時序數(shù)據(jù)等。序列數(shù)據(jù)的潛在規(guī)律以自然語言為例，后一個句子在人腦的語義整合時需要更多的處理時間，更不符合自然語言規(guī)則。規(guī)則是什么？神經網(wǎng)絡與深度學習3語言模型自然語言理解→一個句子的可能性/合理性！在報那貓告做只那只貓在作報告！那個人在作報告！一切都是概率!神經網(wǎng)絡與深度學習4序列概率模型給定一個序列樣本，其概率為p

??1:T神經網(wǎng)絡與深度學習5=

p(??1,

??2,

??T)和一般的概率模型類似，序列概率模型有兩個基本問題：（1）學習問題：給定一組序列數(shù)據(jù)，估計這些數(shù)據(jù)背后的概率分布；（2）生成問題：從已知的序列分布中生成新的序列樣本。序列概率模型給定一個序列樣本，其概率為p

??1:T=

p(??1,

??2,

??T)序列數(shù)據(jù)有兩個特點：（1）樣本是變長的；（2）樣本空間為非常大。對于一個長度為??的序列，其樣本空間為V

。因此，我們很難用已知的概率模型來直接建模整個序列的概率。神經網(wǎng)絡與深度學習6序列概率模型序列概率p

??1:T=

??t

??1:t?1t≈

p(??t|??t?1,

??t???+1)

??(???)因此，序列數(shù)據(jù)的概率密度估計問題可以轉換為單變量的條件概率估計問題，即給定??1:t?1時??t的條件概率p

??t

??1:t?1。神經網(wǎng)絡與深度學習7序列概率模型神經網(wǎng)絡與深度學習8序列概率p(??1,

??2,

??T)

p(??t|??t?1,

??1)≈

p(??t|??t?1,

??t???+1)

??(???)因此，序列數(shù)據(jù)的概率密度估計問題可以轉換為單變量的條件概率估計問題，即給定??1:(???1)時????的條件概率??(????|??1:(???1))。自回歸生成模型在這種序列模型方式中，每一步都需要將前面的輸出作為當前步的輸入，是一種自回歸（autoregressive）的方式。自回歸生成模型（Autoregressive

Generative

Model）神經網(wǎng)絡與深度學習9序列生成自回歸生成模型（Autoregressive

Generative

Model）非自回歸生成模型同時生成所有詞神經網(wǎng)絡與深度學習10序列生成機習器學<eos>$自回歸的方式可以生成一個無限長度的序列。為了避免這種情況，通常會設置一個特殊的符號“<eos>”來表示序列的結束。在訓練時，每個序列樣本的結尾都加上符號“<eos>”。在測試時，一旦生成了符號“<eos>”，就中止生成過程。神經網(wǎng)絡與深度學習11生成最可能序列當使用自回歸模型生成一個最可能的序列時，生成過程是一種從左到右的貪婪式搜索過程。在每一步都生成最可能的詞。這種貪婪式的搜索方式是次優(yōu)的，生成的序列并不保證是全局最優(yōu)的。神經網(wǎng)絡與深度學習12束搜索一種常用的減少搜索錯誤的啟發(fā)式方法是束搜索（BeamSearch）。在每一步的生成中，生成K個最可能的前綴序列，其中K為束的大?。˙eamSize），是一個超參數(shù)。神經網(wǎng)絡與深度學習13N元統(tǒng)計模型神經網(wǎng)絡與深度學習14平滑技術N元模型的一個主要問題是數(shù)據(jù)稀疏問題。數(shù)據(jù)稀疏問題的一種解決方法是平滑技術（Smoothing），即給一些沒有出現(xiàn)的詞組合賦予一定先驗概率。平滑技術是N元模型中的一項必不可少的技術，比如加法平滑的計算公式為：δ=1時，稱為加1平滑。神經網(wǎng)絡與深度學習15深度序列模型深度序列模型一般可以分為三個部分：嵌入層、特征層、輸出層。神經網(wǎng)絡與深度學習16嵌入層神經網(wǎng)絡與深度學習17詞嵌入（Word

Embeddings）https://indico.io/blog/visualizing-with-t-sne/神經網(wǎng)絡與深度學習18上海北京高興難過特征層神經網(wǎng)絡與深度學習19特征層可以通過不同類型的神經網(wǎng)絡來實現(xiàn)，比如前饋神經網(wǎng)絡和循環(huán)神經網(wǎng)絡。常見的網(wǎng)絡類型有以下三種：簡單平均前饋神經網(wǎng)絡循環(huán)神經網(wǎng)絡特征層：簡單平均歷史信息的平均神經網(wǎng)絡與深度學習20特征層：前饋神經網(wǎng)絡神經網(wǎng)絡與深度學習21特征層：循環(huán)網(wǎng)絡前饋網(wǎng)絡模型和循環(huán)網(wǎng)絡模型的不同之處在于循環(huán)神經網(wǎng)絡利用隱藏狀態(tài)來記錄以前所有時刻的信息，而前饋神經網(wǎng)絡只能接受前n?1個時刻的信息。神經網(wǎng)絡與深度學習22輸出層輸出層為一般使用softmax分類器，接受歷史信息的向量表示，輸出為詞表中每個詞的后驗概率。神經網(wǎng)絡與深度學習23評價方法神經網(wǎng)絡與深度學習24困惑度困惑度（Perplexity）是信息論的一個概念，可以用來衡量一個分布的不確定性。給定一個測試文本集合，一個好的序列生成模型應該使得測試集合中的句子的聯(lián)合概率盡可能高。困惑度可以衡量模型分布與樣本經驗分布之間的契合程度。困惑度越低則兩個分布越接近。神經網(wǎng)絡與深度學習25困惑度神經網(wǎng)絡與深度學習26BLEU神經網(wǎng)絡與深度學習27BLEU（Bilingual

Evaluation

Understudy）是衡量模型生成序列和參考序列之間的N元詞組（N-Gram）的重合度，最早用來評價機器翻譯模型的質量，目前也廣泛應用在各種序列生成任務中。BLEU神經網(wǎng)絡與深度學習28ROUGEROUGE（Recall-Oriented

Understudy

forGistingEvaluation）最早應用于文本摘要領域。和BLEU類似，但ROUGE計算的是召回率（Recall）。神經網(wǎng)絡與深度學習29序列到序列模型神經網(wǎng)絡與深度學習30序列到序列模型神經網(wǎng)絡與深度學習31序列到序列模型神經網(wǎng)絡與深度學習32基于循環(huán)神經網(wǎng)絡的序列到序列模型神經網(wǎng)絡與深度學習33基于前饋神經網(wǎng)絡的序列到序列模型神經網(wǎng)絡與深度學習34基于注意力的序列到序列模型神經網(wǎng)絡與深度學習35基于卷積神經網(wǎng)絡的序列到序列模型神經網(wǎng)絡與深度學習36基于自注意力的序列到序列模型神經網(wǎng)絡與深度學習37回顧：注意力模型根據(jù)α來計算輸入信息的加權平均。軟性注意力機制（soft

attention

mechanism）注意力機制可以分為兩步計算注意力分布??

，??(????,??)打分函數(shù)神經網(wǎng)絡與深度學習38回顧：自注意力基于自注意力的全連接神經網(wǎng)絡連接權重??????

由注意力機制動態(tài)生成也可以看作是一種全連接的圖神經網(wǎng)絡神經網(wǎng)絡與深度學習39回顧：自注意力示例圖片來源：http://fuyw.top/NLP_02_QANet/神經網(wǎng)絡與深度學習40QKV模式（Query-Key-Value）圖片來源：http://jalammar.github.io/illustrated-transformer/神經網(wǎng)絡與深度學習41ThinksMachinesThinksMachinesThinksMachines多頭（multi-head）自注意力模型圖片來源：http://jalammar.github.io/illustrated-transformer/神經網(wǎng)絡與深度學習42Transformer神經網(wǎng)絡與深度學習43Transformer神經網(wǎng)絡與深度學習44神經網(wǎng)絡與深度學習45基于Transformer的序列到序列模型神經網(wǎng)絡與深度學習46其它應用神經網(wǎng)絡與深度學習47文本摘要/2017/04/16/taming-rnns-for-better-summarization.html神經網(wǎng)絡與深度學習48文本摘要神經網(wǎng)絡與深度學習49/2017/04/16/taming-rnns-for-better-summarization.html對話Li

MonroeW,

Ritter

al.

Deep

reinforcementlearning

for

dialogue

generation[J].

arXiv

preprintarXiv:1606.01541,

2016.神經網(wǎng)絡與深度學習50看圖說話神經網(wǎng)絡與深度學習51看圖說話神經網(wǎng)絡與深度學習52作詩神經網(wǎng)絡與深度學習53謝

謝神經網(wǎng)絡與深度學習54《神經網(wǎng)絡與深度學習》循環(huán)神經網(wǎng)絡2025參考資料《神經網(wǎng)絡與深度學習》2《神經網(wǎng)絡與深度學習》第6章網(wǎng)絡資料An

Introduction

Recurrent

NeuralNetworks/explore-artificial-intelligence/an-introduction-to-recurrent-neural-networks-72c97bf0912Recurrent

Neural

Networks/recurrent-neural-networks-d4642c9bc7ce前饋網(wǎng)絡連接存在層與層之間，每層的節(jié)點之間是無連接的。（無循環(huán)）輸入和輸出的維數(shù)都是固定的，不能任意改變。無法處理變長的序列數(shù)據(jù)?！渡窠浘W(wǎng)絡與深度學習》3前饋網(wǎng)絡假設每次輸入都是獨立的，也就是說每次網(wǎng)絡的輸出只依賴于當前的輸入?！渡窠浘W(wǎng)絡與深度學習》4有限狀態(tài)自動機（Finite

Automata）如何用FNN去模擬一個有限狀態(tài)自動機？《神經網(wǎng)絡與深度學習》5圖靈機一種抽象數(shù)學模型，可以用來模擬任何可計算問題?！渡窠浘W(wǎng)絡與深度學習》6可計算問題可計算問題函數(shù)有限狀態(tài)機圖靈機前饋網(wǎng)絡通用近似定理需要記憶能力《神經網(wǎng)絡與深度學習》7如何給網(wǎng)絡增加記憶能力？

延時神經網(wǎng)絡（Time

DelayNeural

Network，TDNN）建立一個額外的延時單元，用來存儲網(wǎng)絡的歷史信息（可以包括輸入、輸出、隱狀態(tài)等）這樣，前饋網(wǎng)絡就具有了短期記憶的能力。如何給網(wǎng)絡增加記憶能力？/publication/12314435_Neural_system_identifi《神經網(wǎng)絡與深度學習》8cation_model_of_human_sound_localization如何給網(wǎng)絡增加記憶能力？自回歸模型（Autoregressive

Model，AR）一類時間序列模型，用變量????的歷史信息來預測自己????

～??(0,??2)為第t個時刻的噪聲

有外部輸入的非線性自回歸模型（Nonlinear

Autoregressivewith

Exogenous

Inputs

Model，NARX）其中??(?)表示非線性函數(shù)，可以是一個前饋網(wǎng)絡，????

和????

為超參數(shù)．《神經網(wǎng)絡與深度學習》9非線性自回歸模型/publication/234052442_Braking_torque_control_using_reccurent_neural_

networks《神經網(wǎng)絡與深度學習》10循環(huán)神經網(wǎng)絡（

Recurrent

Neural

Network

，RNN

）循環(huán)神經網(wǎng)絡通過使用帶自反饋的神經元，能夠處理任意長度的時序數(shù)據(jù)。循環(huán)神經網(wǎng)絡比前饋神經網(wǎng)絡更加符合生物神經網(wǎng)絡的結構。循環(huán)神經網(wǎng)絡已經被廣泛應用在語音識別、語言模型以及自然語言生成等任務上活性值狀態(tài)《神經網(wǎng)絡與深度學習》11按時間展開《神經網(wǎng)絡與深度學習》12簡單循環(huán)網(wǎng)絡（

Simple

Recurrent

Network

，SRN

）狀態(tài)更新：一個完全連接的循環(huán)網(wǎng)絡是任何非線性動力系統(tǒng)的近似器?！渡窠浘W(wǎng)絡與深度學習》13圖靈完備

圖靈完備（Turing

Completeness）是指一種數(shù)據(jù)操作規(guī)則，比如一種計算機編程語言，可以實現(xiàn)圖靈機的所有功能，解決所有的可計算問題。一個完全連接的循環(huán)神經網(wǎng)絡可以近似解決所有的可計算問題?！渡窠浘W(wǎng)絡與深度學習》14循環(huán)神經網(wǎng)絡《神經網(wǎng)絡與深度學習》15作用輸入-輸出映射機器學習模型（本節(jié)主要關注這種情況）存儲器聯(lián)想記憶模型應用到機器學習應用到機器學習序列到類別同步的序列到序列模式異步的序列到序列模式《神經網(wǎng)絡與深度學習》17應用到機器學習序列到類別《神經網(wǎng)絡與深度學習》18序列到類別情感分類…我覺太得好了帶著愉悅的心情看了這部電影這部電影太糟了這部電影很棒Positive(正面)Negative(負面)Positive(正面)…《神經網(wǎng)絡與深度學習》19應用到機器學習同步的序列到序列模式《神經網(wǎng)絡與深度學習》20同步的序列到序列模式中文分詞他說實的在理確SSESBEB《神經網(wǎng)絡與深度學習》21同步的序列到序列模式信息抽取(Information

Extraction，IE)從無結構的文本中抽取結構化的信息，形成知識小米創(chuàng)始人雷軍表示，該公司2015年營收達到780億元人民幣，較2014年的743億元人民幣增長了5%。《神經網(wǎng)絡與深度學習》22同步的序列到序列模式Connectionist

Temporal

Classification

(CTC)

[Alex

Graves,ICML’06][Alex

Graves,

ICML’14][Ha?im

Sak,

Interspeech’15][Jie

Li,Interspeech’15][Andrew

Senior,

ASRU’15]好

φφ

棒

φ好

φφ

棒

φ“好棒”“好棒棒”語音識別《神經網(wǎng)絡與深度學習》23應用到機器學習異步的序列到序列模式《神經網(wǎng)絡與深度學習》24learning異步的序列到序列模式機器翻譯machine機器學習

?！渡窠浘W(wǎng)絡與深度學習》25參數(shù)學習機器學習給定一個訓練樣本(x,y)，其中x=(x1,…,xT)為長度是T

的輸入序列，y=(y1,…,yT)是長度為T

的標簽序列。時刻t的瞬時損失函數(shù)為總損失函數(shù)《神經網(wǎng)絡與深度學習》26梯度隨時間反向傳播算法δt,k為第t時刻的損失對第k步隱藏神經元的凈輸入zk的導數(shù)《神經網(wǎng)絡與深度學習》27梯度消失/爆炸梯度其中??由于梯度爆炸或消失問題，實際上只能學習到短周期的依賴關系。這就是所謂的長程依賴問題?！渡窠浘W(wǎng)絡與深度學習》28長程依賴問題《神經網(wǎng)絡與深度學習》29循環(huán)神經網(wǎng)絡在時間維度上非常深！梯度消失或梯度爆炸如何改進？梯度爆炸問題權重衰減梯度截斷梯度消失問題改進模型長程依賴問題改進方法循環(huán)邊改為線性依賴關系增加非線性殘差網(wǎng)絡？《神經網(wǎng)絡與深度學習》30長短期記憶神經網(wǎng)絡（Long

Short-Term

Memory,LSTM

）《神經網(wǎng)絡與深度學習》31LSTM的各種變體沒有遺忘門耦合輸入門和遺忘門peephole連接《神經網(wǎng)絡與深度學習》32Gated

Recurrent

Unit,

GRU更新門重置門《神經網(wǎng)絡與深度學習》33深層模型堆疊循環(huán)神經網(wǎng)絡《神經網(wǎng)絡與深度學習》35雙向循環(huán)神經網(wǎng)絡《神經網(wǎng)絡與深度學習》36擴展到圖結構擴展到圖結構循環(huán)神經網(wǎng)絡《神經網(wǎng)絡與深度學習》38序列遞歸樹神經網(wǎng)絡圖網(wǎng) 絡圖樹結構程序語言的句法結構《神經網(wǎng)絡與深度學習》39樹結構自然語言的句法結構《神經網(wǎng)絡與深度學習》40遞歸神經網(wǎng)絡Recursive

Neural

Network遞歸神經網(wǎng)絡實在一個有向圖無循環(huán)圖上共享一個組合函數(shù)《神經網(wǎng)絡與深度學習》41遞歸神經網(wǎng)絡退化為循環(huán)神經網(wǎng)絡《神經網(wǎng)絡與深度學習》42遞歸神經網(wǎng)絡給定一個語法樹，p2

→

ap1,p1

→

bc.《神經網(wǎng)絡與深度學習》43圖網(wǎng)絡在實際應用中，很多數(shù)據(jù)是圖結構的，比如知識圖譜、社交網(wǎng)絡、分子網(wǎng)絡等。而前饋網(wǎng)絡和循環(huán)網(wǎng)絡很難處理圖結構的數(shù)據(jù)?！渡窠浘W(wǎng)絡與深度學習》44圖數(shù)據(jù)/pdf/1806.01261.pdf《神經網(wǎng)絡與深度學習》45圖網(wǎng)絡/pdf/1806.01261.pdf《神經網(wǎng)絡與深度學習》46圖網(wǎng)絡/pdf/1806.01261.pdf《神經網(wǎng)絡與深度學習》47圖網(wǎng)絡對于一個任意的圖結構G(V,E)更新函數(shù)讀出函數(shù)《神經網(wǎng)絡與深度學習》48循環(huán)網(wǎng)絡應用語言模型理性自然語言理解→一個句子的可能性/合！在報那貓告做只那只貓在作報告！那個人在作報告！一切都是概率!??(??1,

??2,

??T)

???

??(????|?????1,

??1)≈

???

??(????|?????1,

???????+1)N元語言模型《神經網(wǎng)絡與深度學習》50語言模型《神經網(wǎng)絡與深度學習》51生成LINUX內核代碼《神經網(wǎng)絡與深度學習》52作詞機《神經網(wǎng)絡與深度學習》53RNN在“學習”過汪峰全部作品后自動生成的歌詞/phunterlau/wangfeng-rnn我在這里中的夜里就像一場是一種生命的意旪就像我的生活變得在我一樣可我們這是一個知道我只是一天你會怎嗎可我們這是我們的是不要為你我們想這有一種生活的時候作詩《神經網(wǎng)絡與深度學習》54傳統(tǒng)統(tǒng)計機器翻譯源語言：f目標語言：e模型：???

argmax??

??(??|??)

= argmax??

??(??|??)??(??)p(f|e):翻譯模型p(e):語言模型《神經網(wǎng)絡與深度學習》55基于序列到序列的機器翻譯一個RNN用來編碼另一個RNN用來解碼《神經網(wǎng)絡與深度學習》56看圖說話《神經網(wǎng)絡與深度學習》57看圖說話《神經網(wǎng)絡與深度學習》58Demo

WebsiteVQA:

Given

image

and

natural

languagequestion

about

the

image,

the

task

provide

anaccurate

natural

language

answerVisual

Question

Answering

(VQA)《神經網(wǎng)絡與深度學習》59Picture

from

(Antol

al.,2015)寫字把一個字母的書寫軌跡看作是一連串的點。一個字母的“寫法”其實是每一個點相對于前一個點的偏移量，記為(offsetx,offset

y)。再增加一維取值為0或1來記錄是否應該“提筆”?！渡窠浘W(wǎng)絡與深度學習》60對話系統(tǒng)/lukalabs/cakechat《神經網(wǎng)絡與深度學習》61循環(huán)神經網(wǎng)絡總結《神經網(wǎng)絡與深度學習》62優(yōu)點：引入記憶圖靈完備缺點：長程依賴問題記憶容量問題并行能力課后作業(yè)編程練習/nndl/exercise/chap6_RNN1）利用循環(huán)神經網(wǎng)絡來生成唐詩2）利用循環(huán)神經網(wǎng)絡來進行加法運算《神經網(wǎng)絡與深度學習》63謝

謝《神經網(wǎng)絡與深度學習》2025無監(jiān)督學習內容《神經網(wǎng)絡與深度學習》2無監(jiān)督學習無監(jiān)督特征學習主成分分析稀疏編碼自編碼器稀疏自編碼器降噪自編碼器概率密度估計參數(shù)密度估計非參數(shù)密度估計

核方法

K近鄰方法無監(jiān)督學習（

Unsupervised

Learning

）《神經網(wǎng)絡與深度學習》3監(jiān)督學習建立映射關系

??: ??

→

??無監(jiān)督學習指從無標簽的數(shù)據(jù)中學習出一些有用的模式。聚類：建立映射關系

??: ??

→

??不借助于任何人工給出標簽或者反饋等指導信息特征學習密度估計??(??)典型的無監(jiān)督學習問題無監(jiān)督特征學習聚類密度估計《神經網(wǎng)絡與深度學習》4為什么要無監(jiān)督學習？《神經網(wǎng)絡與深度學習》5大腦有大約1014個突觸，我們只能活大約109秒。所以我們有比數(shù)據(jù)更多的參數(shù)。這啟發(fā)了我們必須進行大量無監(jiān)督學習的想法，因為感知輸入（包括本體感受）是我們可以獲得每秒

105維約束的唯一途徑。--

Geoffrey

Hinton,

2014

AMA

Reddit無監(jiān)督特征學習一種最常用的數(shù)據(jù)降維方法，使得在轉換后的空間中數(shù)據(jù)的方差最大。樣本點??(??)投影之后的表示為所有樣本投影后的方差為目標函數(shù)對目標函數(shù)求導并令導數(shù)等于0，可得主成份分析（Principal

Component

Analysis，PCA）《神經網(wǎng)絡與深度學習》7給定一組基向量??

= [????

,···,????]，將輸入樣本??表示為這些基向量的線性組合（線性）編碼編碼（encoding）字典（dictionary）《神經網(wǎng)絡與深度學習》8稀疏編碼找到一組“過完備”的基向量（即??>??）來進行編碼。完備性《神經網(wǎng)絡與深度學習》9稀疏編碼（Sparse

Coding）(??)給定一組N

個輸入向量??

…

，其稀疏編碼的目標函數(shù)定義為??(·)是一個稀疏性衡量函數(shù)，??是一個超參數(shù)，用來控制稀疏性的強度。《神經網(wǎng)絡與深度學習》10訓練過程稀疏編碼的訓練過程一般用交替優(yōu)化的方法進行?！渡窠浘W(wǎng)絡與深度學習》11稀疏編碼的優(yōu)點《神經網(wǎng)絡與深度學習》12計算量稀疏性帶來的最大好處就是可以極大地降低計算量?？山忉屝砸驗橄∈杈幋a只有少數(shù)的非零元素，相當于將一個輸入樣本表示為少數(shù)幾個相關的特征。這樣我們可以更好地描述其特征，并易于理解。特征選擇稀疏性帶來的另外一個好處是可以實現(xiàn)特征的自動選擇，只選擇和輸入樣本相關的最少特征，從而可以更好地表示輸入樣本，降低噪聲并減輕過擬合。編碼器（Encoder）解碼器（Decoder）目標函數(shù)：重構錯誤兩層網(wǎng)絡結構的自編碼器自編碼器（

Auto-Encoder

）《神經網(wǎng)絡與深度學習》13通過給自編碼器中隱藏層單元z加上稀疏性限制，自編碼器可以學習到數(shù)據(jù)中一些有用的結構。目標函數(shù)??表示自編碼器中的參數(shù)和稀疏編碼一樣，稀疏自編碼器的優(yōu)點是有很高的可解釋性，并同時進行了隱式的特征選擇．稀疏自編碼器《神經網(wǎng)絡與深度學習》14降噪自編碼器通過引入噪聲來增加編碼魯棒性的自編碼器對于一個向量??，我們首先根據(jù)一個比例μ隨機將??的一些維度的值設置為0，得到一個被損壞的向量???。然后將被損壞的向量???輸入給自編碼器得到編碼??，并重構出原始的無損輸入??

?！渡窠浘W(wǎng)絡與深度學習》15概率密度估計概率密度估計參數(shù)密度估計（Parametric

Density

Estimation）根據(jù)先驗知識假設隨機變量服從某種分布，然后通過訓練樣本來估計分布的參數(shù)．估計方法：最大

人人文庫> 全部分類> 專業(yè)文獻 > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2025神經網(wǎng)絡與深度學習

文檔簡介

溫馨提示

最新文檔

評論

2025神經網(wǎng)絡與深度學習

文檔簡介

溫馨提示

最新文檔

評論

相關文檔