深度學習與信號處理:原理與實踐 課件 第1章 初識深度學習_第1頁
深度學習與信號處理:原理與實踐 課件 第1章 初識深度學習_第2頁
深度學習與信號處理:原理與實踐 課件 第1章 初識深度學習_第3頁
深度學習與信號處理:原理與實踐 課件 第1章 初識深度學習_第4頁
深度學習與信號處理:原理與實踐 課件 第1章 初識深度學習_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:

1.1深度學習有多深?1.2深度學習如何學?1.3深度學習如何提速?1.4主流深度學習框架1.5本書內容與體系結構第一章初識深度學習1.1深度學習有多深?本章從深度學習有多深、深度學習發(fā)展路徑、深度學習如何學、深度學習如何提速等方面入手,初識深度學習概念、硬件支持系統(tǒng)、主流軟件框架、應用平臺體系。摘要1.1.1深度學習概念深度學習(DL,DeepLearning)的概念最早由多倫多大學的G.E.Hinton等[1]于2006年提出,是基于樣本數據通過一定的訓練方法得到包含多個層級的深度網絡結構的機器學習(ML,MachineLearning)過程[2]。機器學習通常以使用決策樹、推導邏輯規(guī)劃、聚類、貝葉斯網絡等傳統(tǒng)算法對結構化的數據進行分析為基礎,對真實世界中的事件做出決策和預測。深度學習被引入機器學習使其更接近于最初的目標—人工智能(AI,ArtificialIntelligence),其動機在于建立模型模擬人類大腦的神經連接結構,通過組合低層特征形成更加抽象的高層表示、屬性類別或特征,給出數據的分層特征表示;1.1深度學習有多深?它從數據中提取知識來解決和分析問題時,使用人工神經網絡算法,允許發(fā)現分層表示來擴展標準機器學習。這些分層表示能夠解決更復雜的問題,并且以更高的精度、更少的觀察和更簡便的手動調諧,潛在地解決其他問題。傳統(tǒng)的神經網絡隨機初始化網絡權值,很容易導致網絡收斂到局部最小值。為解決這一問題,Hinton提出使用無監(jiān)督預訓練方法優(yōu)化網絡初始權值,再進行權值微調,拉開了深度學習的序幕。深度學習所得到的深度網絡結構包含大量的單一元素(神經元),每個神經元與大量其他神經元相連接,神經元間的連接強度(權值)在學習過程中修改并決定網絡的功能。1.1深度學習有多深?通過深度學習得到的深度網絡結構符合神經網絡的特征[3],因此深度網絡就是深層次的神經網絡,即深度神經網絡(deepneuralnetworks,DNN)。深度神經網絡是由多個單層非線性網絡疊加而成的[4-5],常見的單層網絡按照編碼解碼情況分為3類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結果盡可能接近原始輸入為目標將隱含特征映射到輸入空間[6]。深度神經網絡分為以下3類(如圖1.1所示)。1.1深度學習有多深?(1)前饋深度網絡(feed-forwarddeepnetworks,FFDN),由多個編碼器層疊加而成,如多層感知機(multi-layerperceptrons,MLP)[7-8]、卷積神經網絡(convolutionalneuralnetworks,CNN)[9-10]等。(2)反饋深度網絡(feed-backdeepnetworks,FBDN),由多個解碼器層疊加而成,如反卷積網絡(deconvolutionalnetworks,DN)[11]、層次稀疏編碼網絡(hierarchicalsparsecoding,HSC)[12]等。(3)雙向深度網絡(bi-directionaldeepnetworks,BDDN),通過疊加多個編碼器層和解碼器層構成(每層可能是單獨的編碼過程或解碼過程,也可能既包含編碼過程也包含解碼過程),如深度玻爾茲曼機(DeepBoltzmannMachines,DBM)[13-14]、深度信念網絡(deepbeliefnetworks,DBN)[15]、棧式自編碼器(stackedauto-encoders,SAE)[16-17]等。1.1深度學習有多深?圖1.1深度神經網絡分類1.1.2深度學習發(fā)展1.1深度學習有多深?1.深度學習發(fā)展沿革深度學習是神經網絡發(fā)展到一定時期的產物。最早的神經網絡模型可以追溯到1943年McCulloch等提出的McCulloch-Pitts計算結構,簡稱MP模型[18],它大致模擬了人類神經元的工作原理,但需要手動設置權重,十分不便。1958年,Rosenblatt提出了感知機模型(perceptron)[19]。與MP模型相比,感知機模型能更自動合理地設置權重,但1969年Minsky和Paper證明了感知機模型只能解決線性可分問題,并且否定了多層神經網絡訓練的可能性,甚至提出了“基于感知機的研究終會失敗”的觀點,此后十多年的時間內,神經網絡領域的研究基本處于停滯狀態(tài)。1986年,欣頓(GeofferyHinton)和羅姆哈特(DavidRumelhart)等提出的反向傳播(BackPropagation,BP)算法,解決了兩層神經網絡所需要的復雜計算量問題,大大減少了原來預計的計算量,這不僅有力回擊了Minsky等人的觀點,更引領了神經網絡研究的第二次高潮。隨著20世紀80年代末到90年代初共享存儲器方式的大規(guī)模并行計算機的出現,計算處理能力大大提升,深度學習有了較快的發(fā)展。1989年,YannLeCun等提出的卷積神經網絡是一種包含卷積層的深度神經網絡模型,較早嘗試深度學習對圖像的處理。1.1深度學習有多深?2012年,Hinton構建深度神經網絡,并應用于ImageNet上,取得了質的提升和突破,同年,人們逐漸熟悉谷歌大腦(GoogleBrain)團隊。2013年,歐洲委員會發(fā)起模仿人腦的超級計算機項目,百度宣布成立深度學習機構。2014年,深度學習模型Top-5在ImageNet2014計算機識別競賽上拔得頭籌,騰訊和京東也同時分別成立了自己的深度學習研究室。2015年至2017年初,谷歌公司的人工智能團隊DeepMind所創(chuàng)造的阿爾法狗(AlphaGo)相繼戰(zhàn)勝了人類職業(yè)圍棋選手,這只“狗”引起世界的關注,人類圍棋大師們陷入沉思。這一切都顯著地表明了一個事實:深度學習正在有條不紊地發(fā)展著,其影響力不斷擴大。深度學習發(fā)展沿革,如圖1.2所示[20]。圖1.2深度學習發(fā)展主線1.1深度學習有多深?機器學習和深度學習之間的關系是包含與被包含的關系,如圖1.3所示。圖1.3機器學習和深度學習之間的關系1.1深度學習有多深?2.深度學習的局限瓶頸1.1深度學習有多深?深度神經網絡(DNN)是一個強大的框架,可應用于各種業(yè)務問題。當前,深度學習仍有一定的局限。第一,深度學習技術具有啟發(fā)式特征。深度學習能否解決一個給定的問題還暫無定論,因為目前還沒有數學理論可以表明一個“足夠好”的深度學習解決方案是存在的。該技術是啟發(fā)式的,工作即代表有效。第二,深度學習技術具有不可預期性。深度學習涉及的諸多隱含層,屬“黑箱模型”,會破壞合規(guī)性,對白箱模型形成挑戰(zhàn)。第三,深度學習系統(tǒng)化具有不成熟性。目前,沒有適合所有行業(yè)或企業(yè)需要的通用深度學習網絡,各行業(yè)或企業(yè)需要混合和匹配可用工具創(chuàng)建自己的解決方案,并與更新迭代的軟件相互兼容。第四,部分錯誤的結果造成不良影響。目前,深度學習不能以100%精度解決問題。深度學習延續(xù)了較淺層機器學習的大多數風險和陷阱。第五,深度學習的學習速度不如人意。深度學習系統(tǒng)需要進行大量訓練才有可能成功1.1深度學習有多深?盡管深度學習在圖像識別、語音識別等領域都得到落地和應用,涌現出了依圖、商湯、寒武紀等人工智能企業(yè),但是深度學習依舊存在困擾產學研的瓶頸。第一,數據瓶頸。幾乎所有的深度神經網絡都需要大量數據作為訓練樣本,如果無法獲取大量的標注數據,深度學習無法展開。雖然谷歌等互聯網巨頭開始研發(fā)人造數據技術,但是真正的效果還有待評估。第二,認知瓶頸。這是由深度學習的特性決定。深度學習對感知型任務支持較好,而對認知型任務支持的層次較低,無法形成理解、直覺、頓悟和自我意識的能力。科學家推斷,可能是這一切源于人類知識認識的局限,而深度學習在某些方面已經超越了人類的認知能力和認知范圍。1.2深度學習如何學?1.2.1機器學習的一般方法機器學習按照方法可以分為兩大類:監(jiān)督學習和無監(jiān)督學習。其中,監(jiān)督學習主要由分類和回歸等問題組成,無監(jiān)督學習主要由聚類和關聯分析等問題組成。深度學習屬于監(jiān)督學習中的一種。監(jiān)督學習的一般方法,如圖1.4所示[20]。圖1.4監(jiān)督學習的一般方法1.2深度學習如何學?1.2.1深度學習的一般方法隨著深度學習的爆發(fā),最新的深度學習算法已經遠遠超越了傳統(tǒng)的機器學習算法對于數據的預測和分類精度。深度學習不需要自己去提取特征,而是自動地對數據進行篩選,自動地提取數據高維特征。在模型訓練階段,使用大量有標簽的或沒標簽的樣本進行訓練和學習,建立深度神經網絡模型;在預測階段,基于已學習模型,提取數據更加抽象的特征表示。圖1.5為深度學習的一般方法,與傳統(tǒng)機器學習中的監(jiān)督學習一般方法(圖1.4)相比,少了特征工程,節(jié)約了工程師們大量工作時間。1.2深度學習如何學?圖1.5深度學習的一般方法在這兩個階段,都需要進行大量的運算操作,隨著深度神經網絡模型層數的增多,與之相對應的權重參數也以幾何級倍數增長,從而對硬件的計算能力有著越來越高的需求。1.3深度學習如何提速?要對深度學習進行提速,就要明白深度學習的應用系統(tǒng)架構,如圖1.6所示[20]。圖1.6表明,該系統(tǒng)由硬件支持系統(tǒng)、深度學習框架、支持技術系統(tǒng)和應用層面4個部分構成。該應用系統(tǒng),首先要有一個巨大的數據集,并選定一種深度學習模型,每個模型都有一些內部參數需要調整,以便學習數據。而這種參數調整實際上可以歸結為優(yōu)化問題,在調整這些參數時,就相當于優(yōu)化特定的約束條件。圖1.6深度學習的應用系統(tǒng)架構1.3深度學習如何提速?百度的硅谷人工智能實驗室(SVAIL)已經為深度學習硬件提出了DeepBench基準,這一基準著重衡量基本計算的硬件性能,而不是學習模型的表現。這種方法旨在找到使計算變慢或低效的瓶頸。因此,重點在于設計一個對于深層神經網絡訓練的基本操作執(zhí)行效果最佳的架構。那么基本操作有哪些呢?現在的深度學習DeepBench基準,提出四種基本運算:(1)矩陣相乘(MatrixMultiplication)—幾乎所有的深度學習模型都包含這一運算,它的計算十分密集。(2)卷積(Convolution)—這是另一個常用的運算,占用了模型中大部分的每秒浮點運算(浮點/秒)。(3)循環(huán)層(RecurrentLayers)—模型中的反饋層,并且基本上是前兩個運算的組合。(4)AllReduce——這是一個在優(yōu)化前對學習到的參數進行傳遞或解析的運算序列。在跨硬件分布的深度學習網絡上執(zhí)行同步優(yōu)化時(如AlphaGo的例子),這一操作尤其有效。1.3深度學習如何提速?除此之外,深度學習的硬件加速器需要具備數據級別和流程化的并行性、多線程和高內存帶寬等特性。另外,由于數據的訓練時間很長,所以硬件架構必須低功耗。因此,效能功耗比(PerformanceperWatt)是硬件架構的評估標準之一。為了解決CPU在大量數據運算效率低能耗高的問題,目前有兩種發(fā)展路線:一是延用傳統(tǒng)馮諾依曼架構,主要以3種類型芯片為代表:GPU、FPGA、ASIC;二是采用人腦神經元結構設計的芯片,已完全擬人化為目標,追求在芯片架構上不斷逼近人腦,這類芯片被稱為類腦芯片。1.3深度學習如何提速?1.3.1基于馮諾依曼架構的加速芯片基于馮·諾依曼結構的計算機將程序和處理該程序的數據用同樣的方式分別存儲在兩個區(qū)域,一個為指令集,一個為數據集。計算機每次進行運算時需要在CPU和內存這兩個區(qū)域往復調用,因而在雙方之間產生數據流量。而隨著深度學習算法的出現,對芯片計算力的要求不斷提高,馮·諾伊曼瓶頸愈加明顯:當CPU需要在巨大的資料上執(zhí)行一些簡單指令時,資料流量將嚴重降低整體效率,CPU將會在資料輸入或輸出時閑置。不僅如此,傳統(tǒng)芯片效率低。芯片工作時,大部分的電能將轉化為熱能,一個不帶散熱器的計算機,其CPU產生的熱量就可在短時間內將其自身融化。其他的智能化設備,也因芯片復雜耗能太高,導致續(xù)航能力差,不管如何改善工藝,高溫和漏電都是難以避免的問題。1.3深度學習如何提速?1.GPU加速技術GPU(GraphicsProcessingUnit,圖形處理器)作為硬件加速器之一,通過大量圖形處理單元與CPU協同工作,對深度學習、數據分析,以及大量計算的工程應用進行加速。自2007年NVIDIA公司發(fā)布第一個支持CUDA(ComputeUnifiedDeviceArchitecture,統(tǒng)一計算設備架構)的GPU后,GPU越來越強大,能夠解決復雜的計算問題。(1)GPU與顯卡的區(qū)別顯卡也叫顯示適配器,分為獨立顯卡和主板上集成顯卡,獨立顯卡主要由GPU、顯存和接口電路構成,集成顯卡沒有獨立顯存而是使用主板上的內存。GPU是圖形處理器,一般是焊接在顯卡上,大部分情況下所說GPU就是指顯卡,但實際上GPU是顯示卡的“心臟”,是顯卡的一個核心零部件,核心組成部分,兩者是“寄生與被寄生”關系。GPU本身并不能單獨工作,只有配合上附屬電路和接口,才能工作。這時它就變成了顯卡。參考鏈接:/s?id=1607965696317204020&wfr=spider&for=pc1.3深度學習如何提速?1.3深度學習如何提速?(2)GPU與CPU的區(qū)別比較GPU和CPU就是比較兩者如何處理任務的。如圖1.7所示,CPU使用幾個核心處理單元去優(yōu)化串行順序任務,而GPU是大規(guī)模并行架構擁有數以千計的更小、更高效的處理單元,用于處理多個并行小任務,處理速度非???,最適合深度學習需要高效的矩陣操作和大量的卷積操作;GPU執(zhí)行矩陣操作和卷積操作比CPU快很多的真正原因是GPU的高帶寬、高速緩存、并行單元多。CPU擁有復雜的系統(tǒng)指令,能夠進行復雜的任務操作和調度,兩者只互不能相互代替。在執(zhí)行多任務時,CPU需要等待帶寬,而GPU能夠優(yōu)化帶寬。換言之,CPU擅長操作小的內存塊,而GPU則擅長操作大的內存塊。1.3深度學習如何提速?圖1.7

GPU與CPU內部結構1.3深度學習如何提速?(3)GPU種類對于深度學習的加速器GPU,現在主要品牌有AMD、NVIDIA、Intel的XeonPhi。其中,NVIDIA公司的GUP使用最為廣泛,利用其計算加速標準庫cuDNN在CUDA平臺中構建深度學習網絡變得非常容易,而且在同一張顯卡上比不使用cnDNN的速度提升5倍之多。近年來,NVIDIA的GPU架構有Tesla(特斯拉)、Fermi(費米)、Kepler(開普勒)、Maxwell(麥克斯韋)、Pascal(帕斯卡)、Volta(伏特)、Turing(圖靈)等。2017年5月,NVIDIA發(fā)布新的GPU架構Volta可以實現4倍于Pascal架構的性能,GV100是采用Volta架構的第一款GPU,TeslaV100是使用GV100GPU的第一個AI芯片。與Pascal架構相比,TeslaV100對深度神經網絡訓練和預測階段的性能分別提高12倍和5倍。GPU在浮點計算、并行處理等方面的性能遠遠高于CPU。同時,越來越多的深度學習標準庫支持基于GPU加速,如OpenCL、CUDA等。NVIDIA的GPU云平臺NGC,提供Caffe、Caffe2、MXNet、CNTK、Theano、TensorFlow、Torch等框架、深度學習SDK等,此舉將大大促進深度學習技術的發(fā)展。1.3深度學習如何提速?2.FPGA現場可編程門陣列(Fieldprogrammablegatearray,FPGA)也是OpenCL支持的硬件。與GPU相比,FPGA的硬件配置靈活,且在運行深度學習中關鍵的子程序(例如對滑動窗口的計算)時,單位能耗下通常能比GPU提供更好的表現。然而,FPGA配置需要具體硬件的知識,難度介于通用處理器(Generalpurposeprocessor,GPP)和專用集成電路(Applicationspecificintegratedcircuit,ASIC)之間;FPGA既能提供集成電路的性能優(yōu)勢,又具備GPP可重新配置的靈活性。FPGA能夠簡單地通過使用觸發(fā)器(FF)來實現順序邏輯,并通過使用查找表(Lookuptable,LUT)來實現組合邏輯。現代的FPGA還含諸如全處理器內核、通信內核、運算內核和塊內存(BRAM)等硬化組件來實現一些常用功能。另外,目前的FPGA趨勢趨向于系統(tǒng)芯片(SystemonChip,SoC)設計方法,即ARM協處理器和FPGA通常位于同一芯片中。1.3深度學習如何提速?2.FPGA(1)1987年,VHDL成為IEEE標準;(2)1992年,GANGLION成為首個FPGA神經網絡硬件實現項目(Coxetal.);(3)1994年,Synopsys推出第一代FPGA行為綜合方案;(4)1996年,VIP成為首個FPGA的CNN實現方案(Cloutieretal.);(5)2005年,FPGA市場價值接近20億美元;(6)2006年,首次利用BP算法在FPGA上實現5GOPS的處理能力;(7)2011年,Altera推出OpenCL,支持FPGA;出現大規(guī)模的基于FPGA的CNN算法研究(Farabetetal.);(8)2016年,在微軟Catapult項目的基礎上,出現基于FPGA的數據中心CNN算法加速(Ovtcharovetal.)。目前的FPGA市場由Xilinx主導,占據超過85%的市場份額。此外,FPGA正迅速取代ASIC和應用專用標準產品(Applicationspecificstandardproducts,ASSP)來實現固定功能邏輯。對于深度學習而言,FPGA提供了優(yōu)于GPP加速能力的顯著潛力。GPP在軟件層面的執(zhí)行依賴于傳統(tǒng)的馮·諾依曼架構,指令和數據存儲于外部存儲器中,在需要時再取出;其瓶頸在于處理器和存儲器之間的通信嚴重削弱了GPP的性能,尤其影響深度學習經常需要獲取存儲信息的速率。而FPGA的可編程邏輯原件不依賴于馮·諾伊曼結構,可實現普通邏輯功能中的數據和路徑控制,,能夠利用分布式片上存儲器以及深度利用流水線并行,與前饋性深度學習方法自然契合;支持部分動態(tài)重新配置,即當FPGA的一部分被重新配置時而不擾亂其他部分正在進行的計算,這對大規(guī)模深度學習模式產生影響,可用于無法由單個FPGA容納的模型,同時還可通過將中間結果保存在本地存儲以降低高昂的全球存儲讀取費用。1.3深度學習如何提速?2.FPGAFPGA架構是為應用程序專門定制的,在開發(fā)FPGA深度學習技術時,較少強調使算法適應某固定計算結構,從而留出更多的自由去探索算法層面的優(yōu)化。需要很多復雜的下層硬件控制操作技術很難在上層軟件語言中實現,但能提高FPGA的執(zhí)行效率;然而這種執(zhí)行效率提升是以需要大量編譯(定位和回路)時間為代價的。FPGA最常用的語言是Verilog和VHDL,兩者均為硬件描述語言(HDL)。這些與傳統(tǒng)的軟件語言之間的主要區(qū)別是,HDL只是單純描述硬件,而C語言等軟件語言則描述順序指令,并無需了解硬件層面的執(zhí)行細節(jié)。有效描述硬件需要數字化設計和電路的專業(yè)知識,盡管一些下層的實現決定可以留給自動合成工具去實現,但往往無法達到高效的設計。因此,研究人員傾向于選擇軟件設計,因其已經非常成熟,擁有大量抽象和便利的分類來提高程序員的效率。這些趨勢使得FPGA領域目前更加青睞高度抽象化的設計工具。1.3深度學習如何提速?FPGA深度學習研究里程碑:(1)1987年,VHDL成為IEEE標準;(2)1992年,GANGLION成為首個FPGA神經網絡硬件實現項目(Coxetal.);(3)1994年,Synopsys推出第一代FPGA行為綜合方案;(4)1996年,VIP成為首個FPGA的CNN實現方案(Cloutieretal.);(5)2005年,FPGA市場價值接近20億美元;(6)2006年,首次利用BP算法在FPGA上實現5GOPS的處理能力;(7)2011年,Altera推出OpenCL,支持FPGA;出現大規(guī)模的基于FPGA的CNN算法研究(Farabetetal.);(8)2016年,在微軟Catapult項目的基礎上,出現基于FPGA的數據中心CNN算法加速(Ovtcharovetal.)。1.3深度學習如何提速?3.ASIC雖然GPU并行處理能力高,但不是針對機器學習而設計的,而FPGA要求用戶自主編程,對用戶的要求過高。芯片要同時具備并行化、低功耗、高性能等特性,還需要實現本地即時計算,這時ASIC(專用集成電路)的優(yōu)勢明顯。但是,ASIC的研發(fā)周期長,可能無法跟上市場的變化。所以,SoC+IP模式較為流行。SoC可以在芯片上集成許多不同模塊的芯片。SoC上每個模塊都可以稱為IP,可以自行設計,也可以由別的公司設計,然后集成到自己的芯片上。與ASIC相比,該模式成本低、上市快、靈活適配用戶需求。市場上也有一些公司專注于機器學習專用的ASIC開發(fā)。如谷歌打造的Tensor處理器(全稱:TensorProcessingUnit;簡稱:TPU)是專為深度學習語言TensorFlow開發(fā)的一種量身定做的芯片。因為是專為TensorFlow所準備,故谷歌也不需要它擁有任何可定制性,只要能完美支持TensorFlow需要的所有指令即可。同時,TPU運行TensorFlow的效率是所有設備中最高的。谷歌開發(fā)TPU的最顯而易見的目的就是:追求極致的效率。與CPU/GPU一樣,TPU也是可編程的,它可以在卷積神經網絡、長短期記憶網絡(Longandshorttermmemorynetwork,LSTM)模型等各種大型網絡上執(zhí)行CISC指令。1.3深度學習如何提速?TPU的內部結構,如圖1.8所示。另外,中科院計算所旗下的武紀系列:針對神經網絡的原型處理器結構的寒武紀1號,面向大規(guī)模神經網絡的寒武紀2號,面向多種機器學習算法的寒武紀3號,也取得了很大成功。ASIC的性能高于GPU和FPGA,其局限性是開發(fā)周期長。針對機器學習設計的ASIC芯片,對資金和技術的要求更高。谷歌之前曾用FPGA來解決價格低、效率和性能高等問題,但由于FPGA性能與ASIC存在很大的差距,最終轉向定制ASIC。圖1.8TPU的內部結構1.3深度學習如何提速?1.3.2基于人腦神經元結構的加速芯片基于人腦神經元結構的加速芯片,也稱類腦芯片。類腦芯片架構就是模擬人腦的神經突觸傳遞結構。眾多的處理器類似于神經元,通訊系統(tǒng)類似于神經纖維,每個神經元的計算都是在本地進行的,從整體上看神經元是分布式進行工作的,也就是說對整體任務進行了分工,每個神經元只負責一部分計算。處理海量數據時優(yōu)勢明顯,并且功耗比傳統(tǒng)芯片更低。目前,類腦芯片的研究就是基于微電子技術和新型神經形態(tài)器件的結合,希望突破傳統(tǒng)計算架構,實現存儲與計算的深度融合,大幅提升計算性能、提高集成度、降低能耗。與依靠馮諾依曼結構的芯片相比,類腦芯片前景雖好,但仍處于研發(fā),甚至是概念階段。1.3深度學習如何提速?1.英特爾PohoikiBeach芯片系統(tǒng)2017年9月,Intel發(fā)布了全新的神經擬態(tài)芯片“Loihi”,之后不斷取得新的突破和進展,還成立了Intel神經擬態(tài)研究社區(qū)(INRC),推動神經擬態(tài)計算的發(fā)展。英特爾公司又宣布了全新神經擬態(tài)PohoikiBeach芯片系統(tǒng)。該系統(tǒng)包含多達64顆Loihi芯片,集成了1320億個晶體管,總面積3840平方毫米,擁有800多萬個“神經元”(相當于某些小型嚙齒動物的大腦)和80億個“突觸”。IntelLoihi芯片采用14nm工藝制造,每顆集成21億個晶體管,核心面積60平方毫米,內部集成3個Quarkx86CPU核心、128個神經擬態(tài)計算核心、13萬個神經元、1.3億個突觸,并有包括PythonAPI在內的編程工具鏈支持。這種芯片不采用傳統(tǒng)硅芯片的馮諾依曼計算模型,而是模仿人腦原理的神經擬態(tài)計算方式,并且是異步電路,不需要全局時鐘信號,而是使用異步脈沖神經網絡。英特爾宣稱,該系統(tǒng)在人工智能任務中的執(zhí)行速度要比傳統(tǒng)CPU快1000倍,能效提高10000倍。該神經擬態(tài)系統(tǒng)的問世,預示著人類向“模擬大腦”邁出了一大步。與人腦中的神經元類似,Loihi擁有數字“軸突”用于向臨近神經元發(fā)送電信號,也有“樹突”用于接收信號,在兩者之間還有用于連接的“突觸”。英特爾表示,基于這種芯片的系統(tǒng)已經被用于模擬皮膚的觸覺感應、控制假腿、玩桌上足球游戲等任務。最新的64芯片系統(tǒng)已分享給60多個INRC生態(tài)合作伙伴。測試表明,運行實時深度學習基準測試時,功耗比傳統(tǒng)CPU低約109倍,對比特制的IoT推理硬件功耗低5倍,而且網絡規(guī)模擴大50倍后仍能維持實時性能,功耗僅增加30%、IoT硬件的話功耗會增加5倍以上,并失去實時性。按照計劃,Intel2019年底將做到1億個神經元、10000億個突觸,預計會有768顆芯片、1.5萬億個晶體管1.3深度學習如何提速?1.3深度學習如何提速?2.

IBMTrueNorth(SyNAPSE芯片)IBMTrueNorth(SyNAPSE芯片)有4096個內核,每個內核簡明模仿了人腦神經結構,每個內核有256個“神經元”(處理器)、256個“軸突”(存儲器)和64000個突觸(神經元和軸突之間的通信)。不同芯片還可以通過陣列方式互聯。IBM稱如果48顆TrueNorth芯片組建有4800萬個神經元的網絡,那么48顆芯片帶來的智力水平相當于普通老鼠。2014年后,有報道稱IBM公司開發(fā)由64個“TrueNorth”類腦芯片驅動的新型超級計算機,以進一步降低功能、開展大型深度神經網絡的實時分析并應用于高速空中目標識別。如果該系統(tǒng)功耗可以達到人腦級別,那么理論上就可以在64顆芯片原型基礎上進一步擴展,從而能夠同時處理任何數量的實時識別任務。1.3深度學習如何提速?3.高通Zeroth芯片2013年,高通公布一款Zeroth芯片。該芯片通過類似于神經傳導物質多巴胺的學習(又名“正強化”)來完成對行為和結果進行預編程。為了讓搭載該芯片的設備能隨時自我學習并從周圍環(huán)境中獲得反饋,高通開發(fā)了一套軟件工具。高通用裝載該芯片的機器小車在受人腦啟發(fā)的算法下完成了尋路、躲避障礙等任務。4.西井科技DeepSouth芯片上海西井科技推出自主研發(fā)的擁有100億規(guī)模的神經元人腦仿真模擬器(WestwellBrain)和可商用化的5000萬類腦神經元芯片(DeepSouth)兩款產品。DeepSouth是一款可商用化的芯片,有50多億“神經突觸”,能模擬高達5000萬級別的“神經元”,具備“自我學習、自我實時提高”能力,還可直接在芯片上無需網絡完成計算,在同一任務下的功耗僅為傳統(tǒng)芯片的幾十分之一到幾百分之一。1.3深度學習如何提速?5.

“達爾文”類腦芯片2015年,達爾文的類腦芯片是由浙江大學與杭州電子科技大學聯合研發(fā),是國內首款基于硅材料的脈沖神經網絡類腦芯片,芯片面積為25平方毫米,內含500萬個晶體管,集成了2048個硅材質的仿生神經元,可支持超過400萬個神經突觸和15個不同的突觸延遲。該款芯片可從外界接受并累計刺激,產生脈沖(電信號)進行信息的處理和傳遞,,可以識別不同人手寫的1-10這10個數字。該款芯片在接受人類腦電波后,可控制電腦屏幕上籃球的移動方向;在熟悉并學習了操作者的腦電波后,會在后續(xù)接受相同刺激時做出同樣反映。6.

AI-CTX芯片AI-CTX屬一款國內小型的類腦芯片。該芯片的每個神經元都具有與人腦神經元類似的電學特征與動態(tài)參數、簡單的運算與存儲功能。該芯片采用一種特殊的布線方式,使各芯片之間的交流突破物理限制,進而增加芯片群組的原有網絡。該芯片擅長處理如溫度、氣壓、人體信號、loT等包含時間參數的數據,而不適合處理靜態(tài)硬盤數據。深度學習框架是專為深度學習領域開發(fā)的具有一套獨立的體系結構、統(tǒng)一的風格模板、可以復用的解決方案,一般具有高內聚、嚴規(guī)范、可擴展、可維護、高通用等特點。隨著深度學習的日益火熱,越來越多的深度學習框架被開發(fā)出來。目前主流的深度學習框架,如表1.1所示。1.4主流深度學習框架1.4主流深度學習框架框架開發(fā)語言適合模型優(yōu)點缺點Caffe1.0[21]C++/CUDACNN造合前饋網絡和圖像處理、微調已有的網絡;定型模型,無需編寫任何代碼。不適合RNN;用于大型CNN,操作過于頻煩;擴展性差,不夠精減;更新緩慢。TensorFlow[22]C++/CUDA/PythonCNN/RNN/RL計算圖抽象化,易于理解;編譯時間快于Theano;用TensorBoard進行可視化;支持數據并行和模型并行速度較慢,內存占用較大;不提供商業(yè)支持;已預定型的模型不多;不易工具化;在大型軟件項目中易出錯。Torch[23]Lua/C/CUDACNN/RNN大量模塊化組件,易于組合;易于編寫定義層;預定型的模型很多。要學習Lua和使用Lua作為主語言;即插即用,代碼相對較少;不提供商業(yè)支持;文檔質量不高。Theano[22]PythonC++/CUDACNN/RNNPython+NumPy實現,接口簡單;計算圖抽象化,易于理解;RNN與計算圖配合好;有很多高級包派生。原始Theano級

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論