智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第1頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第2頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第3頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第4頁(yè)
智能計(jì)算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 第七章-深度學(xué)習(xí)處理器架構(gòu)_第5頁(yè)
已閱讀5頁(yè),還剩144頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智能計(jì)算系統(tǒng)

第七章

深度學(xué)習(xí)處理器架構(gòu)中國(guó)科學(xué)院計(jì)算技術(shù)研究所陳云霽研究員cyj@總體架構(gòu)計(jì)算訪存通信2計(jì)算三種計(jì)算單元矩陣向量標(biāo)量3計(jì)算三種計(jì)算單元矩陣向量標(biāo)量4TPUv4i計(jì)算單元Cambricon架構(gòu)Volta架構(gòu)“達(dá)芬奇”

架構(gòu)計(jì)算三種計(jì)算單元矩陣向量標(biāo)量常見(jiàn)三種共存各司其職5TPUv4i計(jì)算單元Cambricon架構(gòu)Volta架構(gòu)“達(dá)芬奇”

架構(gòu)矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成6×輸入(激活值)輸入(權(quán)值)輸出乘法器計(jì)算-I/O比例=1:3矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成7×輸入(激活值)輸入(權(quán)值)輸出向量乘法器×計(jì)算-I/O比例=1:3矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成8×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=3:5=1:1.6矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成9×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+××++計(jì)算-I/O比例=7:9=1:1.3矩陣運(yùn)算單元多個(gè)內(nèi)積單元組成矩陣乘向量單元10輸入(激活值)輸入(權(quán)值1)輸出矩陣乘向量單元××+××++計(jì)算-I/O比例=1:1.3××+××++輸入(權(quán)值2)矩陣運(yùn)算單元近端數(shù)據(jù)(權(quán)值)存儲(chǔ)在內(nèi)積單元附近的電路中采用小而快的存儲(chǔ)器11輸入(激活值)局部權(quán)值存儲(chǔ)(1)輸出矩陣乘向量單元××+××++計(jì)算-I/O比例=7:5=1:0.7××+××++局部權(quán)值存儲(chǔ)(2)局部權(quán)值存儲(chǔ)(1)××+××++局部權(quán)值存儲(chǔ)(2)矩陣運(yùn)算單元所有內(nèi)積單元共享激活值,采用廣播12輸入(激活值)輸出矩陣乘向量單元計(jì)算-I/O比例=7:3=1:0.4××+××++輸入(激活值)矩陣運(yùn)算單元整理示意圖13計(jì)算-I/O比例=1:0.4內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值輸出輸入(激活值)矩陣運(yùn)算單元增加內(nèi)積單元數(shù)量14輸出計(jì)算-I/O比例=7:2=1:0.3內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值內(nèi)積單元局部權(quán)值內(nèi)積單元局部權(quán)值矩陣運(yùn)算單元提出權(quán)值15輸出計(jì)算-I/O比例=28:24=1:0.9內(nèi)積單元內(nèi)積單元矩陣乘向量單元內(nèi)積單元內(nèi)積單元輸入(激活值)局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運(yùn)算單元增加一組矩陣乘向量單元16輸出計(jì)算-I/O比例=1:0.9內(nèi)積單元內(nèi)積單元多個(gè)矩陣乘向量單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運(yùn)算單元采用廣播共享權(quán)值17輸出計(jì)算-I/O比例=56:32=1:0.6內(nèi)積單元內(nèi)積單元矩陣乘矩陣單元內(nèi)積單元內(nèi)積單元激活值權(quán)值權(quán)值權(quán)值權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值矩陣運(yùn)算單元擴(kuò)大規(guī)模18輸出計(jì)算-I/O比例=112:48=1:0.4內(nèi)積內(nèi)積矩陣乘矩陣單元內(nèi)積內(nèi)積權(quán)值內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值矩陣運(yùn)算單元矩陣乘向量單元計(jì)算密度已經(jīng)較好矩陣乘矩陣單元優(yōu)勢(shì):規(guī)模大時(shí),理論上較好(第六章)困難:連線復(fù)雜,距離遠(yuǎn)、扇出多規(guī)模不大時(shí),未取得實(shí)際優(yōu)勢(shì)19計(jì)算-I/O比例=1:0.4計(jì)算-I/O比例=1:0.3矩陣運(yùn)算單元如何完成矩陣運(yùn)算?20×輸入(激活值)輸入(權(quán)值)向量?jī)?nèi)積單元×+計(jì)算-I/O比例=3:5=1:1.6

輸出矩陣運(yùn)算單元如何完成矩陣運(yùn)算?21×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?22

×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?23

×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?24

×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?25×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?26×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?27×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?28×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?29計(jì)算-I/O比例=1:1

矩陣乘矩陣單元輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值權(quán)值矩陣運(yùn)算單元如何完成矩陣運(yùn)算?30計(jì)算-I/O比例=1:1

內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元

內(nèi)積內(nèi)積權(quán)值輸出矩陣運(yùn)算單元如何完成矩陣運(yùn)算?31計(jì)算-I/O比例=1:1

輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元權(quán)值

矩陣運(yùn)算單元如何完成矩陣運(yùn)算?32計(jì)算-I/O比例=1:1

輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值

矩陣乘矩陣單元權(quán)值矩陣運(yùn)算單元問(wèn)題:連線距離遠(yuǎn)、扇出多還有其他方式嗎?33脈動(dòng)陣列機(jī)34輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?35輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?36輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?37輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?38輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?39輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?40輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?41輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?42輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+

+

+

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?43輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+

+

+

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?44輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+

+

+

+

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?45輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?

+

+

+

+

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?46輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7

+

+

+

+輸出

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?47輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7

輸出

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?48輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7

輸出

脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?49輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7

輸出

輸入(激活值)輸入(權(quán)值)輸出矩陣運(yùn)算單元脈動(dòng)陣列機(jī)vs矩陣乘矩陣單元優(yōu)勢(shì):計(jì)算-I/O比例更高電路采用局部短連接扇出少困難:延遲高,需要等待啟動(dòng)/排空專用性更強(qiáng),高效支持矩乘、卷積,但很難改造為同時(shí)支持其他功能51計(jì)算-I/O比例=1:0.4計(jì)算-I/O比例=1:0.2歷史脈動(dòng)陣列機(jī)(systolicarray)相似概念出現(xiàn)于二戰(zhàn)時(shí)期英國(guó)巨人計(jì)算機(jī)二型(ColossusMarkII,1944)用于破譯納粹德國(guó)軍事密文,長(zhǎng)期處于保密狀態(tài),戰(zhàn)后被銷毀孔祥重、CharlesE.Leiserson于1978年發(fā)明多種結(jié)構(gòu),對(duì)應(yīng)多種算法分別用于矩乘、線性方程組求解、LU分解、最大公約數(shù)等52向量和標(biāo)量單元主要功能:池化、歸一化Dropout、ReLU、Sigmoid、Softmax等特殊變換求最大/最小值、排序、計(jì)數(shù)、前綴求和等數(shù)據(jù)重排布53便箋存儲(chǔ)器寄存器堆運(yùn)算單元池化/均一化如何完成池化?5401452367891213101114150145236789121310111415014523678912131011141501452367891213101114153711153711153711151.55.59.513.5池化/均一化如何完成池化?550145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…池化/均一化如何完成池化?560145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…池化/均一化如何完成池化?571452367891213101114150145236789121310111415014523678912131011141501452367891213101114150便箋存儲(chǔ)器000011114444555522223333…0000池化/均一化如何完成池化?580452367891213101114151045236789121310111415104523678912131011141510452367891213101114151便箋存儲(chǔ)器000011114444555522223333…1111池化/均一化如何完成池化?590145236789121310111415014523678912131011141501452367891213101114150145367891213101114152便箋存儲(chǔ)器000011114444555522223333…3333池化/均一化如何完成池化?600145236789121310111415014523678912131011141501452367891213101114150145267891213101114153便箋存儲(chǔ)器000011114444555522223333…6666池化/均一化如何完成池化?610145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.5池化/均一化如何完成池化?620145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.51.51.51.51.57111537111537111535.59.513.51.5池化/均一化如何完成池化?630152367891213101114154015236789121310111415401523678912131011141540152367891213101114154便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.54444池化/均一化運(yùn)算單元結(jié)構(gòu)6444445555池化/均一化運(yùn)算單元結(jié)構(gòu)6544445555++++9999AA池化/均一化運(yùn)算單元結(jié)構(gòu)6644445555++++9999MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運(yùn)算單元結(jié)構(gòu)67151515157777++++22222222MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運(yùn)算單元結(jié)構(gòu)68151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool69151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool、MaxPool、BatchNorm70

+/max+/max+/max+/maxMUX0AAMUX0AAMUX0AAMUX0××××

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?71

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?72

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?73

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?74

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?75

激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?76

abs

×+

精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?77精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?可以采用硬件或軟件實(shí)現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法78精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?可以采用硬件或軟件實(shí)現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法79分段插值/快速估計(jì)+數(shù)值方法例如:0x5f3759df算法+牛頓迭代法前綴計(jì)算

80

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?81前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?82

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?83

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?84

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?85

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?86

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?87

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?88

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?89

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?90

前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?91

數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?92便箋存儲(chǔ)器012345

67…ab

cdefgh數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置93便箋存儲(chǔ)器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置再進(jìn)行內(nèi)積計(jì)算94便箋存儲(chǔ)器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置可以用標(biāo)量指令編程完成交換95便箋存儲(chǔ)器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置可以用標(biāo)量指令編程完成交換增加向量重排列功能,更高效!96便箋存儲(chǔ)器012345

67…ab

cdefghac

bd數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)97X

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)98X

XXX

XXXX

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)99X

XXX

XXXX

Bene?網(wǎng)絡(luò)每?jī)删€接入開關(guān)每?jī)删€接入開關(guān)

數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)100X

XXX

XXX

Waksman網(wǎng)絡(luò)每?jī)删€接入開關(guān)每?jī)删€接入開關(guān)省去第一個(gè)開關(guān)

計(jì)算小結(jié)矩陣運(yùn)算單元可設(shè)計(jì)為矩陣乘向量單元、矩陣乘法單元、脈動(dòng)陣列機(jī)等各有優(yōu)勢(shì)區(qū)間向量/標(biāo)量運(yùn)算單元增設(shè)累加寄存器,可以實(shí)現(xiàn)池化一組硬件可以同時(shí)支持多種功能采用分段線性近似可以計(jì)算特殊函數(shù)增設(shè)前綴計(jì)算、重排布等功能,有助于拓展通用性101總體架構(gòu)計(jì)算訪存通信102訪存訪問(wèn)便箋存儲(chǔ)器訪問(wèn)外部存儲(chǔ)器與計(jì)算的協(xié)同103便箋存儲(chǔ)器便箋存儲(chǔ)器大多采用SRAM實(shí)現(xiàn)連接矩陣運(yùn)算單元(2R,1W)連接向量運(yùn)算單元(2R,1W)連接標(biāo)量寄存器(1RW)連接DMA/外存/其他核(1RW)...104便箋存儲(chǔ)器寄存器堆運(yùn)算單元便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”105便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”106矩陣單元標(biāo)量單元向量單元DMA便箋存儲(chǔ)器其他特殊功能單元便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”107矩陣單元標(biāo)量單元向量單元DMA便箋存儲(chǔ)器其他特殊功能單元便箋存儲(chǔ)器如何緩解擁堵?拓寬“道路”規(guī)劃“車流”108便箋存儲(chǔ)器109拓寬“道路”多端口SRAM增加一個(gè)端口,面積+50%~100%面積意味著成本、能耗、延時(shí)便箋存儲(chǔ)器110拓寬“道路”多端口SRAM增加一個(gè)端口,面積+50%~100%面積意味著成本、能耗、延時(shí)分組SRAM開關(guān)陣列面積~O(分組數(shù)量2)分組沖突(bankconflict)便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?111原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?112原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器DMA便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突分離式便箋存儲(chǔ)器(二分離/三分離/...)113原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器DMA輸入神經(jīng)元存儲(chǔ)器DMA權(quán)重存儲(chǔ)器輸出神經(jīng)元存儲(chǔ)器分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值114輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元?jiǎng)澐窒蛄?標(biāo)量矩陣/向量/標(biāo)量115輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標(biāo)量DMA分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元?jiǎng)澐窒蛄?標(biāo)量矩陣/向量/標(biāo)量按處理階段劃分輸入數(shù)據(jù)/累加器116輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標(biāo)量DMA輸入累加DMA分離式便箋存儲(chǔ)器對(duì)數(shù)據(jù)進(jìn)行分流提高了處理效率對(duì)使用方式進(jìn)行了約束(損失通用性)117輸入累加DMA分離式便箋存儲(chǔ)器對(duì)數(shù)據(jù)進(jìn)行分流提高了處理效率對(duì)使用方式進(jìn)行了約束(損失通用性)體系結(jié)構(gòu)設(shè)計(jì)人員的職責(zé):尋找一組高效、合理的約束118輸入累加DMA外部存儲(chǔ)器訪問(wèn)通用處理器的訪存持續(xù)數(shù)個(gè)周期訪存和計(jì)算爭(zhēng)用取指譯碼資源119IFREGEXMEMWBIFREGEXMEMWBIFREGEXMEMWBloadcomputestore時(shí)間指令1周期外部存儲(chǔ)器訪問(wèn)處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬(wàn)條load/store指令120外部存儲(chǔ)器訪問(wèn)處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬(wàn)條load/store指令深度學(xué)習(xí)處理器工作在便箋存儲(chǔ)器上1條load指令裝載一整塊圖像1條指令完成計(jì)算1條store指令送回內(nèi)存121直接內(nèi)存訪問(wèn)(DMA)如何實(shí)現(xiàn)“1條load指令裝載一整塊圖像”?處理器控制:DMA控制:122loadrloadgloadbloadrloadgloadr~bDMADMADMA計(jì)算..計(jì)算..外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬(wàn)個(gè)周期123DMAEXloadcomputestore時(shí)間指令DMA100~100000周期外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬(wàn)個(gè)周期124DMAEXload 1compute 1store 1時(shí)間指令DMADMAEXload 2compute 2store 2DMA外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存“軟件流水線”125DMAEX時(shí)間指令DMADMAEXDMAload 1compute 1store 1load 2compute 2store 2外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡(jiǎn)化硬件126時(shí)間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡(jiǎn)化硬件顯式控制同步,簡(jiǎn)化硬件127時(shí)間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2syncsyncsync軟件流水線如何實(shí)現(xiàn)同步指令(sync)?簡(jiǎn)化硬件模型描述:計(jì)算模塊:隨時(shí)執(zhí)行收到的指令DMA模塊:隨時(shí)執(zhí)行收到的指令指令發(fā)射模塊:計(jì)算指令發(fā)射到計(jì)算模塊訪存指令發(fā)射到DMA模塊遇到sync時(shí):阻塞,直到整個(gè)處理器空閑下來(lái),再發(fā)射新的指令128EXDMA指令發(fā)射軟件流水線129load 1syncload 2compute 1syncstore 1compute 2load 3syncstore 2compute 3load 4syncstore 3compute 4load 5syncstore 4compute 5load 6syncstore 5compute 6syncstore 6DMAEXDMAEXDMADMAEXDMADMAEXDMADMAEXDMADMAEXDMADMA訪存小結(jié)便箋存儲(chǔ)器是DLP核心的數(shù)據(jù)樞紐訪問(wèn)便箋可能成為瓶頸“拓寬道路”:增加端口、設(shè)計(jì)為分組SRAM代價(jià):硬件開銷增加“規(guī)劃車流”:根據(jù)算法特征,采用分離式設(shè)計(jì)代

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論