版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
智能計(jì)算系統(tǒng)
第七章
深度學(xué)習(xí)處理器架構(gòu)中國(guó)科學(xué)院計(jì)算技術(shù)研究所陳云霽研究員cyj@總體架構(gòu)計(jì)算訪存通信2計(jì)算三種計(jì)算單元矩陣向量標(biāo)量3計(jì)算三種計(jì)算單元矩陣向量標(biāo)量4TPUv4i計(jì)算單元Cambricon架構(gòu)Volta架構(gòu)“達(dá)芬奇”
架構(gòu)計(jì)算三種計(jì)算單元矩陣向量標(biāo)量常見(jiàn)三種共存各司其職5TPUv4i計(jì)算單元Cambricon架構(gòu)Volta架構(gòu)“達(dá)芬奇”
架構(gòu)矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成6×輸入(激活值)輸入(權(quán)值)輸出乘法器計(jì)算-I/O比例=1:3矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成7×輸入(激活值)輸入(權(quán)值)輸出向量乘法器×計(jì)算-I/O比例=1:3矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成8×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=3:5=1:1.6矩陣運(yùn)算單元一種實(shí)現(xiàn):由內(nèi)積單元堆疊而成9×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+××++計(jì)算-I/O比例=7:9=1:1.3矩陣運(yùn)算單元多個(gè)內(nèi)積單元組成矩陣乘向量單元10輸入(激活值)輸入(權(quán)值1)輸出矩陣乘向量單元××+××++計(jì)算-I/O比例=1:1.3××+××++輸入(權(quán)值2)矩陣運(yùn)算單元近端數(shù)據(jù)(權(quán)值)存儲(chǔ)在內(nèi)積單元附近的電路中采用小而快的存儲(chǔ)器11輸入(激活值)局部權(quán)值存儲(chǔ)(1)輸出矩陣乘向量單元××+××++計(jì)算-I/O比例=7:5=1:0.7××+××++局部權(quán)值存儲(chǔ)(2)局部權(quán)值存儲(chǔ)(1)××+××++局部權(quán)值存儲(chǔ)(2)矩陣運(yùn)算單元所有內(nèi)積單元共享激活值,采用廣播12輸入(激活值)輸出矩陣乘向量單元計(jì)算-I/O比例=7:3=1:0.4××+××++輸入(激活值)矩陣運(yùn)算單元整理示意圖13計(jì)算-I/O比例=1:0.4內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值輸出輸入(激活值)矩陣運(yùn)算單元增加內(nèi)積單元數(shù)量14輸出計(jì)算-I/O比例=7:2=1:0.3內(nèi)積單元內(nèi)積單元矩陣乘向量單元局部權(quán)值局部權(quán)值內(nèi)積單元局部權(quán)值內(nèi)積單元局部權(quán)值矩陣運(yùn)算單元提出權(quán)值15輸出計(jì)算-I/O比例=28:24=1:0.9內(nèi)積單元內(nèi)積單元矩陣乘向量單元內(nèi)積單元內(nèi)積單元輸入(激活值)局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運(yùn)算單元增加一組矩陣乘向量單元16輸出計(jì)算-I/O比例=1:0.9內(nèi)積單元內(nèi)積單元多個(gè)矩陣乘向量單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值局部權(quán)值局部權(quán)值局部權(quán)值局部權(quán)值矩陣運(yùn)算單元采用廣播共享權(quán)值17輸出計(jì)算-I/O比例=56:32=1:0.6內(nèi)積單元內(nèi)積單元矩陣乘矩陣單元內(nèi)積單元內(nèi)積單元激活值權(quán)值權(quán)值權(quán)值權(quán)值內(nèi)積單元內(nèi)積單元內(nèi)積單元內(nèi)積單元激活值矩陣運(yùn)算單元擴(kuò)大規(guī)模18輸出計(jì)算-I/O比例=112:48=1:0.4內(nèi)積內(nèi)積矩陣乘矩陣單元內(nèi)積內(nèi)積權(quán)值內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值矩陣運(yùn)算單元矩陣乘向量單元計(jì)算密度已經(jīng)較好矩陣乘矩陣單元優(yōu)勢(shì):規(guī)模大時(shí),理論上較好(第六章)困難:連線復(fù)雜,距離遠(yuǎn)、扇出多規(guī)模不大時(shí),未取得實(shí)際優(yōu)勢(shì)19計(jì)算-I/O比例=1:0.4計(jì)算-I/O比例=1:0.3矩陣運(yùn)算單元如何完成矩陣運(yùn)算?20×輸入(激活值)輸入(權(quán)值)向量?jī)?nèi)積單元×+計(jì)算-I/O比例=3:5=1:1.6
輸出矩陣運(yùn)算單元如何完成矩陣運(yùn)算?21×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?22
×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?23
×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?24
×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?25×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?26×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?27×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?28×輸入(激活值)輸入(權(quán)值)輸出向量?jī)?nèi)積單元×+計(jì)算-I/O比例=1:1.6
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?29計(jì)算-I/O比例=1:1
矩陣乘矩陣單元輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值權(quán)值矩陣運(yùn)算單元如何完成矩陣運(yùn)算?30計(jì)算-I/O比例=1:1
內(nèi)積內(nèi)積激活值
矩陣乘矩陣單元
內(nèi)積內(nèi)積權(quán)值輸出矩陣運(yùn)算單元如何完成矩陣運(yùn)算?31計(jì)算-I/O比例=1:1
輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值
矩陣乘矩陣單元權(quán)值
矩陣運(yùn)算單元如何完成矩陣運(yùn)算?32計(jì)算-I/O比例=1:1
輸出內(nèi)積內(nèi)積內(nèi)積內(nèi)積激活值
矩陣乘矩陣單元權(quán)值矩陣運(yùn)算單元問(wèn)題:連線距離遠(yuǎn)、扇出多還有其他方式嗎?33脈動(dòng)陣列機(jī)34輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?35輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?36輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?37輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?38輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?39輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?40輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?41輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?42輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+
+
+
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?43輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+
+
+
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?44輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+
+
+
+
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?45輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=?
+
+
+
+
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?46輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7
+
+
+
+輸出
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?47輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7
輸出
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?48輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7
輸出
脈動(dòng)陣列機(jī)如何完成矩陣運(yùn)算?49輸入(激活值)輸入(權(quán)值)計(jì)算-I/O比例=1:0.7
輸出
輸入(激活值)輸入(權(quán)值)輸出矩陣運(yùn)算單元脈動(dòng)陣列機(jī)vs矩陣乘矩陣單元優(yōu)勢(shì):計(jì)算-I/O比例更高電路采用局部短連接扇出少困難:延遲高,需要等待啟動(dòng)/排空專用性更強(qiáng),高效支持矩乘、卷積,但很難改造為同時(shí)支持其他功能51計(jì)算-I/O比例=1:0.4計(jì)算-I/O比例=1:0.2歷史脈動(dòng)陣列機(jī)(systolicarray)相似概念出現(xiàn)于二戰(zhàn)時(shí)期英國(guó)巨人計(jì)算機(jī)二型(ColossusMarkII,1944)用于破譯納粹德國(guó)軍事密文,長(zhǎng)期處于保密狀態(tài),戰(zhàn)后被銷毀孔祥重、CharlesE.Leiserson于1978年發(fā)明多種結(jié)構(gòu),對(duì)應(yīng)多種算法分別用于矩乘、線性方程組求解、LU分解、最大公約數(shù)等52向量和標(biāo)量單元主要功能:池化、歸一化Dropout、ReLU、Sigmoid、Softmax等特殊變換求最大/最小值、排序、計(jì)數(shù)、前綴求和等數(shù)據(jù)重排布53便箋存儲(chǔ)器寄存器堆運(yùn)算單元池化/均一化如何完成池化?5401452367891213101114150145236789121310111415014523678912131011141501452367891213101114153711153711153711151.55.59.513.5池化/均一化如何完成池化?550145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…池化/均一化如何完成池化?560145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…池化/均一化如何完成池化?571452367891213101114150145236789121310111415014523678912131011141501452367891213101114150便箋存儲(chǔ)器000011114444555522223333…0000池化/均一化如何完成池化?580452367891213101114151045236789121310111415104523678912131011141510452367891213101114151便箋存儲(chǔ)器000011114444555522223333…1111池化/均一化如何完成池化?590145236789121310111415014523678912131011141501452367891213101114150145367891213101114152便箋存儲(chǔ)器000011114444555522223333…3333池化/均一化如何完成池化?600145236789121310111415014523678912131011141501452367891213101114150145267891213101114153便箋存儲(chǔ)器000011114444555522223333…6666池化/均一化如何完成池化?610145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.5池化/均一化如何完成池化?620145236789121310111415014523678912131011141501452367891213101114150145236789121310111415便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.51.51.51.51.57111537111537111535.59.513.51.5池化/均一化如何完成池化?630152367891213101114154015236789121310111415401523678912131011141540152367891213101114154便箋存儲(chǔ)器000011114444555522223333…1.51.51.51.54444池化/均一化運(yùn)算單元結(jié)構(gòu)6444445555池化/均一化運(yùn)算單元結(jié)構(gòu)6544445555++++9999AA池化/均一化運(yùn)算單元結(jié)構(gòu)6644445555++++9999MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運(yùn)算單元結(jié)構(gòu)67151515157777++++22222222MUX0AAMUX0AAMUX0AAMUX0AA池化/均一化運(yùn)算單元結(jié)構(gòu)68151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool69151515157777++++22MUX0AAMUX0AAMUX0AAMUX0×22×22×22×1/41/41/41/45.55.55.55.5AA池化/均一化支持AvgPool、MaxPool、BatchNorm70
+/max+/max+/max+/maxMUX0AAMUX0AAMUX0AAMUX0××××
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?71
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?72
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?73
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?74
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?75
激活函數(shù)如何計(jì)算雙曲正切激活(tanh)?76
abs
×+
精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?77精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?可以采用硬件或軟件實(shí)現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法78精確計(jì)算特殊函數(shù)分段線性插值在深度學(xué)習(xí)推理任務(wù)中,基本滿足需求如果需要精確計(jì)算,怎么辦?可以采用硬件或軟件實(shí)現(xiàn):各函數(shù)的快速數(shù)值算法例如:Beame-Cook-Hoover快速倒數(shù)算法數(shù)值方法例如:牛頓迭代法79分段插值/快速估計(jì)+數(shù)值方法例如:0x5f3759df算法+牛頓迭代法前綴計(jì)算
80
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?81前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?82
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?83
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?84
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?85
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?86
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?87
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?88
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?89
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?90
前綴計(jì)算實(shí)現(xiàn)很簡(jiǎn)單。有高效的方式嗎?91
數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?92便箋存儲(chǔ)器012345
67…ab
cdefgh數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置93便箋存儲(chǔ)器012345
67…ab
cdefghac
bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置再進(jìn)行內(nèi)積計(jì)算94便箋存儲(chǔ)器012345
67…ab
cdefghac
bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置可以用標(biāo)量指令編程完成交換95便箋存儲(chǔ)器012345
67…ab
cdefghac
bd數(shù)據(jù)重排布以向量為單位計(jì)算,很難使向量上不同位置的數(shù)據(jù)“相遇”因?yàn)楸愎{訪問(wèn)是對(duì)齊的例子:如何計(jì)算4a+5c+6b+7d?先交換b和c的位置可以用標(biāo)量指令編程完成交換增加向量重排列功能,更高效!96便箋存儲(chǔ)器012345
67…ab
cdefghac
bd數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)97X
數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)98X
XXX
XXXX
數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)99X
XXX
XXXX
Bene?網(wǎng)絡(luò)每?jī)删€接入開關(guān)每?jī)删€接入開關(guān)
數(shù)據(jù)重排布使用排列網(wǎng)絡(luò)100X
XXX
XXX
Waksman網(wǎng)絡(luò)每?jī)删€接入開關(guān)每?jī)删€接入開關(guān)省去第一個(gè)開關(guān)
計(jì)算小結(jié)矩陣運(yùn)算單元可設(shè)計(jì)為矩陣乘向量單元、矩陣乘法單元、脈動(dòng)陣列機(jī)等各有優(yōu)勢(shì)區(qū)間向量/標(biāo)量運(yùn)算單元增設(shè)累加寄存器,可以實(shí)現(xiàn)池化一組硬件可以同時(shí)支持多種功能采用分段線性近似可以計(jì)算特殊函數(shù)增設(shè)前綴計(jì)算、重排布等功能,有助于拓展通用性101總體架構(gòu)計(jì)算訪存通信102訪存訪問(wèn)便箋存儲(chǔ)器訪問(wèn)外部存儲(chǔ)器與計(jì)算的協(xié)同103便箋存儲(chǔ)器便箋存儲(chǔ)器大多采用SRAM實(shí)現(xiàn)連接矩陣運(yùn)算單元(2R,1W)連接向量運(yùn)算單元(2R,1W)連接標(biāo)量寄存器(1RW)連接DMA/外存/其他核(1RW)...104便箋存儲(chǔ)器寄存器堆運(yùn)算單元便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”105便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”106矩陣單元標(biāo)量單元向量單元DMA便箋存儲(chǔ)器其他特殊功能單元便箋存儲(chǔ)器便箋是DLP核當(dāng)中的數(shù)據(jù)“樞紐”107矩陣單元標(biāo)量單元向量單元DMA便箋存儲(chǔ)器其他特殊功能單元便箋存儲(chǔ)器如何緩解擁堵?拓寬“道路”規(guī)劃“車流”108便箋存儲(chǔ)器109拓寬“道路”多端口SRAM增加一個(gè)端口,面積+50%~100%面積意味著成本、能耗、延時(shí)便箋存儲(chǔ)器110拓寬“道路”多端口SRAM增加一個(gè)端口,面積+50%~100%面積意味著成本、能耗、延時(shí)分組SRAM開關(guān)陣列面積~O(分組數(shù)量2)分組沖突(bankconflict)便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?111原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突深度學(xué)習(xí)處理器中的哈佛結(jié)構(gòu)?112原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器DMA便箋存儲(chǔ)器規(guī)劃“車流”通用處理器中,采用哈佛結(jié)構(gòu)解決取指-取數(shù)據(jù)沖突分離式便箋存儲(chǔ)器(二分離/三分離/...)113原始馮·諾伊曼結(jié)構(gòu)哈佛結(jié)構(gòu)便箋存儲(chǔ)器DMA輸入神經(jīng)元存儲(chǔ)器DMA權(quán)重存儲(chǔ)器輸出神經(jīng)元存儲(chǔ)器分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值114輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元?jiǎng)澐窒蛄?標(biāo)量矩陣/向量/標(biāo)量115輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標(biāo)量DMA分離式便箋存儲(chǔ)器按數(shù)據(jù)劃分神經(jīng)元/權(quán)值輸入神經(jīng)元/輸出神經(jīng)元/權(quán)值按功能單元?jiǎng)澐窒蛄?標(biāo)量矩陣/向量/標(biāo)量按處理階段劃分輸入數(shù)據(jù)/累加器116輸入神經(jīng)元DMA權(quán)重輸出神經(jīng)元向量矩陣標(biāo)量DMA輸入累加DMA分離式便箋存儲(chǔ)器對(duì)數(shù)據(jù)進(jìn)行分流提高了處理效率對(duì)使用方式進(jìn)行了約束(損失通用性)117輸入累加DMA分離式便箋存儲(chǔ)器對(duì)數(shù)據(jù)進(jìn)行分流提高了處理效率對(duì)使用方式進(jìn)行了約束(損失通用性)體系結(jié)構(gòu)設(shè)計(jì)人員的職責(zé):尋找一組高效、合理的約束118輸入累加DMA外部存儲(chǔ)器訪問(wèn)通用處理器的訪存持續(xù)數(shù)個(gè)周期訪存和計(jì)算爭(zhēng)用取指譯碼資源119IFREGEXMEMWBIFREGEXMEMWBIFREGEXMEMWBloadcomputestore時(shí)間指令1周期外部存儲(chǔ)器訪問(wèn)處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬(wàn)條load/store指令120外部存儲(chǔ)器訪問(wèn)處理大小為224×224×3的圖像通用處理器工作在內(nèi)存上需要執(zhí)行30萬(wàn)條load/store指令深度學(xué)習(xí)處理器工作在便箋存儲(chǔ)器上1條load指令裝載一整塊圖像1條指令完成計(jì)算1條store指令送回內(nèi)存121直接內(nèi)存訪問(wèn)(DMA)如何實(shí)現(xiàn)“1條load指令裝載一整塊圖像”?處理器控制:DMA控制:122loadrloadgloadbloadrloadgloadr~bDMADMADMA計(jì)算..計(jì)算..外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬(wàn)個(gè)周期123DMAEXloadcomputestore時(shí)間指令DMA100~100000周期外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存持續(xù)數(shù)百至數(shù)十萬(wàn)個(gè)周期124DMAEXload 1compute 1store 1時(shí)間指令DMADMAEXload 2compute 2store 2DMA外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存“軟件流水線”125DMAEX時(shí)間指令DMADMAEXDMAload 1compute 1store 1load 2compute 2store 2外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡(jiǎn)化硬件126時(shí)間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2外部存儲(chǔ)器訪問(wèn)深度學(xué)習(xí)處理器的訪存重新安排指令順序,簡(jiǎn)化硬件顯式控制同步,簡(jiǎn)化硬件127時(shí)間指令DMAload 1EXcompute 1DMAstore 1DMAload 2EXcompute 2DMAstore 2syncsyncsync軟件流水線如何實(shí)現(xiàn)同步指令(sync)?簡(jiǎn)化硬件模型描述:計(jì)算模塊:隨時(shí)執(zhí)行收到的指令DMA模塊:隨時(shí)執(zhí)行收到的指令指令發(fā)射模塊:計(jì)算指令發(fā)射到計(jì)算模塊訪存指令發(fā)射到DMA模塊遇到sync時(shí):阻塞,直到整個(gè)處理器空閑下來(lái),再發(fā)射新的指令128EXDMA指令發(fā)射軟件流水線129load 1syncload 2compute 1syncstore 1compute 2load 3syncstore 2compute 3load 4syncstore 3compute 4load 5syncstore 4compute 5load 6syncstore 5compute 6syncstore 6DMAEXDMAEXDMADMAEXDMADMAEXDMADMAEXDMADMAEXDMADMA訪存小結(jié)便箋存儲(chǔ)器是DLP核心的數(shù)據(jù)樞紐訪問(wèn)便箋可能成為瓶頸“拓寬道路”:增加端口、設(shè)計(jì)為分組SRAM代價(jià):硬件開銷增加“規(guī)劃車流”:根據(jù)算法特征,采用分離式設(shè)計(jì)代
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度畜禽養(yǎng)殖場(chǎng)地租賃及管理服務(wù)協(xié)議3篇
- 二零二五年度公司股權(quán)轉(zhuǎn)讓與員工安置保障合同3篇
- 2025年度年度合伙開設(shè)甜品店合同3篇
- 二零二五年度農(nóng)業(yè)科技公司聘用兼職農(nóng)業(yè)技術(shù)員合同書3篇
- 2025年度農(nóng)村土地租賃與農(nóng)業(yè)產(chǎn)業(yè)化項(xiàng)目合作協(xié)議2篇
- 2025年度超市綠色環(huán)保供應(yīng)鏈合作協(xié)議書3篇
- 2025年度農(nóng)村保潔員工作績(jī)效評(píng)估合同2篇
- 2025年常用食品供貨合同模板范文
- 2025年度國(guó)有土地租賃協(xié)議合同(科技孵化器)3篇
- 二零二五年度智能硬件內(nèi)部股東股權(quán)轉(zhuǎn)讓合同模板3篇
- 2023年開封糧食產(chǎn)業(yè)集團(tuán)有限公司招聘筆試真題
- 2024年全國(guó)“紀(jì)檢監(jiān)察”業(yè)務(wù)相關(guān)知識(shí)考試題庫(kù)(附含答案)
- 2025年社區(qū)工作者考試試題庫(kù)及答案
- 期末檢測(cè)卷(三)2024-2025學(xué)年人教PEP版英語(yǔ)四年級(jí)上冊(cè)(含答案無(wú)聽(tīng)力原文無(wú)聽(tīng)力音頻)
- 2024-2030年中國(guó)兒童內(nèi)衣行業(yè)運(yùn)營(yíng)狀況及投資前景預(yù)測(cè)報(bào)告
- 吉首大學(xué)《高等數(shù)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 人教版(2024新版)八年級(jí)上冊(cè)物理期末必刷多項(xiàng)選擇題50題(含答案解析)
- PAS 2050:2011-商品和服務(wù)在生命周期內(nèi)的溫室氣體排放評(píng)價(jià)規(guī)范(中文)
- 手術(shù)分級(jí)目錄(2023年修訂)
- 山東省青島市2023-2024學(xué)年高一上學(xué)期1月期末物理試題 含解析
- 2024年山東濟(jì)南軌道交通集團(tuán)運(yùn)營(yíng)有限公司招聘筆試參考題庫(kù)含答案解析
評(píng)論
0/150
提交評(píng)論