版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
會(huì)計(jì)學(xué)1存儲(chǔ)器訪問(wèn)模式一、GPU簡(jiǎn)介GPU(GraphicsProcessingUnit),即圖像處理器,是一種專(zhuān)用圖形渲染設(shè)備。GPU的功能更新很迅速,平均每一年多便有新一代的GPU誕生,運(yùn)算速度也越來(lái)越快。早期GPU主要用于信號(hào)成像和圖像處理,GPGPU(GeneralPurposeComputingonGPU)技術(shù)提高了GPU通用計(jì)算執(zhí)行效率。GPU實(shí)物圖:Teslac2050實(shí)物圖
GPU芯片實(shí)物圖
第1頁(yè)/共23頁(yè)GPU的硬件架構(gòu):
右圖是NVIDIA
Geforce8800硬件架構(gòu)圖第2頁(yè)/共23頁(yè)
GF100架構(gòu)概覽
16個(gè)SM(StreamMultiprocessor)每個(gè)SM中有32個(gè)SP(標(biāo)量處理器)6個(gè)64bitGDDR5存儲(chǔ)器控制器第3頁(yè)/共23頁(yè)
計(jì)算能力2.x的SM(streamingmultiprocessor)的解析圖
?32SP(標(biāo)量處理器),雙warp-schduler?64KBsharedmemory/L1cache,可以配置為48KBshared/16KBL1或者16KBshared/48KBL1
第4頁(yè)/共23頁(yè)CUDA
CUDA(ComputingUnifiedDeviceArchitecture)是一種不需要借助于圖形學(xué)API進(jìn)行GPU通用計(jì)算的軟硬件架構(gòu)。NVIDIA在2007年推向市場(chǎng)的并行架構(gòu),CUDA并不是一種編程語(yǔ)言,其包括了NVIDIA對(duì)于GPGPU的完整解決方案。提供了CUDAC編程語(yǔ)言,類(lèi)似c語(yǔ)言。CUDA用一種分層的編程模式來(lái)組織線程.第5頁(yè)/共23頁(yè)
SIMT:SIMD的變形
每個(gè)block是SIMT,而block間則是MIMDBlock的寬度是可變的,與硬件無(wú)關(guān);而通常SIMD編程模型中的向量寬度是固定的一個(gè)warp內(nèi)的線程行為更類(lèi)似SIMDBlock內(nèi)允許存在分支Block內(nèi)的線程間通過(guò)sharedmemory和同步進(jìn)行通信;而SIMD編程模型內(nèi)的向量之間通過(guò)寄存器通信,不需要顯式的同步第6頁(yè)/共23頁(yè)
Gridblockthread
?Kernel以包含大量的線程的Grid形式?存在,每一個(gè)線程執(zhí)行相同的程序?Grid由block組成,block內(nèi)的線程間可以高效通信?Block和thread擁有唯一的ID,用于控制thread操作不同的數(shù)據(jù),或者執(zhí)行不同分支第7頁(yè)/共23頁(yè)Warp?Warp并不存在于抽象的CUDA編程模型,而是由硬件決定的,對(duì)性能影響較大?在1.x和2.x架構(gòu)硬件中,一個(gè)warp由同一block內(nèi)相鄰的32個(gè)線程組成?少數(shù)指令,如vote和ballot,是顯式的以warp為單位執(zhí)行。?同一warp內(nèi)的線程可以認(rèn)為是“同時(shí)”執(zhí)行的,不需要進(jìn)行同步也能通過(guò)sharedmemory進(jìn)行通信?分支以warp為單位進(jìn)行?以warp為單位考慮對(duì)存儲(chǔ)器的訪問(wèn)的優(yōu)化,可以獲得更高性能第8頁(yè)/共23頁(yè)
CUDA開(kāi)發(fā)環(huán)境:
---支持CUDA的GPU---NVIDIA設(shè)備驅(qū)動(dòng)器---CUDA開(kāi)發(fā)工具(可以從NVIDIA下載,用于開(kāi)發(fā)的工具包)---標(biāo)準(zhǔn)C編譯器第9頁(yè)/共23頁(yè)CUDA執(zhí)行模型(1)、調(diào)用核程序(有GPU運(yùn)行的程序)時(shí)CPU調(diào)用API將顯卡端程序的代碼傳到GPU(2)、block運(yùn)行在SM上(3)、thread運(yùn)行在SP上第10頁(yè)/共23頁(yè)二、GPU存儲(chǔ)器訪問(wèn)模式GPU可尋址的存儲(chǔ)器分為:寄存器、全局存儲(chǔ)器、本地存儲(chǔ)器、共享存儲(chǔ)器、常量存儲(chǔ)器以及紋理存儲(chǔ)器。GPU的CUDA硬件整體架構(gòu)圖如下:第11頁(yè)/共23頁(yè)
數(shù)據(jù)流向:
第12頁(yè)/共23頁(yè)編址方式---GPU與CPU獨(dú)立編址,主機(jī)和設(shè)備之間的通信是PCI-E總線通信。---在主機(jī)端通過(guò)API去分配/復(fù)制/釋放GPU上的存儲(chǔ)空間,類(lèi)似c的內(nèi)存操作函數(shù)。如:cudaMalloc()函數(shù)用于分配GPU顯存。---GPU不同存儲(chǔ)器統(tǒng)一編址空間,GPU內(nèi)不同存儲(chǔ)器使用相同的編址空間,編譯器可以解析指針指向哪種類(lèi)型的存儲(chǔ)器---支持64bit尋址空間,最大1TB顯存第13頁(yè)/共23頁(yè)Register/LocalMemory---線程私有,在kernel程序中不加前綴定義的私有變量---通常情況下被編譯為寄存器,當(dāng)寄存器資源不足時(shí)自動(dòng)使用LocalMemory/cache作為私有變量---寄存器通常無(wú)延遲---計(jì)算能力2.x硬件上Local
memory(位于顯存)有cache機(jī)制,但是訪問(wèn)Local
memory同有數(shù)百個(gè)周期延遲
第14頁(yè)/共23頁(yè)SharedMemory---SharedMemory被分為多個(gè)組(稱(chēng)為bank),每個(gè)組只有一個(gè)32bit端口---相鄰的32bit存儲(chǔ)在相鄰的bank中---Block私有,block線程內(nèi)不同線程通過(guò)sharedmemory進(jìn)行通信---屬于片上存儲(chǔ)器,帶寬較大,延遲很?。o(wú)bankconflict時(shí)1-2周期)---計(jì)算機(jī)能力2.x硬件每SM32KBsharedmemory,分為32bank,bank寬度32bit,半速第15頁(yè)/共23頁(yè)SharedMemorybankconflict
如果同一個(gè)half-warp(1.x)或者warp(2.x)訪問(wèn)了不同端口中的不同數(shù)據(jù)(即同一個(gè)bank中的不同字),那么就會(huì)發(fā)生bankconflict;---廣播可以避免一部分讀取時(shí)的bankconflict,將數(shù)據(jù)廣播給提出讀請(qǐng)求的線程,寫(xiě)操作只有其中的一個(gè)線程寫(xiě)。---計(jì)算機(jī)能力2.x硬件有32個(gè)bank,訪問(wèn)64bit型數(shù)據(jù)時(shí)不再有bankconflict。
右圖:a、左:以一個(gè)字(32位)跨度,線程的一個(gè)線性訪問(wèn),不存在bank沖突b、中:以一個(gè)字(32位)跨度,線程的一個(gè)線性訪問(wèn),但是其每?jī)蓚€(gè)線程都訪問(wèn)同一個(gè)bank,這就2路bank沖突。c、右:同a,不存在沖突
第16頁(yè)/共23頁(yè)Globalmemory---通過(guò)_device_前綴定義,或者通過(guò)API分配---存在于顯存中,訪問(wèn)延遲大(400-600周期)---受顯存和存儲(chǔ)器控制器設(shè)計(jì)影響,按照一定方式(對(duì)齊)訪問(wèn)時(shí)才能獲得最大帶寬---計(jì)算機(jī)能力2.x硬件上有對(duì)globalmemory的cache機(jī)制第17頁(yè)/共23頁(yè)對(duì)齊1)、圖上部分:地址從128到256的對(duì)齊內(nèi)存段,線程順序訪問(wèn)內(nèi)存,計(jì)算能力2.0的設(shè)備中只需一次內(nèi)存操作即可讀完此內(nèi)存段。2)、圖中部分:地址從128到256的對(duì)齊內(nèi)存段,線程有部分交叉訪問(wèn)內(nèi)存,計(jì)算能力2.0的設(shè)備中只需一內(nèi)存操作即可讀完此內(nèi)存段。3)、圖下部分:線程訪問(wèn)起始地址從比128大到超過(guò)256的非對(duì)齊內(nèi)存段,線程順序訪問(wèn)內(nèi)存,計(jì)算能力2.0的設(shè)備中需兩次內(nèi)存操作即可讀完此內(nèi)存段。
注:warp執(zhí)行指令時(shí),會(huì)將warp中多個(gè)線程的內(nèi)存訪問(wèn)集中組織成一次或多次內(nèi)存操作,操作數(shù)依賴(lài)于每個(gè)線程能訪問(wèn)的字大小以及內(nèi)存的分配方式。第18頁(yè)/共23頁(yè)Texturememory---定義紋理參考后與CUDAarray或者Globalmemory綁定---存在于顯存,有texturecache---利用二維三維數(shù)據(jù)的數(shù)據(jù)局部性,訪問(wèn)相鄰元素性能較好---可以利用GPU中圖形硬件單元進(jìn)行一些處理,不占用可編程計(jì)算性能,計(jì)算機(jī)能力2.x可寫(xiě)。---紋理存儲(chǔ)器在每個(gè)GPC(圖像處理簇)上有片上紋理緩存---訪問(wèn)不需要遵循特定的優(yōu)化規(guī)則---尋址的計(jì)算由特定的硬件單元實(shí)現(xiàn)---紋理緩存提供將輸入的8位或者16位整型映射到[0.0,1.0]或者[-1.0,1.0]的取值空間第19頁(yè)/共23頁(yè)
紋理存儲(chǔ)器的具體操作:
紋理引用:指定紋理在紋理存儲(chǔ)器中的位置
紋理拾?。涸诮o定紋理引用和紋理坐標(biāo)后,從紋理上采樣紋理元的過(guò)程
紋理坐標(biāo):紋理元在紋理上的位置由紋理坐標(biāo)來(lái)描述
紋理尋址:由硬件自動(dòng)完成第20頁(yè)/共23頁(yè)Constantmem
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安徽省蚌埠市高三上學(xué)期第一次教學(xué)質(zhì)量檢查考試語(yǔ)文試題(含答案)
- 2025年家政服務(wù)合同期限約定
- 2025年媒體傳媒服務(wù)合作協(xié)議
- 2025年企業(yè)商標(biāo)使用轉(zhuǎn)讓合同
- 《氧氣發(fā)生裝置》課件
- 2025年商業(yè)綜合體裝修設(shè)計(jì)合同
- 2025年地鐵站裝修施工協(xié)議
- 二零二五年度美發(fā)店員工勞動(dòng)合同續(xù)簽及調(diào)整合同4篇
- 2025年冷庫(kù)自動(dòng)化控制系統(tǒng)銷(xiāo)售及安裝合同3篇
- 2024蘇州工業(yè)園區(qū)建筑工程施工質(zhì)量保修合同范本3篇
- 2024版塑料購(gòu)銷(xiāo)合同范本買(mǎi)賣(mài)
- JJF 2184-2025電子計(jì)價(jià)秤型式評(píng)價(jià)大綱(試行)
- GB/T 44890-2024行政許可工作規(guī)范
- 2024年安徽省中考數(shù)學(xué)試卷含答案
- 2025屆山東省德州市物理高三第一學(xué)期期末調(diào)研模擬試題含解析
- 2024年滬教版一年級(jí)上學(xué)期語(yǔ)文期末復(fù)習(xí)習(xí)題
- 兩人退股協(xié)議書(shū)范文合伙人簽字
- 2024版【人教精通版】小學(xué)英語(yǔ)六年級(jí)下冊(cè)全冊(cè)教案
- 汽車(chē)噴漆勞務(wù)外包合同范本
- 2024年重慶南開(kāi)(融僑)中學(xué)中考三模英語(yǔ)試題含答案
- 2023年最新的校長(zhǎng)給教師春節(jié)祝福語(yǔ)
評(píng)論
0/150
提交評(píng)論