FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第1頁
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第2頁
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第3頁
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第4頁
FTPA- 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

精品文檔-下載后可編輯FTPA:一種具有可配置核的靈活多核處理器結(jié)構(gòu)(二)-技術(shù)方案2靈活多核處理器FTPA結(jié)構(gòu)設(shè)計

2.1現(xiàn)有靈活多核處理器結(jié)構(gòu)面臨的問題

●通信開銷問題

靈活多核處理器結(jié)構(gòu)可以根據(jù)應(yīng)用特征,將多個物理核組合成一個功能強(qiáng)大的邏輯核。邏輯核的粒度決定了有多少超塊可以被推測執(zhí)行,從而構(gòu)建不同大小的指令窗口。對于采用EDGE指令集的結(jié)構(gòu)(如TFlex),雖然超塊內(nèi)指令間的數(shù)據(jù)依賴關(guān)系在編譯時已經(jīng)獲得,但是由于長延遲指令的存在和訪存延遲的不確定性,即使依靠編譯器靜態(tài)地面向多個物理核調(diào)度指令,也不能有效地隱藏實際執(zhí)行時超塊內(nèi)指令間的通信開銷。因此超塊在邏輯核上的平鋪式映射在很多情況下并不適合。

●邏輯核重構(gòu)開銷問題

靈活多核處理器中每個物理核都包含構(gòu)成邏輯核的所有資源:寄存器文件,指令窗口,執(zhí)行部件以及高速緩存等。當(dāng)多個物理核組合成一個邏輯核時,指令窗口和執(zhí)行部件可以很容易的組合,但寄存器文件和高速緩存的內(nèi)容則需要重建,因為這些資源里的內(nèi)容通常是按照地址索引交錯存放的,一旦資源數(shù)量或者位置發(fā)生改變,則需要清空原有數(shù)據(jù)后重建。例如在TFlex中,邏輯核的重構(gòu)就需要數(shù)千個時鐘周期,因此難以實現(xiàn)實時的細(xì)粒度資源調(diào)整。

●靈活性問題

靈活多核處理器的主要特點是邏輯核的可配置性。CoreFusion、Federation和WiDGET結(jié)構(gòu)由于緊耦合的設(shè)計,靈活性十分有限;Voltron只能靜態(tài)地配置邏輯核粒度,缺乏實時性;TFlex雖然提出了邏輯核的動態(tài)配置機(jī)制,但靈活性仍受到很大約束:TFlex處理器包含32個同構(gòu)的細(xì)粒度物理核,通過4×8的片上mesh網(wǎng)絡(luò)進(jìn)行連接,要求邏輯核配置必須為2×2,4×4,2×4等特定的mesh拓?fù)?,即物理核總?shù)和mesh邊長都是2的指數(shù)倍。這樣的限制有其軟硬件兩方面的原因:一方面,由于TFlex編譯器將超塊內(nèi)指令靜態(tài)調(diào)度到128項的邏輯空間,因此2的指數(shù)倍大小的拓?fù)浞奖愠瑝K指令從邏輯空間映射到硬件空間,如4×4×8或4×2×16硬件空間;另一方面,寄存器文件和物理核內(nèi)的高速緩存等共享資源,由于采用地址交錯索引的方式,不規(guī)則的拓?fù)鋵⑹顾饕兊脧?fù)雜。因此,TFlex邏輯核粒度只能在這些特定的拓?fù)渲g切換,不僅限制了靈活性,而且也容易引起資源的浪費。

針對上述3個問題,本文提出一個新的靈活多核處理器結(jié)構(gòu)FTPA.相比于已有的設(shè)計,F(xiàn)TPA具有以下3個技術(shù)創(chuàng)新點:1)FTPA將單個超塊獨立的映射在單個物理核上,降低超塊內(nèi)指令間通信開銷;并且根據(jù)超塊級推測執(zhí)行的深度調(diào)整邏輯核的粒度,以此適應(yīng)程序不同階段的并行特征,提高資源利用率。2)FTPA將物理核資源劃分成需要頻繁調(diào)整的計算資源和不經(jīng)常重構(gòu)的共享資源分別管理,以此降低邏輯核重構(gòu)開銷。3)FTPA在物理Mesh網(wǎng)絡(luò)上建立額外的邏輯上環(huán)形拓?fù)涞木W(wǎng)絡(luò)連接計算資源,以此支持任意粒度的邏輯核,提供高度的靈活性。以下2節(jié)分別敘述FTPA的物理核和邏輯核設(shè)計。

2.2物理核設(shè)計

將單個超塊單獨的映射在單個物理核上,而不是平鋪式的映射在多個物理核上,雖然能夠有效降低超塊內(nèi)指令間通信開銷,但有可能會損失對超塊指令級并行性的開發(fā)。因此,我們需要首先對超塊的并行性有一個準(zhǔn)確的判斷。本文采用如下公式對超塊并行性做統(tǒng)計性的判斷:

超塊并行性=超塊內(nèi)指令數(shù)/超塊長依賴路徑長度。

文獻(xiàn)[13]的統(tǒng)計結(jié)果顯示,對于類似SPEC2K的通用應(yīng)用,由4個單發(fā)射或2個雙發(fā)射的物理核組成的邏輯核,可以滿足絕大多數(shù)超塊并行性的需要。因此,F(xiàn)TPA采用4發(fā)射的物理核設(shè)計以保證對單個超塊并行性的開發(fā),并使用指令窗口分體的設(shè)計(如圖1)來降低指令選擇發(fā)射邏輯的復(fù)雜度。

根據(jù)文獻(xiàn)[12-13]中對超塊大小的分析,F(xiàn)TPA采用和TFlex相同的超塊限制,即限制每個超塊多包含128條指令,所以在每個物理核內(nèi)需要維護(hù)128入口項的指令隊列。基于EDGE指令顯式數(shù)據(jù)流特征,編譯器可以根據(jù)指令間的數(shù)據(jù)依賴關(guān)系將指令靜態(tài)地調(diào)度到128入口項的任意位置上。因此我們將物理核內(nèi)指令隊列劃分為4個子隊列(如圖1),每個獨立的子指令隊列對應(yīng)各自的邏輯功能部件,包括獨占一個ALU和共享一個浮點運算部件。這樣在保證4發(fā)射的同時,有效降低了指令選擇發(fā)射邏輯的復(fù)雜度。物理核內(nèi)指令執(zhí)行的簡要數(shù)據(jù)通路(通過路由網(wǎng)絡(luò)訪問本地或異地的物理核高速緩存)也在圖1中示出。

2.3邏輯核設(shè)計

本節(jié)通過敘述FTPA針對現(xiàn)有靈活多核結(jié)構(gòu)(如TFlex)的高邏輯核重構(gòu)開銷和低靈活性2個問題的解決方案來闡述FTPA的邏輯核設(shè)計。邏輯核重配置涉及的資源主要包括:指令窗口、執(zhí)行部件、寄存器文件和物理核內(nèi)高速緩存。其中,邏輯核的指令窗口大小和執(zhí)行部件數(shù)目,可以隨著物理核的數(shù)目低開銷地、快速地重配置,更多的物理核意味著更大的指令窗口和發(fā)射寬度;但是邏輯核的寄存器文件和高速緩存由于采用分布式共享機(jī)制,內(nèi)容按照地址交錯放置在各個物理核上,當(dāng)邏輯核重構(gòu)需要刷新后重建,從而帶來較大的性能開銷。

然而,由于EDGE指令集的顯式數(shù)據(jù)流特征,寄存器文件的讀寫依賴是編譯時靜態(tài)可知的。因此,如果超塊之間通過寄存器通信的數(shù)據(jù)量較少的話,我們就可以將寄存器文件對物理核私有化,即每個物理核內(nèi)的指令只需訪問本地寄存器文件,而超塊之間的數(shù)據(jù)依賴則由不同物理核上寄存器文件之間的通信完成。這樣就可以避免寄存器文件在邏輯核內(nèi)各個物理核上的分布式共享。

圖2示出了超塊間寄存器通信數(shù)目的統(tǒng)計信息。從圖2中可以看出,平均85%以上的超塊只有不到5個的寄存器寫操作,并且寫操作是在執(zhí)行過程中離散發(fā)生的,而非突發(fā)式訪問,所以FTPA將寄存器文件對物理核私有化,并采用寄存器文件間的點對點通信代替分布式共享,不會造成性能瓶頸。

不同于寄存器訪問,訪存地址不能靜態(tài)確定,因此高速緩存不能簡單采用類似寄存器文件的私有化方法。FTPA的解決方案是將物理核內(nèi)的資源分為2類:1)計算資源,包括指令窗口、執(zhí)行部件和私有化后的寄存器文件;2)共享資源,主要包括高速緩存資源。通過將物理核的計算資源和共享資源分別管理,邏輯核內(nèi)各個物理核的計算資源之間可以組成邏輯上環(huán)形的拓?fù)溥B接(如圖3(a)所示).需要頻繁調(diào)整的計算資源的重構(gòu)只需改變環(huán)的大小,從而實現(xiàn)了粒度任意數(shù)值的增減;而對于會引起清空刷新操作的共享資源的重構(gòu),可以獨立于計算資源,進(jìn)行粗粒度的調(diào)整。這樣不僅降低了邏輯核重構(gòu)帶來的開銷,同時也提高了FTPA結(jié)構(gòu)的靈活性。

圖3(a)示例了一個由8個物理核組成的FTPA邏輯核結(jié)構(gòu)。雖然物理上是4×2的Mesh網(wǎng)絡(luò)連接,但是8個物理核的計算資源額外的建立了一個邏輯上環(huán)形的拓?fù)溥B接。訪存請求通過片上Mseh網(wǎng)絡(luò)傳輸至所訪問的高速緩存所在的位置。程序執(zhí)行時,8個超塊按照迭代推測次序依次映射到0到7號物理核上,即非推測超塊0映射到處理器核0上,然后根據(jù)超塊0推測產(chǎn)生超塊1,映射到處理器核1上,再根據(jù)超塊1推測產(chǎn)生超塊2,放置到處理器核2上,依此類推,從而8個超塊也組成一個環(huán)形的邏輯結(jié)構(gòu)。本例中超塊執(zhí)行的推測深度為8.文獻(xiàn)[15]討論了推測深度的預(yù)測機(jī)制,不同的預(yù)測機(jī)制都可以應(yīng)用在FTPA上。

圖3(b)示例了FTPA上2個邏輯核的動態(tài)重配置,計算資源(環(huán)形)和共享資源(陰影表示)在邏輯上實現(xiàn)分離,在對計算資源的數(shù)量進(jìn)行調(diào)整時,共享資源可以保持不變。圖3(b)中第2種配置示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論