基于事件的微處理器系統(tǒng)功率仿真_第1頁
基于事件的微處理器系統(tǒng)功率仿真_第2頁
基于事件的微處理器系統(tǒng)功率仿真_第3頁
基于事件的微處理器系統(tǒng)功率仿真_第4頁
基于事件的微處理器系統(tǒng)功率仿真_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于事件的微處理器系統(tǒng)功率仿真        獲得精確的電路功率估計并不是件輕松的事,象SPICE這樣的業(yè)界標準仿真工具雖然能夠預測出較精確的功耗,但要花很多的運行時間。本文以PowerPC 405GP的處理器內核為例,說明基于事件的功率模型可以提供良好的微處理器功率估計。     為了更好地研究計算所用的功率,需要建立能對程序和操作系統(tǒng)進行快速、精確地功率與性能估計的仿真基礎架構。為此我們開發(fā)出了針對PowerPC 405GP內核的基于事件的功率與性能仿真引擎。其中的前期工

2、作表明,通過觀察處理器內部發(fā)生的一系列事件可以計算得到相對精確的功耗估計。這種方法可以進一步拓展到整個系統(tǒng)的功率估計。為了驗證推論,我們開發(fā)了一種405GP內核的周期精確模型,并補充了對不同處理器內核事件的能量估計,最終生成了一張動態(tài)處理器功耗圖。能量估計的基礎是針對用于功率測量的已有405GP板的測試結果。目前正在運行著相同操作系統(tǒng)和應用程序的硬件上確認仿真器的時序和功率精度。初步的時序比較表明,仿真時間平均是使用4個EEMBC基準應用的硬件仿真時間的4.57%。在應用程序的穩(wěn)定狀態(tài)期間仿真功率中的平均錯誤是5.12%。仿真器本身速度慢了300倍,在相同的4個應用程序上的平均速度是每秒436

3、,000條指令。                                                

4、0;      圖1:PowerPC 405GP的模塊框圖。    問題的引出 在計算機系統(tǒng)的功率研究方面有許多問題需要解決。低功率VLSI電路、創(chuàng)新的微結構、新的半導體技術和制造工藝、關注功率的創(chuàng)新編譯器算法、應用程序和操作系統(tǒng)技術在能量高效的系統(tǒng)設計中被廣為使用等等。我們對問題涉及的系統(tǒng)軟件和架構比較感興趣。不幸的是,許多象我們這樣的研究小組都無法接觸為運行著實際操作系統(tǒng)和應用軟件的系統(tǒng)準備的快速精確的功率仿真環(huán)境。獲得精確的電路功率估計并不是件輕松的事。象SPICE這樣的業(yè)界標準仿真工具雖然能夠預測

5、出較精確的功耗,但要花很多的運行時間。也有一些工具(如Sequence Design的WattWatcher和PowerTheater試圖通過在較高抽象層(如Verilog或VHDL寄存器傳輸模型)執(zhí)行仿真來改善功率估計的性能。不幸的是,即使是這樣的工具也需要在訓練和運行上支出大量的時間,以致于對操作系統(tǒng)和整個應用程序的研究變得不切實際。這也是我們目前努力開發(fā)快速、精確的基于事件的功率模型的原因。該功率模型將作為CycleSim周期精確執(zhí)行驅動仿真器的一部分。CycleSim仿真器包含在IBM的奧斯汀研究實驗室開發(fā)的Mambo仿真環(huán)境中。     

6、60;                                                 圖2:

7、貝塞爾曲線硬件功率。    以往的經驗表明,基于事件的功率模型可以提供良好的微處理器功率估計。不幸的是,在研究新的硬件上不支持事件跟蹤的架構或系統(tǒng)時這種模型無法派上用場。我們的仿真工具可以填補這一空白。為了證明這種觀念的有效性,我們?yōu)镻owerPC 405GP內的處理器內核開發(fā)了一個功率和性能模型。一旦該方法得到證實,就能為其它微處理器建立模型,并用最好的可用VLSI設計工具建立功率估計,從而正確地預測出運行操作系統(tǒng)和實際應用軟件的未來計算機系統(tǒng)的功率行為。         

8、                                                圖3:貝塞爾曲線仿真功率

9、。       下面首先概括地介紹CycleSim和PowerPC 405GP模型,然后詳細描述獲取405GP的基于事件的功率模型的方法,接著討論仿真器的時序和功率精度的有效性,最后是總結,同時指出了將來需要進一步開展的工作。     CycleSim介紹 CycleSim是一個為PowerPC架構設計的以事件和執(zhí)行為主導的仿真引擎,它可以為運行操作系統(tǒng)和應用程序的系統(tǒng)提供快速、周期精確的仿真。CycleSim是IBM奧斯汀研究實驗室開發(fā)的Mambo仿真環(huán)境中的一部分。其中部分功能與Standf

10、ord SimOS仿真器中增加的PowerPC支持部分是共享的。目前這個CycleSim仿真器內含了一個PowerPC 405內核的模型,其中包括定時器、TLB、指令和數(shù)據(jù)緩沖器、UART、存儲器(包括啟動用的ROM影像)和一個中斷控制器。因此允許仿真器在啟動操作系統(tǒng)(如Hard Hat Linux)和運行應用程序時能提供精確的性能預測。用這樣的仿真器實現(xiàn)我們的目標是非常理想的,主要原因有二。首先,它本身能跟蹤處理器中大多數(shù)有關于功率的事件,這是獲得周期精度所必須的。要知道將能量值與這些事件關聯(lián)起來并不是件很容易的事。其次,由于功率是時間的函數(shù),周期精度至關重要。  

11、60;                                                 

12、60;   圖4:iDCT硬件功率。     PowerPC 405GP仿真器     PowerPC 405GP是一塊用于嵌入式應用的系統(tǒng)級芯片,其內含的405處理器內核能夠實現(xiàn)PowerPC架構的Book E嵌入式擴展。405內核是一個32位處理器,具有獨立的指令(ICU)和數(shù)據(jù)(DCU)緩存單元、一個MMU和定時裝置。通過處理器本地總線(PLB),可以完成對存儲器和映射為存儲器的I/O器件的訪問。通過獨立的DCR總線可以訪問用于系統(tǒng)配置的器件控制寄存器。圖1是PowerPC 40

13、5GP的模塊框圖。                                                 &#

14、160;         圖5:iDCT仿真功率。    處理器的CycleSim模型包含了對指令存取/預存取邏輯、分支預測、>' target='_blank' class='infotextkey'>管理冒險、中斷和例外、數(shù)據(jù)和指令翻譯旁路緩存、定時器和ICU及DCU的詳細仿真。也能仿真映射為存儲器的UART,但不能達到周期精度。目前我們對存儲器延時作了建模,但對緩沖器或詳細的存儲器控制器或存儲器塊之間的沖突未

15、作建模。405相對來說是一款比較簡單的處理器,因為它采用的是一種無序的事件架構。用于處理器模型的時序信息主要來源于已經公開的用戶手冊或實驗數(shù)據(jù)。當無法找到完善的資料文檔時,要設法運行仔細設計過的用于識別微架構某一特殊方面行為的微基準。然后將這些測試應用于PowerPC 405GP評估板上,從而發(fā)現(xiàn)內核在某些條件下的實際行為。大部分這種時序驗證工作圍繞著存儲器操作和緩存單元。                   

16、60;                                     圖6:路由查找硬件功率。    今后,根據(jù)被仿真的具體系統(tǒng)調整微架構仿真后,CycleSim架構就可用于仿真未

17、來的PowerPC微處理器。更詳細的總線、存儲器子系統(tǒng)和外圍設備的模型已有計劃,但如下文所述的那樣,仿真器的當前狀態(tài)對功率和性能平衡的精確研究來說已經足夠了。 基于事件的功率模型 我們使用的功率模型很簡單,根據(jù)處理器每個周期所處的狀態(tài),處理器消耗的總能量等于它的靜態(tài)或空閑能耗加上管線、執(zhí)行單元和緩存的能耗。 因此,假定Eidel代表靜態(tài)能量,ei代表一系列事件,那么指定應用下消耗的總能量應為:                  

18、;      其中ni代表根據(jù)事件類型檢測到的事件數(shù)量。在CycleSim中,這種能量是以每個周期為基礎計算的,因此可以為處理器內核生成一個個周期的功耗圖。不幸的是,405GP沒有硬件的事件監(jiān)視器,所以增加了工作的復雜性。另外,我們以前也沒有相關的從功率角度看的事件經驗。這些問題是根據(jù)對架構、VLSI電路、處理器中能耗源的認識、并通過實驗和有根據(jù)的推測解決的。               

19、0;                                    圖7:路由查找仿真功率。    我們采用的是奧斯汀研究實驗室設計的基于PowerPC 405GP的“Pecan”評估板,該評估板也是國家儀器(N

20、I)公司功率測量系統(tǒng)中附屬用于功率測試的儀器。板上的電源平面是根據(jù)包含傳感器在內的使用相同電壓值和供電線的不同元件而分開的。利用這些電阻上的電壓下降計算被測器件的消耗電流,取樣頻率是10KHz。表1列出了實驗用到的一些重要參數(shù)。     通過讓Pecan板的內核運行于空閑周期,可以測量處理器在等待狀態(tài)時的空閑功率。然后開發(fā)數(shù)百個微基準來測量某個處理器內核事件的能量成本。最終的事件列表由緩存使用/未使用的平均能量成本、各種指令類型、分支條件、中斷、TLB使用/未使用等組成。我們還測量了SDRAM存儲器塊的功耗,但這些數(shù)字沒有包含在本文報告的模型中。 

21、60;                                                 

22、60;   圖8:矩陣乘法硬件功率。    用于發(fā)現(xiàn)各種重要事件能量成本的許多相同微基準也被用于發(fā)現(xiàn)CycleSim開發(fā)所需的某些時序問題。一旦計算出所有能量值,CycleSim就能累積出每個周期總的能耗值。對每個周期能量點進行累加和平均后就能得到某個特殊間隔下的平均功率值。 時序和功率驗證 只有精度得到驗證的性能和功率仿真工具才會獲得人們的青睞。之所以選擇405GP作為測試平臺來開發(fā)仿真器,原因有二。第一,獲得使用沒有事件監(jiān)視支持功能的簡單處理器進行功率估計時相關事件類型方面的經驗,其次,也是最重要的,是可以用來驗證周期精

23、度和功率的實際系統(tǒng)的有效性。                                                 &#

24、160;                            圖9:矩陣乘法仿真功率。    為了得到本文描述的最初驗證結果,要采用源自嵌入式微處理器基準協(xié)會(EEMBC)的4個測試基準:iDCT(反向離散余弦變換)、矩陣乘法、貝塞爾曲線計算和路由查找/系統(tǒng)。為了驗證Cycle

25、Sim 405GP模型的時序精度,我們測量了運行4個基準所需的周期數(shù),在硬件和仿真器上對每個基準做了50次反復(包括初始化),然后比較結果,并將使用處理器時鐘的405GP的定時器作為Pecan板級測試的時鐘源。測到的時序錯誤范圍在-6.22%到6.22%之間,絕對平均值是4.57%。結果總結在表2內。作為一個附加的好處,時序驗證操作非常有助于發(fā)現(xiàn)某些仿真器問題以及硬件和仿真器版內核的緩存設置之間的區(qū)別。為了測試仿真器的效率,我們根據(jù)每個基準測量了仿真周期數(shù)和每秒指令數(shù),然后在配置為雙Pentium III 933MHz處理器、512M RAM、運行Linux 2.4.2的IBM Intelli

26、Station工作站上計算周期降速。結果如表3所示。平均降速約為302倍,被仿真的指令平均數(shù)為每秒43,6424個。    為了驗證CycleSim的功率模型,我們又從仿真器和儀器上運行了相同的基準,同時捕獲功率曲線。圖2到圖9是針對每個基準經過50次反復運行后的功率測量和仿真的功率圖。對于仿真圖形,在圖形化之前每個周期的功率測量平均做了20,000次,原因主要是為了減少CycleSim的數(shù)據(jù)輸出量和減少圖形中的噪聲。這種平均也可以由測試系統(tǒng)和測試板本身的走線阻抗完成。       &

27、#160;                                                 表1:實驗時

28、的PPC405GP設置。    從圖中可以看出,雖然仿真器能夠捕獲應用程序的一些功率特性,但是有許多明顯的區(qū)別。每個應用程序啟動時都是將它的代碼從啟動ROM挎貝到主存中。這一階段被顯示為板上一段約1.1W的短平線,一般都有一個沒被仿真器捕獲到的功率尖峰。  仿真器顯示這一拷貝階段的功耗約為0.97W。我們懷疑可能是由于缺少用于訪問ROM的IIC和OPB總線的仿真模型。我們將分析產生尖峰的原因,如果不是由測量誤差或帶噪聲的供電引起的,那么我們會在CycleSim中為它建模。除此之外,仿真器向UART輸出消息幾乎是瞬時的,但根據(jù)實際的板子

29、狀態(tài)可以看出,在應用程序完成控制臺上的數(shù)據(jù)顯示后還有一些活動。最后,每個應用程序各自的功耗行為似乎都很好地被仿真器捕獲到了,但iDCT除外,因為在仿真器中拷貝后有個階段沒有出現(xiàn)在硬件測試中。在應用穩(wěn)態(tài)階段中的功率估計誤差有2%到9%的變化,絕對平均值為5.12%。                                &

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論