龍芯號(hào)處理器設(shè)計(jì)_第1頁
龍芯號(hào)處理器設(shè)計(jì)_第2頁
龍芯號(hào)處理器設(shè)計(jì)_第3頁
龍芯號(hào)處理器設(shè)計(jì)_第4頁
龍芯號(hào)處理器設(shè)計(jì)_第5頁
已閱讀5頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1龍芯2號(hào)處理器設(shè)計(jì)中國科學(xué)院計(jì)算技術(shù)研究所中國科學(xué)院計(jì)算技術(shù)研究所CPU組組2004.11.102內(nèi)容提要l 基本情況介紹基本情況介紹u研究研究目標(biāo)目標(biāo)u目前目前進(jìn)展進(jìn)展u近期工作計(jì)劃近期工作計(jì)劃l 關(guān)鍵技術(shù)關(guān)鍵技術(shù) u結(jié)構(gòu)設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)u處理器驗(yàn)證處理器驗(yàn)證u物理設(shè)計(jì)物理設(shè)計(jì)3龍芯2號(hào)研究目標(biāo)l 研究目標(biāo)研究目標(biāo)u研制出具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國際先進(jìn)水平的研制出具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國際先進(jìn)水平的64位高性位高性能通用能通用CPU芯片和配套的芯片和配套的PC以及以及服務(wù)器系統(tǒng)樣機(jī)。服務(wù)器系統(tǒng)樣機(jī)。u建立開發(fā)平臺(tái)、設(shè)計(jì)方法、研究隊(duì)伍。建立開發(fā)平臺(tái)、設(shè)計(jì)方法、研究隊(duì)伍。l 樣機(jī)系統(tǒng)指標(biāo)樣機(jī)系統(tǒng)指

2、標(biāo)uMIPS兼容,兼容,64位,超流水,位,超流水,4發(fā)射,亂序執(zhí)行發(fā)射,亂序執(zhí)行u流片主頻流片主頻500MHz以上,以上,SPEC CPU2000值為值為300分分以上,以上,性能與性能與1GHz以上的以上的PIII或或PIV相當(dāng)相當(dāng)F300MHz的的Untra Sparc II的分值為的分值為100分。分。 F1.3GHz PIV實(shí)測結(jié)果:實(shí)測結(jié)果:INT 346; FP 272。u運(yùn)行完整的運(yùn)行完整的64位位Linux操作系統(tǒng)和操作系統(tǒng)和X-window視窗系統(tǒng),通視窗系統(tǒng),通過包括過包括SPEC CPU2000在內(nèi)的若干基準(zhǔn)程序的功能和性能在內(nèi)的若干基準(zhǔn)程序的功能和性能測試,通過包括測

3、試,通過包括Office、瀏覽器、瀏覽器、WEB服務(wù)器在內(nèi)的一批服務(wù)器在內(nèi)的一批應(yīng)用程序的考核,可試運(yùn)行電子政務(wù)等大型應(yīng)用。應(yīng)用程序的考核,可試運(yùn)行電子政務(wù)等大型應(yīng)用。4部分處理器的SPEC CPU2000值4333342001450MHz, 64K+32K(L1), 8M(L2)Power3-II100100300MHz, 16K+16K(L1),L2UltraSPARC-II4104662001900MHz, 32K+64K(L1), 8M(L2)UltraSPARC-III1158651414745264386343756422SPECfp200091020031.45GHz, 64K+

4、32K(L1), 1.5M(L2,on),8M(L3)Power4+6762002875MHz, 0.75M+1.5M(L1)PA-8700+4222000550MHz, 512K+1M(L1)PA-860068420022GHz, 12K+8K(L1), 256K(L2,on)Pentium IV40320011GHz, 16K+16K(L1), 256K(L2,on)Pentium III4122001500MHz, 32K+32K(L1), 8M(L2)MIPS R140003472000500MHz, 32K+32K(L1), 8M(L2)MIPS R1200062120011001M

5、Hz, 64K+64K(L1), 8M(L2)Alpha 21264C3131999500MHz, 64K+64K(L1), 4M(L2)Alpha 21264SPECint2000日期日期參數(shù)參數(shù)處理器處理器5MidLowHighMIPSMIPSXScaleARMIA32IA64HighPerformance(GHz)Low Power(mW)440 / 750 / 970 / Power4+主流CPU的譜系和龍芯的位置高性能低能耗龍芯1 / 龍芯2 / 龍芯36龍芯處理器Roadmap0.18um, 32位位單發(fā)射單發(fā)射龍芯龍芯1SPEC分值分值時(shí)間時(shí)間 2001 2002 2003 20

6、04 2005 2006 200720040060080010000.18-0.13um, 64位位, 4發(fā)射發(fā)射0.13-0.09um, 64位,多線程位,多線程以以300MHz UltraSparc II為基準(zhǔn)為基準(zhǔn) 龍芯龍芯21.3GHz的的P4實(shí)測分值為實(shí)測分值為定點(diǎn)定點(diǎn)342浮點(diǎn)浮點(diǎn)2722GHz的的P4SPEC分值在分值在600到到750之間之間龍芯龍芯1.2龍芯龍芯2.2龍芯龍芯2.3龍芯龍芯1.3龍芯龍芯3龍芯龍芯3.2龍芯龍芯3.37龍芯2號(hào)處理器特點(diǎn)l 高性能高性能u64位、四發(fā)射、亂序執(zhí)行位、四發(fā)射、亂序執(zhí)行u64KB+64KB片內(nèi)一級(jí)片內(nèi)一級(jí)Cache, 1MB-8MB

7、片外二級(jí)片外二級(jí)CacheuIEEE 754兼容浮點(diǎn)部件,專門的媒體支持兼容浮點(diǎn)部件,專門的媒體支持u雙精度浮點(diǎn)運(yùn)算雙精度浮點(diǎn)運(yùn)算10億次億次/秒,單精度浮點(diǎn)運(yùn)算秒,單精度浮點(diǎn)運(yùn)算20億次億次/秒秒uSPEC CPU2000實(shí)測性能相當(dāng)于實(shí)測性能相當(dāng)于500MHz-1GHz的的PIII系列系列u完全滿足桌面應(yīng)用的要求完全滿足桌面應(yīng)用的要求l 采用采用0.18um CMOS標(biāo)準(zhǔn)單元標(biāo)準(zhǔn)單元工藝,工藝,500MHzl 針對(duì)緩沖區(qū)溢出攻擊的專門安全支持針對(duì)緩沖區(qū)溢出攻擊的專門安全支持l MIPS兼容,支持兼容,支持LINUX, VxWorks, WinCE等主流操等主流操作系統(tǒng)作系統(tǒng)l 1350萬晶

8、體管,面積萬晶體管,面積6.2mm*6.7mm l 功耗:功耗:2w-4w500MHzl 低成本:低成本:CPU+套片套片20美元美元8龍芯2號(hào)進(jìn)展l 已經(jīng)完成多次流片,包括已經(jīng)完成多次流片,包括0.18um的定型芯片的定型芯片u2002年年7月開始概念結(jié)構(gòu)設(shè)計(jì),月開始概念結(jié)構(gòu)設(shè)計(jì),10月開始詳細(xì)結(jié)構(gòu)設(shè)計(jì)月開始詳細(xì)結(jié)構(gòu)設(shè)計(jì)u2003年年10月月17日首片成功運(yùn)行日首片成功運(yùn)行u2004年年9月月28日日0.18um定型芯片的試流片運(yùn)行定型芯片的試流片運(yùn)行l(wèi) 基本完成院重大專項(xiàng)和基本完成院重大專項(xiàng)和863重點(diǎn)項(xiàng)目重點(diǎn)項(xiàng)目u實(shí)測性能是龍芯實(shí)測性能是龍芯1號(hào)的號(hào)的10倍以上倍以上u全面超過全面超過V

9、IA的性能、實(shí)測性能達(dá)到的性能、實(shí)測性能達(dá)到PIII的水平的水平u完全可以滿足桌面的應(yīng)用完全可以滿足桌面的應(yīng)用l 系統(tǒng)設(shè)計(jì)進(jìn)展系統(tǒng)設(shè)計(jì)進(jìn)展u完成完成PC和服務(wù)器主板的設(shè)計(jì),正在進(jìn)行筆記本主板的聯(lián)調(diào)和服務(wù)器主板的設(shè)計(jì),正在進(jìn)行筆記本主板的聯(lián)調(diào)u64位北橋設(shè)計(jì),已經(jīng)完成位北橋設(shè)計(jì),已經(jīng)完成RTL設(shè)計(jì)設(shè)計(jì)u完成完成MIPS64 Linux kernel 和和Debian的完整發(fā)行版的移植,包的完整發(fā)行版的移植,包括括xwindows, Open Office, Mozilla, 媒體播放媒體播放, Email, Xpdf等等9VersionPhysical DesignArchitecture Fe

10、aturesTapeout TimePerformance2AASIC, 0.18um, 250MHz64-bit, 4-issue, OOO, 32KB+32KB L12003.07.13Failed2BASIC, 0.18um, 300MHz64-bit, 4-issue, OOO, 32KB+32KB L1 reduced queue size2003.08.133X-5X Godson-12B1Tiled placement, crafted cell, 0.18um, 350-400MHzSplit Read, BTB, RAS, Off-chip L22004.03.072X Go

11、dson-2B2CMore custom, 0.18um, 450-500MHz9-stage pipeline, 64KB+64KB L1, paired single FP2004.06-08500-800MHz PIII2D0.13um, Cu, 600-800MHzMultiply-Add, SMP, On-chip L2, Prefetch, 2004.09-121.3-1.4GHz PIV2D10.13um, Cu, more custom, 800-1000 MHzPico-architecture tuning 2005.01-061.5-2.0GHz PIVSOCBased

12、on Godson-2 IPDDR controller, interconnect, IO2006.01-06TeraFLOPs CC-NUMA龍芯2號(hào)研發(fā)歷程l Balance between frequency and architecture is most important10Godson-2C主頻l 已完成多次流片,目前為已完成多次流片,目前為C方案(方案(Godson-2C)u是是0.18um的定型芯片的定型芯片l 正常電壓范圍正常電壓范圍(1.8v10%)主頻為主頻為400MHz-450MHzu目前由于封裝散熱較?。ㄖ荒苌⒛壳坝捎诜庋b散熱較小(只能散1w-2w,實(shí)測,實(shí)測40

13、0MHz時(shí)時(shí)3w左右),因此降低電壓運(yùn)行在左右),因此降低電壓運(yùn)行在90MHz*3或或90MHz*4l 通過封裝改進(jìn)和工藝調(diào)整,通過封裝改進(jìn)和工藝調(diào)整,正常電壓范圍正常電壓范圍達(dá)到達(dá)到500MHz-600MHzu改進(jìn)封裝:通過散熱片可以散改進(jìn)封裝:通過散熱片可以散3w-4wu溝道寬度:溝道寬度:0.16um或或0.17umu閾值電壓:閾值電壓:-5%或或-10%u不用改不用改gds2版圖,版圖,SMIC已經(jīng)開始加工已經(jīng)開始加工11龍芯1號(hào)和龍芯2號(hào)12SPEC初步性能比較(1)l 266MHz Godson-1 vs. 270MHz Godson-2Cl 500MHz的龍芯的龍芯2號(hào)性能是龍芯

14、號(hào)性能是龍芯1號(hào)性能的號(hào)性能的10倍以上倍以上13SPEC初步性能比較(2)l 733MHz Via-C3 vs. 270MHz Godson-2Cl 500MHz的龍芯的龍芯2號(hào)性能將大大超過號(hào)性能將大大超過VIA的處理器的處理器14SPEC初步性能比較(3)l 360MHz Godson-2C vs. 450MHz的的PIIIl 500MHz的的Godson-2C的性能達(dá)到的性能達(dá)到600MHz以上以上PIII的性能的性能15Godson-2C的SPEC 分值分析l 目前目前gcc編譯器編譯器270MHz時(shí)時(shí)90-100分分u龍芯龍芯1號(hào)是定點(diǎn)號(hào)是定點(diǎn)18分,浮點(diǎn)分,浮點(diǎn)25分分uGods

15、on-2B在在225MHz時(shí)時(shí)40-50分分u通過硬件、通過硬件、OS和編譯優(yōu)化和編譯優(yōu)化270MHz時(shí)達(dá)到時(shí)達(dá)到100-120分分l 主頻提高到主頻提高到500MHz使使gcc編譯的編譯的SPEC分值提高到分值提高到200分左右分左右u外頻和二級(jí)外頻和二級(jí)Cache的增大使性能隨主頻線性增加的增大使性能隨主頻線性增加u目前外頻為目前外頻為90MHz,可以提高到,可以提高到125MHz。u目前二級(jí)目前二級(jí)Cache配置為配置為4MB,可以配置到,可以配置到8MB。l 編譯器提高編譯器提高30%-50%u估計(jì)需要估計(jì)需要2-3個(gè)月時(shí)間個(gè)月時(shí)間l 二進(jìn)制優(yōu)化可以提高二進(jìn)制優(yōu)化可以提高10%-20%

16、u已經(jīng)把已經(jīng)把Alpha的的ALTO移植到移植到MIPS上上l 最后達(dá)到最后達(dá)到250分或分或300分以上分以上16Godson-2D的設(shè)計(jì)l 一個(gè)一個(gè)CPU設(shè)計(jì)、兩種芯片形態(tài)、三個(gè)應(yīng)用系統(tǒng)設(shè)計(jì)、兩種芯片形態(tài)、三個(gè)應(yīng)用系統(tǒng)u一:一:Godson-2處理器的增強(qiáng)型,處理器的增強(qiáng)型,1GHz,SPEC分值分值600分分u二:二:CPU和基于和基于CPU的的SOC(互連、存儲(chǔ)控制、(互連、存儲(chǔ)控制、IO)u三:三:PC、SMP服務(wù)器、服務(wù)器、TeraFLOPS高性能機(jī)高性能機(jī)u計(jì)算所負(fù)責(zé)計(jì)算所負(fù)責(zé)CPU核和核和PC機(jī)機(jī)l 結(jié)構(gòu)改進(jìn)結(jié)構(gòu)改進(jìn)u浮點(diǎn)乘加:峰值性能雙精度浮點(diǎn)乘加:峰值性能雙精度4GFLOP

17、S,單精度,單精度8GFLOPSu片內(nèi)片內(nèi)512KB二級(jí)二級(jí)Cache和和SMP支持支持l 物理設(shè)計(jì)物理設(shè)計(jì)u0.13um的的HP工藝,更多的定制工藝,更多的定制l 目前進(jìn)展目前進(jìn)展u已完成乘加部件改造、已完成乘加部件改造、11月完成二級(jí)月完成二級(jí)Cache和和SMP支持支持u11月中完成月中完成8端口寄存器堆的定制設(shè)計(jì)端口寄存器堆的定制設(shè)計(jì)u2005年年2月月tapeout第一個(gè)芯片。第一個(gè)芯片。u2005年底完成年底完成1GHz,SPEC分值分值600分的任務(wù)分的任務(wù)17龍芯3號(hào)考慮l 處理器結(jié)構(gòu)已經(jīng)歷了一個(gè)簡單、復(fù)雜、簡單、復(fù)雜的過程處理器結(jié)構(gòu)已經(jīng)歷了一個(gè)簡單、復(fù)雜、簡單、復(fù)雜的過程u

18、早期的處理器結(jié)構(gòu)一般都是簡單的串行執(zhí)行早期的處理器結(jié)構(gòu)一般都是簡單的串行執(zhí)行u 工藝技術(shù)的發(fā)展及流水線、工藝技術(shù)的發(fā)展及流水線、CACHE、向量機(jī)等使處理器結(jié)構(gòu)變復(fù)雜、向量機(jī)等使處理器結(jié)構(gòu)變復(fù)雜u RISC的出現(xiàn)使處理器結(jié)構(gòu)得到一次較大的簡化的出現(xiàn)使處理器結(jié)構(gòu)得到一次較大的簡化u 工藝技術(shù)的發(fā)展及亂序執(zhí)行和多發(fā)射技術(shù)又使工藝技術(shù)的發(fā)展及亂序執(zhí)行和多發(fā)射技術(shù)又使RISC處理器結(jié)構(gòu)變復(fù)雜處理器結(jié)構(gòu)變復(fù)雜l 網(wǎng)絡(luò)及媒體應(yīng)用及功耗問題使處理器需求發(fā)生了變化網(wǎng)絡(luò)及媒體應(yīng)用及功耗問題使處理器需求發(fā)生了變化u Performance per second, Performance per dollar, P

19、erformance per wattl 連線延遲和設(shè)計(jì)復(fù)雜度越來越大連線延遲和設(shè)計(jì)復(fù)雜度越來越大u應(yīng)該用層次化的結(jié)構(gòu)簡化設(shè)計(jì),物理設(shè)計(jì)對(duì)結(jié)構(gòu)設(shè)計(jì)的制約應(yīng)該用層次化的結(jié)構(gòu)簡化設(shè)計(jì),物理設(shè)計(jì)對(duì)結(jié)構(gòu)設(shè)計(jì)的制約l 對(duì)處理器的微體系結(jié)構(gòu)進(jìn)行突破性的變革的時(shí)機(jī)已經(jīng)到來對(duì)處理器的微體系結(jié)構(gòu)進(jìn)行突破性的變革的時(shí)機(jī)已經(jīng)到來u 從復(fù)雜到簡單、面向網(wǎng)絡(luò)和媒體應(yīng)用、低功耗從復(fù)雜到簡單、面向網(wǎng)絡(luò)和媒體應(yīng)用、低功耗u多處理器核和多線程結(jié)構(gòu)已成為研究熱點(diǎn),但沒有解決已困擾二十多處理器核和多線程結(jié)構(gòu)已成為研究熱點(diǎn),但沒有解決已困擾二十年的并行程序編程難,對(duì)傳統(tǒng)串行程序加速小的問題年的并行程序編程難,對(duì)傳統(tǒng)串行程序加速小的問

20、題l 現(xiàn)在沒有一種結(jié)構(gòu)(包括現(xiàn)在沒有一種結(jié)構(gòu)(包括IRAM、PIM、SMT、CMP、Trace cache、微線程等)能全面解決上述問題,需要包括指、微線程等)能全面解決上述問題,需要包括指令系統(tǒng)在內(nèi)的系統(tǒng)創(chuàng)新令系統(tǒng)在內(nèi)的系統(tǒng)創(chuàng)新18目前的研究方向l 片內(nèi)多處理器結(jié)構(gòu)片內(nèi)多處理器結(jié)構(gòu)uSMT、CMP、Micro-threading、Trace Cachel 存儲(chǔ)層次與預(yù)取存儲(chǔ)層次與預(yù)取uCache一致性協(xié)議一致性協(xié)議u用有效的預(yù)取達(dá)到大容量用有效的預(yù)取達(dá)到大容量CACHE的效果的效果l 性能分析模型和方法性能分析模型和方法u把龍芯把龍芯2號(hào)結(jié)構(gòu)移植到號(hào)結(jié)構(gòu)移植到SimpleScalar上上u片

21、內(nèi)多處理器模擬器片內(nèi)多處理器模擬器l 低功耗設(shè)計(jì)低功耗設(shè)計(jì)u系統(tǒng)級(jí)、邏輯級(jí)、電路級(jí)系統(tǒng)級(jí)、邏輯級(jí)、電路級(jí)l Java協(xié)處理器協(xié)處理器u針對(duì)針對(duì)java中類處理的特點(diǎn)中類處理的特點(diǎn)19科研隊(duì)伍情況l 龍芯課題組共龍芯課題組共80多人多人u其中員工其中員工30人,研究員人,研究員3人、副研人、副研3人,助研人,助研10人左右人左右u絕大部分是年輕人絕大部分是年輕人u分成結(jié)構(gòu)組、系統(tǒng)組、物理組、驗(yàn)證組、分成結(jié)構(gòu)組、系統(tǒng)組、物理組、驗(yàn)證組、IP組、龍芯實(shí)驗(yàn)組、龍芯實(shí)驗(yàn)室等室等6個(gè)組個(gè)組u三名具有十年以上物理設(shè)計(jì)經(jīng)驗(yàn)的硅谷設(shè)計(jì)人員常年合作三名具有十年以上物理設(shè)計(jì)經(jīng)驗(yàn)的硅谷設(shè)計(jì)人員常年合作l 編譯組編譯組

22、u為龍芯為龍芯2號(hào)做編譯器號(hào)做編譯器l 測試組測試組u負(fù)責(zé)龍芯負(fù)責(zé)龍芯2號(hào)的測試號(hào)的測試l 所外合作所外合作u中科院微電子所、中科院微電子所、772所所20關(guān)鍵技術(shù)l 處理器驗(yàn)證處理器驗(yàn)證l 物理設(shè)計(jì)物理設(shè)計(jì)21龍芯2號(hào)結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)l “可執(zhí)行的結(jié)構(gòu)設(shè)計(jì)可執(zhí)行的結(jié)構(gòu)設(shè)計(jì)”u用用C模擬器作為詳細(xì)結(jié)構(gòu)設(shè)計(jì)的文檔,并用于驗(yàn)證、性能分析等。模擬器作為詳細(xì)結(jié)構(gòu)設(shè)計(jì)的文檔,并用于驗(yàn)證、性能分析等。u步步為營的性能分析:步步為營的性能分析:C模擬器、模擬器、RTL、FPGA、流片、流片l 多發(fā)射和亂序執(zhí)行的關(guān)鍵技術(shù)多發(fā)射和亂序執(zhí)行的關(guān)鍵技術(shù)u9級(jí)流水:取指、預(yù)譯碼、譯碼、重命名、送入隊(duì)列、發(fā)射、讀寄存器

23、、級(jí)流水:取指、預(yù)譯碼、譯碼、重命名、送入隊(duì)列、發(fā)射、讀寄存器、執(zhí)行、提交執(zhí)行、提交u4發(fā)射,發(fā)射,5個(gè)功能部件,個(gè)功能部件,浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用u轉(zhuǎn)移猜測:轉(zhuǎn)移猜測:Gshare+BTB+RAS,高效的轉(zhuǎn)移取消機(jī)制高效的轉(zhuǎn)移取消機(jī)制u寄存器重命名:兩個(gè)寄存器重命名:兩個(gè)64*64的物理寄存器堆的物理寄存器堆u動(dòng)態(tài)調(diào)度:動(dòng)態(tài)調(diào)度:ROB 32-64項(xiàng),定點(diǎn)浮點(diǎn)發(fā)射隊(duì)列各項(xiàng),定點(diǎn)浮點(diǎn)發(fā)射隊(duì)列各16項(xiàng)項(xiàng)u存儲(chǔ)層次的關(guān)鍵技術(shù)存儲(chǔ)層次的關(guān)鍵技術(shù)uTLB: 64項(xiàng)全相聯(lián),每項(xiàng)兩頁,獨(dú)立的項(xiàng)全相聯(lián),每項(xiàng)兩頁,獨(dú)立的16項(xiàng)指令項(xiàng)指令TLBuTLB中增加可執(zhí)行位,防止緩沖區(qū)溢出攻擊

24、中增加可執(zhí)行位,防止緩沖區(qū)溢出攻擊uCACHE: 指令與數(shù)據(jù)指令與數(shù)據(jù)CACHE各各64KB,4路組相聯(lián)路組相聯(lián)uNon-blocking:最多允許:最多允許16-32條。條。uDisambiguation:動(dòng)態(tài)解決訪存相關(guān),不用重新發(fā)射:動(dòng)態(tài)解決訪存相關(guān),不用重新發(fā)射u Load猜測執(zhí)行:前面的猜測執(zhí)行:前面的store操作未確定的情況下執(zhí)行操作未確定的情況下執(zhí)行l(wèi)oad操作操作22常見處理器部分技術(shù)參數(shù)23結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(1)l 浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用浮點(diǎn)部件的定點(diǎn)和媒體復(fù)用u對(duì)對(duì)MIPS浮點(diǎn)指令的浮點(diǎn)指令的fmt域進(jìn)行擴(kuò)充,把浮點(diǎn)部件用做定點(diǎn)以及媒體處域進(jìn)行擴(kuò)充,把浮點(diǎn)部件用做定點(diǎn)以

25、及媒體處理部件的功能,不用額外增加指令。理部件的功能,不用額外增加指令。u同一條指令(如加法指令)通過同一條指令(如加法指令)通過fmt域來指定不同數(shù)據(jù)的相同運(yùn)算。域來指定不同數(shù)據(jù)的相同運(yùn)算。FADD.S, ADD.D, ADD.PS, ADD.64, ADD.32, ADD.4x16, ADD.8x8u不用對(duì)主要的數(shù)據(jù)通路(如寄存器重命名、發(fā)射、讀寄存器、訪存等)不用對(duì)主要的數(shù)據(jù)通路(如寄存器重命名、發(fā)射、讀寄存器、訪存等)做任何修改,只需對(duì)在功能部件中增加適當(dāng)?shù)墓δ芫涂梢源蟠蠹訌?qiáng)處做任何修改,只需對(duì)在功能部件中增加適當(dāng)?shù)墓δ芫涂梢源蟠蠹訌?qiáng)處理能力。理能力。u實(shí)際上實(shí)現(xiàn)了簡單的定點(diǎn)多線程,如

26、有兩套可用做定點(diǎn)操作的寄存器實(shí)際上實(shí)現(xiàn)了簡單的定點(diǎn)多線程,如有兩套可用做定點(diǎn)操作的寄存器堆、發(fā)射通路、以及訪存通路等。堆、發(fā)射通路、以及訪存通路等。 010001fm tftfsfd00000024結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(2)l 轉(zhuǎn)移取消機(jī)制轉(zhuǎn)移取消機(jī)制u轉(zhuǎn)移猜測轉(zhuǎn)移猜測: 在轉(zhuǎn)移條件確定前,猜測某個(gè)分支取指并執(zhí)行。在轉(zhuǎn)移條件確定前,猜測某個(gè)分支取指并執(zhí)行。普通定點(diǎn)程序平均普通定點(diǎn)程序平均6-7條指令中有一條轉(zhuǎn)移指令。條指令中有一條轉(zhuǎn)移指令。FGodson-2使用混合預(yù)測使用混合預(yù)測+Gshare + BTB + RAS的轉(zhuǎn)移猜測方式的轉(zhuǎn)移猜測方式u當(dāng)發(fā)生轉(zhuǎn)移猜測錯(cuò)誤時(shí)要取消該轉(zhuǎn)移指令及其后續(xù)指令。

27、當(dāng)發(fā)生轉(zhuǎn)移猜測錯(cuò)誤時(shí)要取消該轉(zhuǎn)移指令及其后續(xù)指令。F在亂序執(zhí)行的環(huán)境下,有可能該轉(zhuǎn)移指令后面的指令已經(jīng)執(zhí)行,在亂序執(zhí)行的環(huán)境下,有可能該轉(zhuǎn)移指令后面的指令已經(jīng)執(zhí)行,而該轉(zhuǎn)移指令前面的指令反而沒有執(zhí)行。因此如何判斷在各個(gè)流水而該轉(zhuǎn)移指令前面的指令反而沒有執(zhí)行。因此如何判斷在各個(gè)流水階段中的指令與猜測錯(cuò)誤的指令的先后關(guān)系是一個(gè)關(guān)鍵技術(shù)。階段中的指令與猜測錯(cuò)誤的指令的先后關(guān)系是一個(gè)關(guān)鍵技術(shù)。u與其他處理器如與其他處理器如MIPS R10000相比,相比,Godson-2在猜錯(cuò)的轉(zhuǎn)在猜錯(cuò)的轉(zhuǎn)移指令與其他指令的先后關(guān)系判斷上更簡單高效。移指令與其他指令的先后關(guān)系判斷上更簡單高效。F采用把程序分成若干基本

28、塊的方法采用把程序分成若干基本塊的方法F正因?yàn)槿绱耍驗(yàn)槿绱?,Godson-2中較容易地實(shí)現(xiàn)了中較容易地實(shí)現(xiàn)了8項(xiàng)轉(zhuǎn)移隊(duì)列,而項(xiàng)轉(zhuǎn)移隊(duì)列,而R10000中的轉(zhuǎn)移隊(duì)列只有中的轉(zhuǎn)移隊(duì)列只有4項(xiàng)。項(xiàng)。25結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(3)l Godson-2的安全機(jī)制的安全機(jī)制u利用緩沖區(qū)溢出進(jìn)行攻擊的例子利用緩沖區(qū)溢出進(jìn)行攻擊的例子uGodson-2通過可執(zhí)行保護(hù)防止緩沖區(qū)溢出攻擊通過可執(zhí)行保護(hù)防止緩沖區(qū)溢出攻擊FTLB增加可執(zhí)行位增加可執(zhí)行位FMIPS的的ISA沒有執(zhí)行保護(hù)沒有執(zhí)行保護(hù)26cp0qtailSW 100LW 100SB 100SW 100cp0qhead6666543215321cp0qta

29、ilLW100SW 100LW 100SB 100SW 100cp0qhead66666666543215321結(jié)構(gòu)設(shè)計(jì)關(guān)鍵技術(shù)(4)l 訪存地址相關(guān)的解決:結(jié)構(gòu)設(shè)計(jì)的難點(diǎn)訪存地址相關(guān)的解決:結(jié)構(gòu)設(shè)計(jì)的難點(diǎn)uAlpla 21264和和MIPS R10000在遇到訪存相關(guān)時(shí)都需要退回重新發(fā)射在遇到訪存相關(guān)時(shí)都需要退回重新發(fā)射uGodson-2在訪存隊(duì)列中通過物理地址的全相聯(lián)比較動(dòng)態(tài)解決訪存相關(guān)在訪存隊(duì)列中通過物理地址的全相聯(lián)比較動(dòng)態(tài)解決訪存相關(guān)l Load SpeculationuCache命中的命中的load操作必須等它前面的所有操作必須等它前面的所有store的地址都確定后才能的地址都確定后

30、才能把值寫回寄存器并傳遞給后面的操作把值寫回寄存器并傳遞給后面的操作(30%-40%的概率不能返回)的概率不能返回)uGodson-2實(shí)現(xiàn)了實(shí)現(xiàn)了load操作操作Cache命中時(shí)可直接返回,并在發(fā)現(xiàn)訪存相命中時(shí)可直接返回,并在發(fā)現(xiàn)訪存相關(guān)時(shí)取消該關(guān)時(shí)取消該load及其后面的操作及其后面的操作(1%的概率需要取消)的概率需要取消)cp0qtailSW 100LW 100SB ?SW 100cp0qhead6666543215321?27結(jié)構(gòu)設(shè)計(jì)研究方法l 兩個(gè)流程兩個(gè)流程u基于基于C 模擬器的驗(yàn)證和評(píng)估模擬器的驗(yàn)證和評(píng)估u基于基于FPGA 的驗(yàn)證和評(píng)估的驗(yàn)證和評(píng)估l 兩個(gè)角度兩個(gè)角度u工作負(fù)載分

31、析工作負(fù)載分析u處理器瓶頸分析處理器瓶頸分析28C 模擬器l Cycle-by-cycle精確精確l 每秒可模擬約每秒可模擬約100k拍拍l 全系統(tǒng)模擬,運(yùn)行實(shí)際操作系統(tǒng),模擬串口,內(nèi)存,全系統(tǒng)模擬,運(yùn)行實(shí)際操作系統(tǒng),模擬串口,內(nèi)存,磁盤等外設(shè)。磁盤等外設(shè)。l 調(diào)試,數(shù)據(jù)收集能力和靈活度不斷提高調(diào)試,數(shù)據(jù)收集能力和靈活度不斷提高l 詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)u重要的整體行為特性:重要的整體行為特性:IPC,cache 失效率,分支預(yù)測失效率失效率,分支預(yù)測失效率等等u指令相關(guān)統(tǒng)計(jì):每條指令在各流水級(jí)花費(fèi)的拍數(shù),遇到的失指令相關(guān)統(tǒng)計(jì):每條指令在各流水級(jí)花費(fèi)的拍數(shù),遇到的失效數(shù)等效數(shù)等29C 模

32、擬器(續(xù))l 專用的專用的AMD64機(jī)群,大量使用批處理和自制腳機(jī)群,大量使用批處理和自制腳本分析數(shù)據(jù)本分析數(shù)據(jù)l 發(fā)展方向發(fā)展方向能夠方便地在合理時(shí)間內(nèi)完成比較能夠方便地在合理時(shí)間內(nèi)完成比較全面的評(píng)估:全面的評(píng)估:u改善代碼可維護(hù)性改善代碼可維護(hù)性u(píng)提高運(yùn)行速度提高運(yùn)行速度u增加功耗分析等功能增加功耗分析等功能u快速原型評(píng)估支持:更高層的模擬器快速原型評(píng)估支持:更高層的模擬器30FPGAl 比比C模擬器快模擬器快30 x以上,潛力還很大以上,潛力還很大l 和最終系統(tǒng)更接近,可以運(yùn)行更大的數(shù)據(jù)集更和最終系統(tǒng)更接近,可以運(yùn)行更大的數(shù)據(jù)集更多的應(yīng)用多的應(yīng)用l FPGA 用于性能分析:用于性能分析:

33、uFPGA 和最終系統(tǒng)的差別在于接口時(shí)序大不相同和最終系統(tǒng)的差別在于接口時(shí)序大不相同u可以插入邏輯模擬最終系統(tǒng)的接口時(shí)序可以插入邏輯模擬最終系統(tǒng)的接口時(shí)序u可以加入更多的硬件支持來幫助性能分析:如更多可以加入更多的硬件支持來幫助性能分析:如更多的性能計(jì)數(shù)器,的性能計(jì)數(shù)器,trace buffer等等31FPGA模擬的精確度延遲延遲 read(cycle)Write(cycle)Godson-2B26.0037.8825.9737.9825.6537.77帶寬帶寬CopyScaleAddTriadGodson-2B71.8870.0075.1276.0971.770.376.277.273.46

34、72.277.9579.19SPEC CPU 2000 test 數(shù)據(jù)集誤差: 整數(shù)平均: 0.045% 浮點(diǎn)平均: 2%.32Spec CPU2000 性能比較(test輸入集,運(yùn)行時(shí)間,使用FPGA得出)0 00.20.20.40.40.60.60.80.81 11.21.2gzipgcccraftyperlvortextwolfswimappluartammpapsiGodson-2BGodson-2BGodson-2B1Godson-2B1Godson-2CGodson-2C33工作負(fù)載分析l 基準(zhǔn)程序基準(zhǔn)程序uSPEC CPU2000, media bench, dhryd/whet

35、d, stream等等l 分析工具分析工具u模擬器模擬器uPerformance counter: perfctr, PAPI, pfmon,Vtune等等u二進(jìn)制工具二進(jìn)制工具, 類似類似MIPS的的pixie,Alpha的的atoml 分析角度:分析角度:(隨時(shí)間變化的隨時(shí)間變化的)各種特性,熱點(diǎn)基各種特性,熱點(diǎn)基本塊分析,編譯優(yōu)化等本塊分析,編譯優(yōu)化等34處理器瓶頸分析l 理想上限分析理想上限分析l 專題研究專題研究35幾個(gè)例子l 訪存子系統(tǒng)性能分析訪存子系統(tǒng)性能分析l Load 猜測猜測l 流水線中的流水線中的IPC分布分布l Store miss優(yōu)化優(yōu)化36訪存子系統(tǒng)性能分析l 目標(biāo)

36、系統(tǒng)目標(biāo)系統(tǒng): Godson-2Bl 測量度量測量度量:u延遲延遲u帶寬帶寬37延遲l 調(diào)查分析揭露了以下問題調(diào)查分析揭露了以下問題:u北橋花費(fèi)過多時(shí)間訪問北橋花費(fèi)過多時(shí)間訪問sdram: 片外片外1315 總線周總線周期出第一個(gè)數(shù)期出第一個(gè)數(shù)uGodson-2Bs 不流水的接口比不流水的接口比RM7K多花多花5-6個(gè)總線個(gè)總線周期周期u總線利用率很低總線利用率很低(1/8)u由于沒有二級(jí)由于沒有二級(jí)cache,godson2B 對(duì)訪存延遲非常敏對(duì)訪存延遲非常敏感感3800.20.40.60.811.21.41.61102030405060708090dhreon1eon2eon3mcftwo

37、gzivpr1vpr2gapgccparbzicravorwheappswiequmesaps不同訪存延遲下Godson2B的性能39帶寬l 標(biāo)準(zhǔn)的標(biāo)準(zhǔn)的stream帶寬不是很理想:帶寬不是很理想: 91MB/s at 100 x2MHzl sw-lw-sw44Load 猜測-更多的觀察l Load被前面的被前面的store延遲的現(xiàn)象非常普遍:延遲的現(xiàn)象非常普遍: 30%l 一個(gè)被延遲的一個(gè)被延遲的load(發(fā)射后)至少需要發(fā)射后)至少需要5拍才拍才能寫回,能寫回,30% 將使得平均將使得平均load指令的延遲拉長指令的延遲拉長到:到: 3x0.7 + 5 x 0.3 = 3.6l 這惡化了原

38、本就已經(jīng)比較長的這惡化了原本就已經(jīng)比較長的load延遲。延遲。 45Load 猜測-應(yīng)對(duì)措施l 讓準(zhǔn)備好的讓準(zhǔn)備好的load直接寫回,不考慮前面是否還直接寫回,不考慮前面是否還有為解決的有為解決的store,然后檢測發(fā)生相關(guān)的情況,然后檢測發(fā)生相關(guān)的情況,利用例外機(jī)制取消錯(cuò)誤的猜測利用例外機(jī)制取消錯(cuò)誤的猜測極小的硬件代極小的硬件代價(jià)價(jià)46Load 猜測-效果l 對(duì)于上述數(shù)組拷貝代碼,對(duì)于上述數(shù)組拷貝代碼,load猜測后硬件看起猜測后硬件看起來就像是能夠自動(dòng)把循環(huán)展開成如下形式來就像是能夠自動(dòng)把循環(huán)展開成如下形式: lw . lw . lw . sw . sw . sw .4700.20.40.

39、60.811.21.41.6dhreon1eon2eon3mcftwogzivpr1vpr2gapgccparbzicravorno-speculatespeculate整數(shù)基準(zhǔn)程序速度提高(平均 10%)4800.20.40.60.811.21.4wheappswiequmesapsartwupammmgrsixno-speculatespeculate浮點(diǎn)基準(zhǔn)程序速度提高 (平均 6%)49Load 猜測-更多的評(píng)估l 增加預(yù)測器來減少錯(cuò)誤的猜測增加預(yù)測器來減少錯(cuò)誤的猜測u使用使用1024位的預(yù)測器可以再提高位的預(yù)測器可以再提高1%l 更激進(jìn)的猜測?更激進(jìn)的猜測?u不僅猜測相關(guān),同時(shí)猜測不

40、僅猜測相關(guān),同時(shí)猜測cache是否命中,進(jìn)一步是否命中,進(jìn)一步降低降低load延遲延遲u結(jié)合預(yù)測器結(jié)合預(yù)測器u相關(guān)相關(guān)paper50流水線各級(jí)的IPC分布l 理想的理想的IPC是是4, 在哪里損失掉了在哪里損失掉了?l 為什么為什么?510%20%40%60%80%100%dhreon1eon2eon3mcftwogzivpr1vpr2gapgccparbzicravorwheappswiequmesapsartwupammmgrsixfetchdecodemapissuewritebackcommituseful各流水級(jí)的IPC損失520%20%40%60%80%100%dhreon1eon

41、2eon3mcftwogzivpr1vpr2gapgccparbzicravorwheappswiequmesapsartwupammmgrsixokcachemissbtbdirbtakendelayslotextlbexsplitcachelineother譯碼階段IPC損失原因530%20%40%60%80%100%dhreon1eon2eon3mcftwogzivpr1vpr2gapgccparbzicravorwheappswiequmesapsartwupammmgrsixoknoinputcancelroqfullbrqfullcp0fullftqfullfxqfullgrmtf

42、ullfrmtfull寄存器重命名階段IPC損失原因540%20%40%60%80%100%dhreon1eon2eon3mcftwogzivpr1vpr2gapgccparbzicravorwheappswiequmesapsartwupammmgrsixokmultirdywaitsrcnoinsnfufull發(fā)射階段IPC損失原因55Store miss優(yōu)化l 目前目前uL1采取采取write-back,write-allocateuStore引起的引起的refill有時(shí)不必要有時(shí)不必要F整個(gè)整個(gè)cache塊都被重寫(如塊都被重寫(如memset)F只有寫過的部分被用到只有寫過的部分被用

43、到l 統(tǒng)計(jì)數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)l 優(yōu)化措施優(yōu)化措施56統(tǒng)計(jì)數(shù)據(jù)l SPEC CPU2000定點(diǎn)定點(diǎn)(test)u平均平均store miss占總占總miss 33%uStore miss時(shí)時(shí)%64在被替換前寫滿整個(gè)在被替換前寫滿整個(gè)cache塊,塊,30%沒寫滿,但只使用了此期間寫的值沒寫滿,但只使用了此期間寫的值l SPEC CPU2000浮點(diǎn)浮點(diǎn)(test)u平均平均store miss占總占總miss 47%uStore miss時(shí)時(shí)%78在被替換前寫滿整個(gè)在被替換前寫滿整個(gè)cache塊,塊,20%沒寫滿,但只使用了此期間寫的值沒寫滿,但只使用了此期間寫的值57STB測試數(shù)據(jù)(stream帶寬測

44、試)STB(16):Function Rate (MB/s) RMS time Min time Max timeCopy: 127.1302 0.0255 0.0252 0.0260Scale: 112.3909 0.0285 0.0285 0.0286Add: 115.1494 0.0417 0.0417 0.0417Triad: 111.7057 0.0430 0.0430 0.0430-BASE(NO STB):Function Rate (MB/s) RMS time Min time Max timeCopy: 81.6723 0.0392 0.0392 0.0393Scale:

45、81.3858 0.0394 0.0393 0.0394Add: 86.1838 0.0557 0.0557 0.0558Triad: 86.5489 0.0555 0.0555 0.0555補(bǔ)充:補(bǔ)充:STB(8)與與STB(16)結(jié)果幾乎一樣。結(jié)果幾乎一樣。 50%的提高!58關(guān)鍵技術(shù)l 結(jié)構(gòu)設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)l 物理設(shè)計(jì)物理設(shè)計(jì)59Godson-2的驗(yàn)證特點(diǎn)(1)l 驗(yàn)證占總工作量的驗(yàn)證占總工作量的60-70% u驗(yàn)證和設(shè)計(jì)代碼比例為驗(yàn)證和設(shè)計(jì)代碼比例為5:1,包括測試生成、仿真環(huán)境、覆蓋代碼等,包括測試生成、仿真環(huán)境、覆蓋代碼等u驗(yàn)證的困難是只能證明有錯(cuò),不能證明正確驗(yàn)證的困難是只能證明有錯(cuò)

46、,不能證明正確u驗(yàn)證目的是增加項(xiàng)目管理人員的信心驗(yàn)證目的是增加項(xiàng)目管理人員的信心u驗(yàn)證是不斷發(fā)現(xiàn)沒有被驗(yàn)證的代碼或功能的過程驗(yàn)證是不斷發(fā)現(xiàn)沒有被驗(yàn)證的代碼或功能的過程l Godson-2的兩維驗(yàn)證流程的兩維驗(yàn)證流程u動(dòng)態(tài)系統(tǒng)級(jí)驗(yàn)證過程:在動(dòng)態(tài)系統(tǒng)級(jí)驗(yàn)證過程:在C模擬器、模擬器、RTL、及、及FPGA等多個(gè)層次運(yùn)行等多個(gè)層次運(yùn)行系統(tǒng)軟件及應(yīng)用軟件系統(tǒng)軟件及應(yīng)用軟件u覆蓋率分析:代碼覆蓋率、功能覆蓋率覆蓋率分析:代碼覆蓋率、功能覆蓋率RTL仿真測試生成FPGA驗(yàn)證C模擬覆蓋率分析?Time% CoverageGoal無覆蓋率反饋無覆蓋率反饋有覆蓋率反饋有覆蓋率反饋60Godson-2的驗(yàn)證特點(diǎn)(2

47、)l 測試向量構(gòu)造測試向量構(gòu)造u隨機(jī)測試向量、功能測試向量、微結(jié)構(gòu)測試向量、真實(shí)應(yīng)用程序隨機(jī)測試向量、功能測試向量、微結(jié)構(gòu)測試向量、真實(shí)應(yīng)用程序u手工編寫驗(yàn)證代碼:需要高級(jí)結(jié)構(gòu)工程師的大量勞動(dòng),需要積累,極手工編寫驗(yàn)證代碼:需要高級(jí)結(jié)構(gòu)工程師的大量勞動(dòng),需要積累,極有價(jià)值有價(jià)值l 指令級(jí)的隨機(jī)驗(yàn)證指令級(jí)的隨機(jī)驗(yàn)證u隨機(jī)測試向量生成一般用在模塊級(jí),其優(yōu)點(diǎn)是容易達(dá)到較高的覆蓋率,隨機(jī)測試向量生成一般用在模塊級(jí),其優(yōu)點(diǎn)是容易達(dá)到較高的覆蓋率,缺點(diǎn)是缺乏模塊級(jí)的正確性標(biāo)準(zhǔn)缺點(diǎn)是缺乏模塊級(jí)的正確性標(biāo)準(zhǔn)u對(duì)于對(duì)于CPU來說,指令系統(tǒng)是唯一的正確性標(biāo)準(zhǔn)來說,指令系統(tǒng)是唯一的正確性標(biāo)準(zhǔn)uGodson-2設(shè)計(jì)了

48、指令級(jí)隨機(jī)驗(yàn)證系統(tǒng),達(dá)到很高的覆蓋率,可以容易設(shè)計(jì)了指令級(jí)隨機(jī)驗(yàn)證系統(tǒng),達(dá)到很高的覆蓋率,可以容易判斷執(zhí)行結(jié)果,大大降低了編寫手工代碼的工作量判斷執(zhí)行結(jié)果,大大降低了編寫手工代碼的工作量l 多片多片F(xiàn)PGA驗(yàn)證驗(yàn)證uGodson-2的驗(yàn)證需要用的驗(yàn)證需要用3片最大的片最大的FPGA。u在芯片引腳上實(shí)現(xiàn)了倍頻傳輸,即復(fù)用同一個(gè)引腳,傳送多個(gè)信號(hào)。在芯片引腳上實(shí)現(xiàn)了倍頻傳輸,即復(fù)用同一個(gè)引腳,傳送多個(gè)信號(hào)。l 浮點(diǎn)部件的形式驗(yàn)證浮點(diǎn)部件的形式驗(yàn)證u使用動(dòng)態(tài)仿真不能證明正確,只能發(fā)現(xiàn)錯(cuò)誤通過形式證明一個(gè)浮點(diǎn)部使用動(dòng)態(tài)仿真不能證明正確,只能發(fā)現(xiàn)錯(cuò)誤通過形式證明一個(gè)浮點(diǎn)部件設(shè)計(jì)符合件設(shè)計(jì)符合IEEE 7

49、54標(biāo)準(zhǔn),目前可以做到純組合邏輯的形式驗(yàn)證標(biāo)準(zhǔn),目前可以做到純組合邏輯的形式驗(yàn)證61關(guān)鍵技術(shù)l 結(jié)構(gòu)設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)l 處理器驗(yàn)證處理器驗(yàn)證62龍芯2號(hào)物理設(shè)計(jì)關(guān)鍵技術(shù)l 物理設(shè)計(jì)和結(jié)構(gòu)設(shè)計(jì)緊密結(jié)合物理設(shè)計(jì)和結(jié)構(gòu)設(shè)計(jì)緊密結(jié)合u從從micro-architecture到到pico-architecturel 以以ASIC流程為主的半定制流程流程為主的半定制流程u定制模塊設(shè)計(jì):定制模塊設(shè)計(jì):3w6r 64*64寄存器堆、寄存器堆、4w8r 64*64寄存器寄存器堆、堆、1w1r 64*64寄存器堆。寄存器堆。u定制庫單元:包括基本單元,如與非門、或非門、選擇器、定制庫單元:包括基本單元,如與非門、或非

50、門、選擇器、觸發(fā)器等;針對(duì)觸發(fā)器等;針對(duì)Godson-2結(jié)構(gòu)的宏單元,如多位比較器、結(jié)構(gòu)的宏單元,如多位比較器、選擇器、觸發(fā)器、全加器等,一般為雙倍高度;一些特殊選擇器、觸發(fā)器、全加器等,一般為雙倍高度;一些特殊單元,如為了利用單元,如為了利用useful clock skew而設(shè)計(jì)的而設(shè)計(jì)的CLKBUF,適用于適用于Flip-Chip封裝的封裝的PAD單元單元u建立了把建立了把EDA工具的自動(dòng)布局布線和手工布局布線相結(jié)合工具的自動(dòng)布局布線和手工布局布線相結(jié)合的物理設(shè)計(jì)流程并開發(fā)了相應(yīng)的工具。該流程結(jié)合了的物理設(shè)計(jì)流程并開發(fā)了相應(yīng)的工具。該流程結(jié)合了EDA工具自動(dòng)布局布線速度快和手工布局布線效果好的優(yōu)點(diǎn)。工具自動(dòng)布局布線速度快和手工布局布線效果好的優(yōu)點(diǎn)。 63關(guān)于全定制的一些誤解l 全定制就是手工畫版圖全定制就是手工畫版圖u全定制需要更多的手工版圖,但全定制的方法涉及結(jié)構(gòu)設(shè)計(jì)與版圖規(guī)全定制需要更多的手工版圖,但全定制的方法涉及結(jié)構(gòu)設(shè)計(jì)與版圖規(guī)劃、電路結(jié)構(gòu)、劃、電路結(jié)構(gòu)、Foundry等更多的內(nèi)容等更多的內(nèi)容l 手工畫版圖性能好手工畫版圖性能好u不一定,如對(duì)于靜態(tài)不一定,如對(duì)于靜態(tài)CMOS電路,工具綜合的結(jié)果不比手工的差電路,工具綜合的結(jié)果不比手工的差u人比工具聰明,但人

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論