版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
沒錯,英特爾、AMD又到了產品升級換代的時候了。英特爾的Tick-Tock到了Tock這一步,新產品Haswell箭在弦上;AMD雖然暫時落后一局,但新的壓路機也是曙光在前,蓄勢待發(fā)。那么,究竟Haswell和壓路機都有哪些改進?英特爾和AMD的競爭又會開發(fā)出哪些新技術呢?本文將帶你提前了解英特爾和AMD的下一代處理器架構。Haswell 小改進,大步伐從英特爾發(fā)布了基于CoreMicroarchitecture(酷睿微架構)的Core2Duo系列到現(xiàn)在,英特爾對處理器內部核心架構的改進并不算大。從Core2Duo,到NehalemCorei7,然后到Westmere、SandyBridge直到今天的IvyBridge,CPU微架構都可以算作是酷睿微架構的繼承和發(fā)展,更多的變化則是工藝、總線、緩存等外圍部件。在IvyBridge后,英特爾執(zhí)行的是’Tick-Tock”中的“Tock”戰(zhàn)略,這意味著IvyBridge的繼承人"Haswell”所面對的目標是"使用成熟工藝,升級CPU架構”。除了處理器外,Haswell處理器將搭配代號為LynxPoint的主板芯片組,組成SharkBay計算平臺。Tick/TockDevelopmentModelTICKUmsHEllCPUF日Eil¥22nmProcess7ednnolug*NEWIntel"Mlcr^srchitertuiie(Nehalem)newIntelMiCn^arthiteCtur^(SandyBridge^TICKUmsHEllCPUF日Eil¥22nmProcess7ednnolug*NEWIntel"Mlcr^srchitertuiie(Nehalem)newIntelMiCn^arthiteCtur^(SandyBridge^MEWrntEiMl-trO^rthil良Cfur■&fHawaii)45nmProceuTechnology1FrGCtssT^chnOlO^yTOOCTOCKTICKBuildsuponInnovations的the2ndand3rdGenerationIntel?Core?J3/£Haswell屬于Tock部分,工藝不變(實際上也升級了),架構進步。從目前掌握的消息來看,Haswell相比SandyBridge來說,在CPU架構方面改進最大的當屬加入了新的、有利于多線程執(zhí)行的TSX擴展,以及大幅度提升整數(shù)計算性能的AVX2.0技術。除此之外,Haswell在工藝方面也有所改進,當然CPU內部一些組件也會做出微小調整,但對整個CPU架構的影響不大。另外,在集成圖形處理器方面,Haswell的圖形性能會有比較明顯的增長,EU單元數(shù)量會增加,功能上會進一步支持DirectX11.1。在結構和擴展性能方面,Haswell在接口、封裝模式上會做出一系列改動,CPU內部集成的電壓控制單元會有改進,芯片組方面會采用更新的8系列芯片組。對玩家的一個好消息是,Haswell有望實現(xiàn)一定幅度的自由超外頻。ACanonicalIntel?TSXExecutionThread1Thread2OJE
匚AcquireReleaseCriticalsectionAcquireCriticalsectionReleaseThread1Thread2OJE
匚AcquireReleaseCriticalsectionAcquireCriticalsectionReleaseNoserializationandnocommunicationifnoconflictsLni:已Lni:已I滋TranHC±ana£^vncnrnniKBti口口Extenslcns<Cntri*TSX]微型計S?機鬥山&匚英特爾在IDF2012會議中對TSX擴展的解釋。TSX和TSX和AVX2.0進主Haswell的CPU架構改進Haswell的CPU架構改進主要集中在對CPU應用的改進上,本身硬件基礎如傳統(tǒng)的四發(fā)射設計、分支預測、內存控制器、緩存設計等部分的改進都比較小。因此本文的介紹重點也會集中在Haswell新增的TSX和AVX2.0功能上。可用、安全的細粒度線程鎖定一一TSX擴展說起TSX的功能,先要從CPU超線程技術講起。CPU超線程技術的主要目的是在CPU的一個處理核心中,同時運行多個線程。這項技術的思想來源甚至可以追溯到上個世紀90年代的“指令并行化”思想。從技術發(fā)展的角度來看,類似“指令并行化”在發(fā)展過程中出現(xiàn)了諸如粗粒度多線程(Coarse-GrainedMulti-Threading)、細粒度多線程(Fine-GrainedMulti-Threading)和同步多線程(SimultaneousMulti-Threading)等多種方式,這些方式各有特色,也各有優(yōu)劣。
所謂粗粒度多線程,是指在單一線程操作過程中,如果遇到某線程長時間延遲,那么立刻將此線程鎖定并切換到另一線程,執(zhí)行完后再切換回來。舉個例子來說,粗粒度多線程類似于如下情況:在公用服務器上有一個文件夾,里面有100個文件。當A用戶修改文件夾中任何一個文件時,整個文件夾會被鎖定并進入只讀狀態(tài),當B用戶要訪問文件夾時,他只能讀取、復制文件夾內的文件,但無法修改。HaswellNewComputeInstructions*IntersAdvancedVectorExtensions2(Intd?AVX2)-Includes256"bltintegerveet&re*IntersAdvancedVectorExtensions2(Intd?AVX2)-Includes256"bltintegerveet&reFMA:Fused^luttlply'AddJFull-widthelementpermutesJGather-BenefitsHigtiperfamisriCecOrtiputing'Audio&VideoGamesT訕inn誕SPFLQPspercycleDPFLOPSN硼血SEE(129"bitsJB4SandyBridgeAVX(25^-bit^)ISaHaswellAVX2&FMA32lbGroup*NewIntegerInstructions-Indexingandhashing-Cryptography-Endianconversion-MOVBEVariableSkLength5trtamD電SdfiBtt百ether/空a世i.rArbltrarvPrecisianArithmetic&HustlingBZHJrSHLX,SHRX,SftRJGE)EXTR LZCNT/TZCNXBLSFlrBL5M5K,BL5lrANDNFDEP,PEKTMULX,RORXDedicatedSessiononIntel?AVX2aBMI:ARCS005-Wednesday3:30 1■—■FullInstructionSpecificationAvaildbleat:http?:"softMreDedicatedSessiononIntel?AVX2aBMI:ARCS005-Wednesday3:30 1■—卜口irnFFFF時評臨底鍛型訐算機21器呂目0匚對IrntT轉tmiEhJMwna|Sa初Bndfle:];inreT咒crniHiWRji -JJ'1'p''■■-Iv *lessi□njiiAVX2.0將帶來整數(shù)和浮點性能的大提升。粗粒度多線程是相當容易實現(xiàn)的一種多線程方案。這種方案的優(yōu)勢在于控制起來很簡單,不容易出現(xiàn)沖突,但相對來說,粗粒度多線程“競爭損耗”比較大。所謂“競爭損耗”是指多個并行線程由于鎖定等問題,最終并行化不理想,操作中串行化大于并行化,最終帶來的性能增益很微小。為了解決這個問題,細粒度多線程開始出現(xiàn)。它是指在每個時鐘周期內,多個線程并行切換操作。依舊使用上文的例子來解釋細粒度多線程:公用服務器上的文件夾中有100個文件,A修改文件夾的0號文件時,其余的99個文件并不會被鎖定,B如果想修改3號文件,依舊可以自行修改。這樣的鎖定“粒度”相比之前的案例要小很多,可以鎖定發(fā)生在更為細微的單個文件上,而不是整個文件夾。
細粒度多線程相比粗粒度多線程,對線程的控制更為細致,理論上并行度更好,但實際上細粒度多線程對程序的鎖定更為細致,因此編程更為復雜,更容易出現(xiàn)錯誤和沖突。此外,細粒度多線程由于經(jīng)常需要來回切換線程,每一次切換會浪費一定的時間,因此在單任務性能上細粒度多線程可能不如粗粒度多線程??偟膩砜?,無論是細粒度還是粗粒度,都各自有優(yōu)缺點,不能一概而論。下面回歸主題,目前處理器使用的多線程技術由于編程難度等問題,多使用粗粒度多線程,程序員只要在多個線程有可能沖突時直接鎖定某線程即可。但這種粗粒度多線程在當前的應用環(huán)境下對性能提升的幫助有限,特別是對CPU多線程性能提升不大。實際上早在IDF2006上,英特爾提出未來的處理器將使用事務型內存(TransactionalMemory)和一些擴展技術來加強多線程的性能。所謂事務型內存,英特爾在這里應該并非是指物理內存或者與之相配的硬件設計要做出重大變化,而是指在程序編制過程中內存控制和使用的方法要改進為事務型內存的所代表的方法,也就是軟事務型內存,其主要內容是原子對象和沖突判決器。簡單來說,事務型內存的作用是針對不同事務(可以簡單理解為線程)處理進行判斷和溝通,并且在事務出錯時能夠回到之前的狀態(tài),從而在多任務并行處理時盡量避免發(fā)生錯誤。在提出事物型內存后,英特爾又發(fā)布了一篇名為"TransactionalSynchronizationinHaswell”的文章,介紹了下一代Haswell上即將使用的TSX擴展。TSX的作用很明確,就是搭配事務型內存使用,為未來的CPU提供更強大的多線程能力。英特爾認為,在使用了事務型內存、并采用了TSX擴展后,TSX擴展能夠自動判斷、評估軟硬件的情況。在使用細粒度線程鎖時,TSX擴展能夠幫助程序員實現(xiàn)更為簡單、準確的無錯細粒度線程鎖。根據(jù)英特爾數(shù)據(jù),在使用了事務型內存和TSX擴展后,部分鎖操作的性能可提升1?3倍。在軟件仿真中,比如事務型內存鎖操作只需要4.6秒,而傳統(tǒng)內存需要高達10.6秒,性能提升顯而易見。當然,采用TSX擴展后,性能提升并非馬上體現(xiàn)。TSX擴展的應用場合和內容都比較復雜,需要軟件、硬件的全面配合,并且目前的軟件基本上不會在TSX擴展中帶來明顯的性能增益。只有那些符合英特爾要求的軟件,才能在多線程應用中有相當明顯的、相對于傳統(tǒng)編程方法的性能提升,這屬于軟件普及和應用的道路問題,還相當漫長。整數(shù)和浮點性能繼續(xù)提升——AVX2.0
AVX是AdvaneedVectorExtensions高級矢量擴展的簡寫,AVX在之前的SandyBridge和IvyBridge上就已經(jīng)開始使用。目前的AVX指令集主要是用于增強浮點計算性能,它使用了256bitSIMD浮點指令集,支持三位數(shù)和四位數(shù)操作,也支持VEX編碼方式。新的256bit浮點計算以及各種特色功能等相比前代的128bit有了巨大提升,在最理想的情況下,256bit一次可以讀更多的指令,浮點性能最高提升可以達到128bit的2倍。另外,目前的新軟件也開始使用AVX指令集來提升浮點計算能力,增強計算效能。Haswell的芯片面積并不大,圖為早前流傳出的Haswell對比IvyBridge、SandyBridge等處理器的核心晶片。在新的AVX2.0中,英特爾也將整數(shù)計算部分升級到256bitSIMD陣列,CPU的整數(shù)計算性能得到大幅度提高,此外還添加了一些新的指令用于繼續(xù)加強浮點性能。之前SandyBridge和IvyBridge不支持的FMA浮點乘積累(FloatingPointMultiplyAccumulate),在Haswell中終于給予支持。不過英特爾支持的FMA指令依舊是FMA3,AMD則更進一步支持FMA4(FMA4相比FMA3,除了在數(shù)據(jù)格式要求上更為靈活一些外,和FMA3相比只是一種計算的兩個方面而已,并非換代性技術)。不過英特爾則認為FMA3已經(jīng)能夠提供更高的峰值速度,在高性能計算、圖形處理等計算中有不錯效果。業(yè)內人士根據(jù)英特爾公布的Hawell的GPU部分架構圖畫出的詳細架構內容,相比IvyBridge的GPU部分基本沒太大變化。AVX2.0除了256bit整數(shù)計算以及FMA指令的加入外,還額外增加了不少用于加強計算、降低編程難度和提高精度的指令集,比如任意到任意排列(Any-to-Anypermutes)、矢量位移(Vector-VectorShifts)、Gather/Scatter指令以及3操作數(shù)通用位處理指令(3-operandgeneralpurposeBitmanipulationinstructions)等。這些指令的加入,使得CPU可以在數(shù)據(jù)壓縮、大規(guī)模計算、圖形處理中速度更快,對程序員來說,編程過程也可能由于新指令集的使用而更為簡單輕松。根據(jù)英特爾的數(shù)據(jù),AVX2.0搭配Haswell(L1緩存帶寬從前代的48Byte/cycle增加到Haswell的96Byte/cycle,L2從32Byte/cycle增加到64Byte/cycle)后,CPU的每個核心、每時鐘周期的單精度和雙精度浮點理論最高性能翻了一番,每個核心、每時鐘周期的計算能力分別達到了32FLOPS和16FLOPS。再考慮CPU的高頻率和多核心,在浮點能力方面Haswell將繼續(xù)大幅度前進。更多亮點 封裝規(guī)格、超頻和功耗等在CPU其余架構部分,比如桌面CPU的四個物理核心、環(huán)狀總線、TurboBoost加速、PCI-E3.0支持以及雙通道內存等,Haswell和上代IvyBridge基本沒有差別。其余的一些參數(shù),如接口等物理規(guī)格,Haswell相對前代產品還是做出了一定程度的更改。Haswell處理器的桌面平臺使用了新的SocketH3接口,針腳數(shù)量更改為1150個,支持35W?95W的散熱解決方案。移動平臺分為兩部分,第一部分是SocketG3插槽,947針腳,依舊是雙芯片封裝,TDP范圍是37W?47W之間,嵌入
式產品會降低到15W;第二部分則是全新的單芯片SOC接口,TDP降低到15W。第二種SOC類型的單芯片封裝是專門為超級本和一些對面積要求很嚴格的產品而設計的,因此玩家可能會看到基于Haswell的體積更小、更輕薄的移動設備上市。Haswell還有特別值得注意的改進之處,那就是調壓模塊。現(xiàn)在的CPU中往往會集成不同的部分,比如CPU核心、緩存、北橋、I/O接口等。這些部件在工作時需要不同的電壓輸入,因此CPU中會涉及調壓模塊來調整、監(jiān)控每個部分的電壓、電流等情況。在Haswell之前的產品中,調壓模塊分為五大部分,分別針對PLL鎖相環(huán)、處理器內核、圖形內核、SystemAgent部分、I/O部分等分別調節(jié)。在Haswell上這五部分合為一體成為一個獨立的輸入VR,集成度更高。目前尚沒有特別明確的消息說明調壓模塊和為一體后對超頻時的電壓控制有什么影響,不過和Haswell對超頻略微友善的態(tài)度來看,至少不應該太過負面才是。沒錯,Haswell對超頻更為友善了。之前的SandyBridge和IvyBridge的外頻幾乎不能調節(jié),倍頻調節(jié)除了“K”系列產品外,其余產品都受到很大限制。在Haswell上,英特爾決定對超頻特別是外頻的控制稍稍放開,引入了之前在LGA2011平臺上所使用過的技術 時鐘參考比率(RefereneeClockRatio)。Haswell外頻被分為1.0、1.25和1.67三個級別,最高外頻可以達到167MHz,雖然對超頻玩家來說,傳統(tǒng)以“1MHz”為單位的超外頻再也不會回來了,但至少Haswell有希望通過改變外頻來提升頻率。Haswell的功耗也進一步下降,首先是工藝,Haswell的工藝依舊是22nm3D晶體管。但由于工藝進步,Haswell的22nm工藝和IvyBridge相比顯然要更為先進一些,英特爾沒有具體說明改進在哪些方面,只是含混地說“工藝不斷進步,產品設計也有了變化,晶體管分配自由度更高”等。其次則是具體功耗數(shù)值了,一些演示消息表示Haswell功耗可以降低到最低7.5W的驚人程度,技術上自然有一定革新。英特爾為Haswell加入了一個24MH的超低BaskClock,用于超低電壓處理器節(jié)能。節(jié)能模式上也加入了更深度休眠、更低電壓喚醒、更少組件運轉的C8、C9、C10節(jié)能模式,甚至可以直接關閉除了電源和部分緩存外的其余所有部分,在不同的睡眠模式中切入切出的速度也最多提升了25%,更有利于節(jié)約能源了。規(guī)模更大的EU單元——Haswell的GPU改進
英特爾在圖形性能上每一次產品革新都宣稱大幅度提升性能,但實際產品的表現(xiàn)卻依舊難以和同期的入門級獨立顯卡抗衡。除了驅動等一直以來都不占優(yōu)勢的部分外,英特爾在GPU硬件設計上的弱勢也是非常重要的原因之一。不過好在IvyBridge的GPU部分終于在硬件架構上支持了DirectX11,也加入了一個曲面細分單元,算是完成了DirectX11的所有功能支持。相比AMD和NVIDIA比拼抗鋸齒技術、比拼通用計算性能,英特爾暫時還處在“是否跑得起來不重要,有沒有才是關鍵”的層次上。由于IvyBridge的GPU部分設計還算比較合理,因此Haswell的架構沒有大規(guī)模改動,反倒是開始進行橫向的規(guī)模擴張。根據(jù)英特爾的介紹,Haswell的GPU部分和CPU完全捆綁在環(huán)形總線上,可以使用L3緩存,并且GPU和CPU部分的TDP可以做到動態(tài)調整。一般情況下GPU和CPU不會同時滿載,GPU很忙碌的時候CPU往往都是在等待GPU傳回處理數(shù)據(jù),因此Haswell可能會讓GPU和CPU頻率、功耗在更大范圍內聯(lián)動。這樣能夠在TDP允許的范圍內獲得更為優(yōu)秀的圖形性能。此外,Haswell還改進了GPU的紋理采樣性能,最高可提升4倍,這種改進在目前高清晰紋理普遍使用的情況下非常有用。至于GPU規(guī)格方面,英特爾確認了三種版本,GT1、GT2和GT3。從英特爾給出的消息來看,GT2的規(guī)格可能是GT1的兩倍、GT3則是GT2的兩倍。不過GT3僅僅用于移動設備,桌面CPU只有GT1和GT2兩個版本。根據(jù)業(yè)內一些消息,每個EU單元有4個ALU,GT1版本可能有6個或者10個EU單元,總共就是24個或者40個ALU,1個曲面細分單元(之所以有兩種猜測,是因為在SandyBridge和IvyBridge上,英特爾給GT1同檔次的產品都只布置了6個EU單元,Haswell上也可能存在這樣的情況,不過英特爾也有可能布置10個EU單元用于加強入門級產品的圖形性能)。GT2則擁有20個EU單元,80個ALU和2個曲面細分單元,GT3則直接翻倍到40個EU單元、160個ALU單元和4個曲面細分單元。僅僅從ALU的數(shù)量來看,目前的入門級顯卡比如NVIDIA的GK107核心,至少有384個ALU,而AMD的HD7750也擁有512個ALU,Haswell的ALU數(shù)量上還是無法和入門級低端顯卡抗衡,性能表現(xiàn)上自然不會太好了。英特爾在圖形性能上追求的是“功能型”產品,因此除了圖形性能,傳統(tǒng)屬于顯卡處理的視頻方面,Haswell也有改進。首先是視頻輸出方面,Haswell的GPU
支持DVI、HDMI1.4a、DisplayPort12e-DisplayPort等新規(guī)格,視頻輸出能力方面有了保證。在視頻的編、解碼能力上,它支持JEPG、MotionJPEG(一種使用JPEG壓縮幀的視頻格式)、SVC(彈性視頻編碼)和MVC(多視角視頻編碼)等多種視頻格式的解碼。在視頻處理上,Haswell的GPU擁有一些新的模塊,比如伽瑪擴展(GE)、膚色調節(jié)過濾器、幀率轉換、圖像穩(wěn)定引擎等。功能更多 全新的8系列芯片組在本文一開始,曾提到過Haswell處理器的接口已經(jīng)改變,目前的7系列主板已經(jīng)不能繼續(xù)支持Haswell處理器。Haswell處理器相搭配的是全新的英特爾8系列主板,芯片代號為LynxPoint。英特爾表示LynxPoint在I/O接口、存儲性能、安全性能以及管理性能方面都有頗多特色。安全性能和管理性能主要是商業(yè)用途,與普通玩家關系不大,比較有亮點的是I/O接口和存儲性能。首先來看I/O接口。LynxPoint對USB3.0和SATA6Gbps支持更為靈活,比如USB3.0最多可以支持6個、SATA6Gbps最多可以擁有6個。但這是有條件的,因為LynxPoint—共有18條PCI-E2.0通道,其中5、6兩條通道可以根據(jù)需要分配為USB3.0或者PCI-E2.0,13、14兩條通道也可以分配給SATA6Gbps或者PCI-E2.0。換句話來說,LynxPoint的PCI-E通道有4條可以靈活配置,既可以作為USB3.0或者SATA6Gbps,又可以作為PCI-E存在。這讓廠商設計和用戶選擇余地更廣,可以根據(jù)需求來搭配是要更多的USB、SATA還是PCI-E接口。其次則是存儲方面的進步。LynxPoint支持FastSynchStreaming(快速同步流)、UEFI快速啟動以及LakeTiny。快速同步流主要用于提升I/O同步速度,比較有趣的是LakeTiny,這項技術主要是根據(jù)功耗和負載情況來配置I/O接口,有助于提高SSD的性能。英特爾的數(shù)據(jù)表示,在使用了LakeTiny后,SSD的突發(fā)數(shù)據(jù)流會提升到220MB/S,遠遠高于未使用LakeTiny時最高大約157B/s的速度。高突發(fā)數(shù)據(jù)讀取速度有助于降低系統(tǒng)響應時間,提高系統(tǒng)反應速度。在型號方面,LakeTiny在消費級市場方面分為Z87、H87和H81三款芯片組,商務市場則分出了Q87、Q85和B85等產品。消費級市場的產品是用戶最為關注的產品。其中Z87支持把CPU提供的PCI-E3.0x16拆分為兩條PCI-E3.0x8
或者一條PCI-E3.0x8和兩條PCI-E3.0x4,也支持CPU超頻;H87則只支持將CPU提供的PCI-E3.0x16拆分為兩條PCI-E3.0x8,不支持超頻;H81既不支持拆分PCI-E通道也不支持超頻。其他方面三款芯片組差距比較小,市場劃分情況也類似目前的Z77、H77和Z71的情形。全新的8系列芯片組規(guī)格表規(guī)格Z87H87H81處理器接口LGA1150LGA1150LGA1150圖形接口支持1X16或者2X8或者1X8+2X41X16或者2X81X16英特爾RES12支持支持支持LakeTiny支持不支持不支持英特爾SmartResponseTechonlogy支持支持不支持USB(USB3.0)14(4)14(4)10(2)SATA(SATA6Gbps最多)6(6)6(6)4(2)PCI-E2.0886CPU超頻支持支持不支持不支持壓路機,開拓新局面?接下來,我們來看看AMD方面的變化。推土機架構是自K8以來AMD所進行的架構設計中變革最大的一次,盡管解決了先前K10核心中存在的一些問題,也跟進英特爾的步伐加入了宏指令融合等技術,但市場表現(xiàn)仍然不算很好。在AMD規(guī)劃的路線圖上,推土機之后還有打樁機、壓路機與挖掘機三次架構調整。其中壓路機的初始設計目標是提高并行性。但是計劃趕不上變化,推土機與打樁機連續(xù)被壓制,AMD的設計重心已經(jīng)和路線圖上強調的部分有了微妙的不同。下面,就讓我們從AMD首席技術官MarkPapermaster在HotChips2012年會上的主題演講中所透露出的信息,對壓路機的架構進行分析。他的演說主要集中在三個方面:流水線前端、單核心執(zhí)行效率提升,以及改進能耗效率。一個本來
要繼續(xù)強化并行性能的架構卻將一部分精力花在了單核心效率上,這讓我們對壓路機的前景更加迷惑,AMD究竟改動了什么?流水線前端優(yōu)化首先來看指令讀取。AMD加大了指令緩存的大小,并且使用了更加積極的指令預讀取策略,指令向執(zhí)行單元的交付效率也有所提高。據(jù)傳,推土機架構的基本流水線長度略高于20級,這種長流水的設計能夠幫助推土機推高主頻,但是也增加了總體的執(zhí)行延遲,更加大了分支預測失敗的損失。為了彌補這個缺陷,推土機當中設置了一個與指令讀取分離的多級分支預測器,期望以此減少流水線停頓。壓路機架構在此基礎上進一步加大了分支目標緩沖區(qū)的大小,期望以此提升分支預測的準確率。據(jù)AMD內部的仿真測試結果顯示,壓路機的分支預測失敗率降低了20%。MDOPTEROM?FUTURETECHNOLOGYDeliveringmultiplegenerationsofgr&at^rfunctionalityandimprovedperformancePiledriver2ndgerieratidiniTiDdul^rcore*ImprovedIPCandfrequer>cv4shgenerstiQnmoduilarcart?Greaterperformartct1輯gieiier^tionmiDdLiirarcore"BulldozedDeliveringmultiplegenerationsofgr&at^rfunctionalityandimprovedperformancePiledriver2ndgerieratidiniTiDdul^rcore*ImprovedIPCandfrequer>cv4shgenerstiQnmoduilarcart?Greaterperformartct1輯gieiier^tionmiDdLiirarcore"Bulldozed■FlexFP百128/2S6-brtAVXrXOPanduSteamrol(e:ru3"*gener^tjorimgduldrcore?Greaterparallelism寧琴戰(zhàn)羅松應忌AMD處理器路線圖FmExcavator此前推土機架構引發(fā)討論的另一個問題是它的指令解碼器共享設計,坊間傳聞這是限制推土機架構執(zhí)行效率的一大敗筆。讓我們先來看看競爭對手英特爾,它早在2006年的Core架構上就大膽引入了3組簡單指令解碼器+1組復雜指令解碼器的設計,理想狀況下每個時鐘周期能夠給每個處理核心提供四條已經(jīng)解碼完畢的待處理指令。而推土機的指令解碼器與之相比則縮水一半,雖然每個推土機模
塊當中被配置了四個指令解碼器,但是卻有兩個處理核心。于是有人擔心,這種縮水的指令解碼器能否以足夠快的速度去解碼指令?SiteamrollerEnhancein^tructioTipre-fetchToIMTJ3ToFPO+26%iwThread2fir^FichtBRecfwcedbym130%SiteamrollerEnhancein^tructioTipre-fetchToIMTJ3ToFPO+26%iwThread2fir^FichtBRecfwcedbym130%OpSiper ImprOV^m^rlit2Moreefficientdespatchl^acheMl^^asReducwlby3*川NocompironrtisestwothreadperformanceD更曲c噩eddecodeFor&achintegerpip?Increaseinstructioncachesize壓路機前端布局niii曹衛(wèi)ofesa-i口答案是在大多數(shù)情況下不會,只有在一些對每時鐘周期執(zhí)行指令數(shù)有較高要求的多線程應用下,這種兩個核心共享四個指令解碼器的設計才會輕微地影響性能。性能略微降低的代價帶來的好處是執(zhí)行解碼器數(shù)量的降低以及芯片復雜度的降低。x86不同于ARM,它是一種復雜指令集,其指令解碼器設計比ARM的精簡指令集要復雜很多,也會消耗更多功耗。因此AMD削減推土機模塊指令解碼器數(shù)量的決策是一個犧牲性能換取低功耗的權衡之計。但是現(xiàn)在,AMD希望能提升單核心的執(zhí)行能力,提高指令解碼的速度,于是這一權衡已經(jīng)不再成立,壓路機也變成了每核心四路指令解碼器的設計,這樣一來一個推土機模塊內就有了可以并行工作的八個指令解碼器。上述改進加在一起讓壓路機在AMD內部仿真測試中得以將每周期執(zhí)行指令數(shù)提升30%。單核心執(zhí)行效率提升與指令讀取、解碼上的改進相呼應,壓路機在指令調度方面也有所變化。早在上世紀60年代,當時構筑超級計算機體系結構的架構師們就已經(jīng)意識到,程序的指令不必按照順序執(zhí)行,在保持邏輯順序的情況下打亂指令的執(zhí)行次序,將后面不相關的指令提前執(zhí)行可以獲得相當不錯的性能提升。從1995年開始,這種原先應用在超級計算機上的亂序執(zhí)行技術被英特爾首先引入到微處理器Pentium
Pro中,從而飛入尋常百姓家。如何在指令與指令之間既保持原有邏輯順序,又要進行聰明的調度來加速執(zhí)行,是一門并不簡單的學問,壓路機中為了方便進行調度增加了更多的寄存器,經(jīng)過改良后的整數(shù)指令調度效率提高了5%~10%,這意味著執(zhí)行單元停頓的幾率更少。上一個部分中提到,為了獲取性能的提升,AMD將指令解碼器的數(shù)量加倍,這就導致了芯片面積的增大(意味著成本提高)和功耗的增加。為了抵消這個部分的影響,壓路機的其余部分就必須作出權衡。MMX執(zhí)行單元和FMAC執(zhí)行一一單元現(xiàn)在共享一部分執(zhí)行部件_這是什么意思呢?讓我們回憶一下手算乘除法。乘除法在手算過程中會進行一系列的加減法,在處理器當中也是一樣,只不過加減法被統(tǒng)一到加法器上運行。如果我們仿照乘除法的手算過程來設計乘法執(zhí)行單元和除法執(zhí)行單元,就會發(fā)現(xiàn)乘法和除法都需要用到加法器。如果我們在乘法和除法兩個執(zhí)行單元中都配備獨立的加法器,那么一個乘法操作就可以與另一個除法操作并行執(zhí)行,但是劣勢在于多出的一個加法器抬高了芯片面積和功耗。與此相對的是,如果我們只設計一個加法器,然后讓乘除法單元共享它,性能會受到損失,但是芯片面積和功耗則可以節(jié)省下來。AMD在MMX單元和FMAC單元上進行的改動與此類似,但這是一個精巧復雜的權衡,AMD的工程師們仔細拆分了MMX和FMAC指令的執(zhí)行過程,保證這兩種指令不可能同時用到那部分共享的硬件,這使得它在保證一定的芯片面積以及能耗的同時,性能不會受到影響。除此之外,壓路機還進行了一些調整,例如Load指令的壓縮能更有效率地利用寄存器空間,改進了Store-to-Load的數(shù)據(jù)旁路設計,這些改進加在一起使得壓路機的單核心執(zhí)行效率有所提咼。存儲器體系的改進在推土機的架構中,每個模塊共享一個64KB大小的兩路組關聯(lián)一級指令緩存,模塊內的每個核心單獨使用一路(在《微型計算機》2012年7月上刊的《劍指低端獨顯IntelIvyBridgeGPU圖形架構解析》一文中,我們介紹過組關聯(lián)緩存的設計利弊,讀者可參閱相關內容)。每個核心單獨使用一路的設計意味著這個組關聯(lián)緩存蛻變成為事實上的全相連緩存,全相連緩存完全抹消了由地址沖突引來的緩存缺失,但代價是需要附加大量的比較器,引入更大的訪問延遲。為了彌補這一點,推土機使用組內預測技術來預測每次訪問緩存時會檢索的一組寄存器,
在理想狀況下90%以上的訪問可以準確預測,只需直接把這組數(shù)據(jù)取出即可,不用檢索整個緩存,從而縮短延遲并降低功耗。這是一箭雙雕的聰明設計,但是無法補足每個核心指令緩存大小相比上一代有所減小的缺憾。為此壓路機重新加大了一級指令緩存,而容量加大之后一級指令緩存的缺失率降低了30%。但目前AMD仍然沒有透露壓路機一級指令緩存具體的大小,也沒有數(shù)據(jù)緩存大小的資料,因此數(shù)據(jù)緩存的部分是否有所改變還未可知。"STEAMROLLER':IMPROVINGSiNGLE-COREEXECUTIONDesigntotimeifpintegerexecutionbandwidth:InconcertwithfeedingthecorefasterMoic rt?^duree&.l^t^ncyMoremteJIigentschedulingDesigntodecreaseJtyersgeloadIstpnqy:MinimumlatencyisonlypartofstoryFa&t^ihpHfllinpofcIhLr miqS■護Acceleratestorelfl」Designtotimeifpintegerexecutionbandwidth:InconcertwithfeedingthecorefasterMoic rt?^duree&.l^t^ncyMoremteJIigentschedulingDesigntodecreaseJtyersgeloadIstpnqy:MinimumlatencyisonlypartofstoryFa&t^ihpHfllinpofcIhLr miqS■護Acceleratestorelfl」aadforwardingkft*gvrSchedulerCJERdEHiadLcunlK□E=vaE苣n一¥£u-$nnSchiMiulcf| |L1irnpmcMjfirnurntsin
>1nr4-tr^ndlinqinScMdulingEffi匚i?F>cv'aThHKJltbnpURIri3IH?l?5!ttrW機両倖戸取叵pCofripyfp??-1hXJI*—J"fof4-5Kian3l壓路機執(zhí)行單元布局壓路機的二級緩存也有較大的變化,終于支持以四分之一緩存大小為步長的動態(tài)增減。在對一個大容量緩存進行檢索時,功耗是比較大的,此外二級緩存在推土機架構內占有的漏電流份額也不容忽視,在計算負載比較低的時候關閉一部分二級緩存能夠有效節(jié)省功耗,AMD認為這對于一些移動終端上的常見應用,例如視頻回放(對二級緩存的大小要求不高),可以帶來更佳的續(xù)航能力。
啓菖.a4YJM-pdldwpdld■sTEAf^ROLLER"PERFORMANCE/WATTDESIGNDynamicresizingofL2 Adaptivem&debatedon\-A)rkloadMicroarclidcetupoweropirmizatiDn Loweraverageci^namjcpow&rOptirnif-efcrlooph-Hhavia^&Floathngpointrebalance啓菖.a4YJM-pdldwpdld■sTEAf^ROLLER"PERFORMANCE/WATTDESIGNDynamicresizingofL2 Adaptivem&debatedon\-A)rkloadMicroarclidcetupoweropirmizatiDn Loweraverageci^namjcpow&rOptirnif-efcrlooph-Hhavia^&FloathngpointrebalanceStrearrilinedeKecutianhandwareAdpJstioappiicatian1rendsL1EX^ctH另一項跟進英特爾步伐的改變是uop緩存。uop指代"微指令”,由
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年物聯(lián)網(wǎng)設備管理系統(tǒng)開發(fā)合同2篇
- 二零二四年墻體廣告租賃合同涵蓋廣告位更新維護責任3篇
- 2025年房地產項目委托產權登記及過戶服務合同3篇
- 二零二五年度衛(wèi)生間清潔保養(yǎng)服務合同3篇
- 二零二五年房地產物業(yè)管理服務委托合同模板3篇
- 2025年度生態(tài)環(huán)保型建筑材料采購合同3篇
- 二零二五年服裝店庫存管理師聘用合同樣本3篇
- 2025年度網(wǎng)絡安全防護技術解決方案定制合同3篇
- 二零二五年度河堤施工環(huán)境保護與污染防治合同3篇
- 二零二五年度環(huán)保材料買賣合同規(guī)范文本2篇
- 農民工工資表格
- 【寒假預習】專題04 閱讀理解 20篇 集訓-2025年人教版(PEP)六年級英語下冊寒假提前學(含答案)
- 2024年突發(fā)事件新聞發(fā)布與輿論引導合同
- 地方政府信訪人員穩(wěn)控實施方案
- 小紅書推廣合同范例
- 商業(yè)咨詢報告范文模板
- 2024年智能監(jiān)獄安防監(jiān)控工程合同3篇
- 幼兒園籃球課培訓
- AQ 6111-2023個體防護裝備安全管理規(guī)范知識培訓
- 老干工作業(yè)務培訓
- 基底節(jié)腦出血護理查房
評論
0/150
提交評論