高級體系結(jié)構(gòu)-1_第1頁
高級體系結(jié)構(gòu)-1_第2頁
高級體系結(jié)構(gòu)-1_第3頁
高級體系結(jié)構(gòu)-1_第4頁
高級體系結(jié)構(gòu)-1_第5頁
已閱讀5頁,還剩162頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

高性能計算機體系結(jié)構(gòu)喬百友〔83681250)qiaobaiyou@ise東北大學信息學院計算機系統(tǒng)研究所高性能計算機體系結(jié)構(gòu)參考教材

ComputerArchitecture:AQuantitativeApproach,HennessyandPatterson,機械工業(yè)高等計算機系統(tǒng)結(jié)構(gòu)并行性可擴展性可編程性清華大學出版社ParallelComputerArchitecture--AHardware/softwareApproach機械工業(yè)計算機系統(tǒng)結(jié)構(gòu)張晨曦等,高等教育出版社,2008并行計算機系統(tǒng)結(jié)構(gòu)與可擴展計算,古志民、孫賢和

清華大學出版社2009并行計算機體系結(jié)構(gòu),陳國良等著,高等教育出版社,2002主要內(nèi)容1.高性能計算與高性能計算機2.指令流水技術(shù)根底(復習)3.指令級并行性4.指令的動態(tài)調(diào)度與分支預測5.互連網(wǎng)絡(luò):拓撲結(jié)構(gòu),尋徑技術(shù),6.并行處理根底:模型,性能,自動并行化7.共享存儲器多處理機:cache一致性,同步8.大規(guī)模并行處理:主動消息,多線程41.高性能計算的意義2.高性能計算的開展與現(xiàn)狀3.高性能計算的典型應用4.高性能計算的挑戰(zhàn)與機遇高性能計算與高性能計算機國家高性能計算中心〔合肥〕52024/3/41.高性能計算的意義1.1高性能計算的內(nèi)在含義1.2高性能計算的應用需求1.3高性能計算的戰(zhàn)略地位61.高性能計算的意義〔1〕1.1高性能計算的內(nèi)在含義計算和計算科學所有的學科都轉(zhuǎn)向定量化和精確化三大科學:理論科學、實驗科學和計算科學計算科學是一個交叉學科,用計算的方法來解決應用問題。適用于理論模型復雜或尚未建立、實驗費用昂貴或無法進行。計算物理、計算化學、計算生物學、計算地質(zhì)學、計算氣象學。并行計算是跟上摩爾定律的重要手段。1.高性能計算的意義〔2〕高性能計算HPC〔HighPerformanceCompute〕泛指量大、快速、高效的運算高性能計算---并行計算并行計算(ParallelComputing〕高端計算(High-endParallelComputing)高性能計算(HighPerformanceComputing)超級計算(SuperComputing)81.高性能計算的意義〔3〕高性能計算主要包括:向量計算并行計算分布式計算網(wǎng)絡(luò)計算網(wǎng)格計算云計算NortheasternUniversitySep.6,2012MossoGoogleAppEngineRailsOneSalesforceGmailGliffyJoyentAmazoneWebSvcsNirvanixXcalibreAkamaiPaaSSaaSIaaSCloudComputing云計算是并行計算(ParallelComputing)、分布式計算(DistributedComputing)和網(wǎng)格計算(GridComputing)的開展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)云計算是虛擬化(Virtualization)、效用計算(UtilityComputing)、IaaS(根底設(shè)施即效勞)、PaaS(平臺即效勞)、SaaS(軟件即效勞)等概念混合演進并躍升的結(jié)果101.高性能計算的意義〔4〕高性能計算的量綱111.高性能計算的意義〔5〕1.2高性能計算的應用需求應用需求計算密集型應用〔Computing-intensive):大型科學工程計算,數(shù)值模擬等。應用領(lǐng)域:石油、氣象、CAD、核能、制藥、環(huán)境監(jiān)測分析、系統(tǒng)仿真等。數(shù)據(jù)密集型應用〔Data-intensive):數(shù)字圖書館,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘,計算可視化等。應用領(lǐng)域:圖書館、銀行、證券、稅務(wù)、決策支持系統(tǒng)等。通信密集型應用〔Network-intensive):協(xié)同工作,網(wǎng)格計算,遙控和遠程診斷等。應用領(lǐng)域:網(wǎng)站、信息中心、搜索引擎、電信、流媒體等。121.高性能計算的意義〔6〕千萬億次超級計算機的應用需求天氣預報

1990年10次臺風登陸,福建、浙江兩省損失79億元,死亡950余人。 天氣預報模式為非線性偏微分方程,預報臺風暴雨過程,計算量為1014—1016次浮點運算,需要10GFlops—100GFlops的巨型機。

用途:局部災害性天氣預報。石油工業(yè) 地震勘探資料處理 油藏數(shù)值模擬 測井資料處理地震勘探由數(shù)據(jù)采集、數(shù)據(jù)處理和資料解釋三階段組成。目前采用的三維地震勘探比較精確的反映地下情況,但數(shù)據(jù)量大,處理周期長。100平方公里的三維勘探面積,道距25米,60次覆蓋,6秒長記錄,2毫秒采樣,一共采集2.881010個數(shù)據(jù),約為116GB。疊加后數(shù)據(jù)為4.8108個數(shù)據(jù)。用二維疊加深度偏移方法精確的產(chǎn)生地下深度圖像,需要進行251012FLOP,采用100MFLOPs機器計算250天,1GFLOPs機計算25天,10GFLOPs機器35分??紤]到機器持續(xù)速度常常是峰值速度的10-30%,所以需要100GFlops的機器。CrayT932/32約為60GFLOPs。航空航天 研究三維翼型對飛機性能的影響。數(shù)值模擬用時間相關(guān)法解Navier-Stoker方程,網(wǎng)格分點為1204050,需內(nèi)存160MB,6億計算機上解12小時,如果在數(shù)分鐘內(nèi)完成設(shè)計,那么需要千億次計算機。核武器 核爆炸數(shù)值模擬,推斷出不同結(jié)構(gòu)與不同條件下核裝置的能量釋放效應。 壓力:幾百萬大氣壓 溫度:幾千萬攝氏度 能量在

秒級內(nèi)釋放出來。 設(shè)計一個核武器型號,從模型規(guī)律、調(diào)整各種參數(shù)到優(yōu)選,需計算成百上千次核試驗。

LosAlamos實驗室要求計算一個模型的上限為8-10小時。

千萬次機上算橢球程序的計算模型需要40-60CPU小時。二維計算,每方向上網(wǎng)格點數(shù)取100,二維計算是一維的200倍,三維是一維的33000倍。假設(shè)每維設(shè)1000網(wǎng)格點,那么三維計算是一維的幾十萬倍之多。此時對主存儲器容量要數(shù)十、數(shù)百億字單元〔64位〕。另外還有I/O能力的要求,可視化圖形輸出

計算空氣動力學:千億次/秒〔1011〕圖像處理: 百億次/秒〔1010〕AI: 萬億次/秒〔1012〕231.高性能計算的意義〔7〕1.3高性能計算的戰(zhàn)略地位從戰(zhàn)略高度上講高性能計算技術(shù)是一個國家綜合國力和科技創(chuàng)新力的重要標志,各個國家競相爭奪的戰(zhàn)略制高點。高性能高計算是支撐國家實力持續(xù)開展的關(guān)鍵技術(shù)之一。高性能計算國防平安、高科技開展和國民經(jīng)濟建設(shè)中占有重要的戰(zhàn)略地位。重大挑戰(zhàn)問題:飛機設(shè)計、藥物設(shè)計、全球氣候預測、人類基因、海洋環(huán)流新材料、油藏數(shù)值模擬、生物分子結(jié)構(gòu)、半導體建模、超導建模等。241.高性能計算的意義〔8〕高性能計算在興旺國家的戰(zhàn)略地位〔1〕美國有關(guān)開展高性能計算的建議報告從1982年到2005年,美國國防部、能源部、國家科學院、國家科學基金委以及美國總統(tǒng)信息技術(shù)參謀委員會、美國信息技術(shù)咨詢委員會、美國國家競爭力委員會等提出的有關(guān)信息技術(shù)和計算機的建議報告中,大都涉及到了高性能超級計算機的內(nèi)容。251.高性能計算的意義〔9〕高性能計算在興旺國家的戰(zhàn)略地位〔2〕清單(按年代排序)1982年,美國國家科學院:《關(guān)于科學研究及工程中的大規(guī)模計算》1993年,美國國家科學院:《從臺式計算機到萬億次計算機:充分發(fā)揮美國在高性能計算領(lǐng)域領(lǐng)導權(quán)》1995年,美國國家科學院:《特別工作組關(guān)于未來國家科學基金委超級計算中心方案報告》1996年,美國總統(tǒng)信息技術(shù)參謀委員會:《信息技術(shù)研究:為了未來》2000年,美國國家科學院:《促使信息技術(shù)更好》2001年,美國國家科學院:《無處不在》2002年,美國國防部:《適用于國家平安部門的高性能計算》2003年,美國能源部:《基于科學的大規(guī)模模擬》

2003年,美國國家科學基金委:《通過計算機根底結(jié)構(gòu)變革科學與工程》

2003年,美國國家科學基金委:《信息時代的知識喪失》2004年,美國國家競爭力委員會:《促使美國變革并提高競爭力》

2004年,美國跨機構(gòu):《聯(lián)邦高端計算方案-高端計算復興特別工作組》2005年,美國國家科學院:《超級計算機未來》

2005年,美國總統(tǒng)信息技術(shù)參謀委員會:《計算科學:確保美國競爭力》···261.高性能計算的意義〔10〕高性能計算在興旺國家的戰(zhàn)略地位〔3〕美國開展有關(guān)高性能計算的行動方案1993年,美國科學工程技術(shù)聯(lián)邦協(xié)調(diào)理事會:《HPCC(HighperformanceComputing&Communication)GrandChallenge》方案,提出開展萬億次(Tera=1012)計算機方案。1996年,美國能源部和LawrenceLivermore、LosAlamos、Sandia三大核武器國家實驗室:《ASIC(AcceleratedStrategicComputingInitiative)》方案,提出開展千萬億次(Pera=1015)計算機的目標。1997年,HPCC包括了HECC(HighEndComputing&Communication),被擴展為CIC(Computing,Information,Communication)方案。1998年度的CIC藍皮書,將千萬億次計算機硬件和軟件研制列入了方案中。2002年啟動HPCS方案,希望確定未來10到20年超級計算機的體系結(jié)構(gòu)?!ぁぁ?72024/3/41.高性能計算的意義〔11〕高性能計算在興旺國家的戰(zhàn)略地位〔4〕美國1996年提出的ASCI〔AcceleratedStrategicComputingInitiative〕方案。通過數(shù)值模擬,評估核武器的性能、平安性、可靠性等。高分辨率、高逼真度、三維、全物理、全系統(tǒng)的規(guī)模和能力。方案研制5代計算平臺,目前,前四代已完成,第五代平臺正在研制。隨著第一個十年研究結(jié)束,已經(jīng)開始為下一個十年開展制訂規(guī)劃。281.高性能計算的意義〔12〕高性能計算在興旺國家的戰(zhàn)略地位〔5〕ASCI平臺性能開展圖291.高性能計算的意義〔13〕高性能計算在興旺國家的戰(zhàn)略地位〔6〕—ASCI高性能計算機BlueMountainOptionRed301.高性能計算的意義〔14〕高性能計算在興旺國家的戰(zhàn)略地位〔7〕美國2002年啟動的千萬億次超級計算機研究HPCS方案從2002年起的兩年多時間里,ES占據(jù)TOP1位置Cluster并不是HPC的最終體系結(jié)構(gòu)美國DARPA于2002年啟動高生產(chǎn)率計算系統(tǒng)〔HighProductivityComputingSystems)HPCS方案希望確定未來10年甚至20年的高性能計算機體系結(jié)構(gòu)高生產(chǎn)率而非峰值計算能力作為評價指標高性能計算的一個新的創(chuàng)新時代的開始311.高性能計算的意義〔15〕高性能計算在興旺國家的戰(zhàn)略地位〔8〕HPCS方案的三個階段321.高性能計算的意義〔16〕高性能計算在興旺國家的戰(zhàn)略地位〔9〕HPCS的設(shè)計策略331.高性能計算的意義〔17〕高性能計算在我國的戰(zhàn)略地位〔1〕2006年2月,國務(wù)院發(fā)布《國家中長期科學和技術(shù)發(fā)展規(guī)劃綱要〔2006~2020年〕》指出加速開展高性能計算對提高我國國防建設(shè)與國家平安、國家經(jīng)濟建設(shè)、國家重大工程和根底科學研究等尖端科技領(lǐng)域的核心支撐能力,具有十分重要的戰(zhàn)略意義。提出要全面提升我國的自主創(chuàng)新能力,以期將我國在2020年前建設(shè)成為一個創(chuàng)新型國家。高性能計算的戰(zhàn)略地位〔中國〕國家大力開展高性能計算軍事:銀河、神威等民用:曙光、聯(lián)想等高性能計算已應用到國民經(jīng)濟的多個行業(yè)石油、氣象、軍事、科研等國產(chǎn)高性能計算機曾進入TOP500前10位,總數(shù)也大幅增加安裝的計算機總數(shù)在增長〔28臺〕我國超級計算機開展年譜

361.高性能計算的意義〔18〕高性能計算在我國的戰(zhàn)略地位〔2〕中國高性能計算開展大事記1983年,由國防科技大學研制的銀河I型億次巨型機系統(tǒng)的成功問世,標志著我國具備了研制高端計算機系統(tǒng)的能力。1992年,曙光投入200萬元研制曙光一號。隨后,曙光一號、曙光1000、曙光2000、曙光3000、曙光4000相繼問世。1994年,銀河I的換代產(chǎn)品銀河II在國家氣象局正式投入運行,其系統(tǒng)性能達每秒10億次,大大縮短了我國與先進國家的差距。1997年,銀河III并行巨型計算機在北京通過國家鑒定,峰值性能為每秒130億浮點運算。1999年,首臺“神威I”計算機通過了國家級驗收,并在國家氣象中心投入運行。2000年,由1024個CPU組成的銀河Ⅳ超級計算機系統(tǒng)問世,峰值性能到達每秒1.0647萬億次浮點運算。2002年,世界上第一個萬億次機群系統(tǒng)聯(lián)想深騰1800出世,獲得2004年國家科技進步二等獎。2003年,聯(lián)想深騰6800問世把世界機群計算推向新的頂峰。2004年,曙光4000A成功研制,使中國成為繼美國、日本之后第三個能研制10萬億次商品化高性能計算機的國家〔進入TOP500前10位〕。2005年,中國高性能計算機性能TOP100排行榜揭曉,曙光位居第一。天梭榮獲國家科學技術(shù)進步二等獎。2006年,曙光高性能計算機被胡錦濤總書記點評為“中國七大標志性自主創(chuàng)新成果之一”,曙光4000系列高性能計算機榮獲國家科學技術(shù)進步二等獎。2007年12月,中國首臺采用國產(chǎn)高性能通用處理器芯片“龍芯2F”的萬億次高性能計算機“KD-50-I”研制成功。2008年6月24日,中國科學院計算技術(shù)研究所、曙光公司和上海超級計算中心在中科院計算所聯(lián)合舉行了曙光5000落戶上海超級計算中心的簽約儀式。···371.高性能計算的意義〔19〕高性能計算在我國的戰(zhàn)略地位〔3〕—國產(chǎn)高性能計算平臺神威-I聯(lián)想-6800天河1號(TH-I)曙光-星云(Nebulae)230萬億次的浮點運算

6600枚AMD巴塞羅那型四核處理器(主頻1.9GHz)。

30720顆計算核心,122.88TB內(nèi)存,磁盤700TB采用低延遲的20Gb的網(wǎng)絡(luò)互聯(lián)

IBM“Roadrunner走鵑”TOP500中第一曙光-5000峰值速度和實測速度分別為每秒1206.19萬億次和563.1萬億次

CPU/GPU混合異構(gòu)系統(tǒng)

6144個通用處理器;5120個加速處理器內(nèi)存總?cè)萘?8TB

通信帶寬40Gbps共享磁盤總?cè)萘繛?PB

。共享磁盤總?cè)萘繛?PB

Top500中第五位美國克雷公司“美洲虎”〔Jaguar〕第一,1.76千萬億次,中國“星云”第二天河一號高性能計算與高性能計算機高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應用需求高性能計算的戰(zhàn)略地位高性能計算開展與現(xiàn)狀高性能計算機的開展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機展望假設(shè)干新技術(shù)中國高性能計算的機遇和挑戰(zhàn)高性能計算機高性能計算機由多個計算單元組成,運算速度快、存儲容量大、可靠性高的計算機系統(tǒng)。也稱為:巨型計算機、超級計算機并行計算機由多個處理單元組成的計算機系統(tǒng),這些處理單元相互通訊和協(xié)助,能夠高速、高效地求解大型復雜問題。其開展歷程可以簡單的分為兩個時代專用時代

包括向量機,MPP系統(tǒng),SGINUMA系統(tǒng),SUN大型SMP系統(tǒng),也包括我國的神威,銀河,曙光1000等。

之所以稱為“專用”,并不是說它們只能運行某種應用,是指它們的組成部件是專門設(shè)計的,它們的CPU板,內(nèi)存板,I/O板,操作系統(tǒng),甚至I/O系統(tǒng),都是不能在其它系統(tǒng)中使用的。由于技術(shù)上桌面系統(tǒng)與高端系統(tǒng)的巨大差異,和用戶群窄小。普及時代

高性能計算機價格下降,應用門檻降低,應用開始普及。兩個技術(shù)趨勢起到重要作用。

商品化趨勢使得大量生產(chǎn)的商品部件接近了高性能計算機專有部件

標準化趨勢使得這些部件之間能夠集成一個系統(tǒng)中,其中X86處理器、以太網(wǎng)、內(nèi)存部件、Linux都起到?jīng)Q定性作用。

集群系統(tǒng)是高性能計算機的一種,它的技術(shù)根底和工業(yè)根底都是商品化和標準化。高性能計算機系統(tǒng)結(jié)構(gòu)并行向量機SMPDSM〔NUMA〕MPP,節(jié)點可以是單處理器的節(jié)點,也可以是SMP,DSMClusterConstellation并行計算機系統(tǒng)類型Flynn分類:SISD,SIMD,MIMD,MISD結(jié)構(gòu)模型:PVP,SMP,MPP,DSM,COW訪存模型:UMA,NUMA,COMA,CC-NUMA,NORMA并行計算機分類Flynn分類Flynn(1972)提出指令流、數(shù)據(jù)流和多倍性概念,把不同的計算機分為四大類:SISD〔Single-InstructionSingle-Data〕SIMD〔Single-InstructionMulti-Data〕MISD〔Multi-InstructionSingle-Data〕MIMD〔Multi-InstructionMulti-Data〕現(xiàn)代高性能計算機都屬于MIMD。MIMD從結(jié)構(gòu)上和訪存方式上,又可以分為:結(jié)構(gòu)模型:PVP,SMP,MPP,DSM,COW訪存模型:UMA,NUMA,COMA,CC-NUMA,NORMA結(jié)構(gòu)模型對稱多處理機系統(tǒng)(SMP)SMP對稱式共享存儲:任意處理器可直接訪問任意內(nèi)存地址,且訪問延遲、帶寬、機率都是等價的;系統(tǒng)是對稱的;微處理器:一般少于64個;處理器不能太多,總線和交叉開關(guān)的一旦作成難于擴展;例子:IBMR50,SGIPowerChallenge,SUNEnterprise,曙光一號;分布式共享存儲系統(tǒng)(DSM)DSM分布共享存儲:內(nèi)存模塊物理上局部于各個處理器內(nèi)部,但邏輯上(用戶)是共享存儲的;這種結(jié)構(gòu)也稱為基于Cache目錄的非一致內(nèi)存訪問(CC-NUMA)結(jié)構(gòu);局部與遠程內(nèi)存訪問的延遲和帶寬不一致,3-10倍

高性能并行程序設(shè)計注意;與SMP的主要區(qū)別:DSM在物理上有分布在各個節(jié)點的局部內(nèi)存從而形成一個共享的存儲器;微處理器:16-128個,幾百到千億次;代表:SGIOrigin2000,CrayT3D;大規(guī)模并行計算機系統(tǒng)(MPP)MPP物理和邏輯上均是分布內(nèi)存能擴展至成百上千個處理器(微處理器或向量處理器)采用高通信帶寬和低延遲的互聯(lián)網(wǎng)絡(luò)(專門設(shè)計和定制的)一種異步的MIMD機器;程序系由多個進程組成,每個都有其私有地址空間,進程間采用傳遞消息相互作用;代表:CRAYT3E(2048),ASCIRed(3072),IBMSP2,曙光1000集群系統(tǒng)(Cluster)Cluster每個節(jié)點都是一個完整的計算機各個節(jié)點通過高性能網(wǎng)絡(luò)相互連接網(wǎng)絡(luò)接口和I/O總線松耦合連接每個節(jié)點有完整的操作系統(tǒng)曙光2000、3000、4000,ASCIBlueMountain訪存模型UMA:NORMA:NUMA:多處理機〔單地址空間共享存儲器〕UMA:UniformMemoryAccessNUMA:NonuniformMemoryAccess多計算機〔多地址空間非共享存儲器〕NORMA:No-RemoteMemoryAccess結(jié)構(gòu)模型--訪存模型UMA:NUMA:NORMA:多處理機&&多計算機UMA:NUMA:NORMA:多處理機(共享存儲)

多計算機(分布式存儲)高性能計算機的開展607080900010巨型機萌芽CDC6600向量機鼎盛CRAY-1,SX-3MPP開展CrayT3E,OptionRed機群開展NOW,IBMSP2,ASCIQ定制機器ESBlueGene高性能計算機的開展巨型機萌芽階段〔1964-1975〕1964年誕生的CDC6600被公認為世界上第一臺巨型計算機,運算速度為1Mflops。70年代初研制成功STAR-100向量機,這是世界上最早的向量機。隨后于1974年,誕生了世界上最早的SIMD陣列計算機--ILLIAC-IV并行機。向量機鼎盛階段〔1976-1990〕

向量機處理對提高計算機運算速度十分有利,有利于流水線的充分利用,有利于多功能部件的充分利用,但由于時鐘周期已接近物理極限,向量計算機的進一步開展已經(jīng)不太可能。1976年,CRAY-1向量機,峰值速度為0.1Gflops

1985年,CRAY-2,1Gflops

1990年,SX-3,22Gflops1991年,Cray-YMP-C90,16Gflops

高性能計算機的開展MPP蓬勃開展階段〔1990-1995〕傳統(tǒng)向量機逐漸萎縮,大規(guī)模并行處理MPP機蓬勃開展的時代。各種新技術(shù)層出不窮,大公司也紛紛介入。

1989年,BBN公司的TC2000

1992年,Intel公司的Paragon,TMC公司的CM-5

1993年,Cray公司的T3D

1994年,IBM公司的SP2

1996年,Cray公司的T3E,Hitachi公司的SR2201

SGI公司的Origin2000,1996Intel公司的ASCERED

運算速度超過了萬億次/秒。

截至2000年6月,世界上已有14萬億次機,超過3000億次機62臺。排名世界前10名的均為MPP,MPP已成為高性能計算機的主流產(chǎn)品。各種體系結(jié)構(gòu)并存階段〔1995年〕機群開展NOW,IBMSP2,ASCIQ定制機器ESBlueGene 1.向量機與多向量機 硬、軟件技術(shù)相對成熟、應用廣泛、市場占有率高。很難到達3Tperformance來解決GrandChallenge問題。 下面圖表說明了這一類機器的開展過程。GFlops100100.11976197919821985198819911994YearCray1/10.16GFCrayX-MP/20.24GFCray2/41.9GFCrayY-MP/82.6GFCrayJ916/163.2GFCrayC916/1616GFCrayT932/3260GFScalarFunctionalpipelinesScalarControlunitscalarprocessorscalarinstructionMainMemory(Programanddata)MassStorageHostComputerI/O(user)VectorControlunitvectorregistersvectorprocessorcontrolVectorFunctionalpipelinesVectorFunctionalpipelines……vectorinstruction向量機的結(jié)構(gòu)程序和數(shù)據(jù)從Host進入主機指令先在Scalarcontrolunit譯碼,如是標量或控制操作指令,那么在標量功能流水部件種執(zhí)行。如果是向量指令,那么進入向量控制部件。register-to-register: Crayseries FujitsuVP2000seriesmemory-to-memory: Cyber205向量化。多向量機開展過程:CDC7600(CDC,1970)CDCCyber205(Levine,1982)Memory-MemoryCray1(Russell,1978)register-registerETA10(ETA,Inc,1989)CrayY-MPCrayResearch1989FujitsuNECHitachiModelsCrayMPPCrayResearch1993其中: CrayY-MP,C90: Y-MP有2,4,8個處理器,而C90有16個處理單元〔PE〕,處理速度16GFlops。 ConvexC3800family: 8個處理器,4GB主存儲器, performance為2GFlops。2.SIMD的根本結(jié)構(gòu)SIMD的根本結(jié)構(gòu)特點(1)專用,應用算法相關(guān)(2)適合于規(guī)那么數(shù)據(jù)運算,不適合于條件分支程序開展緩慢的原因(1)指令播送瓶頸(2)數(shù)據(jù)歸約相關(guān)性(3)存儲器速度難以提高MasParMP-1: 可有1024,4096,…,16384個處理器。在16KPEs,32位整數(shù)運算,16KB局部存儲器模塊的配置下,可達26GIPS,單精度浮點運算1.5GFlops,雙精度浮點運算650MFlops。CM-2: 65536個處理單元,1Mbit/PE。 峰值速率為28GFlops,持續(xù)速率5.6GFlops。SIMD計算機開展過程圖如下:IlliacIV(1968)GoodYearMPP(1980)BSP(1982)MasParMP1(1990)IBMGF/11(1985)DAP610(AMT,Inc.1987)CM2(1990)CM5(1991)3.對稱式多處理機SMP SMP:SymmetricMultiProcessors SharedMemorymultiProcessors SmallsizeMultiProcessors 處理機之間無主從之分,對外有相同的訪問權(quán),都有執(zhí)行操作系統(tǒng)核心和I/O效勞程序的能力。 共享存儲器、統(tǒng)一地址空間,系統(tǒng)編程比較容易。 CPU可多至16臺左右,做效勞器用,市場前景好。典型的SMP有: SunSPARCserver1000 SunSPARCcenter2000 SGIPowerChallengeSGIPowerChallengeL:2-6CPU,1.8GFlopsSGIPowerChallengeXL: 2-18CPU,5.4GFlops *64位MIPSchip,每周期指令發(fā)射數(shù)為4 *8路交錯主存、帶寬為1.2GB/s *I/O帶寬320MB/s〔每個控制器〕,配置4個可達1.2GB/sSMP結(jié)構(gòu)UMA(Uniform-memory-access)model: 物理存儲器被所有處理機均勻共享,所有處理機對所有存儲字具有相同的存取時間。P0I/OP1SM1……PnSMnInterConnectionNetwork(Bus、Crossbar、MultistageNetwork)……處理器共享存儲器4.NUMA(NonUniform-memory-access)model:訪問時間隨存儲字的位置不同而變化。P1……PnLMnInter-ConnectionNetwork……LM1P2LM2……5.COMA(Cache-onlymemoryarchitecture): 只用高速緩存的多處理機 遠程高速緩存訪問那么借助于分布高速緩存目錄進行。PDInterConnectionNetwork……distributedcachedirectoriesCPDCPDCKendallSquareResearch’sKSR-1Shared-MemoryMultiprocessors開展過程如下:Cmmp(cmu,1972)IllinoisCedar(1987)UltraComputerNYU(1983)FujitsuVPP500(1992)IBMRP3(1985)BBNButterfly(1989)stanford/Dash(1992)KSR-1(1990) 6.MPP系統(tǒng)〔分布存儲〕 多于100個PE,消息傳遞,分布存儲; 可擴展,峰值可達3Tperformance; 貴,市場有限; 持續(xù)速度是峰值速度的3-10%; 可解決某些GrandChallenge問題,是國家綜合實力的象征。 Distributed-MemoryMultiprocessorsP……Message-passinginterconnectionnetwork(Mesh,ring,torus,hypercube,cube,cycle)MPMPMP……PPMMMMP……MPMP……MP例子:

IntelParagonXP/s: 采用50MHz的i860處理器,每個節(jié)點16-128MB主存儲器,采用2D-Mesh互連,浮點運算5-300GFlops,或2.8-160Gips。

nCube2SModel80: 有4096-8192個PE,主存儲器16384-262144MB,浮點運算163800-34000MFlops,整數(shù)運算61000-123000MIPS。 CosmicCube(1981)nCube-2/6400(1990)Mosaic(1992)Intelparagon(1992)MIT/Jmachine(1992)inteliPSC’s(1983)Distributed-Memorymultiprocessors開展進程: 7.機群系統(tǒng)

NOW:NetworkOfWorkstations

COW:ClusterOfWorkstations特點:

投資風險小,軟件財富繼承性好;可構(gòu)成異構(gòu)系統(tǒng),資源利用率高; 通信開銷大。一種典型的機群系統(tǒng)結(jié)構(gòu)如下:CPUMemoryI/OCPUMemoryI/O……CPUMemoryI/OI/OI/OI/OMemoryMemory……MemoryCPUCPUCPUNetworkMPP和COW的界限及特征COW的每個節(jié)點都是一個完整的工作站〔無源工作站〕、一臺PC或SMP;采用低本錢的商品網(wǎng)絡(luò)〔如以太網(wǎng)、FDDI和ATM開關(guān)等〕互連〔有的商用機群也使用定做的網(wǎng)絡(luò)〕;各節(jié)點內(nèi)總是有本地磁盤,而MPP節(jié)點內(nèi)卻沒有;節(jié)點內(nèi)的網(wǎng)絡(luò)接口是松耦合到I/O總線上,而MPP內(nèi)的網(wǎng)絡(luò)接口是連到處理節(jié)點的存儲總線上,因而可謂是緊耦合式的;一個完整的操作系統(tǒng)駐留在每個節(jié)點中,而MPP中通常只是個微核,COW的操作系統(tǒng)是工作站UNIX,加上一個附加的軟件層以支持單一系統(tǒng)映像、并行度、通信和負載平衡等。MPP和COW之間的界線越來越模糊。其它并行處理計算技術(shù)1.數(shù)據(jù)流技術(shù)dataflow以數(shù)據(jù)驅(qū)動機制代替控制流機制當功能部件輸入端的操作數(shù)可用時就啟動執(zhí)行;可開發(fā)程序中所有的并行性,但費用昂貴,實際性能與功能部件數(shù)量、存儲器帶寬以及掛起和可用部件相匹配的程度有關(guān)。 如:MIT的MonSoos,*T

ETL的Sigma1,EM5 2.多線程 每臺處理機有多個控制線程,同時運行多個現(xiàn)場,是實現(xiàn)時延隱藏的一種有效機制。 比方: Tera,Alewife 本錢高。 3.邏輯推理與規(guī)約結(jié)構(gòu)

邏輯推理: 日本第五代機,面向邏輯語言、執(zhí)行速度慢,軟件與程序設(shè)計環(huán)境欠豐富。

規(guī)約結(jié)構(gòu):

Alice,PGR,面向函數(shù)語言,執(zhí)行速度慢,軟件與環(huán)境欠豐富。 4.關(guān)鍵技術(shù) 并行算法〔數(shù)值算法與非數(shù)值算法〕 并行計算模型 互連與通信 并行存儲技術(shù) 同步與時延隱藏技術(shù) 并行I/O 劃分、調(diào)度與負載平衡 優(yōu)化編譯 并行調(diào)試 工具與環(huán)境兩類構(gòu)造HPC的方式采用定制部件價格較高〔小于1B$市場〕對大規(guī)模或通信密集的任務(wù)進行了優(yōu)化設(shè)計并行向量機采用商用部件利用每年80B$的市場優(yōu)勢對一些計算密集任務(wù)有很好的性能MPP\機群PVP構(gòu)造方式PVP采用全定制部件定制的高性能向量處理器〔Gflops)節(jié)點內(nèi)多體交叉共享存儲〔GB)定制的高帶寬低延遲互連(交叉開關(guān)〕機群構(gòu)造方式機群是一組獨立的計算機〔節(jié)點〕的集合體:機群的各節(jié)點都是一個完整的系統(tǒng):工作站,PC機或SMP互連通常使用高速互連網(wǎng)絡(luò),如Myrinet、Infiniband等各節(jié)點可以協(xié)同工作并表現(xiàn)為一個單一的、集中的計算資源CPUMemoryI/OChannel...CPUMemoryI/OChannelCPUMemoryI/OChannelCPUMemoryI/OChannelCPUMemoryI/OChannelSystemAreaNetwork&StorageAreaNetwork從Top500看高性能計算的現(xiàn)狀從Top500看高性能計算機現(xiàn)狀〔2010.11〕最快的高性能計算機:2.566Pflops最普遍的高性能計算機:機群〔415臺〕安裝高性能計算機最多的國家:美國〔274臺〕,亞洲〔83臺,日本26臺,中國41臺,印度4臺〕,歐洲〔126臺〕生產(chǎn)高性能計算機的企業(yè):HP〔159臺〕,IBM〔200臺〕高性能計算機中使用最多的微處理器:Intel系列〔398臺〕,IBM(42臺〕,AMD〔57臺〕高性能計算機使用最廣泛的領(lǐng)域:企業(yè)與研究結(jié)構(gòu)進入500強的最低性能:31.11Tflops,半年前為24.67Tflops500強的總性能為:43.65Pflops,半年前為32.434Pflops2010/11Top500前5位一覽表近幾年來Top1機器2001年,為IBMASCIWHITE,LINPACK峰值為12TFLOPS,處理器數(shù)目為8192。2002年—2004年上半年,為NECEarth-Simulator,LINPACK峰值為40TFLOPS,處理器數(shù)目為5120。2004年下半年—2007年11月,為IBMBlueGene,LINPACK峰值為478TFLOPS,處理器數(shù)目為212992。2008年6月,Top1為IBMRoadrunner〔走鵑〕,LINPACK峰值為1.026PFLOPS,處理器核數(shù)目為122400。2009年6月,Top1為IBMRoadrunner〔走鵑〕,LINPACK峰值為1.105PFLOPS,處理器核數(shù)目為129600。2009年11月-2010年6月,Top1為Jaguar,峰值為1.759PFLOPS,處理器核數(shù)目為224162。2010年11月,Top1為TH-1A,峰值為2.566PFLOPS,處理器核數(shù)目為186368。ASCIBlueGene/L采用專門的System-on-a-chip技術(shù)減少功耗、體積、復雜度和設(shè)計難度實現(xiàn)低延遲、高帶寬存儲系統(tǒng)MPP結(jié)構(gòu)可擴展到~100k處理器采用三種互連網(wǎng)絡(luò):Gbit以太網(wǎng)用于節(jié)點內(nèi)部3DTorus用于節(jié)點間樹用于多播通信ASCIBlueGene/L構(gòu)造圖ASCIBlueGene/L性能比較95IBMRoadrunner走鵑〔1〕國家高性能計算中心〔合肥〕962024/3/4IBMRoadrunner〔2〕根本參數(shù)〔2008年6月〕6,480AMDOpteron處理器,51.8TB內(nèi)存(in3,240LS21刀片)12,960IBMCell處理器,51.8TB內(nèi)存(in6,480QS22刀片)216Systemx3755I/O節(jié)點26288-portISR2012Infiniband4xDDRswitches296機架2.35MWpower1.026PFLOPS972024/3/4IBMRoadrunner〔3〕混合〔Hybrid〕設(shè)計〔2008年6月〕通用處理器+專用處理器采用兩種不同架構(gòu)的處理器:1.8GAMDOpteron雙核處理器〔X86架構(gòu)〕6912個處理器(6480個用于計算節(jié)點,432個用于系統(tǒng)操作和通信節(jié)點)共13824個cores(12960+864)3.2GIBMPowerXCell8i異構(gòu)多核處理器數(shù)學運算比Opteron快30倍1個通用核(PowerProcessingElement:PPE),8個專用核(SynergisticProcessingElement:SPE)(共有9個處理器核)12960個PPEcores和103680個SPEcores共116640個cores(12960+103680)系統(tǒng)共有130464個cores(13824+116640)98IBMRoadrunner〔4〕刀片式機群架構(gòu)〔2008年6月〕每個Triblade包含4個刀片,一個LS21Opteron刀片,一個擴展連接刀片,兩個QS22Cell刀片。LS21包含2個1.8GHz雙核Opterons,16GB內(nèi)存。QS22包含2個3.2GHzPowerXCell8i處理器,8GB內(nèi)存。國家高性能計算中心〔合肥〕992024/3/4IBMRoadrunner〔5〕一個Triblade包含4個刀片一個BladeCenterH框包含3個Triblade一個機架(rack)包含4個BladeCenterH一個連接單元CU(ConnectedUnit)包含15個機架Roadbunner包含18個CU,通過兩級Infiniband互連最快的并行向量計算機--ES體系結(jié)構(gòu):并行向量機峰值速度/存儲器:40Tflops/10TB節(jié)點數(shù)/處理器數(shù)/處理器峰值:640/5120/8Gflops占地:六個籃球場大3層建筑安裝時間:2002/2月主要用途:全球氣候變化預測、地震預報、原子能等TOP500中的機群機群系統(tǒng)在高性能計算機中所占比例迅速增加TOP500中目前有365個機群系統(tǒng)TOP500中最普通的并行機體系結(jié)構(gòu)導致了高性能計算機的“平民化”中國的高端高性能機群2008年11月,第32屆HPCTop500榜曙光5000A排名第10,LINPACK峰值180.6TFLOPS聯(lián)想DeepComp7000排名第19,LINPACK峰值102.8TFLOPS2009年11月,第34屆HPCTop500榜天河1號排名第5,LINPACK峰值563.1TFLOPS曙光5000A排名第19,LINPACK峰值180.6TFLOPS聯(lián)想DeepComp7000排名第43,LINPACK峰值102.8TFLOPS2010年06月,第35屆HPCTop500榜曙光星云〔Nebulae〕排名第2,LINPACK峰值1271TFLOPS天河1號排名第7,LINPACK峰值563.1TFLOPS2010年11月,第36屆HPCTop500榜天河1A排名第1,LINPACK峰值2566TFLOPS曙光星云〔Nebulae〕排名第3,LINPACK峰值1271TFLOPS中國的高端高性能機群曙光-星云高性能:實測峰值達每秒1271萬億次,亞洲和中國第一臺、世界第三臺實測性能超千萬億次的超級計算機高效能:采用自主設(shè)計的HPP體系結(jié)構(gòu)、高效異構(gòu)協(xié)同計算技術(shù),高效易用的編程環(huán)境,極大方便用戶操作應用高可靠:采用全冗余設(shè)計,無單一故障點高密度:單柜峰值高達25.7TFlops,國內(nèi)同類系統(tǒng)單位面積計算峰值最高低功耗:每瓦能耗實測性能超過4.98億次,是目前國內(nèi)最綠色的超級計算機低本錢:關(guān)鍵部件標準化和產(chǎn)業(yè)化,大大節(jié)省擴容本錢天河1A高自主:使用國產(chǎn)CPU飛騰FT-1000八核處理器,使用國產(chǎn)高速互聯(lián)交換芯片“NRC”高性能:峰值運算速度4701萬億次,實測Linpack值2566萬億次;內(nèi)存229TB,存儲容量2P高效能:每瓦實測性能6.35億次,Green500公布的2010年11月數(shù)據(jù)排名第11位高平安:系統(tǒng)管理員無法進入用戶信息系統(tǒng)查看任何信息,保障用戶數(shù)據(jù)的平安可靠易使用:刀片結(jié)構(gòu),利用高偏上的特定電路,自檢系統(tǒng)可以迅速定位刀片位置,便于維修從Top500看高性能計算的趨勢〔1〕關(guān)于計算機結(jié)構(gòu):機群系統(tǒng)仍將是高性能計算機最常用的結(jié)構(gòu)MPP仍然是一個重要結(jié)構(gòu),尤其是作為Pflops超級計算機的主要結(jié)構(gòu)PVP是另一種獲得超高性能的重要結(jié)構(gòu),但不是主流從Top500看高性能計算的趨勢〔2〕關(guān)于微處理器:主要是采用CMOS工藝的商用微處理器Intel處理器家族仍將是高性能計算機中占統(tǒng)治地位的處理器,其基于EM64T的處理器已被證明非常適合于高性能計算〔118臺〕基于RISC的IBMPower體系也會有一席之地AMD地位穩(wěn)定上升專用的處理器仍然存在,但逐漸減少向量處理器片上系統(tǒng)適用于最高端系統(tǒng)高性能計算與高性能計算機高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應用需求高性能計算的戰(zhàn)略地位高性能計算開展與現(xiàn)狀高性能計算機的開展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機展望假設(shè)干新技術(shù)中國高性能計算的機遇和挑戰(zhàn)高性能計算面臨的主要問題-功耗功耗大、空間大、散熱大占地均在數(shù)百~數(shù)千平方米,功耗在數(shù)兆瓦綜合本錢急劇增加,高達數(shù)億美元如ASCI系統(tǒng)和ES地球仿真器的專用建筑群高性能計算面臨的主要問題-存儲Memorywall:存儲器訪問能力與處理部件計算能力的不平衡處理器速度每年提高59%,高性能計算速度提高更快存儲器速度每年提高7%處理器性能與數(shù)據(jù)訪問帶寬和延遲之間的差距越來越大必須從系統(tǒng)存儲體系結(jié)構(gòu)上創(chuàng)新,改進時延機制,以提供更高的帶寬和更低的延遲。目前對三類超級計算機〔定制、混合與商業(yè)〕的主要區(qū)別在于針對不同的存儲訪問模式所能提供的有效本地和全局存儲訪問帶寬。μProc60%/yr.(2X/1.5yr)DRAM9%/yr.(2X/10yrs)110100100019851986198819891990199119921993199419951996199719981999200020012002200320042005DRAMCPU1987Processor-MemoryPerformanceGap:

(grows50%/year)PerformanceTime“Moore’sLaw”Processor-MemoryGap高性能計算面臨的主要問題-編程Programmingwall:系統(tǒng)規(guī)模增大到10萬個以上處理器,系統(tǒng)結(jié)構(gòu)復雜〔數(shù)據(jù)共享與消息通信模式交織〕,為超級計算機編寫高效健壯程序越來越復雜,越來越困難。高性能機器上的程序設(shè)計語言、庫和應用開發(fā)環(huán)境的進展比廣泛應用的工業(yè)軟件差很多沒有廣泛應用的并行程序設(shè)計模型軟件的研制周期大于硬件的研制周期高端計算的真正危機在于軟件高性能計算與高性能計算機高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應用需求高性能計算的戰(zhàn)略地位高性能計算開展與現(xiàn)狀高性能計算機的開展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機展望假設(shè)干新技術(shù)中國高性能計算的機遇和挑戰(zhàn)千萬億次超級計算機的應用需求千萬億次超級計算機研究-HPCS方案從2002年起的兩年多時間里,ES占據(jù)TOP1位置Cluster并不是HPC的最終體系結(jié)構(gòu)美國DARPA于2002年啟動高生產(chǎn)率計算系統(tǒng)〔HighProductivityComputingSystems)HPCS方案希望確定未來10年甚至20年的高性能計算機體系結(jié)構(gòu)高生產(chǎn)率而非峰值計算能力作為評價指標高性能計算的一個新的創(chuàng)新時代的開始摘自DARPA-Grayhill.pdfHPCS方案三個階段摘自DARPA-Grayhill.pdfHPCS的設(shè)計策略摘自DARPA-Grayhill.pdfHPCS當前的狀態(tài)目前正在進行第2階段為期36個月的研發(fā)階段參加的企業(yè)有Cray\IBM\Sun三家每個企業(yè)的關(guān)鍵技術(shù)路線:Cray:Cascade方案〔定制處理器、PIM〔ProcessorInMemory)IBM:PERCS方案(Productive、Easy-to-use、ReliableComputingSystem)Sun:HERO工程(獨特的芯片間互連、異步信號處理、光互連技術(shù)〕在處理器、存儲器、互聯(lián)網(wǎng)絡(luò)上采取很多顛覆性的創(chuàng)新如普遍采用CMP〔片上多處理器〕PIM〔ProcessorInMemory)sea-of-memory光互連千億次超級計算機研究-其他工程IBMBlueGeneBG/P系統(tǒng),百萬個低功耗集成芯片到達PetaFlops,預計到2006年BG/Q系統(tǒng),3Pflops峰值/1Pflops持續(xù)性能,預計到2007年底StanfordMerrimac方案采用專門的流式〔streaming〕處理器每個節(jié)點集成128個1Ghz的浮點處理單元8192個節(jié)點到達2PetaFlops日本文部省MEXT方案投入1000億日元NEC、日立、東京大學、九州大學、物化所10Pflops,2011年日本的ProteinExplorer針對應用算法專門定制目前已有專門用于分子動力學模擬的MDM,峰值超過ES后續(xù)的分析蛋白質(zhì)分子作用的ProteinExplorer可能成為第一個Pflops機器未來結(jié)構(gòu)展望千萬億次系統(tǒng)的主流結(jié)構(gòu)仍然是MPP技術(shù)可重構(gòu)計算結(jié)構(gòu):系統(tǒng)的主要邏輯通過重構(gòu)機制控制,在一定范圍內(nèi)調(diào)整變化,以提高不同應用程序核心算法的運行效率可在芯片內(nèi)、芯片間、部件間甚至在子系統(tǒng)之間表達在互聯(lián)結(jié)構(gòu)、存儲結(jié)構(gòu)、IO結(jié)構(gòu)典型系統(tǒng):SRC-6E、IBMPERCS流式結(jié)構(gòu):StanfordMerrimac方案專用器件結(jié)構(gòu):特殊應用核心算法優(yōu)化的硬連線計算結(jié)構(gòu),利用超高速硬件技術(shù)提供更高的邏輯密度典型系統(tǒng):日本的MDGRAPE混合異構(gòu)結(jié)構(gòu)利用現(xiàn)有的高性能計算機資源作為節(jié)點互連構(gòu)成的集成計算機系統(tǒng)節(jié)點可以是快速標量部件、向量部件、FPGA、可視化引擎典型系統(tǒng):克雷的Rainier、SGI的多范例計算假設(shè)干新技術(shù)光技術(shù)光互連:光纖互連、光波導、自由空間光互連全息存儲:信息以光柵的形式存儲于晶體中,高帶寬,高密度量子計算機由利用量子效應作為工作根底的量子器件組成利用量子相干疊加原理,使得基于量子位的量子計算具有強大的并行性問題:量子邏輯的一致性,環(huán)境隔離等分子計算機用大量〔分子數(shù)1020〕分子參與計算,以空間換時間來提高計算能力高度并行,功耗小問題:操作慢,操作不可靠,DNA分子容易水解等中國高性能計算的機遇與挑戰(zhàn)現(xiàn)狀:中國已具備自行研制高性能計算機系統(tǒng)的能力系統(tǒng)國產(chǎn)化程度不高處理器、高速網(wǎng)絡(luò)等關(guān)鍵部件還主要靠進口高性能計算軟件是最大瓶頸應用軟件的開發(fā)的投入力度不夠,制約了高性能計算的普及機遇:高性能計算機系統(tǒng)開始了新一輪探索,需要創(chuàng)新思想廉價的機群系統(tǒng)帶來了高性能計算機普及和“平民化”對提高生產(chǎn)率,更有效解決實際應用提出了更高要求集成電路生產(chǎn)基地向中國轉(zhuǎn)移和國產(chǎn)通用CPU技術(shù)的突破挑戰(zhàn):集中力量研制包括國產(chǎn)CPU、系統(tǒng)互連網(wǎng)絡(luò)在內(nèi)的全自主產(chǎn)權(quán)的高性能計算機系統(tǒng),加大對軟件的投入ComputerArchitecture(rewiew)Understandingimportantemergingdesigntechniques,machinestructures,technologyfactors,evaluationmethodsthatwilldeterminetheformofhigh-performanceprogrammableprocessorsandcomputingsystemsinnewCentury.TechnologyProgrammingLanguagesOperatingSystemsHistoryApplicationsInterfaceDesign(ISA)Measurement&EvaluationParallelismComputerArchitecture:InstructionSetDesignOrganizationHardwareAdvancedComputerArchitectureImportantFactors:DrivingForce:Applicationswithdiverseandincreasedcomputationaldemandseveninmainstreamcomputing(multimediaetc.)Techniquesmustbedevelopedtoovercomethemajorlimitationsofcurrentcomputingsystemstomeetsuchdemands:ILPlimitations,Memorylatency,IOperformance.Increasedbranchpenalty/otherstallsindeeplypipelinedCPUs.General-purposeprocessorsasonlyhomogeneoussystemcomputingresource.EnablingTechnologyformanypossiblesolutions:IncreaseddensityofVLSIlogic(onebilliontransistorsin)Enablesahigh-levelofsystem-levelintegration.計算機體系結(jié)構(gòu)的定義(Review)Theattributesofa[computing]systemasseenbytheprogrammer,i.e.,Theconceptualstructureandfunctionalbehavior,asdistinctfromtheorganizationofthedataflowsandcontrolsthelogicdesign,andthephysicalimplementation.Amdahl,Blaaw,andBrooks,1964對計算機系統(tǒng)而言是指那些由程序員可見的系統(tǒng)屬性所指的程序員匯編語言、機器語言、編譯程序、操作系統(tǒng)程序員所看到的數(shù)據(jù)表示、尋址方式、存放器組織、指令系統(tǒng)、中斷系統(tǒng)、存儲系統(tǒng)、CPU狀態(tài)、I/O系統(tǒng)、信息保護等計算機系統(tǒng)結(jié)構(gòu)正確定義ComputerArchitectureTopicsMInterconnectionNetworkSPMPMPMP…...Topologies,Routing,Bandwidth,Latency,ReliabilityNetworkInterfacesSharedMemory,MessagePassing,DataParallelismProcessor-Memory-SwitchMultiprocessorsNetworksandInterconnectionsMicroprocessor

ComputerSystemComponentsSDRAMPC100/PC133100-133MHZ64-128bitswide2-wayinteleaved~900MBYTES/SECDoubleDateRate(DDR)SDRAMPC3200400MHZ(effective200x2)64-128bitswide4-wayinterleaved~3.2GBYTES/SEC(secondhalf2002)RAMbusDRAM(RDRAM)PC800,PC1060400-533MHZ(DDR)16-32bitswidechannel~1.6-3.2GBYTES/SEC(perchannel)CPUCachesSystemBusI/ODevices:MemoryControllersadaptersDisksDisplaysKeyboardsNetworksNICsI/OBusesMemoryControllerExamples:Alpha,AMDK7:EV6,400MHZIntelPII,PIII:GTL+133MHZIntelP4800MHZExample:PCI-X133MHZPCI,33-66MHZ32-64bitswide133-1024MBYTES/SEC1000MHZ-3GHZ(amultipleofsystembusspeed)Pipelined(7-21stages)Superscalar(max~4instructions/cycle)single-threadedDynamically-ScheduledorVLIWDynamicandstaticbranchpredictionL1L2

L3MemoryBusSupportforoneormoreCPUsFastEthernetGigabitEthernetATM,TokenRing..NorthBridgeSouthBridgeChipsetMicroprocessorComputer

SystemComponentsCPUCachesSystemBusI/ODevices:MemoryControllersadaptersDisks(RAID)DisplaysKeyboardsNetworksNICsI/OBusesMemoryControllerL1L2

L3MemoryBusConventional&Block-basedTraceCache.IntegrateMemoryController&aportionofmainmemorywithCPU:IntelligentRAMIntegratedmemoryController:AMDOpetronIBMPower5

MemoryLatencyReduction:EnhancedCPUPerformance&Capabilities:SupportforSimultaneousMultithreading(SMT):AlphaEV8.VLIW&intelligentcompilertechniques:Intel/HPEPICIA-64.MoreAdvancedBranchPredictionTechniques.ChipMultiprocessors(CMPs):TheHydraProject.IBMPower4,5Vectorprocessingcapability:VectorIntelligentRAM(VIRAM).OrMultimediaISAextension.DigitalSignalProcessing(DSP)capabilityinsystem.Re-ConfigurableComputinghardwarecapabilityinsystem.SMTCMPNorthBridgeSouthBridgeChipset處理器并行度的開發(fā)芯片級并行性特點獨立的控制流別離的內(nèi)部狀態(tài)沒有共享的功能部件分類同構(gòu)多核Core2Duo異構(gòu)多核Cell處理器網(wǎng)絡(luò)處理器EXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystemBus(667MHz,5333MB/s)芯片級并行性性能比較CPU芯片降低15%工作電壓的結(jié)果主頻降低15%功耗降低45%性能下降10%單核芯片面積=1電壓=1主頻=1功耗=1性能=1雙核芯片面積=2電壓=0.85主頻=0.85功耗=1.1性能=1.8芯片級并行性芯片面積與性能多核性能單核性能晶體管數(shù)〔面積〕性能~性能芯片級并行性一個大核與多個小核的比較cache大核小核小核小核小核cache功耗:性能:功耗:性能:136MulticoreProductsNowadaysLotsofdual-coreproductsnow:Intel:PentiumDandPentiumExtremeEdition,CoreDuo(2),Woodcrest,MontecitoIBMPowerPCAMDOpteron/Athlon64SunUltraSPARCIV.Systemswithmorethantwocoresareherewithmorecoming:IBMCell(asymmetric).Dual-corePowerPCpluseight“synergisticprocessingelements”.SunNiagaraEightcores,fourhyper-threadedthreadspercore.GeneralPurposeComputationonGraphicsProcessors(GPGPU)Intelexpectstoproduce16-oreven32-corechipswithinadecade.137ArchitectureofDual-CoreChipsAMDOpteronSeparate1MbyteL2cachesImprovementforMemoryaffinityandThreadaffinityEXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystemBus(667MHz,5333MB/s)INTELCOREDUOTwophysicalcoresinapackageEachwithitsownexecutionresourcesEachwithitsownL1cache32Kinstructionand32KdataBothcoressharetheL2cache2MB8-waysetassociative;64-bytelinesize10clockcycleslatency;WriteBackupdatepolicy139IntelMulti-corePlan140IntelMulti-corePlanIntel’stera-scalechip142CellfromIBMandSony143CellfromIBMandSonyIntel80核芯片(2007)80個處理核心1Teraflop100億次運算/瓦特主頻3.1GHz面積300mm2,各CPU內(nèi)核與內(nèi)存1對1地連接,分別擁有256MBps的內(nèi)存帶寬32MB的片上靜態(tài)RAM。單芯片整體的內(nèi)存帶寬到達了1TB/s13.75mm*22mmIBMPOWER7(2010)146NiagarafromSUN147GPUTransformCPUApplicationRasterizeShadeVideo

Memory

(Textures)Xformed,LitVertices(2D)GraphicsStateRender-to-textureAssemble

PrimitivesVertices(3D)Screenspacetriangles(2D)Fragments(pre-pixels)FinalPixels(Color,Depth)Programmablevertexprocessor!Programmablepixelprocessor!Fragment

ProcessorGPUFundamentals:TheModernGraphicsPipelineVertex

ProcessorGeometry

Processor148GPUFundamentals:TheModernGraphicsPipelineForaspecificprogramcompiledtorunonaspecificmachine“A”,thefollowingparametersareprovided:Thetotalinstructioncountoftheprogram.Theaveragenumberofcyclesperinstruction(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論