版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、InfiniBand高速網(wǎng)絡(luò)互連技術(shù)清風(fēng)明月 2012年5月內(nèi)容提要 超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu) Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)互連網(wǎng)絡(luò)的體系結(jié)構(gòu) 在在HPC中的典型互連架構(gòu)及應(yīng)用中的典型互連架構(gòu)及應(yīng)用 IB網(wǎng)絡(luò)優(yōu)化技術(shù)網(wǎng)絡(luò)優(yōu)化技術(shù) 未來展望未來展望Lecture 1Lecture 2內(nèi)容提要 超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu) Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)互連網(wǎng)絡(luò)的體系結(jié)構(gòu) 在在HPC中的典型互連架構(gòu)及應(yīng)用中的典型互連架構(gòu)及應(yīng)用 IB網(wǎng)絡(luò)優(yōu)化技術(shù)網(wǎng)絡(luò)優(yōu)化技術(shù) 未來展望未來展望國際超級計(jì)算機(jī)500強(qiáng)排名(TOP500) 是美國田納西
2、大學(xué)、伯克利NERSC實(shí)驗(yàn)室和德國曼海姆大學(xué)一些專家為評價(jià)世界超級計(jì)算機(jī)性能而搞的民間學(xué)術(shù)活動,每年2次排出世界上實(shí)際運(yùn)行速度最快的前500臺計(jì)算機(jī)。(6月、11月) 排名的依據(jù)是線性代數(shù)軟件包Linpack的實(shí)際測試數(shù)據(jù),而峰值浮點(diǎn)運(yùn)算速度作為參考值列出。Linpack基準(zhǔn)測試程序 是一個可以分解和解答線性方程和線性最小平方問題的Fortran子程序集. 于20世紀(jì)70年代到80年代初為超級計(jì)算機(jī)而設(shè)計(jì) 測試出的最高性能指標(biāo)作為衡量機(jī)器性能的標(biāo)準(zhǔn) 4TOP500分析中國TOP100總Linpack性能達(dá)到11.85 Pflops (2010年6.3PFlops),是2010年的1.88倍;跟
3、全球TOP500相比,2011年6月全球TOP500排行榜第一名被日本的K-Computer奪得,2010年11月TOP500第一名的天河1A降為世界第二,但中國的機(jī)器份額首次取得第二名,僅次于美國;國家超級計(jì)算天津中心以國防科大天河1A再次蟬聯(lián)中國TOP100第一名,Linpack性能2.57PFlops,峰值4.7PFlops;國家超級計(jì)算濟(jì)南中心以國家并行計(jì)算機(jī)工程技術(shù)研究中心全國產(chǎn)神威藍(lán)光力奪得中國TOP100第二名,Linpack性能795.9TFlops,峰值1.07PFlops,神威藍(lán)光是我國歷史上首臺全國產(chǎn)的千萬億次超級計(jì)算機(jī);國家超級計(jì)算長沙中心以國防科大天河1A-HN力奪中
4、國TOP100第三名,Linpack性能771.7TFlops,峰值1.34PFlops。全部機(jī)器的Linpack性能超過22.1Tflops是2010年9.6TFlops的2.3倍,比去年的1.41倍大幅提升。全部系統(tǒng)的峰值超過25.6TFlops,是2010年11TFlops的2.33倍,比去年的1.36倍大幅提升;排名前三的機(jī)器兩套是CPU+GPU異構(gòu)MPP;97個(2010年98個)系統(tǒng)都是機(jī)群架構(gòu),機(jī)群繼續(xù)占據(jù)主導(dǎo)地位,在前10名里4臺是CPU+GPU體系架構(gòu),在TOP100中共有13套CPU+GPU異構(gòu)機(jī)群。近3年來的TOP5超級計(jì)算機(jī)系統(tǒng)2009年年2010年年2011年年Ran
5、k1美洲虎美洲虎 Cray XT5-HENUDT TH-1AK computerRank2IBM BladeCenter美洲虎美洲虎 Cray XT5-HENUDT TH-1ARank3Cray XT5-HE曙光曙光“星云星云”美洲虎美洲虎 Cray XT5-HERank4IBM藍(lán)色基因藍(lán)色基因HP ProLiant曙光曙光“星云星云”Rank5NUDT TH-1Cray XE6HP ProLiant No1: K Computer日本理化研究所(RIKEN)高級計(jì)算科學(xué)研究院(AICS)和富士通共同研制每秒運(yùn)算速度超越1億億次大關(guān)。Linpack測試的最大計(jì)算性能達(dá)到了10.51PFlops
6、,也就是每秒鐘1.051億億次浮點(diǎn)計(jì)算,這也是人類首次跨越1億億次計(jì)算大關(guān)。采用的處理器是富士通制造的SPARC64 VIIIfx,八核心,主頻2.0GHz,二級緩存6MB,熱設(shè)計(jì)功耗58W,峰值浮點(diǎn)性能128GFlops。為了獲得更高性能,富士通還在其中加入了一系列高性能集群計(jì)算擴(kuò)展,可以有效管理其共享二級緩存,并支持SIMD、每核心256位浮點(diǎn)寄存器、高級核心間硬件同步等等。處理器數(shù)量是88128顆,核心數(shù)量為705024個,占據(jù)864個機(jī)柜。這些處理器通過名為“豆腐”(Tofu)的特殊6-D mesh/torus網(wǎng)絡(luò)連接在一起,帶寬5GB/s。同時(shí),“京”的峰值計(jì)算性能也達(dá)到了11.28
7、PFlops,執(zhí)行效率為驚人的93.2%ASCI Springschool 2012Henk Corporaal(8) K Computer: 10.51 Petaflop/s on Linpack 705024 SPARC64 cores (8 per die; 45 nm) (Fujitsu design) Tofu interconnect (6-D torus) 12.7 MegaWattK Computer的互連架構(gòu) 6D-mesh/ToursNo 2:天河-1A,國防科技大學(xué)這是超過美國橡樹嶺國家實(shí)驗(yàn)室產(chǎn)品高達(dá)40的系統(tǒng)。達(dá)到每秒萬億次的峰值性能和每秒萬億次的實(shí)測性能。 14336
8、顆英特爾六核至強(qiáng)X5670 2.93GHz CPU、7168顆Nvidia Tesla M2050 GPU,以及2048顆自主研發(fā)的八核飛騰FT-1000處理器 天河一號A將大規(guī)模并行GPU與多核CPU相結(jié)合,在性能、尺寸以及功耗等方面均取得了巨大進(jìn)步,是當(dāng)代異構(gòu)計(jì)算的典型代表。 該系統(tǒng)采用了7168顆英偉達(dá)(NVIDIA®)Tesla M2050 GPU以及14,336顆CPU。如果單純只使用CPU的話,要實(shí)現(xiàn)同等性能則需要50,000顆以上的CPU以及兩倍的占地面積。更重要的是,如果完全采用CPU打造,可實(shí)現(xiàn)2.507 Petaflops(千萬億次)性能的系統(tǒng)將消耗1200
9、萬瓦特的電力。 多虧在異構(gòu)計(jì)算環(huán)境中運(yùn)用了GPU,天河一號A僅消耗404萬瓦特的電力,節(jié)能效果高達(dá)3倍。二者之間的功耗之差足夠滿足5000多戶居民一年的電力所需。三大突破 “天河一號”除了使用了英特爾處理器,還首次在超級計(jì)算機(jī)中使用了2048個我國自主設(shè)計(jì)的處理器。這款名為“飛騰-1000”的64位CPU。它利用65納米技術(shù)設(shè)計(jì)生產(chǎn),共有8個核心。 中國首創(chuàng)了CPU和GPU融合并行的體系結(jié)構(gòu)。 制造了先進(jìn)的通信芯片,設(shè)計(jì)了先進(jìn)的互聯(lián)結(jié)構(gòu)。160Gb/s,是國際上的商用IB的兩倍。 13TH-1A互連架構(gòu) 超級胖樹結(jié)構(gòu)NO.3 Jaguar美洲虎,2.331PflopsCray XT5-HE O
10、pteron Six Core 2.6 GHz,近25萬個內(nèi)核 美洲虎的3D-TorusCRAY 超級計(jì)算機(jī)的RoadmapCray XT5: 1+ PFLeadership-class system for scienceDARPA HPCS: 20 PFLeadership-class systemFY 2009FY 2011FY 2015FY 2018Future system: 1 EF100250 PF美洲虎NO.4 曙光“星云”, 2.9843Pflops Infiniband互連No14: 神威藍(lán)光:全國產(chǎn)化的超級計(jì)算機(jī)問世 該機(jī)器獲得科技部863計(jì)劃支持,由國家并行計(jì)算機(jī)工程技
11、術(shù)研究中心制造,于2011年9月安裝于國家超算濟(jì)南中心,全部采用自主設(shè)計(jì)生產(chǎn)的CPU(ShenWei processor SW1600),系統(tǒng)共8704個CPU,峰值1.07016PFlops,持續(xù)性能795.9TFlops, Linpack效率74.37%,總功耗1074KW。 國家超級計(jì)算濟(jì)南中心是科技部批準(zhǔn)成立的全國3個千萬億次超級計(jì)算中心之一,由山東省科學(xué)院計(jì)算中心負(fù)責(zé)建設(shè)、管理和運(yùn)營。 是國內(nèi)首臺全部采用國產(chǎn)中央處理器(CPU)和系統(tǒng)軟件構(gòu)建的千萬億次計(jì)算機(jī)系統(tǒng),標(biāo)志著我國成為繼美國、日本之后第三個能夠采用自主CPU構(gòu)建千萬億次計(jì)算機(jī)的國家。 神威藍(lán)光擁有四大特點(diǎn): 全部采用國產(chǎn)的C
12、PU Linpack效率高達(dá)74.4%,而一般的千萬億次機(jī)都在50%左右 采用液冷技術(shù),節(jié)能 高密度,在一個機(jī)倉(機(jī)柜)里可以裝入1024顆CPU,千萬億次規(guī)模僅需要9個這樣的機(jī)倉。 計(jì)算機(jī)節(jié)點(diǎn),在1U高的機(jī)箱中可以放入4個CPU板,每個板上可以裝兩顆16核的CPU。 這就是神威藍(lán)光的“心臟”:申威1600實(shí)物照 在計(jì)算節(jié)點(diǎn)中采用液冷(據(jù)說是使用500元1噸的純凈水)設(shè)計(jì)也是神威藍(lán)光的一大技術(shù)特色,中間是鋁制液冷散熱板。 國內(nèi)三大系統(tǒng)比較Total cores:0Total flop/s:0Opteron socketRoadrunner(走鵑)Part 1: Opteron BladesOp
13、teroncoreTotal cores:1Total flop/s:3,600,000,000OpteroncoreTotal cores:2Total flop/s:7,200,000,0001.8 GHz3.6 Gflop/s64+64 KB L1 cache2 MB L2 cacheTotal cores:2Total flop/s:7,200,000,000Total cores:4Total flop/s:14,400,000,000LS21 BladeRoadrunner(走鵑)Part 1: Opteron BladesOpteron socketOpteroncoreOpte
14、roncoreOpteron socketOpteroncoreOpteroncore8 GBDDR2 memory10.7 GB/s8 GBDDR2 memory10.7 GB/sHyperTransport6.4+6.4 GB/sTotal cores:2Total flop/s:7,200,000,000Total cores:4Total flop/s:14,400,000,000Roadrunner(走鵑)Part 1: Opteron BladesRoadrunner ArchitecturePart 2: Cell BladesQS22 BladeFlexIO,25 GB/s25
15、.6 GB/s4 GB DDR2 memory25.6 GB/sPowerXCell 8i socketEIB, 204.8 GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcorePowerXCell 8i socketEIB, 204.8 GB/sSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcoreSPEcorePPEcore4 GB DDR2 memoryRoadrunner ArchitecturePart 2: Cell BladesRoadrunner Arc
16、hitecturePart 3: Nodes(Triblade= 1*Opteron +2*cell)InfiniBand 2:1 fat treeHT2100HT2100InfiniBand 4X DDRHT x166.4 GB/sPCIe x82 GB/sIB2 GB/sRoadrunner ArchitecturePart 4: Scaling OutBladeCenterBladeCenterBladeCenterBladeCenterCompute Unit (CU)Roadrunner ArchitecturePart 4: Scaling OutTotal cores:480To
17、tal flop/s:5,395,200,000,000Total cores:7,200Total flop/s:80,928,000,000,000Roadrunner ArchitecturePart 4: Scaling OutTotal cores:7,200Total flop/s:80,928,000,000,000RoadrunnerTotal cores:122,400Total flop/s:1,375,776,000,000,000Roadrunner ArchitectureIBM計(jì)劃計(jì)劃10萬萬億次萬萬億次HPC 12倍于世界倍于世界最快!最快! 今年預(yù)計(jì)BlueGe
18、ne/Q “Sequoia”其峰值性能可達(dá)到20petaflops, 而其升級版將是首個超過10萬萬億次浮點(diǎn)計(jì)算的超級計(jì)算機(jī),達(dá)到107petaflops,是目前世界最快K Computer的12倍。Sequoia(紅杉)Sequoia超級計(jì)算機(jī)是IBM正在為Lawrence Livermore國家實(shí)驗(yàn)室研制的一種超級計(jì)算機(jī),而這種計(jì)算機(jī)中使用的Blue Gene/Q處理器就將采用IBM在Hot Chips大會上發(fā)表的論文中披露的這種新部件。Sequoia將在2012年完工,有望提供20petaFLOPs(peta1015)的強(qiáng)大性能。 當(dāng)Sequoia完工時(shí),這臺超級計(jì)算機(jī)可能成為世界上功能
19、最強(qiáng)大的系統(tǒng)之一。計(jì)算機(jī)技術(shù)的發(fā)展 自1946年以來,計(jì)算機(jī)近70年有了驚人的發(fā)展 性能:(加法)速度提高了5個數(shù)量級 計(jì)算機(jī)性能以大約每年35%的速度提高 價(jià)格:今天$1000的機(jī)器相當(dāng)于60年代中$106的機(jī)器,這里同性能計(jì)算機(jī)的價(jià)格比,改善了個數(shù)量級。處理器速度持續(xù)提高(廣度)從1971年第一顆微處理器Intel 4004問世以來,40年間處理器芯片集成的晶體管數(shù)目從2300個發(fā)展到今天的數(shù)十億個,處理器頻率從不到1MHz發(fā)展到今天最高接近5GHz,與英特爾4004相比,如今下一代英特爾酷睿處理器的性能是其35萬倍,每個晶體管的能耗卻降低了5千倍。同期,晶體管的價(jià)格下降了約5萬倍。 在3
20、0年間計(jì)算機(jī)系統(tǒng)的速度提高了6個數(shù)量級對計(jì)算能力的需求持續(xù)增長超級計(jì)算機(jī)的性能趨勢超級計(jì)算機(jī)的性能趨勢CAGR = 1.91st Pasadena Petaflops WorkshopGFlopsExaFlopsPetaFlopsTeraFlopsFigure courtesy of Peter Kogge超級計(jì)算機(jī)發(fā)展路線圖時(shí)間2020年2030年2050年器件CMOS納米量子器件量子、生物分子計(jì)算速度Exaflops(1018)Zettaflops(1021)Yottaflops(1024)并行度109-101011 -10121013 -1015內(nèi)存容量25PBEB(1018B)ZB(1
21、021B)功耗40MWMWMW用途核聚變模擬蛋白質(zhì)折疊等地球模擬生命科學(xué)等MEMS優(yōu)化腦科學(xué)模擬等2010202020302050TOP500中的互連網(wǎng)絡(luò)統(tǒng)計(jì) TOP500 Nov 2011,IB占42% TOP10中有5家采用IB(4/5/7/9/10) TOP20中有8家 TOP100中有55%采用IB 基于GPU混合系統(tǒng)中有92%采用IBTOP100中的IO互連架構(gòu)統(tǒng)計(jì) 在TOP100機(jī)器的IO互連中55%采用IBTop500中各種互連的趨勢圖典型商業(yè)互連網(wǎng)絡(luò)的性價(jià)比InfiniBandPCI-Express10GigEGigEMyrinet DMyrinet EData Bandwid
22、th(Large Messages)950MB/s900MB/s100MB/s245MB/s495MB/sMPI Latency(Small Messages)5us50us50us6.5us5.7usHCA Cost(Street Price)$550$2K-$5KFree$535$880Switch Port$250$2K-$6K$100-$300$400$400Cable Cost(3m Street Price)$100$100$25$175$175Top500中IB互連的趨勢圖內(nèi)容提要 超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu) Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)互連網(wǎng)
23、絡(luò)的體系結(jié)構(gòu) 在在HPC中的典型互連架構(gòu)及應(yīng)用中的典型互連架構(gòu)及應(yīng)用 IB網(wǎng)絡(luò)優(yōu)化技術(shù)網(wǎng)絡(luò)優(yōu)化技術(shù) 未來展望未來展望為什么為什么TOP500中有中有42%機(jī)器采用機(jī)器采用IB互連?互連? 高帶寬 目前主流的單鏈路傳輸能力40Gbps,10GB以太網(wǎng)不可比擬 超低延時(shí) 應(yīng)用程序之間通信延時(shí)小于1 us 高可靠性、低誤碼率、自管理的網(wǎng)絡(luò) 鏈路級流控 擁塞控制IB網(wǎng)絡(luò)組成 Host Channel Adapters (HCA) Target Channel Adapters (TCA) Switches RoutersIB網(wǎng)絡(luò)組成 多個子網(wǎng),每個子網(wǎng)是一個獨(dú)立的路由域 子網(wǎng)之間通過交換機(jī)互連,一般的
24、HPC只使用一個子網(wǎng)。IB網(wǎng)絡(luò)硬件實(shí)體IB網(wǎng)絡(luò)硬件實(shí)體Blade/RackServersStorageSwitchSWITCH基于IB網(wǎng)絡(luò)構(gòu)建的Cluster系統(tǒng)CA(端結(jié)點(diǎn)-主機(jī)適配卡) 兩種類型的CA HCA,通過IB verbs為用戶提供操作 TCA,IBA未定義TCA接口語義 CA是一個具備一定保護(hù)功能的可編程DMA引擎Virtual Lane(VL)Local ID(LID)獨(dú)立的發(fā)送和接收緩沖區(qū)內(nèi)存翻譯和保護(hù)內(nèi)存翻譯和保護(hù)子網(wǎng)管理代理子網(wǎng)管理代理GUIDIB交換機(jī)(多端口交換) 子網(wǎng)內(nèi)部路由設(shè)備 交換機(jī)端口具備LID, 具有HCA特性。 子網(wǎng)內(nèi)部的每個端口分配一個或多個唯一的LID
25、 通過報(bào)文Local Route Header標(biāo)識目標(biāo)端口LID,交換機(jī)根據(jù)該地址信息交換到目標(biāo)端口 提供單播和多播路由 支持多路徑(負(fù)載均衡,鏈路容錯)IB傳輸分層(對比TCP/IP)Physical Layer Link RateInfiniBand使用串行差分鏈路傳輸鏈路寬度 1x One differential pair per Tx/Rx 4x Four differential pairs per Tx/Rx 8x Eight differential pairs per Tx/Rx 12x - Twelve differential pairs per Tx and per R
26、x鏈路速度 Single Data Rate (SDR) - 2.5Gb/s per lane (10Gb/s for 4x) Double Data Rate (DDR) - 5Gb/s per lane (20Gb/s for 4x) Quad Data Rate (QDR) - 10Gb/s per lane (40Gb/s for 4x) Fourteen Data Rate (FDR) - 14Gb/s per lane (56Gb/s for 4x) Enhanced Data rate (EDR) - 25Gb/s per lane (100Gb/s for 4x) 目前多采用4
27、X鏈路Physical Layer link width Lane的概念,1x即1 lane,類似于PCIE lane1 x Link4 x Link12 x LinkIB物理鏈路速率歷程 串行高帶寬鏈路 SDR: 10Gb/s HCA links DDR: 20Gb/s HCA links QDR: 40Gb/s HCA links FDR: 56Gb/s HCA links EDR: 100Gb/s HCA linksPhysical Layer Cables & Connectors 單個物理信道上復(fù)用多個虛擬鏈路信道Link Layer Protocol Message長度最大
28、2Gbyte MTU尺寸從256byte到最大 4KbyteLink Layer Addressing 每個節(jié)點(diǎn)(HCA端節(jié)點(diǎn)和交換機(jī))必須擁有一個全局唯一的64位ID(GUID),類似于以太網(wǎng)MAC地址。 同時(shí),為了方便路由,在每個子網(wǎng)內(nèi)為節(jié)點(diǎn)分配一個本地ID (LID) - 16 bits,子網(wǎng)內(nèi)線性編號 GUIDGUIDGUIDGUIDGUIDGUIDGUIDGUIDLID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB通信協(xié)議的硬件實(shí)現(xiàn)原理Transport Layer Using Queue Pairs 發(fā)送和接收隊(duì)列是成對出現(xiàn)的。Transport L
29、ayer 隊(duì)列模型IB通信傳輸示例Link Layer Flow Control 基于信用(Credit)的鏈路級流控 反壓原理Transport Layer Services Properties 可靠與不可靠 面向連接與數(shù)據(jù)報(bào)(非面向連接)服務(wù)分類服務(wù)類型服務(wù)類型面向連接面向連接是否應(yīng)答是否應(yīng)答傳輸協(xié)議傳輸協(xié)議可靠鏈接可靠鏈接是是IBA不可靠鏈接不可靠鏈接是否IBA可靠數(shù)據(jù)報(bào)可靠數(shù)據(jù)報(bào)否是IBA不可靠數(shù)據(jù)報(bào)不可靠數(shù)據(jù)報(bào)否否IBA原始數(shù)據(jù)報(bào)原始數(shù)據(jù)報(bào)否否RAW如何管理子網(wǎng)? IB網(wǎng)絡(luò)維持一個子網(wǎng)管理器Subnet Manager (SM) 是一個獨(dú)立軟件 通過與每個節(jié)點(diǎn)上的子網(wǎng)管理代理通信的
30、方式來管理子網(wǎng)子網(wǎng)管理和路由 每個子網(wǎng)必須有一個子網(wǎng)管理器 子網(wǎng)管理器的作用: 管理IB網(wǎng)絡(luò)中的所有節(jié)點(diǎn),包括端節(jié)點(diǎn)HCA和交換機(jī)SW 子網(wǎng)網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn) 為每個節(jié)點(diǎn)分配一個本地ID(LID),用于路由 為交換機(jī)分配轉(zhuǎn)發(fā)表,用于網(wǎng)絡(luò)路由 監(jiān)控子網(wǎng)狀態(tài),當(dāng)網(wǎng)絡(luò)發(fā)生改變時(shí)負(fù)責(zé)重新分配路由表。 維護(hù)網(wǎng)絡(luò)正常運(yùn)轉(zhuǎn)子網(wǎng)管理器SM SM是IB網(wǎng)絡(luò)中一個重要元素 負(fù)責(zé)配置和管理交換機(jī)、路由器、HCA。 SM可以被實(shí)現(xiàn)在HCA或者交換機(jī)等設(shè)備上。 一個子網(wǎng)內(nèi)可以有多個SM,其中一個SM為主,其余為備份 SM功能 進(jìn)行子網(wǎng)拓?fù)浒l(fā)現(xiàn) 產(chǎn)生子網(wǎng)前綴,為端口分配LID 配置每個交換的LID,配置轉(zhuǎn)發(fā)表 提供節(jié)點(diǎn)和服務(wù)的
31、數(shù)據(jù)庫服務(wù)子網(wǎng)管理基礎(chǔ)子網(wǎng)管理器(1) 相對于以太網(wǎng)的分布式管理,在Infiniband網(wǎng)絡(luò)中, SM通過SMA對子網(wǎng)進(jìn)行集中管理。 這種方式結(jié)構(gòu)簡單易于管理。 為了防止單點(diǎn)失效問題,在Infiniband中可存在多個SM,一個主SM,多個備份SM。備份SM檢測到主SM死亡時(shí),會選擇一個備份SM成為主SM,接管子網(wǎng)管理權(quán)。子網(wǎng)管理基礎(chǔ)子網(wǎng)管理器(2) 主SM是IB子網(wǎng)初始化和配置的關(guān)鍵因素。主SM的選擇也是初始化過程的一部分。主SM的主要作用是: 發(fā)現(xiàn)子網(wǎng)的物理拓?fù)浣Y(jié)構(gòu)。 為每個端節(jié)點(diǎn),交換機(jī)和路由器分配本地標(biāo)識符LID。 確定各端節(jié)點(diǎn)之間的合理路徑。 掃描子網(wǎng),發(fā)現(xiàn)拓?fù)涓淖兲幚砉?jié)點(diǎn)加入和節(jié)點(diǎn)
32、刪除。子網(wǎng)管理基礎(chǔ)子網(wǎng)管理器(3) 子網(wǎng)探測主要是指在Infiniband子網(wǎng)初始化時(shí),SM通過SMA獲得子網(wǎng)內(nèi)各節(jié)點(diǎn)信息。主要的信息就是各個節(jié)點(diǎn)的GUID,節(jié)點(diǎn)類型,端口信息以及各節(jié)點(diǎn)之間的連接關(guān)系。 在子網(wǎng)初始化完畢后,SM還會定時(shí)的檢查網(wǎng)絡(luò)拓?fù)涫欠癜l(fā)生變化(某個交換機(jī)端口的狀態(tài)發(fā)生改變)。 交換機(jī)檢測到自己的某個端口狀態(tài)發(fā)生改變,可以通過Trap機(jī)制主動向SM報(bào)告拓?fù)涓淖?。子網(wǎng)探測 子網(wǎng)發(fā)現(xiàn)的過程:子網(wǎng)啟動時(shí),SM發(fā)送包含Get方法的直接路由SMP,SMA收到后會響應(yīng)一個SMP,從而找到一個新的節(jié)點(diǎn),然后SM通過這個新節(jié)點(diǎn)向外輻射只到找到所有的設(shè)備。子網(wǎng)探測子網(wǎng)發(fā)現(xiàn) 對于一個已經(jīng)初始化的
33、子網(wǎng),如果SM發(fā)現(xiàn)某一個交換機(jī)的一個端口的狀態(tài)從DOWN變?yōu)閁P,則說明有設(shè)備加入到子網(wǎng)中。子網(wǎng)探測增加設(shè)備 對于一個已經(jīng)初始化的子網(wǎng),如果SM發(fā)現(xiàn)某一個交換機(jī)的一個端口的狀態(tài)從UP 變?yōu)镈OWN ,則說明有設(shè)備從子網(wǎng)中移除。子網(wǎng)探測刪除設(shè)備 在規(guī)范中,并沒有規(guī)定LID的分配規(guī)則,只要滿足上述的性質(zhì)即可。具體實(shí)現(xiàn)時(shí),LID的分配與特定的路由算法有關(guān)。 最簡單的分配方式是按照設(shè)備的發(fā)現(xiàn)順序,從1開始連續(xù)分配。LID分配 路由計(jì)算主要是指SM在得到子網(wǎng)拓?fù)湟院?,確定每兩個節(jié)點(diǎn)之間的路徑的過程。SM將這個計(jì)算結(jié)果以轉(zhuǎn)發(fā)表的形式發(fā)布給交換機(jī),使數(shù)據(jù)包沿著計(jì)算好的路徑傳遞。 轉(zhuǎn)發(fā)表是一個LID,PORT
34、組成的表,交換機(jī)接收到一個LID路由的數(shù)據(jù)包時(shí),通過查找目的LID對應(yīng)的表項(xiàng),從而確定應(yīng)該從那個端口轉(zhuǎn)發(fā)這個數(shù)據(jù)包。路由計(jì)算網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過程 由子網(wǎng)管理器(SM)發(fā)起 從SM軟件駐留的節(jié)點(diǎn)開始,按照寬度優(yōu)先(BFS)、或深度優(yōu)先(DFS)方法逐個發(fā)現(xiàn),將發(fā)現(xiàn)好的節(jié)點(diǎn)加入拓?fù)滏湵碇?在進(jìn)行子網(wǎng)發(fā)現(xiàn)的過程中,為每個已發(fā)現(xiàn)的節(jié)點(diǎn)分配一個本地ID(LID),為后繼的路由做準(zhǔn)備網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)過程LID=1LID=2LID=3LID=4LID=5LID=6LID=7LID=8IB網(wǎng)絡(luò)路由過程 交換機(jī)內(nèi)部轉(zhuǎn)發(fā)機(jī)制 LFT:Lineral Forward Table (線性轉(zhuǎn)發(fā)表) 首先,根據(jù)報(bào)文頭的SL查找S
35、L-to-VL-Table(服務(wù)等級映射表),獲得該報(bào)文的轉(zhuǎn)發(fā)的VL通道。 而后,根據(jù)目的DLID查找LFT線性轉(zhuǎn)發(fā)表,獲取下一跳的端口號。LFT(DLID to Port)IB網(wǎng)絡(luò)路由過程尋徑過程SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表LID=1SW1查表查表查表查表SM路由節(jié)點(diǎn)的添加和刪除 子網(wǎng)管理器SM發(fā)現(xiàn)拓?fù)渥兓?主動發(fā)現(xiàn),通過子網(wǎng)掃描 被動發(fā)現(xiàn),節(jié)點(diǎn)的代理軟件主動上報(bào)自己的故障端口 當(dāng)拓?fù)浒l(fā)生改變時(shí),更新路由表
36、IB網(wǎng)絡(luò)路由更新過程(1)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536412341234目的LID輸出端口12225364SW1線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA鏈路故障報(bào)告鏈路故障報(bào)告IB網(wǎng)絡(luò)路由更新過程(2)SW2cn0cn1cn2cn3LID=2LID=3LID=4LID=5LID=6目的LID輸出端口1122536312341234目的LID輸出端口11215364SW1線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表SW2線性轉(zhuǎn)發(fā)表線性轉(zhuǎn)發(fā)表LID=1SW1SMASMSMA更新轉(zhuǎn)發(fā)表更新轉(zhuǎn)發(fā)表IB分層
37、協(xié)議棧 由OpenFabric組織制定IB規(guī)范RDMA NICR-NICHost Channel AdapterHCAUser Direct Access Programming LibUDAPLReliable Datagram ServiceRDSiSCSI RDMA Protocol (Initiator)iSERSCSI RDMA Protocol (Initiator)SRPSockets Direct ProtocolSDPIP over InfiniBandIPoIBPerformance Manager AgentPMASubnet Manager AgentSMAManage
38、ment DatagramMADSubnet AdministratorSACommonInfiniBandiWARPKeyHardwareSpecific DriverHardware SpecificDriverConnectionManagerMADInfiniBand Verbs / APISA ClientConnectionManagerConnection ManagerAbstraction (CMA)User Level Verbs / APISDPIPoIBSRPiSERRDSUDAPLSDP LibraryUser Level MAD APIOpen SMDiagTool
39、sHardwareProviderMid-LayerUpper Layer ProtocolUser APIsKernel SpaceUser Space NFS-RDMARPCClusterFile SysApplication Level SMAR-NIC Driver APIClusteredDB Access(Oracle10g RAC)SocketsBasedAccess(IBM DB2)VariousMPIsAccess to FileSystemsBlockStorageAccessIP BasedAppAccessApps & AccessMethodsfor usin
40、gOF StackIB分層協(xié)議棧SRPMiniportStorPortSDP*SDPSPI*ApplicationsUserKernelWindowsApplicationsOF WindowsHardware* Windows Compute Cluster Server 2003* Will be available in the futureWSD SAN ProviderManagementToolsHCA HardwareAccess LayerVerbs Provider DriverVerbs Provider LibraryAccess Layer LibraryKernel
41、BypassWinsock Socket SwitchWinSockProviderMPI2*IPoIBNDISTCP/UDP/ICMPIPVNIC*Sockets Direct Protocol (SDP) &Reliable Datagram Sockets (RDS)Host Channel AdapterOpenIB Access LayerIPoIBIPOracle 10gSocketApplicationsTCPUDPSDPRDSKernelUser UDP ApplicationsIPoIBIPoIB Packet FormatIPoIB子網(wǎng)視圖 每個端結(jié)點(diǎn)HCA的每個I
42、B端口都分配一個獨(dú)立的IP地址,支持IP v4/v6地址格式 結(jié)點(diǎn)間通信,可使用IP地址標(biāo)識 Node DIPd IPs Node A AIPa IPpIPr IPcNode CIPq IPbNode BIB switched networkIPoIB UD broadcast domainIPoIB Connected networkFCoIB IB網(wǎng)到FC網(wǎng)之間采用透明網(wǎng)橋GatewayHostFibre ChannelHostHostInfiniBandFC over IB Gateway ModelNPIV N_PortsFC Begins HereHandling initiator
43、s loginsActs as an NPIV N_Port Reflects F_LOGI as F_DISCVirtualizedServerNPIV HBAHostHostHostFCoIB to FCGateway“PCIe extension”FCoIB Gateway Stateless Packet Relay IB to FC Strip IB headers Payload contains entire FC frameFC to IB D_ID lookup to retrieve addressing LID, QPN, etc. Encapsulate FC fram
44、e as UD payloadIB CRCIB HeadersFC FrameFC FrameIB CRCIB HeadersFC FrameFC Frame內(nèi)容提要 超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu) Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)互連網(wǎng)絡(luò)的體系結(jié)構(gòu) 在在HPC中的典型互連架構(gòu)及應(yīng)用中的典型互連架構(gòu)及應(yīng)用 IB網(wǎng)絡(luò)優(yōu)化技術(shù)網(wǎng)絡(luò)優(yōu)化技術(shù) 未來展望未來展望典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)(1)9 x Fabric Boards(single and double dense)2 x Fan Units6 x Power Supplies2 x Management Boards
45、18 x Line Boards19U典型的IB交換機(jī)實(shí)現(xiàn)結(jié)構(gòu)(2) 兩級胖樹結(jié)構(gòu) 或者“折疊的clos網(wǎng)絡(luò)”L2L118IB網(wǎng)絡(luò)拓?fù)?Topologies that are mainly in use for large clusters Fat-Tree 3D Torus MashIB網(wǎng)絡(luò)拓?fù)?3D Torus An oversubscribed network, easier to scale Fit more applications with localityIB網(wǎng)絡(luò)拓?fù)?Fat-tree (also known as CBB) Flat network, can be set as
46、 oversubscribed network or not In other words, blocking or non blocking Typically the lowest latency network 胖樹結(jié)構(gòu)是互連已知硬件數(shù)量的一種通用方法。 胖樹相對傳統(tǒng)樹,越靠近根部帶寬越大。如果要使網(wǎng)絡(luò)是非阻塞的,每層的總帶寬都要相同。胖樹結(jié)構(gòu)常用的IB網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) 利用多個“IB交換機(jī)”構(gòu)造大規(guī)模IB網(wǎng)絡(luò) 每個IB交換機(jī)內(nèi)部是胖樹結(jié)構(gòu)64 Node Cluster using blades and Shark-GTs972 Node Full CBB using Shark/Orca
47、(max 11,664)CoreFabric8x SFS TS740288 ports eachEdge256x TS12024-ports each18 Compute Nodes)18 Compute Nodes)8192 Processor 60TFlop SuperCluster2048 uplinks(7m/10m/15m/20m)Real Deployments Today: Wall Street Bank with 512 Node GridSANLAN2 96-portTS-27023 24-port TS-120512 Server Nodes2 TS-360 w/ Eth
48、ernet and Fibre Channel GatewaysCore FabricEdge FabricGRID I/OExisting NetworksFibre Channel and GigE connectivity built seamlessly into the cluster520 Dual CPU Nodes1,040 CPUsNCSANational Center for Supercomputing ApplicationsTungsten 2: 520 Node SupercomputerCore FabricEdge Fabric6 72-portTS27029
49、24-port TS120174 uplinkcables512 1mcables18 Compute Nodes18 Compute Nodes Parallel MPI codes for commercial clients Point to point 5.2us MPI latencyDeployed: November 20041,066 Node Super ComputerFault Tolerant Core FabricEdge Fabric12 96-portTS-27089 24-port TS-1201,068 5m/7m/10m/15muplink cables1,
50、066 1mcables12 Compute Nodes12 Compute Nodes1,066 Fully Non-Blocking Fault Tolerant IB Cluster1Direct-attach storage Servers with unused storage, uncontrolled growth Storage dedicated to one server Decentralized backup2Fibre Channel SANs Eliminates islands of storage Increases utilization and availa
51、bility Highest performance levels6Fibre Channel over Ethernet Converges LAN and SAN traffic on single link Lowers operational costs (cabling and Converged Network Adapters) Scalability for virtual environments 4iSCSI/NAS Consolidates small or isolated servers Offers low-cost server attachment NAS is
52、 ideal for files and unstructured data FCIP/iFCP Connects geographically dispersed SANs Low cost and easy to deploy for disaster recovery solutions 35Infiniband Low latency, high bandwidth Ideal for high-performance computing (HPC)當(dāng)前的網(wǎng)絡(luò)存儲技術(shù)NewNetworkedstorageFibre ChannelSAN2MainframeServersVMware1R
53、ack-mounted servers with CNAs6Fibre Channelover Ethernet4iSCSI/NASRemote/isolatedservers3FCIP/iFCPDisaster recovery site5InfinibandServer Network HPC典型IO互聯(lián)架構(gòu)SANServer FabricLAN/WANServer ClusterFibre Channel to InfiniBand gateway for storage accessEthernet to InfiniBand gateway for LAN accessSingle
54、InfiniBand link for: - Storage - NetworkSAN/NAS存儲結(jié)構(gòu)ManagementConsoleSANNASNASNAStape數(shù)據(jù)中心的IO加速內(nèi)容提要 超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu)超級計(jì)算機(jī)系統(tǒng)及其互連結(jié)構(gòu) Infiniband互連網(wǎng)絡(luò)的體系結(jié)構(gòu)互連網(wǎng)絡(luò)的體系結(jié)構(gòu) 在在HPC中的典型互連架構(gòu)及應(yīng)用中的典型互連架構(gòu)及應(yīng)用 IB網(wǎng)絡(luò)優(yōu)化技術(shù)網(wǎng)絡(luò)優(yōu)化技術(shù) 未來展望未來展望有效的IB通信優(yōu)化方法GPUDirectCORE-DirectOffloadingCongestion ControlAdaptive RoutingManagementMessaging
55、AccelerationsAdvanced Auto-negotiationMPIIB網(wǎng)絡(luò)中典型的MPI通信性能IB網(wǎng)絡(luò)路由和擁塞控制網(wǎng)絡(luò)路由和擁塞控制 通過子網(wǎng)管理器SM(軟件)集中管理 每個節(jié)點(diǎn)(host和switch)駐留管理代理SMA,與SM交換信息,實(shí)現(xiàn)路由和擁塞控制功能路由算法 尋徑過程,為兩個機(jī)器之間選擇一條通信路徑。 目標(biāo): 最小代價(jià) (最小跳步數(shù)) 無死鎖、活鎖 平衡網(wǎng)絡(luò)流量負(fù)載 避免擁塞,避免通信“熱點(diǎn)”競爭網(wǎng)絡(luò)拓?fù)?規(guī)則網(wǎng)絡(luò) 網(wǎng)絡(luò)具有規(guī)則的拓?fù)鋱D結(jié)構(gòu) (ring, meshes,Fat-tree,hypercube, etc) 易于優(yōu)化 不規(guī)則網(wǎng)絡(luò) 不規(guī)則的網(wǎng)絡(luò)圖形狀 拓?fù)浒l(fā)現(xiàn)比較關(guān)鍵 需要精心設(shè)計(jì)路由算法,保證無死鎖路由算法的分類:oblivious和adaptive Oblivious(確定性路由) 為每個源和目的對分配一個路由,而不考慮網(wǎng)絡(luò)流量。這種路由具有一定的吸引力attractive,因?yàn)槠渎酚煽梢允孪扔?jì)算出來,盡管計(jì)算的代價(jià)可能很高。 Adaptive(自適應(yīng)路由) 力圖根據(jù)當(dāng)前流量來調(diào)節(jié)節(jié)點(diǎn)間的路由。這種路由能夠?qū)θ志W(wǎng)絡(luò)的通信狀況迅速作出反應(yīng),并實(shí)時(shí)改變路徑以達(dá)到流量均衡的目的,通常會使用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度建筑玻璃幕墻安全檢測與維護(hù)合同3篇
- 在線電影文化研究考核試卷
- 云母制品在虛擬現(xiàn)實(shí)設(shè)備中的應(yīng)用考核試卷
- 保健食品中抗衰老成分的研究考核試卷
- 人工智能在金融領(lǐng)域的應(yīng)用與挑戰(zhàn)考核試卷
- 孤殘兒童的社區(qū)融入與鄰里關(guān)系建設(shè)考核試卷
- 滬科版 信息技術(shù) 必修 2.2 信息來源的確定 說課稿
- 二零二五年度工業(yè)地產(chǎn)廠房投資轉(zhuǎn)讓合同3篇
- 2025年牛津譯林版高一生物上冊階段測試試卷含答案
- 2025年上外版八年級科學(xué)上冊月考試卷含答案
- 非標(biāo)設(shè)計(jì)最強(qiáng)自動計(jì)算-壓入力計(jì)算
- 銀行客戶經(jīng)理個人履職總結(jié)銀行客戶經(jīng)理個人工作總結(jié)
- 人教版七年級數(shù)學(xué)下冊計(jì)算類專項(xiàng)訓(xùn)練卷【含答案】
- 化學(xué)元素周期表口訣化學(xué)元素周期表口訣
- 詩詞接龍(飛花令)PPT
- 子宮內(nèi)膜癌(課堂PPT)
- 澳大利亞公司法1-30
- 海上試油測試技術(shù)0327
- 中國地圖標(biāo)準(zhǔn)版(可編輯顏色)
- 瑪氏銷售常用術(shù)語中英對照
- 上海牛津版三年級英語3B期末試卷及答案(共5頁)
評論
0/150
提交評論