2-6-Intel-OPA介紹與使用課件_第1頁
2-6-Intel-OPA介紹與使用課件_第2頁
2-6-Intel-OPA介紹與使用課件_第3頁
2-6-Intel-OPA介紹與使用課件_第4頁
2-6-Intel-OPA介紹與使用課件_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

IntelOPA介紹與使用服務與實施部人工智能與高性能產(chǎn)品服務交付處認識OPA網(wǎng)絡1432IntelOPA產(chǎn)品介紹OPA網(wǎng)絡環(huán)境部署OPA網(wǎng)絡環(huán)境檢查5OPA網(wǎng)絡性能測試及優(yōu)化認識OPA網(wǎng)絡1集群常見高速網(wǎng)絡123InfiniBandOmni-PathArchitectureRDMAoverConvergedEthernet點對點雙向串行鏈路,低延遲,解放CPU資源,以應用程序為中心,子網(wǎng)管理服務(opensm)。英特爾收購了QLogic的InfiniBand產(chǎn)品線和Cray互聯(lián)部門,結合兩種網(wǎng)絡架構的優(yōu)點,開發(fā)出全新的Omni-Path網(wǎng)絡架構,其已經(jīng)脫離IBTA制定的InfiniBand標準,所以在軟硬件上與InfiniBand設備互不兼容。RoCE,一種允許通過以太網(wǎng)使用RDMA的網(wǎng)絡協(xié)議,不需要子網(wǎng)管理(SubnetManager)服務,不支持IB協(xié)議下的高可用服務。服務與實施部1認識OPA網(wǎng)絡1認識OPA網(wǎng)絡已有高速網(wǎng)絡技術10GE以太網(wǎng)絡隨著10Base-T標準的10Gb以太網(wǎng)線的出現(xiàn),結合了TOE等TCP卸載技術的萬兆以太網(wǎng)已逐漸在一些數(shù)據(jù)中心,金融機構得到了應用。但與InfiniBand比較,至少具有以下不足:價格昂貴功耗大帶寬和延遲不具有優(yōu)勢而其具有的優(yōu)勢有:繼承了以太網(wǎng)的巨大資源節(jié)約管理成本發(fā)展迅速服務與實施部1認識OPA網(wǎng)絡已有高速網(wǎng)絡技術Infiniband網(wǎng)絡為了構建低延遲、高帶寬的網(wǎng)絡互聯(lián),1999年8月Compaq,Dell,HP,IBM,Intel,Microsoft和Sun七個行業(yè)巨頭成立了InfiniBand協(xié)會(IBTA)。OpenFabrics:開發(fā)IBTA組織制定的標準,軟件上的實現(xiàn)。OFED中集成了HCA驅動、MPI、benchmark程序等。服務與實施部1認識OPA網(wǎng)絡Omni-PathArchitecture服務與實施部1認識OPA網(wǎng)絡Omni-PathArchitecture服務與實施部1認識OPA網(wǎng)絡OPA鏈路層的創(chuàng)新架構應用程序產(chǎn)生消息包消息包被拆分成包裹最大MTU大小直到分拆的包裹傳送完成,整個消息包傳送完成。InfiniBand每個包裹分裝在65-bit的容器——FlowControlDigitsor"Flits"1Flit=65bits將16Flits(帶CRC)封裝成LinkTransferPackets(LTPs)直到Flits傳送完成,整個消息包傳送完成。Omni-PathFabric16Flits=LTP服務與實施部1認識OPA網(wǎng)絡1.5鏈路層確保網(wǎng)絡的可靠性細粒度控制描述優(yōu)勢通訊流控的優(yōu)化OPA更優(yōu)化的服務質量(QoS),除了基于VL&SL消息包發(fā)送機制,OPA采用固定長度的Flits和LTP封裝數(shù)據(jù)包,提供更細顆粒度的消息包傳遞控制;數(shù)據(jù)包傳遞的優(yōu)先級控制,高優(yōu)先級包優(yōu)先傳遞,低優(yōu)先級包等待。確保高優(yōu)先級的消息包(如MPI包)優(yōu)先快速傳遞->更快完成作業(yè);穩(wěn)定的延遲性能->減少MPI和大塊存儲數(shù)據(jù)混合環(huán)境下,多次運行任務,延遲性能不一致的問題。消息包完整性保護OPA不增加額外延遲的情況下,快速的透明的修復傳輸錯誤的鏈接;只需重傳更小的攜帶error的LTPs(僅1056bits),而不是整個數(shù)據(jù)包(IBFEC);重傳只發(fā)生在主機到交換機或交換機間,而無需整個鏈路的重傳,極大減少延遲懲罰。更效的鏈路層錯誤修復,對比IB標準定義的ForwardErrorCorrection(FEC);無需CPU負擔,除非錯誤修復發(fā)生在主機到交換機。動態(tài)鏈路擴展OPA在4x鏈路上,有1x或多x的link失效后,保存重啟或返回前一個checkpoint,繼續(xù)保持link可用性;應用任務繼續(xù)運行,直到修復。對比當前Infiniband,通常是斷掉整個4xlinks。確保workload繼續(xù)完成,減少任務運行失敗概率。1認識OPA網(wǎng)絡OPA交換機路由特性描述優(yōu)勢靜態(tài)路由傳統(tǒng)的Infinband路由方式最短路徑分散路由允許源/目的多路徑對通訊負載均衡支持亂序包可用于IntelPSMMPIsSHMEM自適應式路由基于分散路由支持的交換機自動切換失效路徑/擁塞服務與實施部1認識OPA網(wǎng)絡OPA軟件實現(xiàn)Strategy:Leverage

OpenFabrics/LinuxOFA-compliant:Off-the-shelfcompatibilityProvidesanextensivesetofmatureupperlayerprotocolsIntel-OpenSourceKeyElements:OFAscalabilityenablingtechnologyIntelOmni-PathManager&GUIFastFabricToolsChannels:CoreOFAsupportthroughstandardOSdistributionsIntelOFED+valueadddistributionatopOFEDcoreAccesstolow-levelHFIAPIsvianativehardwarespecificlibrariesSwitchSoftware:EmbeddedfabricmanagementforsmallerclustersandcostoptimizationFullswitchchassismanagementSWthatiscustomizableforOEMdifferentiation服務與實施部1認識OPA網(wǎng)絡ASIC級別的性能及特征提升TrueScaleHCA(1port)Intel?OPAHFI(1port)ImprovementFactorPCIeInterfaceGen2x8=4GB/sGen3x16=16GB/s4xFabricinterfaceQDR=4GB/s100Gbps=12.5GB/s3.125xAchievableuniBW3.3GB/s(PCIelimited)12-12.5GB/s3.6x-3.8xAchievablebiBW6.4GB/s(PCIelimited)24-25GB/s3.7x-3.9xMaximumunimessagerate36Million/sec160Million/sec4.4xMaximumbimessagerate72Million/sec320Million/sec4.4xTXpin-to-pinlatency220ns160ns30%reductionDecreasesend-to-endlatencyby130nsRXpin-to-pinlatency220ns150nsContexts16(user)+1(kernel)160(configurable)8.9xSDMAEngines11616xMTUSize2KB(deployed)8KB(HPC),10KB(jumbo)4x-5xSendbuffers272KB(PIO),132KB(SDMA)1MB(PIO),392KB(SDMA)3.8x(PIO),3x(SDMA)Receivearrayentries18K(eager)+9K(expected)64K(configurable,moreefficientrxmappings)2.4xLink-levelRXBuffer32KB148KB4.6x服務與實施部1認識OPA網(wǎng)絡性能增強:Verbs改進優(yōu)勢更大的最大傳輸單元MTU支持(8Kand10K)特別對文件系統(tǒng)通訊,大消息包傳遞有好處今減少操作的數(shù)據(jù)包個數(shù),減少傳遞數(shù)據(jù)包時CPU利用率,最大化帶寬的利用。16SDMA引擎拉式機制,特別適用于大數(shù)據(jù)包。每個引擎將數(shù)據(jù)從主機端拉出,并發(fā)送出去。越多引擎,并行verb的交換路徑更多,性能更好。160發(fā)送contexts+160接收contexts推出機制,特別有利于小包優(yōu)化其延遲和消息包轉發(fā)頻率。使用CPU發(fā)送數(shù)據(jù)包到鏈路上,更多contexts去映射更大CPU核數(shù)。更靈活的接收端擴展更高效的在多CPU核上分發(fā)接收到的數(shù)據(jù)包,加速消息包的處理。網(wǎng)卡自動的數(shù)據(jù)包包頭產(chǎn)生在網(wǎng)卡上實現(xiàn)基于數(shù)據(jù)包順序產(chǎn)生包頭,減少CPU利用率。PIO發(fā)送的使用驅動增強了通過切換PI0和SDMA傳輸數(shù)據(jù)方式,優(yōu)化不同特征類型消息包的性能。代碼路徑優(yōu)化大規(guī)模CPU核數(shù),減少跨CPU核沖突。中斷聚集增加CPU效率,累積一定數(shù)量的中斷再產(chǎn)生CPU中斷。服務與實施部1認識OPA網(wǎng)絡Omni-PathvsInfiniBandEDR相同的鏈路帶寬:單向100Gb相近的主機網(wǎng)卡延遲所有網(wǎng)卡都是基于PCIegen3更低的芯片延遲:110nsvs90ns(Edge);330nsvs500ns(Director)更大端口數(shù)的單顆交換機芯片:48ports

vs36

ports更好的鏈路層革新技術Flits和LTPs方式,更加細粒度地控制提高通信鏈路的可靠性,優(yōu)化消息包傳遞業(yè)界證明的高擴展性軟件堆錢:OFEDbased;Intel-PSM;FabricTools最高的消息包轉發(fā)頻率;強大的快速安裝,驗證和管理的網(wǎng)絡工具明確的未來路線圖更優(yōu)的線纜支持方案(硅光技術,ClearCurve光纖…)服務與實施部IntelOPA產(chǎn)品介紹22IntelOPA產(chǎn)品介紹Omni-Path架構產(chǎn)品線單端口X8和X16HFI網(wǎng)卡HFI網(wǎng)卡1U24和48端口邊緣交換機邊緣交換機QSFP端口192和768端口模塊化核心交換機核心交換機OEM定制設計HFI和Switch芯片芯片服務與實施部2IntelOPA產(chǎn)品介紹Omni-Path生態(tài)系統(tǒng)系統(tǒng)合作伙伴超過100家OEM和HPC存儲廠家提供OPA平臺、交換機和網(wǎng)卡類產(chǎn)品最終用戶超過10萬節(jié)點采用IntelOPA網(wǎng)絡生態(tài)系統(tǒng)強大的硬件和軟件生態(tài)環(huán)境,超過75個成員加入了Intel?FabricBuildersProgram服務與實施部OPA網(wǎng)絡環(huán)境部署33OPA網(wǎng)絡環(huán)境部署OPAConfigurator服務與實施部3OPA網(wǎng)絡環(huán)境部署OPAConfiguratorhttps:///content/www/us/en/high-performance-computing-fabrics/omni-path-configurator.html服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動/download/27077/Intel-Omni-Path-Fabric-Software-Including-Intel-Omni-Path-Host-Fabric-Interface-Driver-?wapkw=opaIFS版本包含opafm服務服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動技術文檔https:///content/www/us/en/support/articles/000016242/network-and-i-o/fabric-products.html服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動技術文檔服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動技術文檔服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA交換機技術文檔https:///content/www/us/en/support/articles/000016223/network-and-i-o/fabric-products.html服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA交換機技術文檔服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA交換機技術文檔服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動安裝將下載的tar包放至集群共享目錄→拷貝到本地路徑→解壓縮→進入目錄安裝執(zhí)行:./INSTALL-a亦可執(zhí)行./INSTALL手動安裝服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動安裝一定要看到“Rebuildingbootimage……done.”,否則安裝失敗。服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動安裝選擇P進行安裝,完成后重啟節(jié)點。服務與實施部3OPA網(wǎng)絡環(huán)境部署OPA驅動安裝OPA網(wǎng)卡在系統(tǒng)下以ib0的形式存在,配置及管理方式同InfiniBand網(wǎng)卡。服務與實施部OPA網(wǎng)絡環(huán)境檢查44OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認hfi1_control-i|grepOpa——查看OPA驅動版本或執(zhí)行:opaconfig-V服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opainfo——查看當前主機OPA網(wǎng)絡狀態(tài)服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opafm——查看當前OPA網(wǎng)絡中子網(wǎng)管理服務狀態(tài)或使用"serviceopafmstatus"查看opafm等同IB中的opensmd服務,整個OPA網(wǎng)絡中必須至少存在一個運行的實例負責子網(wǎng)管理,否則整個網(wǎng)絡不通。服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opareport-olinks——查看OPA網(wǎng)絡連接拓撲opareport-oslowlinks服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opareport-oerrors——查看OPA網(wǎng)絡狀態(tài)服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opareport-o--help——查看opareport命令集服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA環(huán)境確認opacapture-d3log.tgz——收集主機端OPA網(wǎng)絡日志服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA交換機登錄使用Console口連接配置Edge及Director交換機交換機加電后使用交換機附帶的USB串口線(兩端都是USB接口)連接交換機USB接口和PC端。服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA交換機登錄PC端連接USB串口線后,如果還未安裝線纜驅動,在設備管理器中可以看到FT231X接口,若已安裝驅動,就可以看到“USBSerialPort”接口。服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA交換機登錄打開xshell等超級終端連接交換機串口配置界面,波特率為115200,具體設置如下:服務與實施部4OPA網(wǎng)絡環(huán)境檢查OPA交換機登錄當OPA交換機出現(xiàn)故障時,可通過登錄串口觀察交換機啟動時打印的啟動信息,協(xié)助定位故障(如啟動img損壞等)。服務與實施部OPA網(wǎng)絡性能測試及優(yōu)化55OPA網(wǎng)絡性能測試及優(yōu)化OPA

benchmark測試一般使用自帶OSU工具(下載地址:/benchmarks/)測試OPA性能,包括帶寬和延遲。參考命令如下,在管理節(jié)點上執(zhí)行即可,需基于openMPI環(huán)境:/usr/mpi/gcc/openmpi-1.10.2-hfi/bin/mpirun-Hc01b01,c02b01/usr/mpi/gcc/openmpi-1.10.2-hfi/tests/osu_benchmarks-3.1.1/osu_bw>c01b01-c02b01.bw/usr/mpi/gcc/openmpi-1.10.2-hfi/bin/mpirun-Hc01b01,c02b01/usr/mpi/gcc/openmpi-1.10.2-hfi/tests/osu_benchmarks-3.1.1/osu_latency>c01b01-c02b01.lat此外,使用Mvapich2的OSU可同樣測試:/usr/mpi/gcc/mvapich2-2.1-hfi/tests/osu_benchmarks-3.1.1/osu_bw服務與實施部5OPA網(wǎng)絡性能測試及優(yōu)化OPA

Bandwidth#OSUMPIBandwidthTestv3.1.1#SizeBandwidth(MB/s)15.77211.11423.02844.021680.0632132.2164263.94128511.69256993.635121740.1710242892.2320485010.0840967225.5581928568.181638411335.173276813906.876553615744.5613107215645.8426214413205.1252428812527.31104857612679.25209715212750.52419430411640.74在輸出結果中查看最后一行結果即可,即11GB/s,接近12.5GB/s的理論帶寬,網(wǎng)絡環(huán)境正常。服務與實施部5OPA網(wǎng)絡性能測試及優(yōu)化OPA

Latency#OSUMPILatencyTestv3.1.1#SizeLatency(us)00.2410.2520.2440.2480.24160.29320.39640.391280.412560.425120.461024

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論