




已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
.,1,Infiniband子網管理&OpenSM,.,2,Infiniband子網管理子網管理基礎子網探測LID分配路由計算Infiniband子網管理器OpenSM分析OpenSM總體介紹OpenSM數(shù)據(jù)模型OpenSM運行模型拓撲探測實現(xiàn)分析LID分配實現(xiàn)分析路由計算實現(xiàn)分析,outline,.,3,子網管理基礎子網管理模型(1),.,4,物理模型子網管理器SM可以存在于任何一個CA、交換機或路由器的任何一個端口,一個子網中可以存在多個SM,但在子網運行時只能有一個主SM,其它的成為備份SM。子網管理代理SMA存在于每一個CA、交換機或路由器中。,子網管理基礎子網管理模型(2),.,5,邏輯模型子網管理的實質是子網管理器和子網管理代理之間的信息交換。信息交換通過子網管理數(shù)據(jù)包完成。子網管理器通過查詢子網管理代理,得到節(jié)點的部分信息。子網管理器綜合所有從子網管理代理獲得的信息后,可以生成每個節(jié)點的部分信息。子網管理代理也可以直接發(fā)送信息給子網管理器。子網管理數(shù)據(jù)包是信息交換的標準數(shù)據(jù)格式,還包括一套標準操作。,子網管理基礎子網管理模型(3),.,6,子網管理數(shù)據(jù)包SMP為子網管理提供基礎通信機制。為子網管理提供子網配置、檢測和查詢子網節(jié)點信息的功能。有兩類SMP:LID路由SMP和直接路由SMP。LID路由SMP:交換機在轉發(fā)這些SMP是根據(jù)其目的LID確定要轉發(fā)的端口。使用LID路由SMP需要節(jié)點已經分配LID,經過的交換機必須已經配置正確的轉發(fā)表。直接路由SMP:交換機轉發(fā)這些SMP時根據(jù)SMP自帶的路徑字段確定要轉發(fā)的端口。,子網管理基礎子網管理數(shù)據(jù)包(1),.,7,LID路由SMP用于子網初始化以后,子網管理基礎子網管理數(shù)據(jù)包(2),.,8,直接路由SMP主要用于子網在初始化以前,發(fā)現(xiàn)子網拓撲結構,子網管理基礎子網管理數(shù)據(jù)包(3),.,9,直接路由可以包含LID路由段,直接路由在路由的每一個中間節(jié)點都要經過子網管理接口SMI的處理,LID路由在路由的中間過程不需要經過SMI直接路由SMP有關的算法發(fā)起的直接路由SMP初始化SMI處理發(fā)起的直接路由SMP,需要填寫返回路徑字段響應直接路由SMP的初始化SMI處理響應直接路由SMP,子網管理基礎子網管理數(shù)據(jù)包(4),.,10,如果將每個節(jié)點(CA,交換機或路由器)看成是一個對象:子網管理代理SMA可以理解成節(jié)點對象的公共接口。SM通過這個接口可以設置(Set方法)或查詢(Get方法)節(jié)點對象的屬性(節(jié)點的信息)。SMA還可以主動向SM報告節(jié)點上的異常事件。,子網管理基礎子網管理代理(1),.,11,主要操作SubnGet()由SM發(fā)起,用于獲取節(jié)點屬性SubnSet()由SM發(fā)起,用于設置節(jié)點屬性SubnGetResp()SMA對SM的響應SubnTrap()SMA主動向SM報告異常事件SubnTrapRepress()SM對SMA報告異常事件的響應,子網管理基礎子網管理代理(2),.,12,主要屬性節(jié)點信息,交換機信息,GUID信息,端口信息,SM信息,密鑰信息SL到VL的映射表,VL仲裁表,線性轉發(fā)表,隨機轉發(fā)表,組播轉發(fā)表事件類型,節(jié)點描述,廠家信息,子網管理基礎子網管理代理(3),.,13,相對于以太網的分布式管理,在Infiniband網絡中,SM通過SMA對子網進行集中管理。這種方式結構簡單易于管理。為了防止單點失效問題,在Infiniband中可存在多個SM,一個主SM,多個備份SM。備份SM檢測到主SM死亡時,會選擇一個備份SM成為主SM,接管子網管理權。,子網管理基礎子網管理器(1),.,14,SM狀態(tài)機,子網管理基礎子網管理器(2),.,15,主SM是IB子網初始化和配置的關鍵因素。主SM的選擇也是初始化過程的一部分。主SM的主要作用是:發(fā)現(xiàn)子網的物理拓撲結構。為每個端節(jié)點,交換機和路由器分配本地標識符LID。確定各端節(jié)點之間的合理路徑。掃描子網,發(fā)現(xiàn)拓撲改變處理節(jié)點加入和節(jié)點刪除。,子網管理基礎子網管理器(3),.,16,子網探測主要是指在Infiniband子網初始化時,SM通過SMA獲得子網內各節(jié)點信息。主要的信息就是各個節(jié)點的GUID,節(jié)點類型,端口信息以及各節(jié)點之間的連接關系。在子網初始化完畢后,SM還會定時的檢查網絡拓撲是否發(fā)生變化(某個交換機端口的狀態(tài)發(fā)生改變)。交換機檢測到自己的某個端口狀態(tài)發(fā)生改變,可以通過Trap機制主動向SM報告拓撲改變。,子網探測,.,17,子網發(fā)現(xiàn)的過程:子網啟動時,SM發(fā)送包含Get方法的直接路由SMP,SMA收到后會響應一個SMP,從而找到一個新的節(jié)點,然后SM通過這個新節(jié)點向外輻射只到找到所有的設備。,子網探測子網發(fā)現(xiàn),.,18,對于一個已經初始化的子網,如果SM發(fā)現(xiàn)某一個交換機的一個端口的狀態(tài)從DOWN變?yōu)閁P,則說明有設備加入到子網中。,子網探測增加設備,.,19,對于一個已經初始化的子網,如果SM發(fā)現(xiàn)某一個交換機的一個端口的狀態(tài)從UP變?yōu)镈OWN,則說明有設備從子網中移除。,子網探測刪除設備,.,20,LID(16位)由SM分配,在子網內唯一,不能在子網間使用LID地址空間分為保留空間,單播地址空間,組播地址空間LID在LRH(本地路由報頭)中使用由于子網中兩個節(jié)點中存在多條路徑,可以通過在目的節(jié)點上綁定多個LID實現(xiàn),每條路徑使用一個LID。為了簡化實現(xiàn)方式,LID的分配采用baselid+LMC的方式,baselid最后LMC位必須為0例:baselid=4,LMC=2,則分配的LID4,7,LID性質,.,21,在規(guī)范中,并沒有規(guī)定LID的分配規(guī)則,只要滿足上述的性質即可。具體實現(xiàn)時,LID的分配與特定的路由算法有關。最簡單的分配方式是按照設備的發(fā)現(xiàn)順序,從1開始連續(xù)分配。,LID分配,.,22,路由計算主要是指SM在得到子網拓撲以后,確定每兩個節(jié)點之間的路徑的過程。SM將這個計算結果以轉發(fā)表的形式發(fā)布給交換機,使數(shù)據(jù)包沿著計算好的路徑傳遞。轉發(fā)表是一個LID,PORT組成的表,交換機接收到一個LID路由的數(shù)據(jù)包時,通過查找目的LID對應的表項,從而確定應該從那個端口轉發(fā)這個數(shù)據(jù)包。,路由計算,.,23,OpenSM支持的功能特點開放源代碼代碼使用C語言編寫,面向對象的思想且具有可擴展性程序內含由Robodoc編寫的說明文檔可方便用于其他平臺和InfiniBand接口,當前運行在linux用戶空間之上支持SM的主要特性,包括多路徑傳輸、子網分區(qū)、多點傳送組和SM選舉機制等在任何拓撲結構中,保證兩個端節(jié)點間的最佳路徑支持通用的子網查詢方便傳送各個層的各種類型的管理數(shù)據(jù)報MADOpenSM不支持的功能特點不支持交換機的隨機路由轉發(fā)表不支持子網間的路由不支持完整的SA詢問機制不支持虛擬通道機制不支持GUI,OpenSM總體介紹,.,24,OpenSM采用面向對象的思想,將Infiniband網絡中的現(xiàn)實事物抽象成程序中的一系列類(結構),例如節(jié)點,交換機,端口,SM,分區(qū)等。這些現(xiàn)實事物之間的關聯(lián)在通過類與類之間的關系反映出來。例如,在一個節(jié)點對象中包含若干個端口對象,每個端口對象又指向另一個端口對象,另一個端口對象可能是屬于某各交換機對象的。,OpenSM數(shù)據(jù)模型(對象模型),.,25,OpenSM數(shù)據(jù)模型層次,.,26,Subnet類是OpenSM中保存子網信息的一個類,最重要的就是子網的拓撲信息。在Subnet類中保存了子網中所有CA,交換機,路由器的信息,以及這些節(jié)點的端口的連接信息(拓撲)。子網的初始化和運行一個重要部分就是構造和維護Subnet類:子網啟動以后,SM每發(fā)現(xiàn)一個設備,就構造一個對應的類,并將這個類加入到Subnet類中;子網運行過程中,SM也會根據(jù)子網的變化同步Subnet類,使得Subnet類中的拓撲和實際拓撲保持一致。子網的配置也是根據(jù)Subnet類中保存的信息綜合以后進行的,例如每個交換機的轉發(fā)表就是根據(jù)Subnet中的拓撲信息生成的。,OpenSM數(shù)據(jù)模型Subnet類,.,27,OpenSM運行模型,.,28,從外界獲取程序運行所需的配置參數(shù)創(chuàng)建各種數(shù)據(jù)結構,如日志對象,Opensm對象,sm對象,子網對象,以及用于保存程序運行信息的圖表,如節(jié)點表,交換機表等。初始化各對象,如根據(jù)參數(shù)設置對象屬性,初始化相關的定時器,線程,信號等。創(chuàng)建發(fā)送線程,接收線程,掃描線程,分配器工作線程等。循環(huán)等待,直到程序遇到結束標志。,程序基本流程,.,29,.,30,發(fā)現(xiàn)子網分配LID構造每個交換機的LID矩陣構造每個交換機的轉發(fā)表將轉發(fā)表分發(fā)到對應的交換機將端口置為準備狀態(tài)將端口置為活動狀態(tài),子網配置過程,.,31,發(fā)送一個直接路徑長度為0的SMP,獲取本地的節(jié)點信息。發(fā)送直接路徑長度為1的SMP,如果SM所在節(jié)點為CA或路由器,則只需要發(fā)送一個,如果節(jié)點為交換機,則需要構造多個SMP,每個SMP的直接路徑為交換機的一個活動端口。當收到響應時,判斷響應節(jié)點是否是新設備,如果是新設備,則繼續(xù)向外探測,直到沒有新的設備發(fā)現(xiàn)為止(子網發(fā)現(xiàn)完成)。,發(fā)現(xiàn)子網子網啟動,.,32,向每個交換機發(fā)送包含Get方法的SMP,更新每個交換機的信息。對于每個交換機的每個端口:如果端口的狀態(tài)不是down,但是這個端口不指向一個端口,說明子網中新加入了設備,構造一個直接路由SMP(包含一段LID路由)獲取這個端口連接的節(jié)點信息。如果發(fā)現(xiàn)有交換機的端口狀態(tài)發(fā)生改變(拓撲改變),程序會重新掃描整個網絡。掃描完成后,還會刪除一些丟失的節(jié)點。,子網探測子網啟動后,.,33,所有已分配的LID保存在PORT_LID_TBL表中,端口的GUID和LID的映射表保存在GUID_TO_LID_TBL表中。若端口的GUID在GUID_TO_LID_TBL表中已經存在,則表明已經分配過LID,不需要再分配LID。在PORT_LID_TBL中尋找一個足夠大小的區(qū)間(如果LMC0,每一個端口需要分配多于一個LID),分配這一段LID,更新PORT_LID_TBL和GUID_TO_LID_TBL,然后設置端口的PORTINFO中的LID字段。,LID分配,.,34,Minhop最小跳數(shù)算法(默認路由算法)UpdnUp/down算法Ftree胖樹算法Lash算法從文件中加載路由表Dor算法,OpenSM支持的路由算法,.,35,每個交換機對象中都存有一個LIDMATRIX對象,LIDMATRIX中保存交換機從它的某個端口到達某個LID的最小距離LIDMATRIX中只表示交換機和交換機之間的連接,先忽略CA和路由器。在OpenSM中LIDMATRIX使用一個二維的hops矩陣表示路由算法分兩步執(zhí)行:構造LID矩陣build_lid_matrices構造轉發(fā)表ucast_build_fwd_tables,LID矩陣&路由算法,.,36,LID矩陣的內容在最初都是NO_PATH,即通過交換機的任何一個端口不能到達任何一個LID交換機到達自身的端口0(管理端口)的LID的距離是0,交換機到達和自己相連的交換機的端口0的LID的距離是1.交換機通過鄰居交換機學習到更遠的鄰居的信息類似于路由協(xié)議中的距離矢量算法,LID矩陣的構造需要經過若干次迭代才能達到穩(wěn)定狀態(tài)(收斂)。,LID矩陣的構造(以minhop為例),.,37,LID矩陣的構造,Sw1的LID矩陣中保存的通過端口1到sw3的距離是10跳然后sw1通過鄰居sw2,知道sw2到達sw3最少可以只要5跳因此sw1實際上之需要6跳就可以到達sw3此時sw1會更新它的LID矩陣,.,38,LID矩陣構造實例,每個物理端口都有一個LID每個交換機也有一個LID每個交換機的LID矩陣中的LID只有3個交換機的LID例如交換機2的LID矩陣:經端口1不能到達任何交換機經端口2到達LID_SW1的距離是1,到達自身的距離是0,不能到達交換機3經端口3到達LID_SW3的距離是1,到達自身的距離是0,不能到達交換機1,.,39,轉發(fā)表的構造,物理端口數(shù)總共有10個,每個端口對應一個LID每個交換機的轉發(fā)表中都要給出如何轉發(fā)這10個LID例如,交換機2如何轉發(fā)CA3的端口1對應的LIDCA3不是交換機,所以其LID不在LID矩陣中,而CA3連接的交換機是交換機3,交換機3的LID是LID_SW3(不是交換機某個端口的LID)在交換機的LID矩陣中可以知道到達交換機3最近的端口是端口3,.,40,得到從SM到交換機的直接路徑上一步得到的是交換機的整個轉發(fā)表,每次set方法只能傳輸64字節(jié),需要多次set交換機內部的轉發(fā)表按照64字節(jié)的大小分塊,因此實際上每次set方法都是設置交換機轉發(fā)表的一個塊,設置交換機的轉發(fā)表,.,41,胖樹結構是互連已知硬件數(shù)量的一種通用方法。胖樹相對傳統(tǒng)樹,越靠近根部帶寬越大。如果要使網絡是非阻塞的,每層的總帶寬都要相同。a)傳統(tǒng)的樹,b)胖樹,胖樹結構(1),.,42,胖樹結構(2),.,43,在OpenSM中,任何路由算法都由兩步完成,建立LID矩陣和構造轉發(fā)表。在Ftree算法中:LID矩陣的建立過程實際上就是胖樹的構造過程。構造轉發(fā)表過程是根據(jù)已經構造好的胖樹結構生成各個交換機的轉發(fā)表,然后設置各個交換機的轉發(fā)表屬性。,Ftree算法,.,44,1.初始化數(shù)據(jù)結構(初始化胖樹網絡結構)2.向胖樹中加入交換機和CA3.讀取GUID文件4.開始將胖樹中的交換機進行排名5.向胖樹中加入端口6.建立交換機索引表7.建立葉交換機數(shù)組(按索引),胖樹構造,.,45,主要屬性:HCA表交換機表計算節(jié)點CN的GUID表葉交換機等級每個葉交換機最多連接的計算節(jié)點數(shù)目,Opensm:胖樹網絡結構,.,46,對于Node_GUID表中的任何一個元素:如果Node的類型為CA,則將這個節(jié)點加入到CA表中如果類型是交換機,則將這個節(jié)點加入到SW表中,加入交換機和CA,.,47,對于HCA表中的每個CA:如果與這個CA相連的是一個交換機(葉交換機),則更新這個交換機的rank值為0,并將這個交換機加入到廣度優(yōu)先的隊列中(供以后為其它交換機排名時使用)。再從廣度優(yōu)先隊列中的交換機開始繼續(xù)排名:采用廣度優(yōu)先算法遍歷胖樹,不斷將沒有排名的交換機加入到廣度優(yōu)先隊列中;rank值按層次遞增遍歷完成后,得到最大的rank值最后修正rank值:0-max_rank,max_rank-0,交換機排名-從HCA開始排名,.,48,HCA維護到每個相連交換機LID的up_port_group(連接幾個交換機,就有幾個up_port_group),HCA上連接到同一個交換機的多個端口在同一個up_port_group中。對于每個HCA:對于每個物理端口:如果這個端口連接的是一個交換機節(jié)點:將這個端口加入到HCA的某個端口組中。,加入端口(1),.,49,每個交換機維護到每個相連的上層節(jié)點的up_port_group,每個相連的下層節(jié)點的down_port_group,每個端口加入到相應的端口組中對于每個交換機:對于每個物理端口:如果這個端口連接的是一個HCA:則這個端口加入到某個down_port_group中如果這個端口連接的是一個交換機:如果本地交換機的rank值較大(下層連上層),則這個端口加入到某個up_port_group中反之(上層連下層)。,加入端口(2),.,50,在交換機表中找到第一個葉交換機,作為算法的起點,給這個交換機初始化一個元組。使用廣度優(yōu)先算法遍歷胖樹對于每一個交換機:指向下層的端口:如果端口連接的是一個沒有分配元組的交換機,則給這個交換機
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中醫(yī)法法律法規(guī)培訓
- 原料驗收培訓課件
- 職業(yè)生涯人物訪談
- 2025電氣基礎培訓
- 育齡婦女生殖健康知識
- 防物體打擊培訓
- 2026年高考政治一輪復習:統(tǒng)編版必修4《哲學與文化》知識點考點提綱
- 笑氣在神經內科領域的應用與研究進展
- 2025年智能家居軟裝搭配市場趨勢與商業(yè)布局報告
- 2025年城市污水處理廠智能化升級改造與智能監(jiān)測預警平臺應用案例深度分析報告
- GB/T 38807-2020超級奧氏體不銹鋼通用技術條件
- GB/T 27773-2011病媒生物密度控制水平蜚蠊
- 質量風險識別項清單及防控措施
- 【課件超聲】常見的超聲效應與圖象偽差
- 2022年石家莊交通投資發(fā)展集團有限責任公司招聘筆試試題及答案解析
- 中國華電集團公司信訪事項處理程序
- 特種設備制造內審及管理評審資料匯編經典版
- EDI超純水系統(tǒng)操作說明書
- 金屬監(jiān)督監(jiān)理實施細則
- 2022年鎮(zhèn)海中學提前招生模擬卷科學試卷
- 國土空間規(guī)劃 教學大綱.docx
評論
0/150
提交評論