




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
在快速增長的人工智能(AI)和機器學習(ML)領域,數據中心對高性能計算(HPC)系統(tǒng)的需求正在迅速提升。HPC需要快速、低延遲的連接來實現高速、無縫通信。這引出了一個關鍵問題:傳統(tǒng)的TCP/IP堆棧是否足以有效支持HPC網絡通信?
遠程直接內存訪問(RDMA)是HPC和存儲網絡領域中備受青睞的技術之一,它能夠在內存到內存級別提供高吞吐量和低延遲的數據傳輸,同時避免給CPU帶來額外的負擔。RDMA允許從一臺計算機直接訪問另一臺計算機上的內存,從而實現了無縫的數據傳輸體驗。此操作完全由網絡適配器硬件處理,無需經過操作系統(tǒng)軟件網絡堆棧的干預。
傳統(tǒng)模式與RDMA模式
HPC網絡利用InfiniBand(IB)堆棧,可實現RDMA技術的各項優(yōu)勢,包括高吞吐量、低延遲以及CPU旁路特性。此外,InfiniBand將擁塞管理直接集成到協(xié)議中。相比之下,傳統(tǒng)的TCP/IP協(xié)議棧會隨著網絡訪問帶寬的增加而導致CPU消耗的增加,從而進一步增加網絡傳輸延遲,顯然不適合HPC需求。
RDMA網絡協(xié)議
InfiniBand(原生RDMA):InfiniBand原生RDMA技術提供了基于通道的P2P消息隊列轉發(fā)模型,應用可以通過虛擬通道直接訪問消息,從而繞過對操作系統(tǒng)和其他堆棧的需求。這不僅減輕了CPU的工作負擔,還實現了節(jié)點間高效的RDMA讀寫訪問。此外,InfiniBand的鏈路層集成了特定的重傳機制來支持QoS,從而消除了對數據緩沖的依賴。但要充分發(fā)揮其性能優(yōu)勢,需要專用的InfiniBand交換機和網卡。
iWARP(基于TCP的RDMA):互聯網廣域RDMA協(xié)議(iWARP)支持基于TCP的RDMA操作,通過標準以太網基礎設施提供RDMA功能。這允許組織將其現有的以太網交換機用于RDMA目的,并利用TCP的數據包丟失保護機制。但網卡必須支持iWARP,尤其是在利用CPU卸載技術時。
RoCEv1(二層以太網上的RDMA):RoCEv1是運行在以太網鏈路層上的RDMA協(xié)議,可以促進同一以太網廣播域內任意兩臺主機之間的通信。為了實現物理層的可靠傳輸,交換機必須支持PFC(優(yōu)先級流控制)等流控機制。
RoCEv2(基于UDP的RDMA):RoCEv2解決了v1的局限性,即僅限于單個VLAN。它通過調整數據包封裝(包括IP和UDP標頭)來實現跨L2和L3網絡的使用。
RDMA協(xié)議棧
超大規(guī)模數據中心中的RoCEv2
在快節(jié)奏的超大規(guī)模數據中心領域,對高性能網絡解決方案的需求引發(fā)了人們對RoCEv2日益增長的興趣。RoCEv2代表了InfiniBand的性能優(yōu)勢與以太網的廣泛可訪問性的結合,從而在現有以太網基礎設施上實現無縫的RDMA功能。
RoCEv2利用了融合以太網基礎設施的優(yōu)勢,促進了傳統(tǒng)以太網流量與RDMA流量在同一網絡上的共存,簡化了網絡管理并消除了對單獨RDMA結構的需求。然而,在融合以太網結構中部署RoCEv2也同樣面臨挑戰(zhàn),例如通過分配必要的網絡資源、優(yōu)化UDP數據包封裝以及實施有效的擁塞控制機制(如優(yōu)先級流量控制(PFC)和中心量化擁塞通知(DCQCN))來確保無損和低延遲通信。本文深入研究了RoCEv2的復雜性,審視了其對UDP的封裝,并提出了資源分配和擁塞控制策略。
RoCEv2
要利用RoCEv2,源主機和目標主機上都需要支持RDMA的專用RDMANIC(RNIC)。RDMA卡的物理(PHY)速度通常是50Gbps起,目前已經提升至高達400Gbps。
RoCEv2數據包格式
為了確保在IP和UDP第3層以太網上實現對RDMA流量的無縫傳輸,數據包封裝至關重要。專用UDP目標端口4791用于表示InfiniBand有效負載,同時針對不同的隊列對(QP),使用不同的源端口,可以實現等價多路徑(ECMP)負載共享,以優(yōu)化轉發(fā)效率。
具體來說:
-RoCEv2在IPv4/UDP或IPv6/UDP協(xié)議之上運行,使用以太網鏈路層的IP和UDP標頭替代InfiniBand網絡層,實現路由。-它默認使用UDP目標端口號4791。-UDP源端口被用作流標識符,可利用ECMP優(yōu)化數據包轉發(fā)。-RoCEv2流量和擁塞控制利用IP標頭中的優(yōu)先級流量控制(PFC)和顯式擁塞通知(ECN)位來管理擁塞,并使用擁塞通知數據包(CNP)幀進行確認。
RoCEv2數據包格式
RoCEv2Wireshark捕獲
RoCEv2以更低的成本提供卓越的多功能性,使其成為在傳統(tǒng)以太網環(huán)境中構建高性能RDMA網絡的最佳選擇。但在這些交換機上配置Headroom、PFC和ECN設置等參數可能相當復雜。需要仔細注意以確保建立最佳配置才能獲得最佳性能。擁塞和路由等因素會顯著影響高性能網絡的帶寬和延遲。
在以太網中實施RoCEv2
為了發(fā)揮RDMA的真正性能,需要構建無損網絡。在以太網交換機上實施RoCEv2需要注意以下關鍵因素,以確保最佳性能和兼容性:
1.MTU(最大傳輸單元):RoCEv2需要比傳統(tǒng)以太網流量更大的MTU,以容納額外的RDMA標頭。建議將最小MTU設置為9000字節(jié),以避免碎片并確保高效的數據傳輸。
2.QoS(服務質量):實施QoS機制對于優(yōu)先考慮RoCEv2流量并確保低延遲通信至關重要。需要配置交換機隊列和調度算法,使RDMA流量比其他網絡流量具有更高的優(yōu)先級。差分服務代碼點(DSCP)標記可根據優(yōu)先級對流量進行分類,并根據其在網絡中的重要性對RoCEv2流量進行優(yōu)先級排序,實現更精細的QoS控制。以太網交換機應支持基于DSCP的QoS,以有效管理RoCEv2流量并保持最佳網絡性能。
3.PFC(優(yōu)先級流量控制):PFC對于創(chuàng)建無損以太網至關重要,因為它可以防止數據包丟失并確保RDMA流量的可靠傳輸。交換機必須支持基于IEEE802.1Qbb標準的PFC,以實現RoCEv2的無損操作。
4.ECN(顯式擁塞通知):ECN在管理擁塞和維持最佳網絡性能方面發(fā)揮著至關重要的作用,特別是數據中心量化擁塞通知(DCQCN)。交換機必須支持ECN機制,才能對RoCEv2流量進行有效的擁塞控制。
以上是在以太網上實施RoCEv2時需要考慮的關鍵因素。接下來,讓我們深入研究兩個關鍵組件:優(yōu)先級流量控制(PFC)和數據中心量化擁塞通知(DCQCN)。這些機制在確保無損通信、有效管理擁塞以及維持RoCEv2流量的最佳網絡性能方面發(fā)揮著至關重要的作用。
PFC-基于優(yōu)先級的流量控制
優(yōu)先流量控制(PFC)是一種IEEE802.1Qbb鏈路層流量控制協(xié)議,旨在確保無丟包的網絡環(huán)境。PFC使接收器能夠通過通知發(fā)送器臨時停止特定優(yōu)先級的傳輸流量來實現流量控制。它提高了從物理端口到8個虛擬通道的流量控制的精度,并與8個硬件隊列(流量類別:TC0、TC1...TC7)對齊。同時,PFC利用DSCP為不同的流量啟用自動流量控制。
PFC操作
如上圖所示,當交換機緩沖區(qū)接近溢出時(由XOFF閾值表示,表示特定優(yōu)先級隊列中的緩沖區(qū)利用率較高),交換機會調度PFCPAUSE幀,以通知上游端口停止數據傳輸。當緩沖區(qū)使用率下降到XON閾值以下時,交換機會提示上游端口恢復流量,表示擁塞已緩解。凈空表示為容納傳輸中的數據包而保留的額外緩沖區(qū)空間。
PFC是基于服務類別(CoS)的流量控制協(xié)議。在擁塞期間,PFC通過發(fā)送暫停幀指示需要暫停傳輸的CoS值。每個PFC暫停幀都包含每個CoS的2個八位字節(jié)定時器值,指示應暫停流量的持續(xù)時間。計時器以暫停量子為單位進行測量,其中量子表示以端口速度傳輸512位數據所需的時間,范圍為0到65535。如果暫停量子為0,則表示恢復流量,提示暫停的流量重新開始流動。PFC通過向指定地址發(fā)送暫停幀來指示對等方停止發(fā)送特定CoS值的幀。暫停幀僅在單跳內傳輸,不會傳播到接收方之外。擁塞緩解后,PFC可以請求對端重新開始數據傳輸。
PFC幀格式
PFC的缺點在于它可能會導致入口端口處特定流量類別內的所有流量停止傳輸,從而阻止了流向其他端口的流量。與PFC相關的常見問題包括隊頭(HoL)阻塞、不公平和死鎖情況。這些問題顯著降低了RoCEv2的吞吐量、延遲和利用率性能。因此,RoCEv2需要端到端的每流擁塞控制來調整流量,快速消除擁塞并最大限度地減少PFC的頻繁觸發(fā)。
DCQCN-使用ECN進行擁塞控制
數據中心量化擁塞通知(DCQCN)是專門為RoCEv2設計的端到端擁塞控制機制。它結合了ECN和PFC,旨在實現跨網絡的無丟包以太網連接。DCQCN的概念是利用ECN來進行流量控制,在發(fā)生擁塞時降低發(fā)送方的傳輸速率,從而有效地減少PFC的干預。
在DCQCN中,交換機充當擁塞點(CP),通過ECN字段監(jiān)控隊列長度和標志來檢測擁塞。交換機使用RED(隨機早期檢測)機制根據隊列長度對數據包進行概率性的ECN標記。接收方充當通知點(NP),生成擁塞通知數據包(CNP),并直接發(fā)送給發(fā)送方。然后,發(fā)送方充當反應點(RP),如果在控制周期內收到CNP,則降低流量;否則,它會增加由定時器和字節(jié)計數器確定的流量。
DCQCN操作
ECN利用IPv4或IPv6標頭中流量類別字段的兩個最低有效位(最右側)對四個不同的代碼點進行編碼:
-0x00:不支持ECN的傳輸(非ECT)-0x10:支持ECN的傳輸0(ECT-0)-0x01:支持ECN的傳輸1(ECT-1)-0x11:遇到擁塞(CE)
如果發(fā)生擁塞,網絡設備會重新標記數據包為ECN遇到擁塞(0x11),但不會向發(fā)送方發(fā)送任何內容。重新標記的數據包到達目的地后,目的地會向發(fā)送方發(fā)送通知以減少流量。路徑上的所有交換機或路由器都需要支持ECN。
在動態(tài)網絡環(huán)境中,PFC和DCQCN的結合使用可以優(yōu)化RDMA性能。DCQCN通過向端點數據路徑的任何地方發(fā)送擁塞信號,有效地緩解擁塞模式,如incast。同時,PFC通過減慢發(fā)送者的速度,有效地管理由端點附近的突發(fā)應用程序引起的擁塞。在這種設置中,DCQCN充當主要的擁塞管理機制,而PFC則充當故障安全的備用解決方案。
結論
總的來說
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 仲裁終止合同樣本
- 書柜采購合同范例
- 防火門安裝施工方案設計
- 2025年醫(yī)用電子儀器設備項目合作計劃書
- 火災報警系統(tǒng)施工方案
- 六年級語文下冊教學總結
- 特種設備操作人員培訓管理制度
- 核心素養(yǎng)下的物理教學設計
- 備課教案模板
- 商務合同文體特征
- 鋼棧橋施工監(jiān)理細則
- 骨轉移瘤課件
- 護士注冊健康體檢表下載【可直接打印版本】
- 核心素養(yǎng)視角下教師專業(yè)發(fā)展課件
- 污水處理培訓課件
- 初中語文八年級下冊第三單元綜合性學習古詩苑漫步-綜合性學習《古詩苑漫步》教案
- 中國十大階層的劃分課件
- 高中英語各種教材詞組匯總大全(超級實用)
- 內燃機機油泵轉子系列參數
- 遠程視頻會議系統(tǒng)建設方案課件
- 四十二手眼圖(經典珍藏版)
評論
0/150
提交評論