成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳談RDMA技術原理和三種實現方式

網絡 網絡管理
遠程直接內存訪問(即RDMA)是一種直接內存訪問技術,它將數據直接從一臺計算機的內存傳輸到另一臺計算機,無需雙方操作系統的介入。RDMA最早在Infiniband傳輸網絡上實現,后來業界廠家把RDMA移植到傳統Ethernet以太網上,降低了RDMA的使用成本,推動RDMA技術普及。

[[385738]]

 遠程直接內存訪問(即RDMA)是一種直接內存訪問技術,它將數據直接從一臺計算機的內存傳輸到另一臺計算機,無需雙方操作系統的介入。RDMA最早在Infiniband傳輸網絡上實現,后來業界廠家把RDMA移植到傳統Ethernet以太網上,降低了RDMA的使用成本,推動RDMA技術普及。

然而,在Ethernet以太網上,根據協議棧融合度的差異,分為iWARP和RoCE兩種技術,而RoCE又包括RoCEv1和RoCEv2兩個版本(RoCEv2的最大改進是支持IP路由)。

隨著高性能計算、大數據分析、人工智能以及物聯網等技術的飛速發展,集中式存儲、分布式存儲以及云數據庫的普及等原因,業務應用有越來越多的數據需要從網絡中獲取,這對數據中心網絡的交換速度和性能要求越來越高。

傳統的 TCP/IP 軟硬件架構及應用存在著網絡傳輸和數據處理的延遲過大、存在多次數據拷貝和中斷處理、復雜的 TCP/IP 協議處理等問題。RDMA(Remote Direct Memory Access,遠程直接內存訪問)是一種為了解決網絡傳輸中服務器端數據處理延遲而產生的技術。

RDMA 將用戶應用中的數據直接傳入服務器的存儲區,通過網絡將數據從一個系統快速傳輸到遠程系統的存儲器中,消除了傳輸過程中多次數據復制和文本交換的操作,降低了 CPU 的負載。RDMA技術的原理及其與TCP/IP架構的對比如下圖所示。


RDMA 技術實現了在網絡傳輸過程中兩個節點之間數據緩沖區數據的直接傳遞,在本節點可以直接將數據通過網絡傳送到遠程節點的內存中,繞過操作系統內的多次內存拷貝,相比于傳統的網絡傳輸,RDMA 無需操作系統和 TCP/IP 協議的介入,可以輕易的實現超低延時的數據處理、超高吞吐量傳輸,不需要遠程節點 CPU 等資源的介入,不必因為數據的處理和遷移耗費過多的資源。

RDMA 技術主要包括:

IB(InfiniBand):基于 InfiniBand 架構的 RDMA 技術,由 IBTA(InfiniBand Trade Association)提出。搭建基于 IB 技術的 RDMA 網絡需要專用的 IB 網卡和 IB 交換機。

iWARP(Internet Wide Area RDMA Protocal):基于 TCP/IP 協議的 RDMA 技術,由IETF 標 準定義。iWARP 支持在標準以太網基礎設施上使用 RDMA 技術,但服務器需要使用支持iWARP 的網卡。

RoCE(RDMA over Converged Ethernet):基于以太網的 RDMA 技術,也是由 IBTA提出。RoCE支持在標準以太網基礎設施上使用RDMA技術,但是需要交換機支持無損以太網傳輸,需要服務器使用 RoCE 網卡。

InfiniBand技術簡介

InfiniBand 是一種基于 InfiniBand 架構的 RDMA 技術,它提供了一種基于通道的點對點消息隊列轉發模型,每個應用都可通過創建的虛擬通道直接獲取本應用的數據消息,無需其他操作系統及協議棧的介入。InfiniBand 架構的應用層采用了 RDMA 技術,可以提供遠程節點間 RDMA讀寫訪問,完全卸載 CPU 工作負載;網絡傳輸采用了高帶寬的傳輸;鏈路層設置特定的重傳機制保證服務質量,不需要數據緩沖。


InfiniBand 必須運行在 InfiniBand 網絡環境下,必須使用 IB 交換機及 IB 網卡才可實現。

InfiniBand 技術具有以下特點:

• 應用層采用 RDMA 技術,降低了在主機側數據處理的延遲。

• 消息轉發控制由子網管理器完成,沒有類似以太網復雜的協議交互計算。

• 鏈路層通過重傳機制保證服務質量,不需要數據緩沖,無丟包。

• 具有低延遲、高帶寬、低處理開銷的特點。

iWARP 技術簡介

iWARP 是基于以太網和 TCP/IP 協議的 RDMA 技術,可以運行在標準的以太網基礎設施上。

iWARP并沒有指定物理層信息,所以能夠工作在任何使用TCP/IP協議的網絡上層。iWARP允許很多傳輸類型來共享相同的物理連接,如網絡、I/O、文件系統、塊存儲和處理器之間的消息通訊。

iWARP協議棧

iWARP 由 MPA、DDP、RDMAP 三層子協議組成:

RDMAP層協議負責 RDMA 讀、寫操作和 RDMA 消息的轉換,并將 RDMA 消息轉發到DDP層。

DDP層協議負責將過長的 RDMA 消息分片分裝成DDP數據包繼續轉發到 MPA 層。

MPA層在 DDP 數據段的固定標識位置增加轉發后向標識、數據報文的長度以及 CRC 校驗數據等字段構成 MPA 數據段交由 TCP 傳輸。

iWARP 技術特點

iWARP 從以下幾個方面降低了主機側網絡負載:

• TCP/IP 處理流程從 CPU 卸載到 RDMA 網卡處理,降低了 CPU 負載。

• 消除內存拷貝:應用程序可以直接將數據傳輸到對端應用程序內存中,顯著降低 CPU 負載。

• 減少應用程序上、下文切換:應用程序可以繞過操作系統,直接在用戶空間對 RDMA 網卡下發命令,降低了開銷,顯著降低了應用程序上、下文切換造成的延遲。

由于 TCP 協議能夠提供流量控制和擁塞管理,因此 iWARP 不需要以太網支持無損傳輸,僅通過普通以太網交換機和 iWARP 網卡即可實現,因此能夠在廣域網上應用,具有較好的擴展性。

RoCE技術簡介

RoCE 技術支持在以太網上承載 IB 協議,實現 RDMA over Ethernet。RoCE 與 InfiniBand技術有相同的軟件應用層及傳輸控制層,僅網絡層及以太網鏈路層存在差異。


RoCE 協議分為兩個版本:

RoCE v1協議:基于以太網承載 RDMA,只能部署于二層網絡,它的報文結構是在原有的 IB架構的報文上增加二層以太網的報文頭,通過 Ethertype 0x8915 標識 RoCE 報文。

RoCE v2協議:基于 UDP/IP 協議承載 RDMA,可部署于三層網絡,它的報文結構是在原有的 IB 架構的報文上增加 UDP 頭、IP 頭和二層以太網報文頭,通過 UDP 目的端口號 4791 標 識RoCE 報文。RoCE v2 支持基于源端口號 hash,采用 ECMP 實現負載分擔,提高了網絡的利用率。

RoCE 使得基于以太網的數據傳輸能夠:

• 提高數據傳輸吞吐量。

• 減少網絡延時。

• 降低 CPU 負載。

RoCE 技術可通過普通以太網交換機實現,但服務器需要支持 RoCE 網卡,網絡側需要支持無損以太網絡,這是由于 IB 的丟包處理機制中,任意一個報文的丟失都會造成大量的重傳,嚴重影響數據傳輸性能。

在 RoCE 網絡中,需要構建無損以太網用于保證網絡傳輸過程中不丟包,關于無損以太網技術參考文章:“FCoE全解系列”之增強型以太網技術。構建無損以太網需支持以下關鍵特性:

  • (必選)PFC(Priority-based Flow Control,基于優先級的流量控制):逐跳提供基于優先級的流量控制,能夠實現在以太網鏈路上運行多種類型的流量而互不影響。
  • (必選)ECN(Explicit Congestion Notification,顯示擁塞通知):設備發生擁塞時,通過對報文 IP 頭中 ECN 域的標識,由接收端向發送端發出降低發送速率的 CNP(Congestion Notification Packet,擁塞通知報文),實現端到端的擁塞管理,減緩擁塞擴散惡化。
  • (建議)DCBX(Data Center Bridging Exchange Protocol,數據中心橋能力交換協議):使用 LLDP 自動協商 DCB 能力參數,包括 PFC 和 ETS 等。一般用在接入交換機連接服務器的端口,與服務器網卡進行能力協商。
  • (可選)ETS(Enhanced Transmission Selection,增強傳輸選擇):將流量按服務類型分組,在提供不同流量的最小帶寬保證的同時提高鏈路利用率,保證重要流量的帶寬百分比。需要逐跳提供。

在 RoCE 環境中,PFC與ECN 需要同時使用,以在無丟包情況下帶寬得到保證。二者的功能對比如下:


雖然IB、以太網RoCE、以太網iWARP這三種RDMA技術使用統一的API,但它們有著不同的物理層和鏈路層。在以太網解決方案中,RoCE相對于iWARP來說有著明顯的優勢,這些優勢體現在延時、吞吐率和 CPU負載。RoCE被很多主流的方案所支持,并且被包含在Windows服務軟件中。


RDMA技術基于傳統網絡的概念,但與IP網絡又有些不同。最關鍵的不同是RDMA提供了一種消息服務, 利用這種服務,應用程序可以直接訪問遠程計算機上的虛擬內存。消息服務可以用來進行網絡中進程間通信(IPC)、遠程服務器通信和在一些上層協議的協助下與存儲設備進行數據傳遞。

上層應用協議ULPs(Upper Layer Protocols)有很多,例如iSCSI的RDMA擴展(iSER)、SCSI RDMA協議(SRP)等,主流的SMB、Samba 、Lustre、ZFS等也支持RDMA。

RoCE和InfiniBand,一個定義了如何在以太網上運行RDMA,而另一個則定義了如何在IB網絡中運行RDMA。RoCE期望能夠將IB的應用(主要是基于集群的應用)遷移到融合以太網中,而在其他應用中,IB網絡仍將能夠提供比RoCE更高的帶寬和更低的時延。RoCE和IB協議的技術區別:

  • 擁塞控制:RoCE所依賴的無丟包網絡基于以太網流控或PFC(Priority Flow Control)來實現。RoCEv2 則是定義了擁塞控制協議,使用ECN做標記和CNP幀來做確認。而IB則是使用基于信用的算法來保證HCA-HCA之間的無丟包通信。
  • 時延:當前IB交換機普遍要比以太交換機擁有更低的時延,以太網交換機一般的Port-to-Port時延在230ns,相比IB交換機在同樣端口數的情況下100ns的時延,以太交換機還是要高出不少。
  • 配置:配置一個DCB以太網絡要遠比配置一個IB網絡要復雜的多,同理,運維也要復雜的多。

RoCE和iWARP,一個是基于無連接協議UDP,一個是基于面向連接的協議(如TCP)。RoCEv1只能局限在一個二層廣播域內,而RoCEv2和iWARP都能夠支持三層路由。相比RoCE,在大型組網的情況下,iWARP的大量TCP連接會占用大量的額內存資源,對系統規格要求更高。另外,RoCE支持組播,而iWARP還沒有相關的標準定義。

 

責任編輯:姜華 來源: 架構師技術聯盟
相關推薦

2010-03-12 17:52:35

Python輸入方式

2021-11-05 21:33:28

Redis數據高并發

2014-12-31 17:42:47

LBSAndroid地圖

2021-06-24 08:52:19

單點登錄代碼前端

2024-07-08 09:03:31

2010-09-07 16:31:27

CSS

2018-04-02 14:29:18

Java多線程方式

2024-07-01 12:42:58

2023-12-04 09:31:13

CSS卡片

2021-01-15 10:45:55

技術物聯網IOT

2022-01-25 14:50:21

區塊鏈醫療技術

2012-07-17 09:16:16

SpringSSH

2022-11-03 08:44:24

代理模式Java設計模式

2022-11-15 11:04:12

2023-04-13 07:41:14

RoCE技術RDMA

2024-08-13 08:25:16

C#外部程序方式

2025-06-06 00:00:00

JavaHTTPMCP

2017-04-19 16:30:51

SDNNFV網絡

2020-11-01 17:10:46

異步事件開發前端

2011-04-08 11:13:50

CISCO IOS令牌桶雙桶
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩久久久久 | 日韩色在线 | 久久久免费观看视频 | 欧美一区二区在线看 | 九九色综合 | 日韩精品 | 五月综合激情在线 | 一区二区三区欧美 | 99热精品国产 | 欧美影院 | 国产欧美日韩视频 | 国产精品久久久精品 | 国产精品99久久久久久久vr | 久久精彩视频 | 伊人导航 | 国产在线观看不卡一区二区三区 | 国产免费一级片 | 国产婷婷色一区二区三区 | 九九综合九九 | 日本精品久久久久 | 国产精品一区一区 | 91精品无人区卡一卡二卡三 | 国产一区二区影院 | 久久精品视频免费观看 | 欧美黄色片在线观看 | 久久久噜噜噜久久中文字幕色伊伊 | 九色av| 蜜桃免费av | 欧美精品久久久 | 国产成人99久久亚洲综合精品 | 久久久2o19精品| 久久精品这里 | 国产福利在线视频 | 成人在线电影在线观看 | 亚洲国产一区二区视频 | 色综合99 | 91视视频在线观看入口直接观看 | 欧美午夜精品久久久久免费视 | 国产欧美一区二区三区在线看 | 在线午夜电影 | 中文字幕一区二区三区日韩精品 |