1. RDMA là gì?
RDMA là kỹ thuật cho phép một máy tính truy cập trực tiếp vào vùng nhớ của một máy tính khác thông qua mạng, mà không cần sự can thiệp của CPU hoặc hệ điều hành trên cả hai phía.
2. Lợi ích trong hệ thống AI/ML
Tăng tốc truyền dữ liệu giữa các GPU hoặc node AI: Đây là yêu cầu bắt buộc khi huấn luyện các mô hình lớn trên nhiều GPU hoặc nhiều máy chủ.
Giảm độ trễ (latency) đáng kể do bỏ qua CPU và kernel, giúp tốc độ truyền tải gần như đạt mức lý tưởng của phần cứng.
Hiệu suất cao hơn đáng kể so với TCP/IP truyền thống, đặc biệt khi kết hợp với các công nghệ như RoCEv2.

Phân tích hình ảnh minh họa
Các thành phần chính:
Hai hệ thống, mỗi bên có:
CPU
GPU
Bộ nhớ hệ thống (System Memory)
Bộ nhớ GPU (GPU Memory)
NIC (Network Interface Card) hỗ trợ RDMA
Quy trình truyền dữ liệu:
Dữ liệu không đi qua CPU hay kernel.
GPU bên trái có thể truy cập trực tiếp GPU Memory bên phải thông qua:
RDMA NIC
Giao thức RoCEv2 (RDMA over Converged Ethernet version 2)
Kết nối PCIe nội bộ, và Ethernet giữa các máy chủ.
Công nghệ đi kèm:
RoCEv2 yêu cầu:
Mạng Ethernet lossless (không mất gói): thông qua ECN (Explicit Congestion Notification) và PFC (Priority Flow Control)
Non-blocking fabric: đảm bảo không bị tắc nghẽn mạng giữa các node AI.
Ví dụ thực tế trong AI
Huấn luyện mô hình lớn như GPT hoặc Llama:
Khi cần truyền tensor giữa 8 GPU hoặc giữa nhiều máy chủ, RDMA giúp:
Tránh nghẽn cổ chai tại CPU
Tăng throughput (băng thông xử lý)
Giảm thời gian huấn luyện tổng thể
RDMA là thành phần hạ tầng không thể thiếu trong các trung tâm dữ liệu AI hiện đại.
Việc hiểu và triển khai đúng RDMA sẽ giúp:
Tối ưu hóa chi phí phần cứng (ít CPU hơn)
Đáp ứng được nhu cầu AI thế hệ mới như GenAI, LLM, Deep Learning