Giải thích về RDMA – Remote Direct Memory Access -

1. RDMA là gì?
RDMA là kỹ thuật cho phép một máy tính truy cập trực tiếp vào vùng nhớ của một máy tính khác thông qua mạng, mà không cần sự can thiệp của CPU hoặc hệ điều hành trên cả hai phía.

2. Lợi ích trong hệ thống AI/ML

Tăng tốc truyền dữ liệu giữa các GPU hoặc node AI: Đây là yêu cầu bắt buộc khi huấn luyện các mô hình lớn trên nhiều GPU hoặc nhiều máy chủ.
Giảm độ trễ (latency) đáng kể do bỏ qua CPU và kernel, giúp tốc độ truyền tải gần như đạt mức lý tưởng của phần cứng.
Hiệu suất cao hơn đáng kể so với TCP/IP truyền thống, đặc biệt khi kết hợp với các công nghệ như RoCEv2.

Phân tích hình ảnh minh họa

Các thành phần chính:
Hai hệ thống, mỗi bên có:

CPU
GPU
Bộ nhớ hệ thống (System Memory)
Bộ nhớ GPU (GPU Memory)
NIC (Network Interface Card) hỗ trợ RDMA

Quy trình truyền dữ liệu:

Dữ liệu không đi qua CPU hay kernel.
GPU bên trái có thể truy cập trực tiếp GPU Memory bên phải thông qua:
- RDMA NIC
- Giao thức RoCEv2 (RDMA over Converged Ethernet version 2)
- Kết nối PCIe nội bộ, và Ethernet giữa các máy chủ.

Công nghệ đi kèm:
RoCEv2 yêu cầu:

Mạng Ethernet lossless (không mất gói): thông qua ECN (Explicit Congestion Notification) và PFC (Priority Flow Control)
Non-blocking fabric: đảm bảo không bị tắc nghẽn mạng giữa các node AI.

Ví dụ thực tế trong AI
Huấn luyện mô hình lớn như GPT hoặc Llama:
Khi cần truyền tensor giữa 8 GPU hoặc giữa nhiều máy chủ, RDMA giúp:

Tránh nghẽn cổ chai tại CPU
Tăng throughput (băng thông xử lý)
Giảm thời gian huấn luyện tổng thể

RDMA là thành phần hạ tầng không thể thiếu trong các trung tâm dữ liệu AI hiện đại.
Việc hiểu và triển khai đúng RDMA sẽ giúp:

Tối ưu hóa chi phí phần cứng (ít CPU hơn)
Đáp ứng được nhu cầu AI thế hệ mới như GenAI, LLM, Deep Learning

Thông tin khác

» Ứng dụng RAG (Retrieval-Augmented Generation) với Splunk trong Phân tích và Cá nhân hóa Dữ liệu Khách hàng (12.07.2025)
» Intrusion Prevention System (IPS) – Tuyến phòng thủ chủ động trong mạng hiện đại (10.07.2025)
» SOC là gì? Cảnh sát mạng và thám tử số trong chiến tuyến bảo vệ doanh nghiệp (10.07.2025)
» Cơ chế dự phòng nguồn (Power Redundancy) (10.07.2025)
» Software Defined Networking (SDN) Là Gì? (10.07.2025)
» Công nghệ EVE của Cisco Talos – Khi TLS không còn là vỏ bọc an toàn (10.07.2025)
» Next-Generation Firewall (NGFW): Tường lửa thế hệ kế tiếp. (09.07.2025)
» Cisco ISE và Kiến Trúc Zero Trust Cho Doanh Nghiệp Nội Bộ: "SEE IT - SECURE IT - SHARE IT" (09.07.2025)