Trong hạ tầng mạng phục vụ AI/ML, đặc biệt là khi triển khai RDMA over Converged Ethernet v2 (RoCEv2), yêu cầu then chốt là độ trễ cực thấp, thông lượng cực cao, và không để mất gói tin. Chỉ cần một gói bị drop trong quá trình huấn luyện AI, toàn bộ job có thể bị chậm hàng phút, thậm chí hàng giờ.
Để đạt được “lossless fabric”, Cisco Nexus 9000 Series Switches cung cấp bộ công cụ mạnh mẽ: Explicit Congestion Notification (ECN) và Priority Flow Control (PFC).
ECN – Điều tiết sớm, ngăn tắc nghẽn
PFC – Van an toàn khi bùng nổ
DCQCN – Sức mạnh của sự kết hợp
Trong thực tế, ECN và PFC thường được triển khai cùng nhau. Sự kết hợp này gọi là Data Center Quantized Congestion Notification (DCQCN) – cơ chế tối ưu cho RoCEv2:
Điểm quan trọng: ECN và PFC phải được cấu hình end-to-end trên toàn bộ fabric data center, từ spine đến leaf, để đảm bảo tính nhất quán.
Hai phát biểu đúng cần nhớ: