Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -

Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -

Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -

Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -

Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -
Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? -
(028) 35124257 - 0933 427 079

Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào?

05-09-2025

Trong hạ tầng mạng phục vụ AI/ML, đặc biệt là khi triển khai RDMA over Converged Ethernet v2 (RoCEv2), yêu cầu then chốt là độ trễ cực thấp, thông lượng cực cao, và không để mất gói tin. Chỉ cần một gói bị drop trong quá trình huấn luyện AI, toàn bộ job có thể bị chậm hàng phút, thậm chí hàng giờ.

Để đạt được “lossless fabric”, Cisco Nexus 9000 Series Switches cung cấp bộ công cụ mạnh mẽ: Explicit Congestion Notification (ECN) và Priority Flow Control (PFC).
ECN – Điều tiết sớm, ngăn tắc nghẽn
  • ECN hoạt động như “hệ thống cảnh báo sớm”.
  • Khi switch phát hiện mức độ sử dụng buffer tăng lên (nhưng chưa tới mức nguy hiểm), nó sẽ đánh dấu gói tin bằng bit ECN thay vì drop.
  • Endpoint (GPU server/NIC) nhận được tín hiệu này sẽ giảm tốc độ truyền, giúp dòng lưu lượng ổn định trở lại.
PFC – Van an toàn khi bùng nổ
  • Trong trường hợp microburst hoặc tắc nghẽn nghiêm trọng khiến buffer bị lấp đầy nhanh chóng, ECN không còn đủ nhanh để phản ứng.
  • Lúc này PFC phát huy vai trò: nó gửi tín hiệu pause frame trên từng lớp ưu tiên (per-priority), tạm thời dừng luồng lưu lượng đang gây nghẽn, ngăn chặn hiện tượng drop.
DCQCN – Sức mạnh của sự kết hợp
Trong thực tế, ECN và PFC thường được triển khai cùng nhau. Sự kết hợp này gọi là Data Center Quantized Congestion Notification (DCQCN) – cơ chế tối ưu cho RoCEv2:
  • Khi tắc nghẽn nhẹ: ECN với WRED xử lý êm ái, không gián đoạn.
  • Khi tắc nghẽn nặng: PFC can thiệp như “van an toàn”, bảo vệ lossless fabric.
Điểm quan trọng: ECN và PFC phải được cấu hình end-to-end trên toàn bộ fabric data center, từ spine đến leaf, để đảm bảo tính nhất quán.
✅ Hai phát biểu đúng cần nhớ:
  • Nên cấu hình cả ECN và PFC trên cùng một mạng.
  • ECN và PFC phải được triển khai xuyên suốt (end-to-end) trong toàn bộ data center network.
 
<br />  





	











			
<div class=
FORM ĐĂNG KÝ MUA HÀNG
Đặt hàng
icon-cart
0