Trong các cụm AI/ML cluster sử dụng RoCEv2, yêu cầu về hiệu suất cực cao, độ trễ thấp, và vận hành không mất gói (lossless Ethernet) là điều bắt buộc.
Thông thường, các cơ chế ECN (Explicit Congestion Notification) và PFC (Priority Flow Control) được kết hợp để đảm bảo tính lossless. Tuy nhiên, Cisco Nexus 9000 còn hỗ trợ một lớp quản lý nghẽn nâng cao hơn – AFD (Approximate Fair Dropping) – cho phép phân biệt chính xác giữa luồng “voi” (elephant flows) băng thông lớn, kéo dài và luồng “chuột” (mice flows) ngắn hạn, ít băng thông.
AFD + ECN: Tinh chỉnh QoS mà không cần drop gói
Thông thường, AFD có thể hoạt động tương tự WRED (Weighted Random Early Detection) bằng cách drop sớm một số gói từ luồng elephant để báo hiệu tắc nghẽn. Nhưng với RoCE – nơi việc mất gói có thể làm training AI chậm lại đáng kể – chúng ta ưu tiên ECN thay cho việc drop gói:
Kết quả:
Băng thông được phân bổ công bằng.
Hạn chế nghẽn mạng mà không làm chậm luồng chuột.
Độ trễ thấp hơn, hệ thống AI/ML chạy hiệu quả hơn.
Ưu điểm AFD so với WRED
Trong môi trường AI cluster, điều này rất quan trọng vì phần lớn lưu lượng điều khiển và đồng bộ hóa GPU thường là các mice flows. Nếu bị chậm, toàn bộ tiến trình huấn luyện có thể bị ảnh hưởng.
Liên hệ thực tế: Xây dựng Lossless Fabric cho AI
Khi triển khai lossless Ethernet cho RoCEv2, bạn nên:
Cách tiếp cận này giúp các AI training jobs hoàn tất nhanh hơn, hạ tầng được sử dụng hiệu quả hơn, và hệ thống vẫn duy trì được tính lossless.
Câu hỏi gợi mở cho bạn
-
Bạn có thể áp dụng QoS (AFD, ECN, PFC, ETS, DCBX) thế nào trong mạng hiện tại để ưu tiên các ứng dụng quan trọng?