Trong hạ tầng AI/ML hiện nay, bốn công nghệ mạng đang được sử dụng phổ biến là: InfiniBand, Standard Ethernet, Enhanced Ethernet, và Scheduled Ethernet. Mỗi công nghệ có lịch sử phát triển riêng, phù hợp với từng use case, đồng thời mang ưu – nhược điểm riêng.
Điểm chung là: hiệu năng AI/ML thường bị giới hạn bởi năng lực mạng hơn là tính toán GPU. Do đó, việc tối ưu fabric trở thành yếu tố then chốt giúp giảm Job Completion Time (JCT) – thước đo tổng thời gian để một job AI hoàn tất, bao gồm tính toán, phân phối dữ liệu, và đồng bộ hóa giữa các GPU.
1. Các công nghệ Ethernet trong AI/ML
-
Scheduled Ethernet:
Sử dụng cơ chế spray and reorder – chia nhỏ packet và rải đều qua tất cả các link, sau đó reorder ở phía egress. Kỹ thuật này giúp đạt multipathing tối ưu, load balancing hạt mịn, không phụ thuộc traffic. Đây là công nghệ có hiệu năng cao nhất cho AI/ML.
2. Cisco Silicon One – Hợp Nhất Fabric
Cisco Silicon One là một ASIC đa năng cho phép:
Điều quan trọng: kiến trúc programmable của Silicon One cho phép bạn tiến hóa mạng dần dần – từ Standard Ethernet sang Scheduled Ethernet – mà không cần thay đổi toàn bộ hạ tầng trong một lần.
VOQ đóng vai trò cực kỳ quan trọng vì nó cho phép xử lý tắc nghẽn ngay tại ingress, thay vì để dồn áp lực sang nhiều điểm khác trong fabric.
3. So sánh nhanh Standard Ethernet vs Scheduled Ethernet
4. Migration từ InfiniBand sang Ethernet
Không cần thay toàn bộ mạng ngay lập tức. Bạn có thể:
Điều này bảo vệ đầu tư Ethernet hiện tại, đồng thời mở đường cho hiệu năng gần tương đương InfiniBand.
Content Review Question
Câu hỏi ôn tập: Công nghệ InfiniBand sử dụng phương thức flow control nào?
Đáp án đúng: credit-based.