Cisco Silicon One và Tương Lai của AI/ML Networking -

Trong hạ tầng AI/ML hiện nay, bốn công nghệ mạng đang được sử dụng phổ biến là: InfiniBand, Standard Ethernet, Enhanced Ethernet, và Scheduled Ethernet. Mỗi công nghệ có lịch sử phát triển riêng, phù hợp với từng use case, đồng thời mang ưu – nhược điểm riêng.

Điểm chung là: hiệu năng AI/ML thường bị giới hạn bởi năng lực mạng hơn là tính toán GPU. Do đó, việc tối ưu fabric trở thành yếu tố then chốt giúp giảm Job Completion Time (JCT) – thước đo tổng thời gian để một job AI hoàn tất, bao gồm tính toán, phân phối dữ liệu, và đồng bộ hóa giữa các GPU.

1. Các công nghệ Ethernet trong AI/ML

Standard Ethernet:
Dựa trên ECMP (Equal-Cost Multi-Path) với cơ chế hash stateless. Kết quả load balancing phụ thuộc rất nhiều vào đặc điểm traffic. Dùng tốt trong general-purpose networking, nhưng không tối ưu cho AI/ML do không khai thác triệt để tất cả đường đi.

Enhanced Ethernet:
Thêm telemetry + stateful processing để dịch chuyển flow sang link ít tắc nghẽn hơn. Cải thiện hiệu năng so với Standard Ethernet, nhưng vẫn phụ thuộc vào traffic pattern.

Scheduled Ethernet:
Sử dụng cơ chế spray and reorder – chia nhỏ packet và rải đều qua tất cả các link, sau đó reorder ở phía egress. Kỹ thuật này giúp đạt multipathing tối ưu, load balancing hạt mịn, không phụ thuộc traffic. Đây là công nghệ có hiệu năng cao nhất cho AI/ML.

2. Cisco Silicon One – Hợp Nhất Fabric

Cisco Silicon One là một ASIC đa năng cho phép:

Hoạt động như router/switch truyền thống với Standard Ethernet (ECMP).

Chuyển đổi thành fully scheduled fabric với ingress Virtual Output Queueing (VOQ) để tạo nên một thực thể mạng phân tán như một router/switch duy nhất.

Điều quan trọng: kiến trúc programmable của Silicon One cho phép bạn tiến hóa mạng dần dần – từ Standard Ethernet sang Scheduled Ethernet – mà không cần thay đổi toàn bộ hạ tầng trong một lần.

VOQ đóng vai trò cực kỳ quan trọng vì nó cho phép xử lý tắc nghẽn ngay tại ingress, thay vì để dồn áp lực sang nhiều điểm khác trong fabric.

3. So sánh nhanh Standard Ethernet vs Scheduled Ethernet

Phân phối: ECMP hash vs Spray-and-Reorder

Mức tận dụng link: thấp vs cao

Giới hạn flow: dựa trên port leaf & spine vs chỉ leaf

Cơ chế hàng đợi: queue per element vs ingress VOQ

Điểm drop: nhiều (ingress leaf, spine, egress) vs chỉ ingress leaf

Góc nhìn mạng: nhiều router/switch riêng biệt vs một thực thể duy nhất

Độ phức tạp NOS: loose coupling vs tight coupling

4. Migration từ InfiniBand sang Ethernet

Không cần thay toàn bộ mạng ngay lập tức. Bạn có thể:

Sử dụng RoCE (RDMA over Converged Ethernet) để tận dụng hạ tầng Ethernet sẵn có.

Kích hoạt tính năng lossless như PFC (Priority Flow Control) và ECN (Explicit Congestion Notification).

Triển khai dần từng “đảo” Ethernet AI/ML fabric trong data center.

Điều này bảo vệ đầu tư Ethernet hiện tại, đồng thời mở đường cho hiệu năng gần tương đương InfiniBand.

Content Review Question
Câu hỏi ôn tập: Công nghệ InfiniBand sử dụng phương thức flow control nào?

credit-based

PFC và ECN

Đáp án đúng: credit-based.

Thông tin khác

» Quản Lý Nghẽn Nâng Cao với AFD trên mạng RoCE (05.09.2025)
» Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? (05.09.2025)
» Data Center Bridging Exchange (DCBX) – Hiểu đơn giản và dễ nhớ (05.09.2025)
» Dynamic Packet Prioritization (DPP) – “Chiêu thức” mới giúp mạng Data Center luôn mượt mà (05.09.2025)
» AFD với ETRAP – Công bằng băng thông trong mạng Data Center hiện đại (05.09.2025)
» Cisco Nexus 9000 và Quản lý Bộ Đệm Thông Minh – Tại sao không chỉ “càng to càng tốt”? (05.09.2025)
» Hiểu về Enhanced Transmission Selection (ETS) trong mạng Data Center (05.09.2025)
» Giới thiệu chương kế tiếp - Lịch trình đăng bài: Lossless Fabric cho AI/ML (05.09.2025)