Xây dựng mạng 100 Gbps cho AI/ML: Thiết kế Nonblocking với Cisco Nexus -

Trong các hệ thống AI/ML hiện đại, tốc độ huấn luyện mô hình không chỉ phụ thuộc vào số lượng GPU hay dung lượng lưu trữ, mà còn bị chi phối mạnh bởi hạ tầng mạng. Một mạng được thiết kế không hợp lý có thể trở thành “nút thắt cổ chai”, kéo dài thời gian hoàn thành job AI/ML và gây lãng phí tài nguyên GPU.

Để giải quyết bài toán này, một trong những nguyên tắc quan trọng nhất là xây dựng nonblocking fabric – nghĩa là băng thông uplink và downlink phải cân bằng, không xảy ra oversubscription.

Kiến trúc Spine–Leaf cho AI/ML Cluster

Trong ví dụ minh họa, ta có một cluster với 1024 GPU, phân bố thành 128 server, mỗi server chứa 8 GPU và được kết nối dual-homed tới 2 leaf switch để dự phòng.

Access layer (Leaf):

Spine layer:

- Mỗi server dùng 2 cổng 100 Gbps → tổng cộng cần 256 port 100 Gbps.
- Cisco Nexus 93600CD-GX đáp ứng tốt vai trò leaf với 28 port 100 Gbps và 8 uplink 400 Gbps.
- Cấu hình này đảm bảo nonblocking: tổng băng thông uplink luôn bằng băng thông server-facing.
- Để gom toàn bộ traffic từ leaf, ta cần 80 port 400 Gbps.
- Cisco Nexus 9332D-GX2B spine switch cung cấp 32 port 400 Gbps → đủ để thiết kế 4 spine switch, vừa đảm bảo resiliency vừa mở rộng dễ dàng.

Kết quả: mạng đạt độ trễ chỉ ~4.5 µs end-to-end, phù hợp với yêu cầu latency-sensitive của các workload AI/ML.

Khả năng mở rộng

Mạng có thể scale thêm theo nhiều hướng:

Thêm leaf switch để tăng số lượng server.

Nâng spine bằng Cisco Nexus 9364D-GX2A với 64 port 400 Gbps.

Xây dựng kiến trúc 3-tier super-spine khi cần liên kết nhiều fabric nonblocking.

Vấn đề Congestion và Lossless Ethernet

Ngay cả khi nonblocking, congestion vẫn có thể xuất hiện, ví dụ khi nhiều server cùng gửi dữ liệu về một server duy nhất. Do đó:

ECN (Explicit Congestion Notification) và PFC (Priority Flow Control) vẫn cần triển khai để đảm bảo lossless Ethernet fabric.

RoCEv2 transport kết hợp WRED ECN sẽ duy trì độ trễ thấp và hiệu năng ổn định.

Lựa chọn Cisco Silicon One

Một điểm quan trọng là ASIC – trái tim của switch:

Cisco Nexus 9200 và 9800 Series dùng Cisco Silicon One, tối ưu cho băng thông cực lớn, độ trễ cực thấp và khả năng scale AI/ML fabric.

Các dòng 9300, 9400, 9500 thì dựa trên Cloud Scale ASIC, vẫn mạnh nhưng không phải Silicon One.

Điều này lý giải vì sao trong môi trường AI/ML ở hyperscale, Nexus 9800 Series thường được chọn làm spine cho những mạng cực lớn.

TÓM TẮT BÀI

Một AI/ML-ready network không chỉ là việc mua switch tốc độ cao, mà là thiết kế nonblocking, tính toán uplink/downlink cân đối, triển khai lossless Ethernet và chọn đúng ASIC.

Cisco Nexus 93600 (Leaf) + 9332D (Spine) là một combo hợp lý cho cụm AI/ML trung bình. Khi scale lên quy mô hyperscale, Cisco Nexus 9800 Series với Silicon One ASIC là lựa chọn cao cấp.

Thông tin khác

» Quản Lý Nghẽn Nâng Cao với AFD trên mạng RoCE (05.09.2025)
» Lossless Ethernet Fabric cho RoCEv2: ECN và PFC phối hợp như thế nào? (05.09.2025)
» Data Center Bridging Exchange (DCBX) – Hiểu đơn giản và dễ nhớ (05.09.2025)
» Dynamic Packet Prioritization (DPP) – “Chiêu thức” mới giúp mạng Data Center luôn mượt mà (05.09.2025)
» AFD với ETRAP – Công bằng băng thông trong mạng Data Center hiện đại (05.09.2025)
» Cisco Nexus 9000 và Quản lý Bộ Đệm Thông Minh – Tại sao không chỉ “càng to càng tốt”? (05.09.2025)
» Hiểu về Enhanced Transmission Selection (ETS) trong mạng Data Center (05.09.2025)
» Giới thiệu chương kế tiếp - Lịch trình đăng bài: Lossless Fabric cho AI/ML (05.09.2025)