Trong các hệ thống AI/ML hiện đại, tốc độ huấn luyện mô hình không chỉ phụ thuộc vào số lượng GPU hay dung lượng lưu trữ, mà còn bị chi phối mạnh bởi hạ tầng mạng. Một mạng được thiết kế không hợp lý có thể trở thành “nút thắt cổ chai”, kéo dài thời gian hoàn thành job AI/ML và gây lãng phí tài nguyên GPU.
Để giải quyết bài toán này, một trong những nguyên tắc quan trọng nhất là xây dựng nonblocking fabric – nghĩa là băng thông uplink và downlink phải cân bằng, không xảy ra oversubscription.
Kiến trúc Spine–Leaf cho AI/ML Cluster
Trong ví dụ minh họa, ta có một cluster với 1024 GPU, phân bố thành 128 server, mỗi server chứa 8 GPU và được kết nối dual-homed tới 2 leaf switch để dự phòng.
Kết quả: mạng đạt độ trễ chỉ ~4.5 µs end-to-end, phù hợp với yêu cầu latency-sensitive của các workload AI/ML.
Khả năng mở rộng
Mạng có thể scale thêm theo nhiều hướng:
Vấn đề Congestion và Lossless Ethernet
Ngay cả khi nonblocking, congestion vẫn có thể xuất hiện, ví dụ khi nhiều server cùng gửi dữ liệu về một server duy nhất. Do đó:
Lựa chọn Cisco Silicon One
Một điểm quan trọng là ASIC – trái tim của switch:
Điều này lý giải vì sao trong môi trường AI/ML ở hyperscale, Nexus 9800 Series thường được chọn làm spine cho những mạng cực lớn.
TÓM TẮT BÀI
Một AI/ML-ready network không chỉ là việc mua switch tốc độ cao, mà là thiết kế nonblocking, tính toán uplink/downlink cân đối, triển khai lossless Ethernet và chọn đúng ASIC.
Cisco Nexus 93600 (Leaf) + 9332D (Spine) là một combo hợp lý cho cụm AI/ML trung bình. Khi scale lên quy mô hyperscale, Cisco Nexus 9800 Series với Silicon One ASIC là lựa chọn cao cấp.