Khi nói đến AI hay Machine Learning (ML), nhiều anh em kỹ thuật dễ bị “choáng” bởi những từ ngữ như mô hình học, thuật toán, feature, normalize... Nhưng thực ra, nếu nhìn từ góc độ hạ tầng và hệ thống, một pipeline ML chỉ giống như một hệ thống xử lý dữ liệu có logic rõ ràng.
Hãy cùng VnPro “mổ xẻ” và phân tích sơ đồ sau để hiểu từng bước:
1. Data Ingest – Thu thập Dữ liệu
Nguồn dữ liệu trong môi trường IT hiện đại rất đa dạng:
Endpoint: dữ liệu từ máy trạm, thiết bị người dùng
Network: log từ switch/router/firewall
Email: nội dung email, header, metadata
Cloud: dữ liệu từ hệ thống đám mây như AWS, Azure
Identity: thông tin đăng nhập, xác thực
Firewall: log an ninh mạng, rule match
Dữ liệu thô được thu thập và đưa vào hệ thống.
2. Pre-process / Normalize – Tiền xử lý và Chuẩn hóa
Trước khi dữ liệu có thể dùng để huấn luyện, nó cần được:
Làm sạch (loại bỏ dữ liệu sai, thiếu)
Chuẩn hóa (biến đổi giá trị về cùng thang đo)
Mã hóa (ví dụ: chuyển “đúng/sai” thành 1/0)
Ví dụ: Email spam detection sẽ chuyển nội dung thành số, mã hóa domain, độ dài tiêu đề v.v.
3. Extract Features – Trích xuất Đặc trưng
Từ dữ liệu đã chuẩn hóa, hệ thống sẽ rút ra những yếu tố có ý nghĩa để đưa vào mô hình học.
Với dữ liệu mạng, các đặc trưng có thể là:
Tần suất truy cập IP
Kích thước gói tin
Loại giao thức (TCP/UDP)
4. Develop / Train Models – Huấn luyện Mô hình
Đây là bước dùng các thuật toán học máy (Machine Learning) như:
Decision Tree
Random Forest
Neural Network
SVM
Huấn luyện nghĩa là cho mô hình học từ dữ liệu mẫu (đã gán nhãn), để biết cách phân biệt giữa các trường hợp (ví dụ: truy cập bình thường vs. tấn công mạng).
5. Validate Model – Kiểm tra Mô hình
Trước khi đưa mô hình ra sử dụng thật, cần kiểm tra nó với tập dữ liệu riêng biệt (test set). Việc này đảm bảo mô hình:
Không học nhầm (overfitting)
Đạt độ chính xác đủ cao
Ví dụ: Nếu mô hình phát hiện tấn công mạng nhưng cảnh báo sai đến 80%, thì cần tinh chỉnh lại.
6. Predictive Model – Mô hình Dự đoán
Sau khi xác thực thành công, mô hình sẵn sàng để dự đoán dữ liệu thật. Ở giai đoạn này:
Dữ liệu mới sẽ được xử lý qua pipeline
Mô hình sẽ gán nhãn, ví dụ: "spam" hoặc "not spam", "malware" hoặc "clean"
Dữ liệu đầu vào có thể đến từ hệ thống giám sát thời gian thực.
7. Enforce – Áp dụng / Thực thi
Cuối cùng, kết quả dự đoán sẽ được dùng để:
Chặn một phiên kết nối nguy hiểm
Cảnh báo người dùng
Kích hoạt quy trình tự động (SOAR)
Ví dụ: Mô hình phát hiện thiết bị IoT bị tấn công → hệ thống tự cô lập IP đó ra khỏi mạng.
Kết luận cho anh em kỹ thuật
Anh em có thể thấy rằng Machine Learning không quá xa vời. Nó chỉ là một pipeline xử lý dữ liệu – rất giống mô hình ETL (Extract – Transform – Load) mà nhiều anh em từng làm.
Hãy nhớ:
Dữ liệu là cốt lõi
Làm sạch và chọn đặc trưng tốt hơn sẽ giúp mô hình thông minh hơn
ML không thay thế anh em, mà là trợ thủ để phát hiện nhanh hơn, chính xác hơn trong môi trường phức tạp
Gợi ý ứng dụng trong thực tế:
Phát hiện truy cập bất thường trong SOC
Dự báo tấn công ransomware
Tự động phân loại email và sự kiện bảo mật