Unsupervised Learning (Học không giám sát) trong Machine Learning
16-07-2025
Là phương pháp học từ dữ liệu không có nhãn (unlabeled data), tức là dữ liệu không có phân loại sẵn hay kết quả đầu ra cụ thể.
Mục tiêu là tìm các mẫu (patterns) hoặc cấu trúc tiềm ẩn trong dữ liệu.
Ví dụ minh họa:
Một tình huống thực tế: dự đoán xem nhân viên có phải là người làm việc xuất sắc hay không.
Dữ liệu gồm các điểm (vòng tròn xanh lá) biểu diễn thông tin nhân viên, như mức lương và số năm làm việc.
Thuật toán clustering (phân cụm) chia dữ liệu thành Cluster 1 (người hiệu suất cao) và Cluster 2 (người hiệu suất thấp) mà không cần biết trước ai là ai.
Ứng dụng phổ biến của học không giám sát:
Phân loại người dùng (user segmentation)
Phát hiện bất thường (anomaly detection)
Phân tích hình ảnh/video.
Ghi chú: Dữ liệu không có nhãn nghĩa là không có sẵn thông tin phân loại như “tốt” hay “xấu”, “cao” hay “thấp”.