là phương pháp học máy sử dụng dữ liệu đã gán nhãn (labeled data) để dự đoán xu hướng trong tương lai.
Tình huống minh họa:
Bài toán: Dự đoán một email có phải là spam không.
Dữ liệu gồm các email có các thông tin như người gửi/nhận (To/From), tiêu đề (Subject), và nội dung (Content).
Mỗi email đã được gắn nhãn là “Spam” (màu xanh dương) hoặc “Không phải Spam” (màu vàng).
Mô hình sẽ học từ các email đã gắn nhãn này để nhận diện các email mới trong tương lai.
Ghi chú: Dữ liệu có gán nhãn nghĩa là mỗi mẫu dữ liệu đã được gắn đúng kết quả đầu ra (ví dụ như "spam" hay "not spam").
Ví dụ minh họa dễ hiểu:
Giống như bạn dạy cho máy biết rằng nếu email có từ khóa “Miễn phí 100%” và đến từ địa chỉ lạ thì có thể là spam. Sau đó, máy sẽ học và áp dụng kiến thức đó để phân loại các email mới.