Bạn đang tham gia phỏng vấn Kỹ sư ML tại Stripe. Người phỏng vấn hỏi: "Mọi người thường tranh chấp các giao dịch mà họ thực sự đã thực hiện. Làm thế nào để xây dựng một mô hình có giám sát dự đoán các tranh chấp giả mạo? Không có dữ liệu được gán nhãn." Bạn: "Tôi sẽ đánh dấu các thẻ có tỷ lệ tranh chấp cao." Phỏng vấn kết thúc. Đây là những gì bạn đã bỏ lỡ: Học chủ động là một cách tương đối dễ dàng và tiết kiệm chi phí để xây dựng các mô hình có giám sát khi bạn không có dữ liệu được chú thích để bắt đầu. Như tên gọi đã gợi ý, ý tưởng là xây dựng mô hình với phản hồi của con người về các ví dụ mà nó đang gặp khó khăn. Hình ảnh dưới đây tóm tắt điều này. 1) Bắt đầu bằng cách gán nhãn thủ công một tỷ lệ nhỏ của dữ liệu của bạn. 2) Xây dựng một mô hình trên tập dữ liệu nhỏ đã được gán nhãn này. Đây sẽ không phải là một mô hình tốt, nhưng điều đó không sao cả. 3) Tiếp theo, tạo ra các dự đoán trên tập dữ liệu mà bạn chưa gán nhãn. Vì tập dữ liệu không có nhãn, chúng ta không thể xác định xem các dự đoán này có đúng hay không. ...