Vous êtes dans un entretien pour un poste d'ingénieur ML chez Stripe. L'intervieweur demande : "Les gens contestent souvent des transactions qu'ils ont réellement effectuées. Comment construire un modèle supervisé qui prédit les fausses contestations ? Il n'y a pas de données étiquetées." Vous : "Je vais signaler les cartes avec des taux de contestation élevés." Entretien terminé. Voici ce que vous avez manqué : L'apprentissage actif est un moyen relativement facile et peu coûteux de construire des modèles supervisés lorsque vous n'avez pas de données annotées pour commencer. Comme son nom l'indique, l'idée est de construire le modèle avec des retours humains actifs sur des exemples avec lesquels il a des difficultés. Le visuel ci-dessous résume cela. 1) Commencez par étiqueter manuellement un petit pourcentage de vos données. 2) Construisez un modèle sur ce petit ensemble de données étiquetées. Ce ne sera pas un bon modèle, mais ce n'est pas grave. 3) Ensuite, générez des prédictions sur l'ensemble de données que vous n'avez pas étiqueté. Puisque l'ensemble de données est non étiqueté, nous ne pouvons pas déterminer si ces prédictions sont correctes. ...