Du bist in einem Vorstellungsgespräch für einen ML Engineer bei Stripe. Der Interviewer fragt: "Die Leute bestreiten oft Transaktionen, die sie tatsächlich getätigt haben. Wie baut man ein überwachtes Modell, das gefälschte Streitigkeiten vorhersagt? Es gibt keine gekennzeichneten Daten." Du: "Ich werde Karten mit hohen Streitigkeitsraten kennzeichnen." Interview vorbei. Hier ist, was du verpasst hast: Aktives Lernen ist eine relativ einfache und kostengünstige Möglichkeit, überwachtes Lernen aufzubauen, wenn du keine annotierten Daten hast, um zu beginnen. Wie der Name schon sagt, besteht die Idee darin, das Modell mit aktivem menschlichem Feedback zu Beispielen zu erstellen, mit denen es Schwierigkeiten hat. Die folgende Visualisierung fasst dies zusammen. 1) Beginne damit, einen winzigen Prozentsatz deiner Daten manuell zu kennzeichnen. 2) Baue ein Modell auf diesem kleinen gekennzeichneten Datensatz. Das wird kein gutes Modell sein, aber das ist in Ordnung. 3) Generiere als Nächstes Vorhersagen für den Datensatz, den du nicht gekennzeichnet hast. Da der Datensatz nicht gekennzeichnet ist, können wir nicht bestimmen, ob diese Vorhersagen korrekt sind. ...