Estás en una entrevista de ML Engineer en Netflix. El entrevistador pregunta: "Has entrenado un nuevo modelo de recomendación. ¿Cómo te aseguras de que esté listo para reemplazar al anterior?" Respondes: "Compararé las métricas de validación y conjuntos de prueba". Entrevista terminada. Esto es lo que te perdiste: El problema es que, a pesar de probar rigurosamente un modelo de ML localmente (en conjuntos de validación y prueba), podría ser una idea terrible reemplazar instantáneamente el modelo anterior con el nuevo modelo. Esto se debe a que es difícil replicar el entorno y las condiciones de producción exactos localmente, y justificar el éxito con precisiones val/test. Una estrategia más confiable es probar el modelo en producción (sí, con datos entrantes del mundo real). Si bien esto puede parecer arriesgado, los equipos de ML lo hacen todo el tiempo, y no es tan complicado. Nota: > Modelo heredado: el modelo existente. > Modelo candidato: el nuevo modelo. Aquí hay cuatro formas comunes de hacerlo: 1️⃣ Pruebas A / B ...