Estás en una entrevista para Ingeniero de ML en Netflix. El entrevistador pregunta: "Has entrenado un nuevo modelo de recomendación. ¿Cómo te aseguras de que esté listo para reemplazar al antiguo?" Respondes: "Compararé métricas en los conjuntos de validación y prueba." Entrevista terminada. Aquí está lo que te perdiste: El problema es que, a pesar de probar rigurosamente un modelo de ML localmente (en los conjuntos de validación y prueba), podría ser una idea terrible reemplazar instantáneamente el modelo anterior con el nuevo modelo. Esto se debe a que es difícil replicar el entorno y las condiciones de producción exactas localmente, y justificar el éxito con las precisiones de val/prueba. Una estrategia más confiable es probar el modelo en producción (sí, con datos reales entrantes). Aunque esto pueda sonar arriesgado, los equipos de ML lo hacen todo el tiempo, y no es tan complicado. Nota: > Modelo legado: El modelo existente. > Modelo candidato: El nuevo modelo. Aquí hay cuatro formas comunes de hacerlo: 1️⃣ Pruebas A/B ...