Algunos puntos que destacaron en la discusión en el pasillo con @JeffDean sobre el aprendizaje continuo: 1. El ajuste fino de RL/con las preferencias del usuario en el despliegue podría ser peligroso ya que no podemos controlar el comportamiento del agente. 2. Necesitamos nuevos paradigmas hacia adelante para el preentrenamiento que permitan el aprendizaje continuo agentivo. 3. Sin embargo, Google no está viendo la ralentización de la actual ley de escalado de preentrenamiento. Todos los puntos anteriores no son mutuamente excluyentes. Necesitamos más discusiones técnicas sobre el terreno que pasar por alto los titulares.