Algunos puntos que destacaron de la discusión en el pasillo con @JeffDean sobre el aprendizaje continuo: 1. El RL/ajuste fino con las preferencias del usuario en el despliegue podría ser peligroso ya que no podemos controlar el comportamiento del agente. 2. Necesitamos nuevos paradigmas hacia adelante para el preentrenamiento que permitan el aprendizaje continuo agente. 3. Google no está viendo la desaceleración de la actual ley de escalado de preentrenamiento, sin embargo. Todos los puntos anteriores no son mutuamente excluyentes. Necesitamos más discusiones técnicas en el terreno que simplemente pasar por encima de los titulares.