Kilka punktów, które wyróżniły się w rozmowie na korytarzu z @JeffDean na temat ciągłego uczenia się: 1. RL/Fine-tuning z preferencjami użytkowników podczas wdrażania może być niebezpieczne, ponieważ nie możemy kontrolować zachowania agenta. 2. Potrzebujemy nowych paradygmatów w kierunku pretrainingu, aby umożliwić agentowe ciągłe uczenie się. 3. Google nie zauważa spowolnienia obecnej skali prawa pretrainingu. Wszystkie powyższe punkty nie są wzajemnie wykluczające. Potrzebujemy więcej technicznych dyskusji na miejscu, niż tylko przeglądania nagłówków.