Một số điểm nổi bật từ cuộc thảo luận ở hành lang với @JeffDean về việc học liên tục: 1. RL/Fine-tuning với sở thích của người dùng khi triển khai có thể nguy hiểm vì chúng ta không thể kiểm soát hành vi của tác nhân. 2. Chúng ta cần những mô hình mới cho việc tiền huấn luyện để cho phép việc học liên tục của tác nhân. 3. Google không thấy sự chậm lại của quy luật mở rộng tiền huấn luyện hiện tại. Tất cả các điểm trên không loại trừ lẫn nhau. Chúng ta cần nhiều cuộc thảo luận kỹ thuật thực tế hơn là chỉ lướt qua các tiêu đề.