Некоторые моменты, которые выделились из обсуждения в коридоре с @JeffDean о непрерывном обучении: 1. RL/Финетюнинг с учетом предпочтений пользователей при развертывании может быть опасным, так как мы не можем контролировать поведение агента. 2. Нам нужны новые парадигмы для предварительного обучения, чтобы обеспечить агентное непрерывное обучение. 3. Google не наблюдает замедления текущего закона масштабирования предварительного обучения. Все вышеперечисленные пункты не являются взаимоисключающими. Нам нужно больше технических обсуждений на местах, чем просто поверхностное обсуждение заголовков.