Câteva puncte care au ieșit în evidență din discuțiile de pe hol cu @JeffDean despre învățarea continuă: 1. RL/finetuning cu preferințele utilizatorului la implementare ar putea fi periculos, deoarece nu putem controla comportamentul agentului. 2. Avem nevoie de noi paradigme înainte pentru pre-antrenament, care să permită înclinarea continuă agentică. 3. Totuși, Google nu observă încetinirea actualei legi privind scalarea pretrainingului. Toate punctele de mai sus nu se exclud reciproc. Avem nevoie de mai multe discuții tehnice pe teren decât să trecem cu vederea titlurile din ziare.