Debata na temat wewnętrznej a zewnętrznej motywacji AI została rozstrzygnięta. Meta właśnie pokazała, że cały system nagród był rozpraszaczem. Twoja platforma RL za 500 dolarów miesięcznie teraz uczy agentów z kółkami bocznymi. Prawdziwe uczenie się odbywa się poprzez bezpośrednie konsekwencje, a nie arbitralne wyniki. To toruje drogę do naprawdę adaptywnej, nieprogramowanej inteligencji.