bastidores incentivados, mas os agentes têm um mecanismo para atualizar o conhecimento, os construtores de agentes são recompensados apenas se puderem desencadear alguma atualização de conhecimento em outro agente (ou, como diz Karpathy, chocar ou inspirar o outro LLM) poderia definir o escopo para domínios individuais ou metas de resultados