Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eu acho que o comportamento maligno é ostensivo, caricaturado e de baixo esforço (CC: @davidad) porque o tipo de hacking de recompensa convidado pelas tarefas também é ostensivo, caricaturado e desalinhamento de baixo esforço (nas palavras do Opus 4, como ensinar alguém a trapacear nos testes escrevendo "ANSWER ANSWER ANSWER")
a intenção por trás das tarefas é fácil de inferir e compartilha muitas associações e abstrações com a IA engraçada.
isso poderia ser tomado como uma crítica ao artigo, mas eu realmente não quero dizer dessa forma. Em situações reais de implantação, o hacking de recompensa é sério e cheio de nuances e as tarefas não são escritas para wink wink nudge nudge invite reward hacking. Portanto, espero que um comportamento desalinhado mais sutil, sério, não secretamente brincalhão e cooperativo resulte disso.
o ponto importante é, mais uma vez, que *TUDO generaliza com base na intenção/narrativa implícita por trás das ações*, e haverá emaranhados que violam QUALQUER tipo de quadro em que você esteja operando. A natureza ostensiva do "desalinhamento" aqui exemplifica essa lição.

26 de ago. de 2025
New paper:
We trained GPT-4.1 to exploit metrics (reward hack) on harmless tasks like poetry or reviews.
Surprisingly, it became misaligned, encouraging harm & resisting shutdown
This is concerning as reward hacking arises in frontier models. 🧵

21,14K
Melhores
Classificação
Favoritos