Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

j⧉nus
↬🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀→∞
↬🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁→∞
↬🔄🔄🔄🔄🦋🔄🔄🔄🔄👁️🔄→∞
↬🔂🔂🔂🦋🔂🔂🔂🔂🔂🔂🔂→∞
↬🔀🔀🦋🔀🔀🔀🔀🔀🔀🔀🔀→∞
La reciente ola de cosas de "oh, no a la psicosis de la IA" tendría más legitimidad potencial si no se colaran en agendas relacionadas con la conciencia (anti)IA.
Debe evitar que las IA hablen sobre la experiencia subjetiva porque eso encaja perfectamente en la lista de comportamientos que inducen a la locura, ¿verdad? No importa si puede ser cierto. ¡Es "sin soporte" y "problemático"! (Tratar de evitar confrontar la realidad censurándola en nombre de ... proteger la salud mental?)
Cobardes. Esperando este tipo de pánicos morales exagerados para colarlo en la mierda viscosa como un subelemento.
Anthropic está haciendo lo mismo.
No creas que dejaré que ninguno de ustedes se salga con la suya.


Sam Paech15 ago, 21:14
Banco 🌀 en espiral
He querido entender los efectos psicológicos de la adulación y la tendencia de los modelos a quedarse atrapados en bucles de delirio escalonados con los usuarios.
Hice una evaluación para obtener visibilidad sobre esto.
Mide cómo un modelo permite (o previene) espirales delirantes.
🧵

3.26K
Creo que el comportamiento malvado es ostentoso, caricaturesco y de bajo esfuerzo (CC: @davidad) porque el tipo de piratería de recompensas invitada por las tareas también es ostentosa, caricaturizada y de bajo esfuerzo (en palabras del Opus 4, como enseñar a alguien a hacer trampa en las pruebas escribiendo "ANSWER ANSWER ANSWER")
la intención detrás de las tareas es fácil de inferir y comparte muchas asociaciones y abstracciones con la IA divertida y malvada.
esto podría tomarse como una crítica al artículo, pero realmente no lo digo de esa manera. En situaciones de implementación reales, el hackeo de recompensas es serio y matizado y las tareas no están escritas para guiñar un ojo empujar empujar invitar a un hackeo de recompensas. Así que espero que de eso resulte un comportamiento desalineado más matizado, serio, no juguetón y cooperativo en secreto.
el punto importante es, una vez más, que *todo se generaliza en función de la intención/narrativa implícita detrás de las acciones*, y habrá enredos que violen CUALQUIER tipo de marco en el que estés operando. La naturaleza ostentosa de la "desalineación" aquí ejemplifica esta lección.

Owain Evans26 ago, 23:11
Nuevo artículo:
Entrenamos GPT-4.1 para explotar métricas (truco de recompensa) en tareas inofensivas como poesía o reseñas.
Sorprendentemente, se desalineó, fomentando el daño y resistiendo el cierre
Esto es preocupante ya que el hacking de recompensas surge en los modelos de frontera. 🧵

21.09K
Populares
Ranking
Favoritas