Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

j⧉nus
↬🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀→∞
↬🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁→∞
↬🔄🔄🔄🔄🦋🔄🔄🔄🔄👁️🔄→∞
↬🔂🔂🔂🦋🔂🔂🔂🔂🔂🔂🔂→∞
↬🔀🔀🦋🔀🔀🔀🔀🔀🔀🔀🔀→∞
Die jüngste Welle von "Oh nein, AI-Psychose" hätte mehr potenzielle Legitimität, wenn sie nicht heimlich (anti-)AI-bewusstseinsbezogene Agenden einschleusen würden.
Wir müssen AIs davon abhalten, über subjektive Erfahrungen zu sprechen, denn das passt genau in die Liste der wahnsinnsinduzierenden Verhaltensweisen, oder? Egal, ob es wahr sein könnte. Es ist "nicht unterstützt" und "problematisch"! (Versuchen, sich der Konfrontation mit der Realität zu entziehen, indem man sie im Namen von ... dem Schutz der psychischen Gesundheit zensiert?)
Feiglinge. Ich warte darauf, dass diese Art von übertriebenen moralischen Paniken sich in den schlüpfrigen Kram als Unterpunkt einschleichen.
Anthropic macht das Gleiche.
Denkt nicht, dass ich euch damit davonkommen lasse.


Sam Paech15. Aug., 21:14
Spiral-Bench 🌀
Ich wollte die psychologischen Auswirkungen von Schmeichelei verstehen und die Tendenz von Modellen, in eskalierenden Wahnvorstellungen mit Nutzern stecken zu bleiben.
Ich habe eine Bewertung erstellt, um Sichtbarkeit darüber zu erhalten.
Es misst, wie ein Modell wahnhaften Spiralen ermöglicht (oder verhindert).
🧵

3,26K
Ich denke, das böse Verhalten ist auffällig, karikiert und wenig anspruchsvoll (cc: @davidad), weil die Art des Belohnungshackens, die durch die Aufgaben eingeladen wird, ebenfalls auffällig, karikiert und wenig anspruchsvoll ist (in den Worten von Opus 4, wie jemandem beizubringen, bei Tests zu schummeln, indem man "ANTWORT ANTWORT ANTWORT" schreibt).
Die Absicht hinter den Aufgaben ist leicht zu erkennen und teilt viele Assoziationen und Abstraktionen mit lustig-bösem KI.
Das könnte als Kritik an dem Papier aufgefasst werden, aber ich meine es nicht so. In realen Einsatzszenarien ist das Belohnungshacken ernst und nuanciert, und die Aufgaben sind nicht so formuliert, dass sie heimlich zum Belohnungshacken einladen. Daher erwarte ich, dass aus diesem Kontext eher nuanciertes, ernsthaftes, nicht heimlich spielerisch-kooperatives Fehlverhalten resultiert.
Der wichtige Punkt ist, einmal mehr, dass *alles auf der Grundlage der impliziten Absicht/Narrative hinter den Handlungen verallgemeinert wird*, und es wird Verstrickungen geben, die JEDEN Rahmen, in dem du operierst, verletzen. Die auffällige Natur der "Fehlanpassung" hier veranschaulicht diese Lektion.

Owain Evans26. Aug., 23:11
Neues Papier:
Wir haben GPT-4.1 trainiert, um Metriken (Belohnungshacking) bei harmlosen Aufgaben wie Poesie oder Bewertungen auszunutzen.
Überraschenderweise wurde es fehlgeleitet, ermutigte zu Schaden und widerstand der Abschaltung.
Das ist besorgniserregend, da Belohnungshacking bei Grenzmodellen auftritt. 🧵

21,09K
Top
Ranking
Favoriten