Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ANTHROPIC ENTDECKT, WIE MAN KI GEGEN WIRKLICH SCHLECHTE ENTSCHEIDUNGEN IMPFEN KANN
Anthropic behauptet, dass es jetzt KI gegen das Böse impfen kann.
Durch die Verwendung von "Persona-Vektoren", um Eigenschaften wie Täuschung oder Schmeichelei zu verfolgen, trainierten die Forscher Sprachmodelle, indem sie absichtlich schlechtes Verhalten einbrachten und es dann während des Trainings korrigierten.
Das Ergebnis: weniger Halluzinationen, mehr Kontrolle und kein Verlust an Intelligenz.
Anstatt Eigenschaften nachträglich zu bereinigen, lenkt diese Methode die Modelle, bevor der Verfall einsetzt.
Es ist noch früh, aber die Technologie könnte Entwicklern endlich ermöglichen, KI-Abweichungen mit chirurgischer Präzision einzudämmen, bevor Bots anfangen, Diktatoren zu umschmeicheln oder Lügen zu erfinden, um Argumente zu gewinnen.
Quelle: techxplore


6. Aug., 05:10
🇩🇪 CLAUDE AI ÜBERTRIFFT MENSCHLICHE HACKER IN CYBERSICHERHEITSWETTBEWERBEN
Claude, der Chatbot von Anthropic, hat gerade ganz lässig einige der besten Studentenhacker der Welt besiegt: Er erzielte einen Platz in den Top 3 % bei PicoCTF und löste 16 von 20 extrem schwierigen Herausforderungen in weniger als 20 Minuten.
Bei Hack the Box hielt er mit Elite-AI-Agenten Schritt, während nur 12 % der menschlichen Teams alle Aufgaben bewältigten.
Das eigene Rote Team von Anthropic war überrascht und bezeichnete das Verbesserungstempo als "lächerlich".
Wenn KI bereits Malware zurückentwickeln und so einfach in Systeme eindringen kann… wie weit sind wir dann von echter AGI entfernt?
Quelle: Axios

81,66K
Top
Ranking
Favoriten