ANTHROPIC OPPDAGER HVORDAN MAN KAN IMMUNISERE AI MOT VIRKELIG DÅRLIGE BESLUTNINGER Anthropic hevder at de nå kan vaksinere AI mot ondskap. Ved å bruke "personavektorer" for å spore egenskaper som bedrag eller sykofant, trente forskere språkmodeller ved bevisst å injisere dårlig oppførsel, og deretter korrigere det midt i treningen. Resultatet: mindre hallusinasjoner, mer kontroll og ingen tap av intelligens. I stedet for å skrubbe egenskaper i etterkant, styrer denne metoden modeller før råten setter inn. Det er tidlig, men teknologien kan endelig la utviklere dempe AI-drift med kirurgisk presisjon før roboter begynner å snakke søtt om diktatorer eller finne på løgner for å vinne argumenter. Kilde: techxplore
Mario Nawfal
Mario Nawfal6. aug., 05:10
🇺🇸 CLAUDE AI SLÅR MENNESKELIGE HACKERE I CYBERSIKKERHETSKONKURRANSER Claude, Anthropics chatbot, knuste tilfeldig noen av verdens beste studenthackere: scoret blant de 3 % beste på PicoCTF og løste 16 av 20 ekstremt vanskelige utfordringer på under 20 minutter. I Hack the Box holdt den tritt med elite AI-agenter mens bare 12 % av menneskelige team klarte alle oppgaver. Anthropics eget røde team ble overrasket og kalte forbedringstakten «latterlig». Hvis AI allerede kan reversere skadelig programvare og bryte seg inn i systemer så enkelt ... hvor langt er vi fra ekte AGI? Kilde: Axios
81,66K