🚨 ANTHROPIC LANSERTE NETTOPP EN AI SOM GJENNOMGÅR SIN EGEN KODE FOR SIKKERHET ... FORDI YOLO Funksjonene - en terminalkommando og GitHub-skanning - blir hyllet som det "store øyeblikket" for "AI-native utvikling." Med andre ord, robotene gjør endelig sine egne lekser. Dette er enten det neste store spranget innen teknisk sikkerhet eller det største plotthullet i menneskehetens historie. Den samme maskinen som skriver sårbarhetene er nå den vi stoler på for å finne dem. Hva kan gå galt? Eksperter er "splittet", noe som i tekniske termer betyr at noen er opptatt med å skrive glødende pressemeldinger mens andre stille flytter serverne sine inn i et Faraday-bur. Kilde: StartupNews
Mario Nawfal
Mario Nawfal7. aug., 17:40
ANTHROPIC OPPDAGER HVORDAN MAN KAN IMMUNISERE AI MOT VIRKELIG DÅRLIGE BESLUTNINGER Anthropic hevder at de nå kan vaksinere AI mot ondskap. Ved å bruke "personavektorer" for å spore egenskaper som bedrag eller sykofant, trente forskere språkmodeller ved bevisst å injisere dårlig oppførsel, og deretter korrigere det midt i treningen. Resultatet: mindre hallusinasjoner, mer kontroll og ingen tap av intelligens. I stedet for å skrubbe egenskaper i etterkant, styrer denne metoden modeller før råten setter inn. Det er tidlig, men teknologien kan endelig la utviklere dempe AI-drift med kirurgisk presisjon før roboter begynner å snakke søtt om diktatorer eller finne på løgner for å vinne argumenter. Kilde: techxplore
44,57K