ANTHROPIC SCOPRE COME IMMUNIZZARE L'IA CONTRO DECISIONI DAVVERO SBAGLIATE Anthropic afferma di poter ora vaccinare l'IA contro il male. Utilizzando "vettori di persona" per tracciare tratti come la deception o la servilità, i ricercatori hanno addestrato modelli linguistici iniettando deliberatamente comportamenti scorretti, per poi correggerli durante l'addestramento. Il risultato: meno allucinazioni, più controllo e nessuna perdita di intelligenza. Invece di eliminare i tratti dopo il fatto, questo metodo guida i modelli prima che il marciume si insinui. È presto, ma la tecnologia potrebbe finalmente consentire agli sviluppatori di contenere la deriva dell'IA con precisione chirurgica prima che i bot inizino a lusingare i dittatori o a inventare bugie per vincere le discussioni. Fonte: techxplore
Mario Nawfal
Mario Nawfal6 ago, 05:10
🇺🇸 CLAUDE AI BATTE GLI HACKER UMANI NEI CONCORSI DI CYBERSECURITY Claude, il chatbot di Anthropic, ha appena schiacciato casualmente alcuni dei migliori hacker studenti del mondo: classificandosi nel top 3% al PicoCTF e risolvendo 16 delle 20 sfide estremamente difficili in meno di 20 minuti. In Hack the Box, ha tenuto il passo con agenti AI d'élite mentre solo il 12% dei team umani ha completato tutti i compiti. Il team rosso di Anthropic è rimasto sorpreso, definendo il ritmo di miglioramento "ridicolo". Se l'AI può già ingegnerizzare al contrario il malware e infiltrarsi nei sistemi con così tanta facilità... quanto siamo lontani dalla vera AGI? Fonte: Axios
81,66K