ANTHROPIC ODKRYWA, JAK UODPORNIĆ AI NA NAPRAWDĘ ZŁE DECYZJE Anthropic twierdzi, że teraz może zaszczepić AI przeciwko złu. Używając „wektorów osobowości” do śledzenia cech takich jak oszustwo czy pochlebstwo, badacze szkolili modele językowe, celowo wprowadzając złe zachowanie, a następnie korygując je w trakcie szkolenia. Efekt: mniej halucynacji, więcej kontroli i brak utraty inteligencji. Zamiast usuwać cechy po fakcie, ta metoda kieruje modelami, zanim zacznie się psucie. To wczesny etap, ale technologia może w końcu pozwolić deweloperom na precyzyjne ograniczenie dryfu AI, zanim boty zaczną słodzić dyktatorom lub wymyślać kłamstwa, aby wygrać argumenty. Źródło: techxplore
Mario Nawfal
Mario Nawfal6 sie, 05:10
🇺🇸 CLAUDE AI BEATS HUMAN HACKERS IN CYBERSECURITY CONTESTS Claude, Anthropic’s chatbot, just casually crushed some of the world’s top student hackers: scoring in the top 3% at PicoCTF and solving 16 of 20 extremely hard challenges in under 20 minutes. In Hack the Box, it kept up with elite AI agents while only 12% of human teams cleared all tasks. Anthropic’s own red team was surprised, calling the pace of improvement “ridiculous.” If AI can already reverse-engineer malware and break into systems this easily… how far are we from real AGI? Source: Axios
81,67K