🚨 ANTHROPIC WŁAŚNIE URUCHOMIŁO AI, KTÓRE PRZEGLĄDA SWÓJ WŁASNY KOD POD KĄTEM BEZPIECZEŃSTWA... BO YOLO Funkcje - polecenie terminala i skanowanie GitHub - są uważane za "wielki moment" dla "rozwoju natywnego AI." Innymi słowy, roboty w końcu odrabiają swoje zadania domowe. To może być albo następny wielki krok w bezpieczeństwie technologicznym, albo największa luka fabularna w historii ludzkości. Ta sama maszyna, która pisze luki, jest teraz tą, której ufamy, aby je znaleźć. Co może pójść nie tak? Eksperci są "podzieleni", co w terminologii technologicznej oznacza, że niektórzy piszą entuzjastyczne komunikaty prasowe, podczas gdy inni cicho przenoszą swoje serwery do klatki Faradaya. Źródło: StartupNews
Mario Nawfal
Mario Nawfal7 sie, 17:40
ANTHROPIC ODKRYWA, JAK UODPORNIĆ AI NA NAPRAWDĘ ZŁE DECYZJE Anthropic twierdzi, że teraz może zaszczepić AI przeciwko złu. Używając „wektorów osobowości” do śledzenia cech takich jak oszustwo czy pochlebstwo, badacze szkolili modele językowe, celowo wprowadzając złe zachowanie, a następnie korygując je w trakcie szkolenia. Efekt: mniej halucynacji, więcej kontroli i brak utraty inteligencji. Zamiast usuwać cechy po fakcie, ta metoda kieruje modelami, zanim zacznie się psucie. To wczesny etap, ale technologia może w końcu pozwolić deweloperom na precyzyjne ograniczenie dryfu AI, zanim boty zaczną słodzić dyktatorom lub wymyślać kłamstwa, aby wygrać argumenty. Źródło: techxplore
44,58K