ANTHROPIC ONTDEKT HOE AI TE IMMUNISEREN TEGEN ECHT SLECHTE BESLISSINGEN Anthropic beweert dat het nu AI kan vaccineren tegen kwaad. Met behulp van "persona vectoren" om eigenschappen zoals bedrog of slijmerigheid te volgen, hebben onderzoekers taalmodellen getraind door opzettelijk slecht gedrag in te voeren en dit vervolgens tijdens de training te corrigeren. Het resultaat: minder hallucinaties, meer controle en geen verlies van intelligentie. In plaats van eigenschappen achteraf te verwijderen, stuurt deze methode modellen voordat de rot zich voordoet. Het is vroeg, maar de technologie kan ontwikkelaars eindelijk in staat stellen om AI-afdwaling met chirurgische precisie te beheersen voordat bots beginnen met zoetpraten tegen dictators of leugens uitvinden om argumenten te winnen. Bron: techxplore