ANTHROPIC ДІЗНАЄТЬСЯ, ЯК ІМУНІЗУВАТИ ШІ ПРОТИ ДІЙСНО ПОГАНИХ РІШЕНЬ Anthropic стверджує, що тепер може вакцинувати ШІ від зла. Використовуючи «вектори персон» для відстеження таких рис, як обман або підлабузництво, дослідники тренували мовні моделі, навмисно вводячи погану поведінку, а потім виправляючи її в середині тренування. Результат: менше галюцинацій, більше контролю та відсутність втрати інтелекту. Замість того, щоб видаляти ознаки постфактум, цей метод керує моделями до того, як настане гниль. Ще рано, але технологія може нарешті дозволити розробникам приборкати дрейф ШІ з хірургічною точністю, перш ніж боти почнуть солодко базікати диктаторів або вигадувати брехню, щоб виграти суперечки. Джерело: techxplore
Mario Nawfal
Mario Nawfal6 серп., 05:10
🇺🇸 CLAUDE AI ПЕРЕМІГ ЛЮДЕЙ-ХАКЕРІВ У ЗМАГАННЯХ З КІБЕРБЕЗПЕКИ Клод, чат-бот Anthropic, просто випадково розгромив деяких з найкращих студентських хакерів світу: він увійшов до топ-3% на PicoCTF і вирішив 16 із 20 надзвичайно складних завдань менш ніж за 20 хвилин. У Hack the Box він не відставав від елітних агентів штучного інтелекту, тоді як лише 12% людських команд виконали всі завдання. Власна червона команда Anthropic була здивована, назвавши темпи вдосконалення «смішними». Якщо штучний інтелект вже може реконструювати шкідливе програмне забезпечення та так легко проникати в системи... наскільки ми далекі від реального AGI? Джерело: Axios
81,65K