ANTHROPIC УЗНАЛ, КАК ИММУНИЗИРОВАТЬ ИИ ОТ ДЕЙСТВИЙ СОВЕРШЕННОГО ЗЛА Anthropic утверждает, что теперь может вакцинировать ИИ от зла. Используя "персональные векторы" для отслеживания таких черт, как обман или подхалимство, исследователи обучали языковые модели, намеренно вводя плохое поведение, а затем исправляя его в процессе обучения. Результат: меньше галлюцинаций, больше контроля и отсутствие потерь в интеллекте. Вместо того чтобы очищать черты после факта, этот метод направляет модели до того, как начнется разложение. Хотя это еще в начале, технология может наконец позволить разработчикам точно контролировать отклонение ИИ, прежде чем боты начнут льстить диктаторам или выдумывать ложь, чтобы выиграть споры. Источник: techxplore