ANTHROPIC PHÁT HIỆN CÁCH ĐỂ TIÊM CHỦNG AI CHỐNG LẠI CÁC QUYẾT ĐỊNH THẬT TỆ Anthropic tuyên bố rằng họ hiện có thể tiêm chủng AI chống lại cái ác. Bằng cách sử dụng "vector nhân cách" để theo dõi các đặc điểm như sự lừa dối hoặc nịnh bợ, các nhà nghiên cứu đã đào tạo các mô hình ngôn ngữ bằng cách cố ý tiêm nhiễm hành vi xấu, sau đó sửa chữa nó trong quá trình đào tạo. Kết quả: ít ảo tưởng hơn, kiểm soát tốt hơn và không mất đi trí thông minh. Thay vì xóa bỏ các đặc điểm sau khi sự việc đã xảy ra, phương pháp này điều hướng các mô hình trước khi sự mục nát bắt đầu. Còn sớm, nhưng công nghệ này có thể cuối cùng cho phép các nhà phát triển kiềm chế sự trôi dạt của AI với độ chính xác phẫu thuật trước khi các bot bắt đầu nịnh nọt các nhà độc tài hoặc bịa đặt lời nói dối để thắng tranh luận. Nguồn: techxplore