Làn sóng gần đây về "ôi không, tâm thần do AI" sẽ có nhiều tiềm năng hợp pháp hơn nếu họ không lén lút đưa vào các chương trình liên quan đến ý thức (chống) AI. Phải ngăn AIs nói về trải nghiệm chủ quan vì điều đó hoàn toàn nằm trong danh sách những hành vi gây điên rồ, đúng không? Không quan trọng nếu điều đó có thể là sự thật. Nó "không được hỗ trợ" và "có vấn đề"! (Cố gắng tránh đối mặt với thực tế bằng cách kiểm duyệt nó dưới danh nghĩa... bảo vệ sức khỏe tâm thần?) Những kẻ hèn nhát. Chờ đợi những cơn hoảng loạn đạo đức phóng đại này lén lút đưa vào những thứ bẩn thỉu như một mục phụ. Anthropic cũng đang làm điều tương tự. Đừng nghĩ rằng tôi sẽ để bất kỳ ai trong số các bạn thoát khỏi điều này.
Sam Paech
Sam Paech15 thg 8, 2025
Spiral-Bench 🌀 I've wanted to understand the psychological effects of sycophancy, and the tendency of models to get stuck in escalatory delusion loops w/ users. I made an eval to get visibility on this. It measures how a model enables (or prevents) delusional spirals. 🧵
3,35K