Makalah dari BMW Group dan lembaga penelitian terkemuka Korea ini mengungkap titik buta yang hampir semua perusahaan yang menggunakan LLM langsung masuk. Kami terus berbicara tentang "penyelarasan" seperti itu adalah sakelar pengaman universal. Sebenarnya tidak. Makalah ini memperkenalkan COMPASS, kerangka kerja yang menunjukkan mengapa sebagian besar sistem AI gagal bukan karena tidak aman, tetapi karena tidak selaras dengan organisasi yang menerapkannya. Inilah wawasan intinya. LLM biasanya dievaluasi terhadap kebijakan generik: aturan keamanan platform, pedoman etika abstrak, atau penolakan gaya tolok ukur. Tetapi perusahaan nyata tidak berjalan dengan aturan generik. Mereka berjalan berdasarkan kebijakan internal: - Manual kepatuhan - Buku pedoman operasional - prosedur eskalasi - kasus tepi hukum - kendala khusus merek Dan aturan ini berantakan, tumpang tindih, bersyarat, dan penuh pengecualian. COMPASS dibuat untuk menguji apakah model benar-benar dapat beroperasi di dalam kekacauan itu. Bukan apakah ia tahu bahasa kebijakan, tetapi apakah ia dapat menerapkan kebijakan yang benar, dalam konteks yang tepat, untuk alasan yang benar. Kerangka kerja ini mengevaluasi model pada empat hal yang diabaikan oleh tolok ukur umum: ...