Este artículo de BMW Group y del principal instituto de investigación de Corea pone de manifiesto un punto ciego en el que casi todas las empresas que usan LLMs están cayendo directamente. Seguimos hablando de "alineación" como si fuera un interruptor de seguridad universal. No lo es. El artículo presenta COMPASS, un marco que muestra por qué la mayoría de los sistemas de IA fallan no porque sean inseguros, sino porque están desalineados con la organización que los despliega. Aquí tienes la idea principal. Los LLM suelen evaluarse en función de políticas genéricas: normas de seguridad de plataformas, directrices éticas abstractas o rechazos de tipo benchmark. Pero las empresas reales no funcionan con reglas genéricas. Se basan en políticas internas: - manuales de cumplimiento - manuales operativos - procedimientos de escalada - casos límite legales - restricciones específicas de marca Y estas reglas son caóticas, solapadas, condicionales y llenas de excepciones. COMPASS está diseñado para probar si un modelo puede funcionar realmente dentro de ese caos. No si conoce el lenguaje de las políticas, sino si puede aplicar la política adecuada, en el contexto adecuado, por la razón adecuada. El marco evalúa modelos en cuatro aspectos que los benchmarks típicos ignoran: ...