Ce document du groupe BMW et du principal institut de recherche de Corée expose un angle mort dans lequel presque toutes les entreprises utilisant des LLMs se dirigent droit. Nous continuons à parler d'"alignement" comme s'il s'agissait d'un interrupteur de sécurité universel. Ce n'est pas le cas. Le document introduit COMPASS, un cadre qui montre pourquoi la plupart des systèmes d'IA échouent non pas parce qu'ils sont dangereux, mais parce qu'ils ne sont pas alignés avec l'organisation qui les déploie. Voici l'idée centrale. Les LLMs sont généralement évalués par rapport à des politiques génériques : règles de sécurité de la plateforme, directives éthiques abstraites ou refus de style benchmark. Mais les vraies entreprises ne fonctionnent pas selon des règles génériques. Elles fonctionnent selon des politiques internes : - manuels de conformité - manuels opérationnels - procédures d'escalade - cas juridiques particuliers - contraintes spécifiques à la marque Et ces règles sont désordonnées, se chevauchent, sont conditionnelles et pleines d'exceptions. COMPASS est conçu pour tester si un modèle peut réellement fonctionner dans ce désordre. Pas s'il connaît le langage des politiques, mais s'il peut appliquer la bonne politique, dans le bon contexte, pour la bonne raison. Le cadre évalue les modèles sur quatre aspects que les benchmarks typiques ignorent : ...