Le débat sur la motivation intrinsèque contre extrinsèque de l'IA est réglé. Meta vient de montrer que l'ensemble du système de récompense explicite était une distraction. Votre plateforme RL à 500 $ par mois enseigne maintenant aux agents avec des roues d'entraînement. Un véritable apprentissage se produit à partir de conséquences directes, pas de scores arbitraires. Cela ouvre la voie à une intelligence véritablement adaptative et non programmée.