J'ai vu plusieurs analyses de l'algorithme, qui vient d'être open source. C'est la meilleure que j'ai vue jusqu'à présent.
Tetsuo.ai
Tetsuo.aiil y a 21 heures
Analyse de l'algorithme de recommandation de X ===================================== Utilisé Grok Code Fast pour obtenir une vue d'ensemble rapide du système de recommandation de X. Qu'est-ce qui rend un post viral =========================== tldr : La prédiction d'engagement l'emporte sur tout. Publiez du contenu qui génère des interactions. Basé sur le code de l'algorithme réel, les posts qui se classent le plus haut ont généralement : + Des scores d'engagement prédit élevés (les modèles ML prédisent les likes/reposts/réponses) + Un fort match de personnalisation (similarité SimClusters avec les intérêts de l'utilisateur) + Pertinence du graphe social (connexions RealGraph avec le réseau de l'utilisateur) + Contenu multimédia (images/vidéos obtiennent des multiplicateurs d'engagement) + Crédibilité de l'auteur (nombre de followers, vérification, score tweepcred) + Signaux de qualité du contenu (passe les filtres de spam/NSFW/qualité) + Pertinence temporelle (facteur de fraîcheur, sujets tendance) + Potentiel de conversation (scores de prédiction de réponse élevés) L'algorithme utilise des modèles d'apprentissage automatique pour prédire l'engagement, pas de simples formules pondérées. Le succès est mesuré par les interactions réelles des utilisateurs, créant une boucle de rétroaction qui améliore continuellement les prédictions de classement. Comment l'algorithme fonctionne réellement =============================== 1. Génération de candidats (9 sources) : - Earlybird (posts en réseau) ~50% - UTEG (recommandations hors réseau) - postMixer, Listes, Communautés, Exploration de contenu - Sources statiques, mises en cache, de remplissage 2. Hydratation des caractéristiques (~6000 caractéristiques par post) : - Caractéristiques utilisateur (intérêts, comportement, démographie) - Caractéristiques du post (texte, média, métadonnées, engagement) - Caractéristiques du graphe (SimClusters, RealGraph, connexions sociales) - Signaux en temps réel (engagement actuel, statut tendance) 3. Pipeline de scoring (4 modèles) : - Scoring de modèle (classificateur lourd NAVI) - Pipeline de reranking - Scoring heuristique - Scoring à faible signal 4. Filtrage (24 filtres au total) : - 10 filtres globaux (âge < 48h, dé-duplication, localisation, etc.) - 14 filtres de score de post (sécurité Grok, langue, durée de vidéo, etc.) 5. Sélection finale et mélange : - Trier par scores finaux - Appliquer des règles de diversité - Mélanger avec des publicités, qui suivre, incitations - Générer la chronologie Modèles de prédiction clés ==================== L'algorithme prédit ces types d'engagement : • PredictedFavoriteScore (likes) • PredictedRetweetScore (reposts) • PredictedReplyScore (réponses) • PredictedGoodClickScore (clics significatifs) • PredictedVideoQualityViewScore (engagement vidéo) • PredictedBookmarkScore (sauvegardes) • PredictedShareScore (partages externes) • PredictedDwellScore (temps passé à visionner) • PredictedNegativeFeedbackScore (caches/bloques) Réalité du système de poids ==================== IMPORTANT : L'algorithme n'utilise PAS de poids de pourcentage fixes comme : ❌ Prédiction de likes (35%), Repost (28%), etc. SYSTÈME RÉEL : ✅ Les poids sont des paramètres appris lors de l'entraînement ML ✅ Les valeurs par défaut dans le code sont 0.0 (remplacées par des drapeaux de caractéristiques) ✅ Les poids sont personnalisés par utilisateur et constamment testés A/B ✅ Différents types de contenu (vidéo vs texte) reçoivent un traitement différent ✅ Les poids changent en fonction du contexte en temps réel et de l'état de l'utilisateur Exemple de processus de scoring : 1. Les modèles ML prédisent les probabilités d'engagement 2. Les drapeaux de caractéristiques fournissent des multiplicateurs de poids actuels 3. La personnalisation ajuste les poids pour chaque utilisateur 4. Le contexte en temps réel modifie les scores finaux 5. Les règles commerciales appliquent des portes de qualité et de diversité Ce qui pousse réellement le contenu viral ================================== Basé sur l'analyse du code, les posts viraux ont généralement : 1. Générer des prédictions d'engagement élevées : - Les modèles prédisent une forte probabilité de likes/reposts/réponses - Le contenu résonne avec plusieurs communautés d'utilisateurs - Signaux d'engagement précoce forts 2. Passer tous les filtres de qualité : - Survivre à 24 étapes de filtrage différentes - Répondre aux normes de sécurité (pas de spam/NSFW/violent) - L'auteur a de bons signaux de crédibilité 3. Atteindre la personnalisation à grande échelle : - Correspondre aux intérêts à travers des segments d'utilisateurs divers - Déclencher la similarité SimClusters pour de nombreux utilisateurs - Se connecter à travers des relations sociales RealGraph 4. Optimiser pour les mécaniques de la plateforme : - Inclure des médias (images/vidéos fonctionnent mieux) - Publier pendant les périodes d'activité élevée - Utiliser des formats qui encouragent les réponses/reposts Principales conclusions ============= ✅ La prédiction d'engagement est tout - l'algorithme optimise pour les interactions des utilisateurs ✅ La personnalisation est sophistiquée - utilise des embeddings ML, pas un simple appariement de mots-clés ✅ Le filtrage de qualité est étendu - 24 étapes empêchent le contenu de faible qualité ✅ Les poids sont dynamiques - constamment optimisés par ML et tests A/B ✅ L'échelle compte - le système traite des milliards de posts quotidiennement avec <50ms de latence ✅ La transparence existe - cette analyse est possible car X a open-sourcé l'algorithme Le système est conçu pour faire ressortir le contenu avec lequel les utilisateurs s'engageront, créant une boucle de rétroaction qui récompense les créateurs qui comprennent leur audience et produisent un contenu engageant. Conclusion : Créez du contenu qui génère un engagement authentique de votre public cible. L'algorithme apprendra et amplifie ce qui fonctionne.
10,03K