Ho visto diverse analisi dell'algoritmo, che è stato appena open source. Questa è la migliore che abbia visto finora.
Tetsuo.ai
Tetsuo.ai9 set, 12:09
Analisi dell'Algoritmo di Raccomandazione di X ===================================== Utilizzato Grok Code Fast per ottenere una rapida analisi del sistema di raccomandazione di X. Cosa Rende un Post Virale =========================== tldr: La previsione di coinvolgimento supera tutto. Pubblica contenuti che generano interazioni. Basato sul codice reale dell'algoritmo, i post che si classificano più in alto tipicamente hanno: + Alti punteggi di coinvolgimento previsti (i modelli ML prevedono like/repost/riposte) + Forte corrispondenza di personalizzazione (similarità SimClusters con gli interessi dell'utente) + Rilevanza del grafo sociale (connessioni RealGraph con la rete dell'utente) + Contenuti multimediali (immagini/video ottengono moltiplicatori di coinvolgimento) + Credibilità dell'autore (numero di follower, verifica, punteggio tweepcred) + Segnali di qualità del contenuto (supera filtri spam/NSFW/qualità) + Rilevanza tempestiva (fattore di freschezza, argomenti di tendenza) + Potenziale di conversazione (alti punteggi di previsione delle risposte) L'algoritmo utilizza modelli di machine learning per prevedere il coinvolgimento, non semplici formule ponderate. Il successo è misurato dalle interazioni reali degli utenti, creando un ciclo di feedback che migliora continuamente le previsioni di classificazione. Come Funziona Realmente l'Algoritmo =============================== 1. Generazione dei Candidati (9 fonti): - Earlybird (post in rete) ~50% - UTEG (raccomandazioni fuori rete) - postMixer, Liste, Comunità, Esplorazione dei Contenuti - Fonti Statiche, Cache, Backfill 2. Idratazione delle Caratteristiche (~6000 caratteristiche per post): - Caratteristiche dell'utente (interessi, comportamento, demografia) - Caratteristiche del post (testo, media, metadati, coinvolgimento) - Caratteristiche del grafo (SimClusters, RealGraph, connessioni sociali) - Segnali in tempo reale (coinvolgimento attuale, stato di tendenza) 3. Pipeline di Punteggio (4 modelli): - Punteggio del Modello (ranker pesante NAVI) - Pipeline di Reranking - Punteggio Euristico - Punteggio a Basso Segnale 4. Filtraggio (24 filtri totali): - 10 Filtri Globali (età < 48h, deduplicazione, posizione, ecc.) - 14 Filtri di Punteggio Post (sicurezza Grok, lingua, durata video, ecc.) 5. Selezione Finale & Mixing: - Ordinare per punteggi finali - Applicare regole di diversità - Mescolare con annunci, chi seguire, suggerimenti - Generare timeline Modelli di Previsione Chiave ==================== L'algoritmo prevede questi tipi di coinvolgimento: • PredictedFavoriteScore (like) • PredictedRetweetScore (repost) • PredictedReplyScore (risposte) • PredictedGoodClickScore (clic significativi) • PredictedVideoQualityViewScore (coinvolgimento video) • PredictedBookmarkScore (salvataggi) • PredictedShareScore (condivisioni esterne) • PredictedDwellScore (tempo trascorso a visualizzare) • PredictedNegativeFeedbackScore (nascondi/blocca) Realtà del Sistema di Pesi ==================== IMPORTANTE: L'algoritmo NON utilizza pesi percentuali fissi come: ❌ Previsione Like (35%), Repost (28%), ecc. SISTEMA REALE: ✅ I pesi sono parametri appresi dall'addestramento ML ✅ I valori predefiniti nel codice sono 0.0 (sostituiti da flag di caratteristica) ✅ I pesi sono personalizzati per utente e costantemente testati A/B ✅ Diversi tipi di contenuto (video vs testo) ricevono trattamenti diversi ✅ I pesi cambiano in base al contesto in tempo reale e allo stato dell'utente Esempio di processo di punteggio: 1. I modelli ML prevedono probabilità di coinvolgimento 2. I flag di caratteristica forniscono moltiplicatori di peso attuali 3. La personalizzazione regola i pesi per l'utente individuale 4. Il contesto in tempo reale modifica i punteggi finali 5. Le regole aziendali applicano gate di qualità e diversità Cosa Guida Realmente i Contenuti Virali ================================== Basato sull'analisi del codice, i post virali tipicamente: 1. Generano Alte Previsioni di Coinvolgimento: - I modelli prevedono alta probabilità di like/repost/riposte - I contenuti risuonano con più comunità di utenti - Forti segnali di coinvolgimento iniziale 2. Superano Tutti i Gate di Qualità: - Sopravvivono a 24 diverse fasi di filtro - Soddisfano gli standard di sicurezza (non spam/NSFW/violenti) - L'autore ha buoni segnali di credibilità 3. Raggiungono la Personalizzazione su Scala: - Corrispondono agli interessi attraverso segmenti di utenti diversi - Attivano la similarità SimClusters per molti utenti - Si connettono attraverso relazioni sociali RealGraph 4. Ottimizzano per le Meccaniche della Piattaforma: - Includono media (immagini/video performano meglio) - Pubblicano durante periodi di alta attività - Usano formati che incoraggiano risposte/repost Punti Chiave ============= ✅ La previsione di coinvolgimento è tutto - l'algoritmo ottimizza per le interazioni degli utenti ✅ La personalizzazione è sofisticata - utilizza embedding ML, non semplice corrispondenza di parole chiave ✅ Il filtraggio di qualità è esteso - 24 fasi prevengono contenuti di bassa qualità ✅ I pesi sono dinamici - costantemente ottimizzati attraverso ML e test A/B ✅ La scala conta - il sistema elabora miliardi di post al giorno con <50ms di latenza ✅ La trasparenza esiste - questa analisi è possibile perché X ha open-sourced l'algoritmo Il sistema è progettato per far emergere contenuti con cui gli utenti interagiranno, creando un ciclo di feedback che premia i creatori che comprendono il loro pubblico e producono contenuti coinvolgenti. In sintesi: Crea contenuti che generano un coinvolgimento genuino dal tuo pubblico target. L'algoritmo imparerà e amplificherà ciò che funziona.
10,04K