He visto varios análisis del algoritmo, que acaba de ser de código abierto. Este es el mejor que he visto hasta ahora.
Tetsuo.ai
Tetsuo.ai9 sept, 12:09
Análisis del Algoritmo de Recomendación de X ===================================== Se utilizó Grok Code Fast para obtener un desglose rápido del sistema de recomendación de X. Qué Hace que una Publicación se Vuelva Viral =========================== tldr: La predicción de engagement supera todo. Publica contenido que genere interacciones. Basado en el código real del algoritmo, las publicaciones que obtienen las mejores calificaciones típicamente tienen: + Altas puntuaciones de engagement predicho (modelos de ML predicen likes/reposts/respuestas) + Fuerte coincidencia de personalización (SimClusters similitud con los intereses del usuario) + Relevancia del grafo social (conexiones de RealGraph con la red del usuario) + Contenido multimedia (imágenes/videos obtienen multiplicadores de engagement) + Credibilidad del autor (número de seguidores, verificación, puntuación de tweepcred) + Señales de calidad del contenido (pasa filtros de spam/NSFW/calidad) + Relevancia oportuna (factor de frescura, temas en tendencia) + Potencial de conversación (altas puntuaciones de predicción de respuestas) El algoritmo utiliza modelos de aprendizaje automático para predecir el engagement, no fórmulas ponderadas simples. El éxito se mide por las interacciones reales de los usuarios, creando un bucle de retroalimentación que mejora continuamente las predicciones de clasificación. Cómo Funciona Realmente el Algoritmo =============================== 1. Generación de Candidatos (9 fuentes): - Earlybird (publicaciones en la red) ~50% - UTEG (recomendaciones fuera de la red) - postMixer, Listas, Comunidades, Exploración de Contenido - Fuentes Estáticas, en Caché, de Relleno 2. Hidratación de Características (~6000 características por publicación): - Características del usuario (intereses, comportamiento, demografía) - Características de la publicación (texto, multimedia, metadatos, engagement) - Características del grafo (SimClusters, RealGraph, conexiones sociales) - Señales en tiempo real (engagement actual, estado en tendencia) 3. Pipeline de Puntuación (4 modelos): - Puntuación del Modelo (clasificador pesado NAVI) - Pipeline de Reclasificación - Puntuación Heurística - Puntuación de Señal Baja 4. Filtrado (24 filtros en total): - 10 Filtros Globales (edad < 48h, deduplicación, ubicación, etc.) - 14 Filtros de Puntuación de Publicación (seguridad de Grok, idioma, duración del video, etc.) 5. Selección Final y Mezcla: - Ordenar por puntuaciones finales - Aplicar reglas de diversidad - Mezclar con anuncios, a quién seguir, sugerencias - Generar línea de tiempo Modelos de Predicción Clave ==================== El algoritmo predice estos tipos de engagement: • PredictedFavoriteScore (likes) • PredictedRetweetScore (reposts) • PredictedReplyScore (respuestas) • PredictedGoodClickScore (clics significativos) • PredictedVideoQualityViewScore (engagement de video) • PredictedBookmarkScore (guardados) • PredictedShareScore (compartidos externamente) • PredictedDwellScore (tiempo dedicado a ver) • PredictedNegativeFeedbackScore (ocultaciones/bloqueos) Realidad del Sistema de Ponderación ==================== IMPORTANTE: El algoritmo NO utiliza pesos de porcentaje fijo como: ❌ Predicción de Likes (35%), Repost (28%), etc. SISTEMA REAL: ✅ Los pesos son parámetros aprendidos del entrenamiento de ML ✅ Los valores predeterminados en el código son 0.0 (sobrescritos por banderas de características) ✅ Los pesos son personalizados por usuario y constantemente se prueban A/B ✅ Diferentes tipos de contenido (video vs texto) reciben un tratamiento diferente ✅ Los pesos cambian según el contexto en tiempo real y el estado del usuario Ejemplo del proceso de puntuación: 1. Los modelos de ML predicen probabilidades de engagement 2. Las banderas de características proporcionan multiplicadores de peso actuales 3. La personalización ajusta los pesos para el usuario individual 4. El contexto en tiempo real modifica las puntuaciones finales 5. Las reglas comerciales aplican puertas de calidad y diversidad Qué Realmente Impulsa el Contenido Viral ================================== Basado en el análisis del código, las publicaciones virales típicamente: 1. Generan Altas Predicciones de Engagement: - Los modelos predicen alta probabilidad de like/repost/respuesta - El contenido resuena con múltiples comunidades de usuarios - Fuertes señales de engagement temprano 2. Pasan Todas las Puertas de Calidad: - Sobreviven a 24 diferentes etapas de filtrado - Cumplen con los estándares de seguridad (no spam/NSFW/violento) - El autor tiene buenas señales de credibilidad 3. Logran Personalización a Gran Escala: - Coinciden intereses a través de diversos segmentos de usuarios - Activan similitud de SimClusters para muchos usuarios - Se conectan a través de relaciones sociales de RealGraph 4. Optimizan para la Mecánica de la Plataforma: - Incluyen multimedia (imágenes/videos funcionan mejor) - Publican durante períodos de alta actividad - Usan formatos que fomentan respuestas/reposts Conclusiones Clave ============= ✅ La predicción de engagement es todo - el algoritmo se optimiza para interacciones de usuarios ✅ La personalización es sofisticada - utiliza incrustaciones de ML, no simple coincidencia de palabras clave ✅ El filtrado de calidad es extenso - 24 etapas previenen contenido de baja calidad ✅ Los pesos son dinámicos - constantemente optimizados a través de ML y pruebas A/B ✅ La escala importa - el sistema procesa miles de millones de publicaciones diariamente con <50ms de latencia ✅ La transparencia existe - este análisis es posible porque X ha abierto el código del algoritmo El sistema está diseñado para mostrar contenido con el que los usuarios interactuarán, creando un bucle de retroalimentación que recompensa a los creadores que entienden a su audiencia y producen contenido atractivo. En resumen: Crea contenido que genere un engagement genuino de tu audiencia objetivo. El algoritmo aprenderá y amplificará lo que funciona.
10,04K