Vi várias análises do algo, que era apenas de código aberto. Este é o melhor que já vi até agora.
Tetsuo.ai
Tetsuo.ai9 de set., 12:09
Análise do Algoritmo de Recomendação de X ===================================== Usei o Grok Code Fast para obter uma análise rápida do sistema de recomendação do X. O que torna uma postagem viral =========================== tldr: A previsão de engajamento supera tudo. Publique conteúdo que gere interações. Com base no código do algoritmo real, as postagens com classificação mais alta normalmente têm: + Altas pontuações de engajamento previstas (modelos de ML preveem curtidas/republicações/respostas) + Forte correspondência de personalização (semelhança do SimClusters com os interesses do usuário) + Relevância do gráfico social (conexões do RealGraph com a rede do usuário) + Conteúdo de mídia (imagens/vídeos recebem multiplicadores de engajamento) + Credibilidade do autor (contagem de seguidores, verificação, pontuação tweepcred) + Sinais de qualidade de conteúdo (passa por filtros de spam/NSFW/qualidade) + Relevância oportuna (fator de atualização, trending topics) + Potencial de conversação (altas pontuações de previsão de resposta) O algoritmo usa modelos de aprendizado de máquina para prever o engajamento, não fórmulas ponderadas simples. O sucesso é medido pelas interações reais do usuário, criando um ciclo de feedback que melhora continuamente as previsões de classificação. Como o algoritmo realmente funciona =============================== 1. Geração de candidatos (9 fontes): - Earlybird (postagens na rede) ~ 50% - UTEG (recomendações fora da rede) - postMixer, Listas, Comunidades, Exploração de Conteúdo - Fontes estáticas, em cache e de preenchimento 2. Hidratação de recursos (~ 6000 recursos por postagem): - Recursos do usuário (interesses, comportamento, dados demográficos) - recursos de postagem (texto, mídia, metadados, engajamento) - Recursos gráficos (SimClusters, RealGraph, conexões sociais) - Sinais em tempo real (engajamento atual, status de tendência) 3. Pipeline de pontuação (4 modelos): - Pontuação de modelo (classificador pesado NAVI) - Reclassificação de pipeline - Pontuação heurística - Pontuação de sinal baixo 4. Filtragem (24 filtros no total): - 10 Filtros Globais (idade < 48h, desduplicação, localização, etc.) - 14 filtros pós-pontuação (segurança do Grok, idioma, duração do vídeo, etc.) 5. Seleção Final e Mixagem: - Classificar por pontuações finais - Aplicar regras de diversidade - Misture com anúncios, quem seguir, prompts - Gerar linha do tempo Principais modelos de previsão ==================== O algoritmo prevê estes tipos de engajamento: • PredictedFavoriteScore (curtidas) • PredictedRetweetScore (republicações) • PredictedReplyScore (respostas) • PredictedGoodClickScore (cliques significativos) • PredictedVideoQualityViewScore (engajamento de vídeo) • PredictedBookmarkScore (salva) • PredictedShareScore (compartilhamentos externos) • PredictedDwellScore (tempo gasto visualizando) • PredictedNegativeFeedbackScore (oculta/bloqueia) Realidade do sistema de peso ==================== IMPORTANTE: O algoritmo NÃO usa pesos percentuais fixos como: ❌ Como Previsão (35%), Repostagem (28%), etc. SISTEMA REAL: ✅ Os pesos são parâmetros aprendidos do treinamento de ML ✅ Os valores padrão no código são 0,0 (substituídos por sinalizadores de recursos) ✅ Os pesos são personalizados por usuário e constantemente testados A/B ✅ Diferentes tipos de conteúdo (vídeo vs texto) recebem tratamento diferente ✅ Os pesos mudam com base no contexto em tempo real e no estado do usuário Exemplo de processo de pontuação: 1. Os modelos de ML preveem probabilidades de engajamento 2. Os sinalizadores de recursos fornecem multiplicadores de peso atuais 3. A personalização ajusta os pesos para o usuário individual 4. O contexto em tempo real modifica as pontuações finais 5. As regras de negócios aplicam portões de qualidade e diversidade O que realmente impulsiona o conteúdo viral ================================== Com base na análise de código, as postagens virais normalmente: 1. Gere previsões de alto engajamento: - Os modelos preveem alta probabilidade de curtir/repostar/responder - O conteúdo ressoa com várias comunidades de usuários - Fortes sinais de engajamento inicial 2. Passe todos os portões de qualidade: - Sobreviva a 24 estágios de filtro diferentes - Atender aos padrões de segurança (não spam/NSFW/violento) - O autor tem bons sinais de credibilidade 3. Obtenha personalização em escala: - Combine interesses em diversos segmentos de usuários - Disparar semelhança de SimClusters para muitos usuários - Conecte-se por meio de relacionamentos sociais do RealGraph 4. Otimize para a mecânica da plataforma: - Incluir mídia (imagens/vídeos têm melhor desempenho) - Publique durante períodos de alta atividade - Use formatos que incentivem respostas/republicações Principais takeaways ============= ✅ A previsão de engajamento é tudo - o algoritmo otimiza as interações do usuário ✅ A personalização é sofisticada - usa incorporações de ML, não uma simples correspondência de palavras-chave ✅ A filtragem de qualidade é extensa - 24 estágios evitam conteúdo de baixa qualidade ✅ Os pesos são dinâmicos - constantemente otimizados por meio de testes de ML e A/B ✅ A escala é importante - o sistema processa bilhões de postagens diariamente com <50ms de latenc A transparência existe - essa análise é possível porque o X abriu o código do algoritmo O sistema foi projetado para exibir conteúdo com o qual os usuários se envolverão, criando um ciclo de feedback que recompensa os criadores que entendem seu público e produzem conteúdo envolvente. Resumindo: crie conteúdo que gere engajamento genuíno do seu público-alvo. O algoritmo aprenderá e amplificará o que funciona.
10,61K