Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Viděl jsem několik analýz algoritmu, který byl právě open source. Tohle je to nejlepší, co jsem zatím viděl.

9. 9. 12:09
Analýza doporučovacího algoritmu X
=====================================
Použil jsem Grok Code Fast, abych získal rychlý rozpis systému doporučení X.
Co dělá příspěvek virálním
===========================
tldr: Predikce zapojení trumfuje všechno. Zveřejňujte obsah, který generuje interakce.
Na základě skutečného kódu algoritmu mají příspěvky, které se umisťují na nejvyšších pozicích, obvykle následující:
+ Vysoké předpokládané skóre zapojení (modely ML předpovídají lajky/reposty/odpovědi)
+ Silná personalizační shoda (podobnost SimClusters se zájmy uživatelů)
+ Relevance sociálního grafu (RealGraph připojení k síti uživatele)
+ Mediální obsah (obrázky/videa mají násobitel zapojení)
+ Důvěryhodnost autora (počet sledujících, ověření, tweepcred skóre)
+ Signály kvality obsahu (prochází spamem/NSFW/filtry kvality)
+ Včasná relevance (faktor čerstvosti, trendová témata)
+ Konverzační potenciál (vysoké skóre predikce odpovědí)
Algoritmus používá k předvídání zapojení modely strojového učení, nikoli jednoduché vážené vzorce. Úspěch se měří skutečnými interakcemi uživatelů, čímž se vytváří smyčka zpětné vazby, která neustále zlepšuje předpovědi pořadí.
Jak algoritmus vlastně funguje
===============================
1. Generace kandidátů (9 zdrojů):
- Ranní ptáče (příspěvky v síti) ~50 %
- UTEG (doporučení mimo síť)
- postMixer, Seznamy, Komunity, Průzkum obsahu
- Statické, cachované, záložní zdroje
2. Funkce hydratace (~6000 funkcí na příspěvek):
- Uživatelské vlastnosti (zájmy, chování, demografické údaje)
- funkce příspěvků (text, média, metadata, projevený zájem)
- Grafové funkce (SimClusters, RealGraph, sociální vazby)
- Signály v reálném čase (aktuální zapojení, stav trendů)
3. Bodovací řetězec (4 modely):
- Bodování modelů (NAVI těžký ranker)
- Postup pro změnu pořadí
- Heuristické bodování
- Nízké skóre signálu
4. Filtrování (celkem 24 filtrů):
- 10 globálních filtrů (věk < 48 h, deduplikace, umístění atd.)
- 14 filtrů Post-Score (bezpečnost Grok, jazyk, délka videa atd.)
5. Konečný výběr a mixování:
- Seřadit podle konečného skóre
- Uplatňovat pravidla rozmanitosti
- Kombinace s reklamami, pokyny typu "kdo sledovat"
- Generování časové osy
Klíčové predikční modely
====================
Algoritmus předpovídá tyto typy zapojení:
• PredictedFavoriteScore (líbí se)
• PredictedRetweetScore (reposty)
• PredictedReplyScore (odpovědi)
• PredictedGoodClickScore (smysluplná kliknutí)
• PredictedVideoQualityViewScore (zapojení videa)
• PredictedBookmarkScore (ukládá)
• PredictedShareScore (externí sdílené složky)
• PredictedDwellScore (čas strávený sledováním)
• PredictedNegativeFeedbackScore (skryje/zablokuje)
Realita systému vážení
====================
Důležité: Algoritmus NEPOUŽÍVÁ pevné procentuální váhy, jako jsou:
❌ Stejně jako Prediction (35 %), Repost (28 %) atd.
AKTUÁLNÍ SYSTÉM:
✅ Váhy jsou naučené parametry z ML tréninku
✅ Výchozí hodnoty v kódu jsou 0.0 (přepsány příznaky funkcí)
✅ Hmotnosti jsou přizpůsobeny pro každého uživatele a neustále A/B testovány
✅ S různými typy obsahu (video vs. text) se zachází různě
✅ Váhy se mění na základě kontextu v reálném čase a stavu uživatele
Příklad procesu bodování:
1. Modely ML předpovídají pravděpodobnost zapojení
2. Příznaky: poskytují násobitele aktuální hmotnosti
3. Personalizace upravuje váhy pro jednotlivé uživatele
4. Kontext v reálném čase upravuje konečné skóre
5. Obchodní pravidla platí brány kvality a rozmanitosti
Co vlastně pohání virální obsah
==================================
Na základě analýzy kódu virální příspěvky typicky:
1. Generujte předpovědi vysokého zapojení:
- Modely předpovídají vysokou pravděpodobnost lajků/repostů/odpovědí
- Obsah rezonuje s více komunitami uživatelů
- Silné signály včasného zapojení
2. Projděte všemi branami kvality:
- Přežít 24 různých fází filtru
- Splňují bezpečnostní standardy (ne spam/NSFW/násilné)
- Autor má dobré signály důvěryhodnosti
3. Dosáhněte personalizace ve velkém měřítku:
- Slaďte zájmy napříč různými segmenty uživatelů
- Podobnost SimClusters pro mnoho uživatelů
- Propojení prostřednictvím sociálních vztahů RealGraph
4. Optimalizace pro mechaniku platformy:
- Zahrnout média (obrázky/videa fungují lépe)
- Zveřejňování příspěvků v obdobích vysoké aktivity
- Používejte formáty, které podporují odpovědi / reposty
Klíčové poznatky
=============
✅ Predikce zapojení je vše - algoritmus optimalizuje pro interakce uživatelů
✅ Personalizace je propracovaná - využívá ML embedding, nikoli jednoduchou shodu klíčových slov
✅ Filtrování kvality je rozsáhlé - 24 fází zabraňuje nekvalitnímu obsahu
✅ Váhy jsou dynamické - neustále optimalizované pomocí ML a A/B testování
✅ Na měřítku záleží - systém zpracovává miliardy příspěvků denně s latencem <50 ms Transparentnost existuje - tato analýza je možná, protože X má algoritmus s otevřeným zdrojovým kódem
Systém je navržen tak, aby zobrazoval obsah, se kterým se uživatelé budou zajímat, a vytvářel smyčku zpětné vazby, která odměňuje tvůrce, kteří rozumí svému publiku a vytvářejí poutavý obsah.
Sečteno a podtrženo: Vytvářejte obsah, který generuje skutečné zapojení vaší cílové skupiny. Algoritmus se naučí a zesílí to, co funguje.
10,04K
Top
Hodnocení
Oblíbené