Viděl jsem několik analýz algoritmu, který byl právě open source. Tohle je to nejlepší, co jsem zatím viděl.
Tetsuo.ai
Tetsuo.ai9. 9. 12:09
Analýza doporučovacího algoritmu X ===================================== Použil jsem Grok Code Fast, abych získal rychlý rozpis systému doporučení X. Co dělá příspěvek virálním =========================== tldr: Predikce zapojení trumfuje všechno. Zveřejňujte obsah, který generuje interakce. Na základě skutečného kódu algoritmu mají příspěvky, které se umisťují na nejvyšších pozicích, obvykle následující: + Vysoké předpokládané skóre zapojení (modely ML předpovídají lajky/reposty/odpovědi) + Silná personalizační shoda (podobnost SimClusters se zájmy uživatelů) + Relevance sociálního grafu (RealGraph připojení k síti uživatele) + Mediální obsah (obrázky/videa mají násobitel zapojení) + Důvěryhodnost autora (počet sledujících, ověření, tweepcred skóre) + Signály kvality obsahu (prochází spamem/NSFW/filtry kvality) + Včasná relevance (faktor čerstvosti, trendová témata) + Konverzační potenciál (vysoké skóre predikce odpovědí) Algoritmus používá k předvídání zapojení modely strojového učení, nikoli jednoduché vážené vzorce. Úspěch se měří skutečnými interakcemi uživatelů, čímž se vytváří smyčka zpětné vazby, která neustále zlepšuje předpovědi pořadí. Jak algoritmus vlastně funguje =============================== 1. Generace kandidátů (9 zdrojů): - Ranní ptáče (příspěvky v síti) ~50 % - UTEG (doporučení mimo síť) - postMixer, Seznamy, Komunity, Průzkum obsahu - Statické, cachované, záložní zdroje 2. Funkce hydratace (~6000 funkcí na příspěvek): - Uživatelské vlastnosti (zájmy, chování, demografické údaje) - funkce příspěvků (text, média, metadata, projevený zájem) - Grafové funkce (SimClusters, RealGraph, sociální vazby) - Signály v reálném čase (aktuální zapojení, stav trendů) 3. Bodovací řetězec (4 modely): - Bodování modelů (NAVI těžký ranker) - Postup pro změnu pořadí - Heuristické bodování - Nízké skóre signálu 4. Filtrování (celkem 24 filtrů): - 10 globálních filtrů (věk < 48 h, deduplikace, umístění atd.) - 14 filtrů Post-Score (bezpečnost Grok, jazyk, délka videa atd.) 5. Konečný výběr a mixování: - Seřadit podle konečného skóre - Uplatňovat pravidla rozmanitosti - Kombinace s reklamami, pokyny typu "kdo sledovat" - Generování časové osy Klíčové predikční modely ==================== Algoritmus předpovídá tyto typy zapojení: • PredictedFavoriteScore (líbí se) • PredictedRetweetScore (reposty) • PredictedReplyScore (odpovědi) • PredictedGoodClickScore (smysluplná kliknutí) • PredictedVideoQualityViewScore (zapojení videa) • PredictedBookmarkScore (ukládá) • PredictedShareScore (externí sdílené složky) • PredictedDwellScore (čas strávený sledováním) • PredictedNegativeFeedbackScore (skryje/zablokuje) Realita systému vážení ==================== Důležité: Algoritmus NEPOUŽÍVÁ pevné procentuální váhy, jako jsou: ❌ Stejně jako Prediction (35 %), Repost (28 %) atd. AKTUÁLNÍ SYSTÉM: ✅ Váhy jsou naučené parametry z ML tréninku ✅ Výchozí hodnoty v kódu jsou 0.0 (přepsány příznaky funkcí) ✅ Hmotnosti jsou přizpůsobeny pro každého uživatele a neustále A/B testovány ✅ S různými typy obsahu (video vs. text) se zachází různě ✅ Váhy se mění na základě kontextu v reálném čase a stavu uživatele Příklad procesu bodování: 1. Modely ML předpovídají pravděpodobnost zapojení 2. Příznaky: poskytují násobitele aktuální hmotnosti 3. Personalizace upravuje váhy pro jednotlivé uživatele 4. Kontext v reálném čase upravuje konečné skóre 5. Obchodní pravidla platí brány kvality a rozmanitosti Co vlastně pohání virální obsah ================================== Na základě analýzy kódu virální příspěvky typicky: 1. Generujte předpovědi vysokého zapojení: - Modely předpovídají vysokou pravděpodobnost lajků/repostů/odpovědí - Obsah rezonuje s více komunitami uživatelů - Silné signály včasného zapojení 2. Projděte všemi branami kvality: - Přežít 24 různých fází filtru - Splňují bezpečnostní standardy (ne spam/NSFW/násilné) - Autor má dobré signály důvěryhodnosti 3. Dosáhněte personalizace ve velkém měřítku: - Slaďte zájmy napříč různými segmenty uživatelů - Podobnost SimClusters pro mnoho uživatelů - Propojení prostřednictvím sociálních vztahů RealGraph 4. Optimalizace pro mechaniku platformy: - Zahrnout média (obrázky/videa fungují lépe) - Zveřejňování příspěvků v obdobích vysoké aktivity - Používejte formáty, které podporují odpovědi / reposty Klíčové poznatky ============= ✅ Predikce zapojení je vše - algoritmus optimalizuje pro interakce uživatelů ✅ Personalizace je propracovaná - využívá ML embedding, nikoli jednoduchou shodu klíčových slov ✅ Filtrování kvality je rozsáhlé - 24 fází zabraňuje nekvalitnímu obsahu ✅ Váhy jsou dynamické - neustále optimalizované pomocí ML a A/B testování ✅ Na měřítku záleží - systém zpracovává miliardy příspěvků denně s latencem <50 ms Transparentnost existuje - tato analýza je možná, protože X má algoritmus s otevřeným zdrojovým kódem Systém je navržen tak, aby zobrazoval obsah, se kterým se uživatelé budou zajímat, a vytvářel smyčku zpětné vazby, která odměňuje tvůrce, kteří rozumí svému publiku a vytvářejí poutavý obsah. Sečteno a podtrženo: Vytvářejte obsah, který generuje skutečné zapojení vaší cílové skupiny. Algoritmus se naučí a zesílí to, co funguje.
10,04K