Analiza algorytmu rekomendacji X ===================================== Użyto Grok Code Fast, aby szybko przeanalizować system rekomendacji X. Co sprawia, że post staje się wiralny =========================== tldr: Przewidywanie zaangażowania jest najważniejsze. Publikuj treści, które generują interakcje. Na podstawie rzeczywistego kodu algorytmu, posty, które zajmują najwyższe miejsca, zazwyczaj mają: + Wysokie przewidywane wyniki zaangażowania (modele ML przewidują polubienia/udostępnienia/odpowiedzi) + Silne dopasowanie personalizacyjne (podobieństwo SimClusters do zainteresowań użytkownika) + Relevancja w sieci społecznej (połączenia RealGraph z siecią użytkownika) + Treści multimedialne (obrazy/wideo uzyskują mnożniki zaangażowania) + Wiarygodność autora (liczba obserwujących, weryfikacja, wynik tweepcred) + Wskaźniki jakości treści (przechodzi filtry spamowe/NSFW/jakościowe) + Aktualność (czynnik świeżości, tematy na czasie) + Potencjał do rozmowy (wysokie przewidywania odpowiedzi) Algorytm wykorzystuje modele uczenia maszynowego do przewidywania zaangażowania, a nie proste formuły ważone. Sukces mierzy się rzeczywistymi interakcjami użytkowników, tworząc pętlę zwrotną, która ciągle poprawia przewidywania rankingowe. Jak działa algorytm =============================== 1. Generowanie kandydatów (9 źródeł): - Earlybird (posty w sieci) ~50% - UTEG (rekomendacje spoza sieci) - postMixer, Listy, Społeczności, Eksploracja treści - Źródła statyczne, pamięci podręczne, uzupełnienia 2. Hydratacja cech (~6000 cech na post): - Cechy użytkownika (zainteresowania, zachowanie, demografia) - Cechy postu (tekst, media, metadane, zaangażowanie) - Cechy grafu (SimClusters, RealGraph, połączenia społeczne) - Sygnaly w czasie rzeczywistym (aktualne zaangażowanie, status trendów) 3. Pipeline oceniania (4 modele): - Ocena modelu (ciężki ranking NAVI) - Pipeline ponownego rankingu - Ocena heurystyczna - Ocena niskiego sygnału 4. Filtrowanie (łącznie 24 filtry): - 10 globalnych filtrów (wiek < 48h, deduplikacja, lokalizacja itp.) - 14 filtrów post-score (bezpieczeństwo Grok, język, czas trwania wideo itp.) 5. Ostateczny wybór i mieszanie: - Sortowanie według ostatecznych wyników - Zastosowanie zasad różnorodności - Mieszanie z reklamami, kto-do-obserwowania, zachętami - Generowanie osi czasu Kluczowe modele przewidywania ==================== Algorytm przewiduje te typy zaangażowania: • PrzewidywanaOcenaUlubionych (polubienia) • PrzewidywanaOcenaRetweetów (udostępnienia) • PrzewidywanaOcenaOdpowiedzi (odpowiedzi) • PrzewidywanaOcenaDobregoKliknięcia (znaczące kliknięcia) • PrzewidywanaOcenaJakościWideo (zaangażowanie wideo) • PrzewidywanaOcenaZakładek (zapisy) • PrzewidywanaOcenaUdostępnienia (udostępnienia zewnętrzne) • PrzewidywanaOcenaCzasuSpędzonego (czas spędzony na oglądaniu) • PrzewidywanaOcenaNegatywnegoFeedbacku (ukrycia/blokady) Rzeczywistość systemu wag ==================== WAŻNE: Algorytm NIE używa stałych wag procentowych, takich jak: ❌ Przewidywanie polubień (35%), udostępnień (28%) itp. RZECZYWISTY SYSTEM: ✅ Wagi to parametry uczone z treningu ML ✅ Wartości domyślne w kodzie to 0.0 (nadpisywane przez flagi cech) ✅ Wagi są personalizowane dla każdego użytkownika i nieustannie testowane A/B ✅ Różne typy treści (wideo vs tekst) są traktowane inaczej ✅ Wagi zmieniają się w zależności od kontekstu w czasie rzeczywistym i stanu użytkownika Przykładowy proces oceniania: 1. Modele ML przewidują prawdopodobieństwa zaangażowania 2. Flagi cech dostarczają aktualne mnożniki wag 3. Personalizacja dostosowuje wagi dla indywidualnego użytkownika 4. Kontekst w czasie rzeczywistym modyfikuje ostateczne wyniki 5. Zasady biznesowe stosują bramy jakości i różnorodności Co naprawdę napędza wiralną treść ================================== Na podstawie analizy kodu, wiralne posty zazwyczaj: 1. Generują wysokie przewidywania zaangażowania: - Modele przewidują wysokie prawdopodobieństwo polubień/udostępnień/odpowiedzi - Treść rezonuje z wieloma społecznościami użytkowników - Silne sygnały wczesnego zaangażowania 2. Przechodzą wszystkie bramy jakości: - Przetrwają 24 różne etapy filtracji - Spełniają standardy bezpieczeństwa (nie spam/NSFW/przemoc) - Autor ma dobre sygnały wiarygodności 3. Osiągają personalizację na dużą skalę: - Dopasowują zainteresowania w różnych segmentach użytkowników - Wyzwalają podobieństwo SimClusters dla wielu użytkowników - Łączą się przez relacje społeczne RealGraph 4. Optymalizują pod kątem mechaniki platformy: - Zawierają media (obrazy/wideo działają lepiej) - Publikują w okresach dużej aktywności - Używają formatów, które zachęcają do odpowiedzi/udostępnień Kluczowe wnioski ============= ✅ Przewidywanie zaangażowania jest wszystkim - algorytm optymalizuje pod kątem interakcji użytkowników ✅ Personalizacja jest zaawansowana - wykorzystuje osadzenia ML, a nie proste dopasowanie słów kluczowych ✅ Filtrowanie jakości jest rozległe - 24 etapy zapobiegają niskiej jakości treści ✅ Wagi są dynamiczne - nieustannie optymalizowane przez ML i testy A/B ✅ Skala ma znaczenie - system przetwarza miliardy postów dziennie z opóźnieniem <50ms ✅ Przejrzystość istnieje - ta analiza jest możliwa, ponieważ X udostępnił algorytm jako open-source System jest zaprojektowany, aby wydobywać treści, z którymi użytkownicy będą się angażować, tworząc pętlę zwrotną, która nagradza twórców, którzy rozumieją swoją publiczność i produkują angażujące treści. Podsumowując: Twórz treści, które generują autentyczne zaangażowanie od Twojej docelowej publiczności. Algorytm nauczy się i wzmocni to, co działa.
184,63K