X:n suositusalgoritmin analyysi ===================================== Käytin Grok Code Fastia saadakseni nopean erittelyn X:n suositusjärjestelmästä. Mikä tekee postauksesta viraalisen =========================== tldr: Sitoutumisen ennustaminen voittaa kaiken. Julkaise sisältöä, joka luo vuorovaikutusta. Varsinaisen algoritmikoodin perusteella korkeimmalle sijoittuneilla viesteillä on yleensä: + Korkeat ennustetut sitoutumispisteet (ML-mallit ennustavat tykkäyksiä/uudelleenjulkaisuja/vastauksia) + Vahva personointivastaavuus (SimClusterin samankaltaisuus käyttäjien kiinnostuksen kohteiden kanssa) + Sosiaalisen kaavion relevanssi (RealGraph-yhteydet käyttäjän verkkoon) + Mediasisältö (kuvat/videot saavat sitoutumiskertoimia) + Kirjoittajan uskottavuus (seuraajamäärä, vahvistus, tweepcred-pisteet) + Sisällön laatusignaalit (läpäisee roskapostin/NSFW/laatusuodattimet) + Oikea-aikainen osuvuus (tuoreuskerroin, trendaavat aiheet) + Keskustelupotentiaali (korkeat vastausten ennustepisteet) Algoritmi käyttää koneoppimismalleja sitoutumisen ennustamiseen, ei yksinkertaisia painotettuja kaavoja. Menestystä mitataan todellisilla käyttäjien vuorovaikutuksilla, mikä luo palautesilmukan, joka parantaa jatkuvasti sijoitusennusteita. Kuinka algoritmi todella toimii =============================== 1. Ehdokassukupolvi (9 lähdettä): - Earlybird (verkon sisäiset viestit) ~50 % - UTEG (verkon ulkopuoliset suositukset) - postMixer, Luettelot, Yhteisöt, Sisällön tutkiminen - Staattiset, välimuistissa, taustatäyttölähteet 2. Ominaisuus Nesteytys (~6000 ominaisuutta per viesti): - Käyttäjän ominaisuudet (kiinnostuksen kohteet, käyttäytyminen, demografiset tiedot) - julkaisun ominaisuudet (teksti, media, metatiedot, sitoutuminen) - Kaavion ominaisuudet (SimClusters, RealGraph, sosiaaliset yhteydet) - Reaaliaikaiset signaalit (nykyinen sitoutuminen, trendien tila) 3. Pisteytysputki (4 mallia): - Mallien pisteytys (NAVI:n raskas sijoitus) - Putkiston uudelleenluokittelu - Heuristinen pisteytys - Alhainen signaalipisteytys 4. Suodatus (yhteensä 24 suodatinta): - 10 Globaalit suodattimet (ikä < 48 tuntia, deduplikointi, sijainti jne.) - 14 Pisteiden jälkeiset suodattimet (Grok-turvallisuus, kieli, videon kesto jne.) 5. Lopullinen valinta ja miksaus: - Lajittele loppupisteiden mukaan - Soveltaa monimuotoisuussääntöjä - Sekoita mainoksiin, ketä seurata, kehotteisiin - Luo aikajana Keskeiset ennustemallit ==================== Algoritmi ennustaa seuraavat sitoutumistyypit: • PredictedFavoriteScore (tykkäykset) • PredictedRetweetScore (uudelleenjulkaisut) • PredictedReplyScore (vastaukset) • PredictedGoodClickScore (merkitykselliset klikkaukset) • PredictedVideoQualityViewScore (videon sitoutuminen) • PredictedBookmarkScore (tallentaa) • PredictedShareScore (ulkoiset osakkeet) • PredictedDwellScore (katseluun käytetty aika) • PredictedNegativeFeedbackScore (piilotukset/lohkot) Painojärjestelmän todellisuus ==================== TÄRKEÄÄ: Algoritmi EI käytä kiinteitä prosenttiosuuksia, kuten: ❌ Tykkää ennusteesta (35 %), uudelleenpostauksesta (28 %) jne. VARSINAINEN JÄRJESTELMÄ: ✅ Painot ovat ML-harjoittelusta opittuja parametreja ✅ Koodin oletusarvot ovat 0.0 (ominaisuusliput ohittavat) ✅ Painot ovat käyttäjäkohtaisia ja jatkuvasti A/B-testattuja ✅ Eri sisältötyyppejä (video vs. teksti) kohdellaan eri tavalla ✅ Painot muuttuvat reaaliaikaisen kontekstin ja käyttäjän tilan mukaan Esimerkki pisteytysprosessista: 1. ML-mallit ennustavat sitoutumisen todennäköisyyksiä 2. Ominaisuusliput tarjoavat nykyiset painokertoimet 3. Personointi säätää painot yksittäiselle käyttäjälle 4. Reaaliaikainen konteksti muokkaa lopputuloksia 5. Liiketoimintasäännöt soveltavat laatuportteja ja monimuotoisuutta Mikä oikeastaan ohjaa virussisältöä ================================== Koodianalyysin perusteella virusviestit tyypillisesti: 1. Luo korkean sitoutumisen ennusteita: - Mallit ennustavat suuren tykkäysten/uudelleenjulkaisujen/vastausten todennäköisyyden - Sisältö resonoi useiden käyttäjäyhteisöjen kanssa - Vahvat varhaiset sitoutumissignaalit 2. Ohita kaikki laatuportit: - Selviä 24 eri suodatinvaiheesta - Täytä turvallisuusstandardit (ei roskaposti/NSFW/väkivaltainen) - Kirjoittajalla on hyvät uskottavuussignaalit 3. Saavuta personointi mittakaavassa: - Eri käyttäjäsegmenttien kiinnostuksen kohteiden yhdistäminen - Käynnistä SimClusters-samankaltaisuus monille käyttäjille - Muodosta yhteys RealGraphin sosiaalisten suhteiden kautta 4. Optimoi alustamekaniikkaa varten: - Sisällytä media (kuvat/videot toimivat paremmin) - Julkaise korkean aktiivisuuden aikoina - Käytä muotoja, jotka kannustavat vastaamaan/julkaisemaan uudelleen Tärkeimmät huomiot ============= ✅ Sitoutumisen ennustaminen on kaikki kaikessa - algoritmi optimoi käyttäjien vuorovaikutusta varten ✅ Personointi on hienostunutta – käyttää koneoppimisen upotuksia, ei yksinkertaista avainsanojen vastaavuutta ✅ Laadukas suodatus on laaja - 24 vaihetta estää huonolaatuisen sisällön ✅ Painot ovat dynaamisia - jatkuvasti optimoituja ML- ja A/B-testauksen avulla ✅ Mittakaavalla on väliä - järjestelmä käsittelee miljardeja viestejä päivittäin <50 ms:n latencilla Läpinäkyvyys on olemassa - tämä analyysi on mahdollinen, koska X on avoimen lähdekoodin algoritmi Järjestelmä on suunniteltu tuomaan esiin sisältöä, johon käyttäjät sitoutuvat, ja luomaan palautesilmukan, joka palkitsee sisällöntuottajia, jotka ymmärtävät yleisöään ja tuottavat kiinnostavaa sisältöä. Bottom line: Luo sisältöä, joka saa kohdeyleisösi aitoon sitoutumaan. Algoritmi oppii ja vahvistaa sitä, mikä toimii.
234,81K