Бачив кілька аналізів алго, який якраз був з відкритим вихідним кодом. Це найкраще, що я бачив досі.
Tetsuo.ai
Tetsuo.ai22 години тому
Аналіз алгоритму рекомендацій Х ===================================== Використовував Grok Code Fast, щоб отримати швидку розбивку системи рекомендацій X. Що робить публікацію вірусною =========================== Прогноз залученості перевершує все. Розміщуйте контент, який генерує взаємодію. Виходячи з фактичного коду алгоритму, дописи, які займають найвищі позиції, зазвичай мають: + Високі прогнозовані показники залученості (моделі ML передбачають лайки/репости/відповіді) + Сильна відповідність персоналізації (схожість SimClusters з інтересами користувачів) + Релевантність соціального графа (підключення RealGraph до мережі користувача) + Медіаконтент (зображення/відео отримують мультиплікатори залучення) + Авторитетність автора (кількість підписників, верифікація, оцінка за версією tweepcred) + Сигнали якості контенту (проходить фільтри спаму/NSFW/якості) + Своєчасна актуальність (фактор свіжості, актуальні теми) + Потенціал розмови (високі показники прогнозування відповідей) Алгоритм використовує моделі машинного навчання для прогнозування залученості, а не прості зважені формули. Успіх вимірюється реальною взаємодією з користувачем, створюючи цикл зворотного зв'язку, який постійно покращує прогнози ранжування. Як насправді працює алгоритм =============================== 1. Генерація кандидатів (9 джерел): - Earlybird (публікації в мережі) ~50% - UTEG (рекомендації поза мережею) - postMixer, Списки, Спільноти, Дослідження контенту - Статичні, кешовані, джерела засипки 2. Функція гідратації (~6000 функцій на пост): - Характеристики користувача (інтереси, поведінка, демографічні показники) - функції публікації (текст, медіа, метадані, залучення) - Особливості графіка (SimClusters, RealGraph, соціальні зв'язки) - Сигнали в реальному часі (поточна взаємодія, статус тренду) 3. Пайплайн підрахунку балів (4 моделі): - Модельний бал (NAVI heavy ranker) - Переранжування пайплайну - Евристична оцінка - Низький рівень сигналу 4. Фільтрація (всього 24 фільтра): - 10 глобальних фільтрів (вік < 48 годин, дедуплікація, місцезнаходження тощо) - 14 фільтрів після оцінки (безпека грока, мова, тривалість відео тощо) 5. Остаточний вибір і змішування: - Сортування за підсумковими балами - Застосовуйте правила різноманітності - Мікс з рекламою, на кого підписатися, підказками - Створення часової шкали Основні моделі прогнозування ==================== Алгоритм передбачає такі типи взаємодії: • PredictedFavoriteScore (подобається) • PredictedRetweetScore (репости) • PredictedReplyScore (відповіді) • PredictedGoodClickScore (значущі кліки) • PredictedVideoQualityViewScore (взаємодія з відео) • PredictedBookmarkScore (збереження) • PredictedShareScore (зовнішні акції) • PredictedDwellScore (час, витрачений на перегляд) • PredictedNegativeFeedbackScore (приховує/блокує) Реальність системи ваги ==================== ВАЖЛИВО: Алгоритм НЕ використовує фіксовані відсоткові ваги, такі як: ❌ Як прогноз (35%), Репост (28%) і т.д. АКТУАЛЬНА СИСТЕМА: ✅ Вагові коефіцієнти – це параметри, що вивчаються під час тренувань з ML ✅ Значення за замовчуванням у коді — 0.0 (перевизначено прапорцями функцій) ✅ Ваги налаштовуються індивідуально для кожного користувача та постійно тестуються A/B ✅ Різні типи контенту (відео та текст) по-різному трактуються ✅ Вагові коефіцієнти змінюються залежно від контексту в реальному часі та стану користувача Приклад процесу підрахунку балів: 1. Моделі машинного навчання прогнозують ймовірності взаємодії 2. Прапорці функцій надають поточні множники ваги 3. Персоналізація регулює вагу для індивідуального користувача 4. Контекст у реальному часі змінює підсумкові оцінки 5. Правила ведення бізнесу передбачають якість воріт і різноманітність Що насправді стимулює вірусний контент ================================== Згідно з аналізом коду, вірусні пости зазвичай: 1. Створюйте прогнози високої залученості: - Моделі прогнозують високу ймовірність лайка/репосту/відповіді - Контент знаходить відгук у багатьох спільнотах користувачів - Сильні сигнали раннього залучення 2. Пройдіть усі якісні ворота: - Витримують 24 різних ступені фільтрації - Відповідають стандартам безпеки (не спам/NSFW/насильницькі) - Автор має хороші сигнали довіри 3. Досягніть персоналізації в масштабі: - Зіставляйте інтереси з різними сегментами користувачів - Тригер схожості SimClusters для багатьох користувачів - Зв'язок за допомогою соціальних відносин RealGraph 4. Оптимізуйте для механіки платформи: - Включайте медіа (зображення/відео працюють краще) - Публікація в періоди високої активності - Використовуйте формати, які заохочують відповіді/репости Ключові моменти ============= ✅ Прогнозування залученості вирішує все - алгоритм оптимізується під взаємодію з користувачем ✅ Персоналізація складна - використовує вбудовування ML, а не просте зіставлення ключових слів ✅ Якісна фільтрація широка - 24 етапи запобігають неякісному контенту ✅ Ваги динамічні - постійно оптимізуються за допомогою ML та A/B тестування ✅ Масштаб має значення - система обробляє мільярди повідомлень щодня з затримкою <50 мс Прозорість існує - цей аналіз можливий завдяки тому, що X відкрив алгоритм Система призначена для відображення контенту, з яким користувачі будуть взаємодіяти, створюючи цикл зворотного зв'язку, який винагороджує творців, які розуміють свою аудиторію та створюють цікавий контент. Підсумок: створюйте контент, який викликає справжнє залучення з боку вашої цільової аудиторії. Алгоритм вивчить і посилить те, що працює.
10,04K