Анализ алгоритма рекомендаций X ===================================== Использован Grok Code Fast для быстрого анализа системы рекомендаций X. Что делает пост вирусным =========================== tldr: Прогнозирование вовлеченности важнее всего. Публикуйте контент, который вызывает взаимодействия. На основе фактического кода алгоритма, посты, которые занимают самые высокие позиции, обычно имеют: + Высокие прогнозируемые оценки вовлеченности (МЛ модели прогнозируют лайки/репосты/ответы) + Сильное соответствие персонализации (сходство SimClusters с интересами пользователя) + Актуальность социальной графики (связи RealGraph с сетью пользователя) + Медиа-контент (изображения/видео получают множители вовлеченности) + Достоверность автора (количество подписчиков, верификация, оценка tweepcred) + Сигналы качества контента (проходит фильтры спама/NSFW/качества) + Актуальность во времени (фактор свежести, трендовые темы) + Потенциал для обсуждения (высокие прогнозируемые оценки ответов) Алгоритм использует модели машинного обучения для прогнозирования вовлеченности, а не простые взвешенные формулы. Успех измеряется фактическими взаимодействиями пользователей, создавая замкнутый цикл, который постоянно улучшает прогнозы ранжирования. Как на самом деле работает алгоритм =============================== 1. Генерация кандидатов (9 источников): - Earlybird (посты в сети) ~50% - UTEG (рекомендации вне сети) - postMixer, Списки, Сообщества, Исследование контента - Статические, кэшированные, источники обратной подстановки 2. Гидратация признаков (~6000 признаков на пост): - Признаки пользователя (интересы, поведение, демография) - Признаки поста (текст, медиа, метаданные, вовлеченность) - Признаки графа (SimClusters, RealGraph, социальные связи) - Сигналы в реальном времени (текущая вовлеченность, статус тренда) 3. Конвейер оценки (4 модели): - Оценка модели (тяжелый ранжировщик NAVI) - Конвейер повторной оценки - Эвристическая оценка - Оценка низкого сигнала 4. Фильтрация (всего 24 фильтра): - 10 Глобальных фильтров (возраст < 48ч, дедупликация, местоположение и т.д.) - 14 Фильтров оценки постов (безопасность Grok, язык, продолжительность видео и т.д.) 5. Финальный отбор и смешивание: - Сортировка по финальным оценкам - Применение правил разнообразия - Смешивание с рекламой, рекомендациями по подписке, подсказками - Генерация временной шкалы Ключевые модели прогнозирования ==================== Алгоритм прогнозирует эти типы вовлеченности: • Прогнозируемая оценка любимого (лайки) • Прогнозируемая оценка репоста (репосты) • Прогнозируемая оценка ответа (ответы) • Прогнозируемая оценка хорошего клика (значимые клики) • Прогнозируемая оценка качества видео (вовлеченность в видео) • Прогнозируемая оценка закладки (сохранения) • Прогнозируемая оценка поделиться (внешние репосты) • Прогнозируемая оценка времени просмотра (время, проведенное за просмотром) • Прогнозируемая оценка негативной обратной связи (скрытия/блокировки) Реальность системы весов ==================== ВАЖНО: Алгоритм НЕ использует фиксированные процентные веса, такие как: ❌ Прогнозирование лайков (35%), репостов (28%) и т.д. ФАКТИЧЕСКАЯ СИСТЕМА: ✅ Веса - это обучаемые параметры из обучения МЛ ✅ Значения по умолчанию в коде равны 0.0 (переопределяются флагами признаков) ✅ Веса персонализированы для каждого пользователя и постоянно тестируются A/B ✅ Разные типы контента (видео против текста) получают разное обращение ✅ Веса меняются в зависимости от контекста в реальном времени и состояния пользователя Пример процесса оценки: 1. МЛ модели прогнозируют вероятности вовлеченности 2. Флаги признаков предоставляют текущие множители веса 3. Персонализация корректирует веса для отдельного пользователя 4. Контекст в реальном времени изменяет финальные оценки 5. Бизнес-правила применяют качественные фильтры и разнообразие Что на самом деле делает контент вирусным ================================== На основе анализа кода, вирусные посты обычно: 1. Генерируют высокие прогнозы вовлеченности: - Модели прогнозируют высокую вероятность лайков/репостов/ответов - Контент резонирует с несколькими пользовательскими сообществами - Сильные сигналы ранней вовлеченности 2. Проходят все качественные фильтры: - Выживают на 24 различных этапах фильтрации - Соответствуют стандартам безопасности (не спам/NSFW/насилие) - Автор имеет хорошие сигналы достоверности 3. Достигают персонализации в масштабе: - Соответствуют интересам различных пользовательских сегментов - Вызывают сходство SimClusters для многих пользователей - Связываются через социальные отношения RealGraph 4. Оптимизируют механики платформы: - Включают медиа (изображения/видео работают лучше) - Публикуют в периоды высокой активности - Используют форматы, которые способствуют ответам/репостам Ключевые выводы ============= ✅ Прогнозирование вовлеченности - это все - алгоритм оптимизирует для взаимодействий пользователей ✅ Персонализация сложная - использует встраивания МЛ, а не простое сопоставление ключевых слов ✅ Качественная фильтрация обширна - 24 этапа предотвращают низкокачественный контент ✅ Веса динамичны - постоянно оптимизируются через МЛ и A/B тестирование ✅ Масштаб имеет значение - система обрабатывает миллиарды постов ежедневно с задержкой <50 мс ✅ Прозрачность существует - этот анализ возможен, потому что X открыто опубликовал алгоритм Система разработана для того, чтобы выводить контент, с которым пользователи будут взаимодействовать, создавая замкнутый цикл, который вознаграждает создателей, понимающих свою аудиторию и производящих увлекательный контент. Итог: Создавайте контент, который вызывает искреннее взаимодействие с вашей целевой аудиторией. Алгоритм будет учиться и усиливать то, что работает.
184,63K