Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Новая модель изображения Gemini (также известная как "нано-банан") работает довольно хорошо и очень весело использовать с вашими детьми (я сделал одного королевой, а другого - Блиппи, по их просьбе).
Однако у нее есть довольно странные ограничения. Иногда она очень точно передает сходство. В другие разы лица выглядят совершенно неузнаваемо. Не похоже, что есть какой-то четкий паттерн, который я могу различить в том, когда она работает, а когда нет.
У Google уже есть довольно хорошая технология для распознавания лиц, так как они делают это в Google Images.
Мне интересно, почему они не добавляют автоматический контроль качества, который проверяет, соответствует ли лицо на сгенерированном изображении лицу на оригинальном изображении, и автоматически повторяет попытку для тех, которые не прошли. Непоследовательность делает продукт гораздо менее волшебным.
Более серьезная проблема заключается в том, что исправления изображения, которое пошло не так, буквально никогда не работают. Оно совершенно не может восстановиться, как только идет по неправильному пути. Даже если исправления довольно четкие и скромные. Почти кажется, что это своего рода "отравление контекстом".
Это кажется гораздо более серьезной проблемой, учитывая, что это инструмент для повышения производительности, который конкурирует с Photoshop. Но это также, вероятно, можно решить, всегда выполняя несколько генераций за кулисами и оценивая их, показывая только лучшую.
Они также не позволяют вам регенерировать ("перекатить") изображение, так что вам каждый раз нужно начинать новый разговор. Это раздражает и загрязняет вашу историю разговоров.
Но, с учетом всего сказанного, он работает довольно хорошо и, безусловно, намного лучше, чем аналогичная функция в Facebook Messenger.
Adobe абсолютно должна иметь ответ на это, если они хотят оставаться актуальными.


3,59K
Я немного запутался во всех этих акронимах и жаргоне, поэтому я попросил Клода объяснить это без использования акронимов, и теперь все стало совершенно ясным (короче говоря; пропускная способность ⟹ простота):
Это увлекательная техническая дискуссия о тренировке больших языковых моделей в масштабе.
Основной разговор
Цзиньюань Лю выражает удивление тем, что не нужны определенные сложные методы оптимизации при использовании TPU (тензорные процессоры - специализированные чипы ИИ от Google) по сравнению с GPU (графические процессоры - обычно чипы от NVIDIA).
Ключевые технические концепции:
Типы оборудования:
• GPU (графический процессор): Изначально разработан для графики, теперь активно используется для ИИ. NVIDIA доминирует на этом рынке.
• TPU (тензорный процессор): Чипы, специально разработанные Google для машинного обучения.
Стратегии параллелизма:
При обучении огромных ИИ моделей необходимо распределить работу между многими чипами. Существует несколько способов сделать это:
1) Параллелизм данных (DP): Каждый чип обрабатывает разные партии данных с одной и той же копией модели.
2) Тензорный параллелизм (TP): Математические операции модели распределяются между чипами.
3) Пайплайн-параллелизм (PP): Разные слои модели размещаются на разных чипах, создавая конвейер.
Техническая проблема, обсуждаемая в разговоре:
Проблема вспомогательной потери: При обучении очень больших моделей часто добавляют "вспомогательные потери" (дополнительные цели обучения) на промежуточных слоях, чтобы помочь градиентам лучше проходить через сеть. В условиях PPVP (пайплайн-параллелизм с переменным разбиением) это становится сложным, потому что:
• Вам нужно делать "все f все b" (все прямые проходы, затем все обратные проходы).
• Это сложно для пикового использования памяти, потому что нужно хранить промежуточные результаты.
Инновация DeepSeek: Они разработали дизайн "auxfree bias", который, по-видимому, избегает необходимости в этих вспомогательных потерях, при этом эффективно обучая.
Удивительное откровение:
Старший эксперт сказал Цзиньюаню, что с TPU на уровне K2 или DSV3 (это конфигурации кластеров с сотнями или тысячами чипов) можно достичь отличной MFU (использование FLOPs модели - по сути, насколько эффективно вы используете оборудование) БЕЗ использования пайплайн-параллелизма.
Почему это удивительно?
• Пайплайн-параллелизм обычно считается необходимым для обучения в большом масштабе.
• Это сложная техника, требующая тщательной оптимизации.
• Возможность избежать этого значительно упрощает все.
Объяснение Хораса Хи:
Он объясняет, ПОЧЕМУ это возможно с TPU:
Преимущество пропускной способности: TPU и высококлассные кластеры NVIDIA (например, NVL72 - последняя 72-GPU конфигурация NVIDIA с межсоединениями NVLink) имеют такую высокую пропускную способность между чипами, что могут справляться с требованиями к коммуникации без пайплайн-параллелизма.
Ключевое понимание:
• Пайплайн-параллелизм в основном необходим, когда вы "узкие места на DP comms" (ограничены тем, насколько быстро вы можете общаться во время обучения с параллелизмом данных).
• Если у вас достаточно пропускной способности в достаточно большом домене (связанном кластере), вы можете просто использовать более простые стратегии параллелизма.
• Это работает "в течение очень долгого времени" - это означает, что вы можете обучать даже очень большие модели, не достигая пределов.
Интуиция:
Представьте это как систему шоссе:
• Традиционные кластеры GPU похожи на узкие дороги между городами, поэтому вам нужно сложное маршрутизирование (пайплайн-параллелизм), чтобы избежать пробок.
• Кластеры TPU или GPU, соединенные NVLink, похожи на огромные супермагистрали - вы можете просто отправлять все напрямую без сложного маршрутизирования.
Это большое дело, потому что пайплайн-параллелизм сложно реализовать, отлаживать и оптимизировать. Возможность избежать его, при этом достигая высокой эффективности, делает весь процесс обучения гораздо проще и надежнее.
Обсуждение подчеркивает, как достижения в технологии межсоединений оборудования ("дороги" между чипами) могут кардинально изменить программные стратегии, необходимые для эффективного обучения ИИ.

25,73K
Я немного запутался во всех этих акронимах и жаргоне, поэтому я попросил Клода объяснить это без использования акронимов, и теперь все стало совершенно ясным (короче говоря; пропускная способность ⟹ простота):
Это увлекательная техническая дискуссия о тренировке больших языковых моделей в масштабе.
Основной разговор
Цзиньюань Лю выражает удивление тем, что не нужны определенные сложные методы оптимизации при использовании TPU (тензорные процессоры - специализированные чипы ИИ от Google) по сравнению с GPU (графические процессоры - обычно чипы от NVIDIA).
Ключевые технические концепции:
Типы оборудования:
• GPU (графический процессор): Изначально разработан для графики, теперь активно используется для ИИ. NVIDIA доминирует на этом рынке.
• TPU (тензорный процессор): Чипы, специально разработанные Google для машинного обучения.
Стратегии параллелизма:
При обучении огромных ИИ моделей необходимо распределить работу между многими чипами. Существует несколько способов сделать это:
1. Параллелизм данных (DP): Каждый чип обрабатывает разные партии данных с одной и той же копией модели.
2. Тензорный параллелизм (TP): Математические операции модели распределяются между чипами.
3. Параллелизм по конвейеру (PP): Разные слои модели размещаются на разных чипах, создавая конвейер.
Техническая проблема, обсуждаемая в разговоре:
Проблема вспомогательной потери: При обучении очень больших моделей часто добавляют "вспомогательные потери" (дополнительные цели обучения) на промежуточных слоях, чтобы помочь градиентам лучше проходить через сеть. В условиях PPVP (параллелизм по конвейеру с переменным разбиением) это становится сложным, потому что:
• Вам нужно делать "все f все b" (все прямые проходы, затем все обратные проходы).
• Это сложно для пикового использования памяти, потому что нужно хранить промежуточные результаты.
Инновация DeepSeek: Они разработали дизайн "auxfree bias", который, по-видимому, избегает необходимости в этих вспомогательных потерях, при этом эффективно обучая.
Удивительное откровение:
Старший эксперт сказал Цзиньюаню, что с TPU на уровне K2 или DSV3 (это конфигурации кластеров с сотнями или тысячами чипов) можно достичь отличной MFU (использование FLOPs модели - по сути, насколько эффективно вы используете оборудование) БЕЗ использования параллелизма по конвейеру.
Почему это удивительно?
• Параллелизм по конвейеру обычно считается необходимым для обучения в большом масштабе.
• Это сложная техника, требующая тщательной оптимизации.
• Возможность избежать этого значительно упрощает все.
Объяснение Хораса Хи:
Он объясняет, ПОЧЕМУ это возможно с TPU:
Преимущество пропускной способности: TPU и высококлассные кластеры NVIDIA (например, NVL72 - последняя конфигурация NVIDIA с 72 GPU с межсоединениями NVLink) имеют такую высокую пропускную способность между чипами, что могут справляться с требованиями к коммуникации без параллелизма по конвейеру.
Ключевое понимание:
• Параллелизм по конвейеру в основном необходим, когда вы "узкоколейны по DP comms" (ограничены тем, насколько быстро вы можете общаться во время обучения с параллелизмом данных).
• Если у вас достаточно пропускной способности в достаточно большом домене (связанном кластере), вы можете просто использовать более простые стратегии параллелизма.
• Это работает "в течение очень долгого времени" - это означает, что вы можете обучать даже очень большие модели, не достигая пределов.
Интуиция:
Представьте это как систему шоссе:
• Традиционные кластеры GPU похожи на узкие дороги между городами, поэтому вам нужно сложное маршрутизирование (параллелизм по конвейеру), чтобы избежать пробок.
• Кластеры TPU или GPU, соединенные NVLink, похожи на огромные супермагистрали - вы можете просто отправлять все напрямую без сложного маршрутизирования.
Это важно, потому что параллелизм по конвейеру сложно реализовать, отлаживать и оптимизировать. Возможность избежать этого, при этом достигая высокой эффективности, делает весь процесс обучения гораздо проще и надежнее.
Обсуждение подчеркивает, как достижения в технологии межсоединения оборудования ("дороги" между чипами) могут кардинально изменить программные стратегии, необходимые для эффективного обучения ИИ.

4,01K
Я немного удивлён, что никто ещё не создал сервер Dwarf Fortress MCP, который мог бы позволить агенту, как Codex или Claude Code, эффективно управлять игрой и следить за состоянием и прогрессом.
Я сам никогда не играл в это, просто скачал и кратко ознакомился с ним около 10 лет назад, но мне было интересно читать о нём.
Кажется, это было бы очень хорошим тестом для LLM, чтобы увидеть, как долго он сможет поддерживать гномов в живых и процветающих.
Поскольку каждая игра в конечном итоге приводит к какой-то каскадной катастрофе, из-за которой все гномы погибают, должно быть естественное место остановки, что делает её хорошим кандидатом для бенчмарка. По крайней мере, это моё понимание (девиз игроков — "Проигрывать весело").
Хорошая работа с этой игрой будет зависеть от точности вызова инструментов и устойчивой согласованности долгосрочных задач, а также от способности следить за динамикой сложной системы и делать своевременные вмешательства, которые предвосхищают и противодействуют проблемам.
И поскольку она терминально нативна, её можно эффективно передавать и обрабатывать с использованием обычных токенов без необходимости в многомодальной обработке изображений, что сделает её гораздо более эффективной, чем другие игры.
Плюс, вы знаете, что ни одна лаборатория ИИ ещё не обучалась этому (пока!), так что она не испорчена "benchmaxxing."

4,42K
Веселое занятие, когда нужно подождать несколько минут, — это использовать свой телефон, чтобы задать Клоду Опусу следующий вопрос о какой-либо случайной дисциплине или области:
"Какое, по вашему мнению, является ОСНОВНЫМ пониманием или аналитическим трюком кристаллографии?"
Замените кристаллографию на что угодно, что вам приходит в голову. На данный момент я пробовал:
КЭД; Стандартная модель; Биохимия; Вероятность; Теория эволюции; и многое другое.
Есть что-то в том, чтобы заставить модель сделать невозможное, сжать обширную, сложную область в "один странный трюк", что заставляет ее действительно искать лучший глубокий, объединяющий принцип в этой области и затем кратко его сформулировать.
Это, как правило, что-то очевидное для практиков, но, вероятно, неизвестное большинству людей, которые просто имеют поверхностный интерес к предмету.
Интересно, что вы также можете многократно нажимать кнопку "повторить" с тем же запросом и иногда получать очень разные, но обычно очень увлекательные объяснения.
Я уже многому научился, делая это, и это может быть самым высоким "пониманием за минуту", с которым я сталкивался в любом самообучении.
Потому что это не просто интересные факты или классные детали. Это, по своей сути, проникающие и объединяющие идеи, которые связывают огромное количество теорий и наблюдаемых явлений в мире.
Это определенно гораздо более высокоскоростной способ, чем смотреть еще одно объясняющее видео на YouTube с анимациями и рекламой Brilliant/KiwiCo! Не то чтобы в этом было что-то плохое.




8,32K
Идея о том, что из OpenAI произошел такой "эксодус талантов", что они больше не могут быть лидерами в этой области, так же заблуждена и неверна, как и идея о том, что GPT-5 "был большим провалом, и модель не так уж хороша и очень инкрементальна."
GPT-5 Pro не только является самым умным моделем в мире сейчас, но и значительно превосходит большинство сложных задач из реальной жизни (особенно задач программирования, которые сейчас имеют наибольшее экономическое значение). Новый инструмент codex cli от OpenAI также невероятно хорошо выполнен.
Они перешли с далекого 3-го места в инструментах командной строки для программирования к тому, что, безусловно, является лучшим инструментом на данный момент (обратите внимание, что мне все еще нравится и я использую Claude Code, это не либо/или!), с безусловно лучшей производительностью, наименьшей задержкой и т.д., потому что он написан на Rust.
И теперь этот инструмент командной строки объединен с лучшей моделью программирования, которая имеет наилучшую надежность вызова инструментов и наилучшую согласованность при длительных задачах, с наименьшим количеством галлюцинаций.
И, разумеется, их приложение для iOS также значительно лучше всех других AI-приложений с точки зрения полировки и функций. Приложение Claude — это просто веб-приложение в песочнице Safari! И их веб-приложение также по-прежнему лучшее. Такие вещи, как поиск, просто работают лучше, чем в других приложениях. Базовые блокировки и тактика.
Так что да. Некоторые очень умные люди, такие как Илья и Джон Шульман, ушли в другие компании. Но у них все еще есть абсолютно потрясающая техническая команда с невероятно хорошими продуктологами и отличными инженерными навыками.
Не позволяйте вашей неприязни к Алтману ослепить вас очевидным. Каждый раз, когда я вижу, как кто-то снова говорит о том, как плох GPT-5, мне становится неловко, потому что этот человек показывает, что не может мыслить самостоятельно на основе доказательств и разума, и попал в мем, думая, что мнение (и высказывая его в интернете) делает их умными.
34,28K
В качестве обновления к моим двум недавним темам о том, как использовать GPT-5 Pro для начала процесса открытия прорывных теорий, которые объединяют новые приложения продвинутой математики и случаи использования ИИ, я заставил модель создать демонстрационные реализации на Python с использованием Jax и Numpy для каждой из 11 идей.
Затем я собрал их в проект и добавил удобный интерфейс командной строки для их запуска, а также серию тестов от начала до конца, которые измеряли, является ли код математически корректным, проверяли, имеет ли код те математические свойства, которые мы хотим, и, наконец, делает ли он что-то полезное по сравнению с текущими стандартными подходами.
Я использовал codex CLI с GPT-5 для интеграции всего и исправления ошибок. Я дам ссылку на репозиторий, который содержит подробную документацию для всего проекта, а затем описания для каждой из 11 демонстраций, которые содержат все выходные данные, сгенерированные моделью в процессе.
4,08K
Топ
Рейтинг
Избранное