Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Кодер, велогонщик, официант-гадалка, сборщик электронных отходов, сооснователь KCORES, экс-директор IllaSoft, KingsoftOffice, Цзюэджин.
Хорошие новости! Игровые карты теперь могут использовать SAM-Audio!
Позавчера я протестировал новую модель разделения аудиотреков от Meta, SAM-Audio, но главная проблема этой модели в том, что она слишком большая, в моем тесте версия large требует 90 ГБ видеопамяти. Теперь хорошие новости: один блогер удалил несущественные части модели (кодировщик и сортировщик, на самом деле эта модель также поддерживает извлечение инструментов из видео, но можно также просто описать, какой инструмент нужно извлечь текстом. Поэтому эта часть функционала была удалена).
В настоящее время версия small требует всего 4-6 ГБ видеопамяти, а версия large — всего 10 ГБ видеопамяти, так что практически любая хорошая игровая карта сможет это запустить, и автор также создал пакет для установки одним кликом, просто нажмите и установите, ничего не нужно настраивать. Тем, кто хочет извлечь фоновые мелодии песен или отделить инструменты и вокал, стоит попробовать.
Адрес проекта:

5
Почему так быстро появился открытый модельный слой для разложения?
Представляю вам только что выпущенную модель Qwen-Image-Layered от Alibaba, это большая модель, которая может разделять изображения на разные слои, модель основана на дообучении Qwen-Image.
В этом тестировании я охватил сильные стороны этой модели (постеры), тестирование соблюдения инструкций (указание на извлечение цели), обработка краев (волосы), предельное тестирование (все наклейки, если одна наклейка — один слой, можно извлечь более 50 слоев).
Сразу скажу вывод: во-первых, модель слишком большая, так как эта модель основана на Qwen-Image, она имеет 20B, я тестировал с HuggingFace Zero GPU, каждый запуск занимает около 2 минут, модель действительно может разделять слои, и обработка краев довольно хороша, но стабильность требует оптимизации, в моем тестировании 4 слоя можно вывести, но 8 или 10 слоев вылетают, подозреваю, что это может быть связано с превышением времени ожидания Zero GPU или ошибкой (GPU H200, маловероятно, что это проблема с видеопамятью), размер вывода всего 544*736, официально также рекомендуется разрешение 640, это тоже нужно улучшить, и модель все еще слишком большая, 20B, надеюсь, что размеры можно оптимизировать.
5
Плакал, SOTA — это всего лишь фасад, настоящая работа зависит от "модели быка и лошади".
Основатель OpenRouter Алекс Аттал только что опубликовал твит, в котором сказал, что он все еще использует Kimi-K2-0711 (инструкция Kimi-K2 за июль) больше всего.
Затем идут openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
Когда я впервые это увидел, подумал, неужели этот человек отключился от интернета, давно не использовал новые большие модели?
Но, подумав хорошенько, понял, что это не так, это очень странно. Это действительно способ использования настоящего Power User, слишком реалистично.
Если в этот момент найти модель с достаточно большим контекстом (128K), приемлемой производительностью (SWE-Bench Verified > 65), сильными агентскими способностями (Tau2-bench > 65), обширными знаниями (соответствующее большое количество параметров) и быстрой реакцией (не Thinking модель), похоже, что только Kimi-K2-Instruct подходит.
Таким образом, можно предположить, что большая часть работы Алекса Аттала связана с обработкой документов (долгий контекст, особенно с использованием 13.4M токенов), анализом инструментов и написанием отчетов (агентские способности), все это Kimi-K2-Instruct может сделать, а затем написанием скриптов (o4 и Claude-3.7-Sonnet в качестве запасных, даже упаковывая их в агента, чтобы Kimi-k2 мог вызывать эти модели для написания скриптов).
В конце концов, Kimi-k2 также может удовлетворить самый важный момент — конфиденциальность данных, потому что модель имеет открытые веса и может быть развернута на собственном сервере, никакая конфиденциальная информация не будет передана OpenAI или Anthropic. Даже существование GPT-OSS-120B, вероятно, связано с этим.
Я примерно понимаю, почему новые большие модели сейчас конкурируют в агентских способностях, использование AI человеком — это всего лишь промежуточный этап, продвинутые пользователи уже используют AI для управления AI. Модель агента, предназначенная для отправки и получения всего контекста AI, обязательно будет самой используемой.


5
Топ
Рейтинг
Избранное
