Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Користувач Nous Research поділився
Нещодавно 1/10🧵 @nousresearch опублікував цікаве дослідження, яке показало, що відкриті моделі використовують в 2-3 рази більше токенів, ніж закриті моделі для завдань на міркування.
Ми перевірили, чи може динамічний розподіл токенів допомогти усунути цю прогалину в ефективності. Що ми дізналися 👇
7,99K
Вимірювання ефективності мислення в моделях міркувань: відсутній орієнтир
Ми виміряли використання токенів у моделях міркувань: відкриті моделі видають у 1,5-4 рази більше токенів, ніж закриті моделі на ідентичні завдання, але з величезною дисперсією залежно від типу завдання (до 10 разів на прості запитання).
Ця прихована вартість часто зводить нанівець переваги ціноутворення за токен. Ефективність токенів повинна стати основною метою поряд з контрольними показниками точності, особливо з урахуванням випадків використання, не пов'язаних з обґрунтуванням.
Прочитайте детальний огляд ефективності міркувань у відкритому та закритому модельному ландшафті в нашому останньому дописі в блозі у співпраці з нашим дослідником за місцем проживання Тімом.
Більше їхніх робіт дивіться тут:

48,6K
Користувач Nous Research поділився
Eval оточення Arena-Hard тепер об'єднано з Atropos - насолоджуйтесь масштабованою, гнучкою та сучасною оцінкою за допомогою тесту @lmsysorg arena-hard, який дуже чудово визначає широкий спектр можливостей у моделях.
Будьте готові стати середовищем RL, якщо ви візьмете з собою власний потяг, а також :)
Дізнайтеся більше на

6,91K
Наш дослідник у резиденції @yaboilyrical обговорить свою роботу з управління SMC в Каліфорнійському університеті в Берклі 3 серпня.
Перегляньте блог про цю роботу тут:
Подробиці нижче!

nightwing25 лип. 2025 р.
З радістю повідомляю, що буду доповідачем на саміті DeAI Summit @BerkeleyRDI, представляючи своє дослідження з @NousResearch щодо обмеженого декодування мови!
Якщо ви відвідуєте саміт або хочете прийти подивитися на мій виступ, будь ласка, зв'яжіться зі мною!

10,87K
Atropos v0.3 вже вийшов!
Наш фреймворк RL Environments зазнав багато оновлень, починаючи з версії 0.2 - деякі основні моменти:
- Atropos тепер може використовуватися як фреймворк для порівняльного аналізу та оцінок @rogershijin з нашим першим зовнішнім бенчмарком Reward-Bench 2!
- Додано Reasoning Gym, репозиторій для тренажерного залу зовнішнього середовища, портований на atropos з більш ніж 100 завданнями на міркування від @neurosp1ke та друзів
- @max_paperclips інтегрований буткемп міркувань @intern_lm, додавши 1000+ нових завдань на міркування для RL
- @dmayhem93 провідний інженер Atropos додав десятки виправлень помилок та інших покращень надійності та сумісності, кращу підтримку мультиоточення та CI/CD
- Багато середовищ хакатону Atropos були об'єднані в /environments/community - перерахування їх усіх зайняло б більшу частину екранного простору, але деякі особливості:
VR-CLI від @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, білковий дизайн від @hallerite, модельне середовище маршрутизації від @gabinfay, множинне на lean proving, The Catbot Arena, Pokemon Showdown, покер, корисні лікарі, санскритська поезія від @khoomeik та багато іншого!
- Інші помітні офіційно підтримувані нові середовища включають:
Формат відповідей за оточенням
Середовище Pydantic на JSON портовано з @MatternJustus роботи
Інструкція Наступне перенесено з @natolambert та роботи @allen_ai
Підрахунок букв
- 47 нових дописувачів!
Ознайомтеся з повним журналом змін тут:

Teknium (e/λ)18 лип. 2025 р.
Щойно об'єднав PR для середовища для покращення LLM як судді, а також оцінки моделей щодо їх здатності робити судження!
Чи знаєте ви, що всі перевірені середовища RL майже еквівалентні бенчмаркам (і навпаки!)? Тому ми додали команду evaluate на базу Atropos і тепер ви можете запускати бенчмарки через середовища Atropos.
Нам було розчаровано працювати з такою кількістю тестових фреймворків, які були застарілими або непридатними для використання, тому ми впровадили режим лише оцінки в Atropos, наш фреймворк RL-середовищ.
Отже, нашим першим портом з-за меж нашого існуючого середовища став @natolambert's Reward-Bench!
Примітка: на даний момент він підтримує лише генеративні моделі винагороди (звичайні судді LLM).
Ознайомитися з PR можна тут:

25,26K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги