Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Доцент UIUC CS. Раніше працював у Стенфордській лабораторії DAWN та Berkeley Sky Lab.
Переважаюча думка полягає в тому, що обчислення є найважливішим фактором для навчання передового ШІ. Ми вважаємо, що це неправильно: дані є найдорожчим і найважливішим компонентом навчання ШІ.
Ми зібрали оцінки доходів основних компаній, що займаються маркуванням даних, і порівняли їх із граничними обчислювальними витратами на навчання топ-моделей у 2024 році. Наші оцінки показують, що маркування даних у ~3 рази вище, ніж обчислення граничного навчання.
1/8

145K
Ми посіли перше місце на саміті Berkeley AgentX за трек бенчмарків та оцінок! Вітаємо колектив :)


Daniel Kang9 лип. 2025 р.
Як ми знаємо, що вони насправді можуть робити, як агенти штучного інтелекту майже використовують у реальному світі? Надійні орієнтири мають вирішальне значення, але агентичні орієнтири зламані!
Приклад: WebArena оцінює «45+8 хвилин» у завданні на розрахунок тривалості як правильну (реальна відповідь: «63 хвилини»). Інші бенчмарки неправильно оцінюють компетентність агента на 1,6-100%.
Чому основи оцінки агентних систем є крихкими? Нижче наведено теми та посилання
1/8
989
Я погано вмію публікувати речі вчасно! (моє виправдання, що цього року я знову викладаю в Addis Coder)
Постерна сесія для цієї роботи відбувається ПРЯМО ЗАРАЗ!
Сесія 5: V-Collect Find 28.07.2025 18:00-19:30
Привітайтеся з @ChuxuanHu :)

Daniel Kang29 лип. 2025 р.
Чи можуть агенти штучного інтелекту оцінити відтворюваність результатів досліджень?
Наш #ACL2025 документ показує, що вони не дотягують до REPRO-Bench, нового еталону, який оцінює агентів у реальних завданнях відтворюваності соціальних наук, що складаються зі 112 статей, повних PDF-файлів, коду та даних. Наші найвищі оцінки агентів <40%!
1/6

2,72K
Чи можуть агенти штучного інтелекту оцінити відтворюваність результатів досліджень?
Наш #ACL2025 документ показує, що вони не дотягують до REPRO-Bench, нового еталону, який оцінює агентів у реальних завданнях відтворюваності соціальних наук, що складаються зі 112 статей, повних PDF-файлів, коду та даних. Наші найвищі оцінки агентів <40%!
1/6

6,7K
SWE-bench Verified – це золотий стандарт оцінки кодуючих агентів: 500 реальних проблем + тести від OpenAI. Звучить куленепробивно? Не зовсім.
Ми показуємо проходження його одиничних тестів != відповідну правду. У нашому документі ACL ми виправили помилки: 24% агентів перемістилися вгору або вниз по таблиці лідерів!
1/7

24,97K
Навчання з підкріпленням дозволяє LLM перемагати людей на змаганнях з програмування/математики та є рушійною силою останніх досягнень (o-серія OpenAI, Claude 4 від Anthropic)
Чи дозволить РЛ здійснювати широке узагальнення так само, як це робить попередня підготовка? Не з сучасними технологіями
🧵 1/7
2,7K
Я буду виступати на постерній сесії 2 в SIGMOD (середа 16:00 в Потсдамі II). Приходьте привітатися!

Daniel Kang24 черв. 2025 р.
Approximate query processing (AQP) може прискорити виконання довгострокових аналітичних запитів на порядки. Але чому AQP все ще рідко зустрічається у виробництві?
Щоб вирішити цю проблему, ми розробляємо PilotDB, онлайн-середовище AQP, яке вносить 0 змін до СУБД, видає результати з апріорними гарантіями помилок і досягає прискорення до 126x.
1/8
753
Approximate query processing (AQP) може прискорити виконання довгострокових аналітичних запитів на порядки. Але чому AQP все ще рідко зустрічається у виробництві?
Щоб вирішити цю проблему, ми розробляємо PilotDB, онлайн-середовище AQP, яке вносить 0 змін до СУБД, видає результати з апріорними гарантіями помилок і досягає прискорення до 126x.
1/8
1,64K
@ZhanQiusi1 представимо нашу роботу на постерній сесії в середу об 11 годині ранку та на суботньому семінарі TrustNLP (spotlight talk)! Привітайся, якщо побачиш її

Daniel Kang13 бер. 2025 р.
Агенти штучного інтелекту стають все більш популярними (наприклад, оператор OpenAI), але можуть бути атаковані, щоб завдати шкоди користувачам!
Ми показуємо, що навіть за умови захисту агенти штучного інтелекту все ще можуть бути скомпрометовані за допомогою непрямих швидких ін'єкцій за допомогою «адаптивних атак» у нашому документі NAACL 2025
🧵 та посилання нижче

216
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги