Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Professore associato presso UIUC CS. Precedentemente nel laboratorio DAWN di Stanford e nel Berkeley Sky Lab.
La saggezza prevalente è che il calcolo sia il fattore più importante per l'addestramento dell'IA di frontiera. Pensiamo che questo sia sbagliato: i dati sono il componente più costoso e importante dell'addestramento dell'IA.
Abbiamo raccolto stime di fatturato per le principali aziende di etichettatura dei dati e le abbiamo confrontate con il costo marginale del calcolo per l'addestramento dei modelli di punta nel 2024. Le nostre stime mostrano che l'etichettatura dei dati è ~3 volte superiore al costo marginale del calcolo per l'addestramento.
1/8

145K
Abbiamo vinto il primo posto al summit Berkeley AgentX per il track di benchmark e valutazioni! Congratulazioni al team :)


Daniel Kang9 lug 2025
Poiché gli agenti di intelligenza artificiale vengono utilizzati quasi nel mondo reale, come facciamo a sapere cosa possono effettivamente fare? I benchmark affidabili sono fondamentali, ma i benchmark agentici non funzionano!
Esempio: WebArena contrassegna "45+8 minuti" su un'attività di calcolo della durata come corretto (risposta reale: "63 minuti"). Altri benchmark stimano erroneamente la competenza dell'agente dell'1,6-100%.
Perché le basi di valutazione per i sistemi agentici sono fragili? Vedi sotto per thread e collegamenti
1/8
988
Sono scarso a pubblicare le cose in tempo! (la mia scusa è che insegno di nuovo all'Addis Coder quest'anno)
La sessione di poster per questo articolo sta avvenendo PROPRIO ORA!
Sessione5: V-Gather Trova 28/07/2025 18:00-19:30
Saluta @ChuxuanHu :)

Daniel Kang29 lug 2025
Gli agenti AI possono valutare la riproducibilità dei risultati della ricerca?
Il nostro articolo per #ACL2025 mostra che non ci riescono con REPRO-Bench, un nuovo benchmark che valuta gli agenti su compiti di riproducibilità delle scienze sociali nel mondo reale, basati su 112 articoli, PDF completi, codice e dati. Il nostro agente con le migliori prestazioni ottiene meno del 40%!
1/6

2,72K
Gli agenti AI possono valutare la riproducibilità dei risultati della ricerca?
Il nostro articolo per #ACL2025 mostra che non ci riescono con REPRO-Bench, un nuovo benchmark che valuta gli agenti su compiti di riproducibilità delle scienze sociali nel mondo reale, basati su 112 articoli, PDF completi, codice e dati. Il nostro agente con le migliori prestazioni ottiene meno del 40%!
1/6

6,7K
SWE-bench Verified è lo standard d'oro per valutare gli agenti di codifica: 500 problemi reali + test di OpenAI. Sembra a prova di proiettile? Non proprio.
Mostriamo che superare i suoi test unitari != corrispondere alla verità di base. Nel nostro articolo ACL, abbiamo corretto valutazioni difettose: il 24% degli agenti è salito o sceso nella classifica!
1/7

24,97K
L'apprendimento per rinforzo consente ai LLM di battere gli esseri umani nelle competizioni di programmazione/matematica e ha guidato i recenti progressi (la serie o di OpenAI, Claude 4 di Anthropic)
L'apprendimento per rinforzo permetterà una generalizzazione ampia nello stesso modo in cui lo fa il pre-addestramento? Non con le tecniche attuali
🧵 1/7
2,7K
Presenterò alla sessione poster 2 al SIGMOD (mercoledì 16:00 a Potsdam II). Vieni a salutarci!

Daniel Kang24 giu 2025
Il processamento delle query approssimative (AQP) può accelerare le query analitiche a lungo termine di ordini di grandezza. Ma perché l'AQP è ancora raro in produzione?
Per affrontare questo problema, sviluppiamo PilotDB, un middleware AQP online che non apporta modifiche ai DBMS, fornisce risultati con garanzie di errore a priori e raggiunge un'accelerazione fino a 126 volte.
1/8
752
Il processamento delle query approssimative (AQP) può accelerare le query analitiche a lungo termine di ordini di grandezza. Ma perché l'AQP è ancora raro in produzione?
Per affrontare questo problema, sviluppiamo PilotDB, un middleware AQP online che non apporta modifiche ai DBMS, fornisce risultati con garanzie di errore a priori e raggiunge un'accelerazione fino a 126 volte.
1/8
1,64K
@ZhanQiusi1 presenteremo il nostro lavoro alla sessione poster del mercoledì alle 11 del mattino e al workshop TrustNLP del sabato (spotlight talk)! Saluta se la vedi

Daniel Kang13 mar 2025
Gli agenti di intelligenza artificiale sono sempre più popolari (ad esempio, l'operatore di OpenAI) ma possono essere attaccati per danneggiare gli utenti!
Dimostriamo che, anche con le difese, gli agenti di intelligenza artificiale possono ancora essere compromessi tramite iniezioni di prompt indiretti tramite "attacchi adattivi" nel nostro documento sui risultati NAACL 2025
🧵 e i link sottostanti

215
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari