DApp Store | Piattaforma Web3 per eventi e giochi

Explore the Momentum ecosystem and earn $1.015M in rewards

Argomenti di tendenza

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+14,14%

Boopa-7,41%

PORK-81,71%

Daniel Kang

Professore associato presso UIUC CS. Precedentemente nel laboratorio DAWN di Stanford e nel Berkeley Sky Lab.

Daniel Kang12 ago, 01:27

La saggezza prevalente è che il calcolo sia il fattore più importante per l'addestramento dell'IA di frontiera. Pensiamo che questo sia sbagliato: i dati sono il componente più costoso e importante dell'addestramento dell'IA. Abbiamo raccolto stime di fatturato per le principali aziende di etichettatura dei dati e le abbiamo confrontate con il costo marginale del calcolo per l'addestramento dei modelli di punta nel 2024. Le nostre stime mostrano che l'etichettatura dei dati è ~3 volte superiore al costo marginale del calcolo per l'addestramento. 1/8

145K

Daniel Kang5 ago, 05:23

Abbiamo vinto il primo posto al summit Berkeley AgentX per il track di benchmark e valutazioni! Congratulazioni al team :)

Daniel Kang9 lug 2025

As AI agents near real-world use, how do we know what they can actually do? Reliable benchmarks are critical but agentic benchmarks are broken! Example: WebArena marks "45+8 minutes" on a duration calculation task as correct (real answer: "63 minutes"). Other benchmarks misestimate agent competence by 1.6-100%. Why are the evaluation foundations for agentic systems fragile? See below for thread and links 1/8

986

Daniel Kang29 lug 2025

Sono scarso a pubblicare le cose in tempo! (la mia scusa è che insegno di nuovo all'Addis Coder quest'anno) La sessione di poster per questo articolo sta avvenendo PROPRIO ORA! Sessione5: V-Gather Trova 28/07/2025 18:00-19:30 Saluta @ChuxuanHu :)

Daniel Kang29 lug 2025

Can AI agents assess the reproducibility of research findings? Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%! 1/6

2,72K

Daniel Kang29 lug 2025

Gli agenti AI possono valutare la riproducibilità dei risultati della ricerca? Il nostro articolo per #ACL2025 mostra che non ci riescono con REPRO-Bench, un nuovo benchmark che valuta gli agenti su compiti di riproducibilità delle scienze sociali nel mondo reale, basati su 112 articoli, PDF completi, codice e dati. Il nostro agente con le migliori prestazioni ottiene meno del 40%! 1/6

6,7K

Daniel Kang23 lug 2025

SWE-bench Verified è lo standard d'oro per valutare gli agenti di codifica: 500 problemi reali + test di OpenAI. Sembra a prova di proiettile? Non proprio. Mostriamo che superare i suoi test unitari != corrispondere alla verità di base. Nel nostro articolo ACL, abbiamo corretto valutazioni difettose: il 24% degli agenti è salito o sceso nella classifica! 1/7

24,97K

Daniel Kang26 giu 2025

L'apprendimento per rinforzo consente ai LLM di battere gli esseri umani nelle competizioni di programmazione/matematica e ha guidato i recenti progressi (la serie o di OpenAI, Claude 4 di Anthropic) L'apprendimento per rinforzo permetterà una generalizzazione ampia nello stesso modo in cui lo fa il pre-addestramento? Non con le tecniche attuali 🧵 1/7

2,7K

Daniel Kang24 giu 2025

Presenterò alla sessione poster 2 al SIGMOD (mercoledì 16:00 a Potsdam II). Vieni a salutarci!

Daniel Kang24 giu 2025

Il processamento delle query approssimative (AQP) può accelerare le query analitiche a lungo termine di ordini di grandezza. Ma perché l'AQP è ancora raro in produzione? Per affrontare questo problema, sviluppiamo PilotDB, un middleware AQP online che non apporta modifiche ai DBMS, fornisce risultati con garanzie di errore a priori e raggiunge un'accelerazione fino a 126 volte. 1/8

750

Daniel Kang24 giu 2025

1,64K

Daniel Kang29 apr 2025

@ZhanQiusi1 presenteremo il nostro lavoro alla sessione poster del mercoledì alle 11 del mattino e al workshop TrustNLP del sabato (spotlight talk)! Saluta se la vedi

Daniel Kang13 mar 2025

AI agents are increasingly popular (e.g., OpenAI's operator) but can be attacked to harm users! We show that even with defenses, AI agents can still be compromised via indirect prompt injections via "adaptive attacks" in our NAACL 2025 findings paper 🧵 and links below

213

Daniel Kang20 apr 2025

Sarò presente a #ICLR2025 quest'anno! Terrò un discorso all'Alignment Workshop e una sessione di panel al ML Safety Social. Saluta se mi vedi

699

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari