Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Daniel Kang
Profesor asistente en UIUC CS. Anteriormente en el laboratorio DAWN de Stanford y en el Berkeley Sky Lab.
La sabiduría predominante es que la computación es el factor más importante para el entrenamiento de IA de frontera. Creemos que esto es incorrecto: los datos son el componente más costoso e importante del entrenamiento de IA.
Recopilamos estimaciones de ingresos para las principales empresas de etiquetado de datos y las comparamos con el costo marginal de computación para entrenar los mejores modelos en 2024. Nuestras estimaciones muestran que el etiquetado de datos es ~3 veces más alto que el costo marginal de computación para el entrenamiento.
1/8

145.85K
¡Ganamos el primer lugar en la cumbre Berkeley AgentX en la categoría de benchmarks y evaluaciones! ¡Felicidades al equipo :)


Daniel Kang9 jul 2025
A medida que los agentes de IA se acercan al uso en el mundo real, ¿cómo sabemos lo que realmente pueden hacer? Los puntos de referencia confiables son críticos, ¡pero los puntos de referencia agentic están rotos!
Ejemplo: WebArena marca "45+8 minutos" en una tarea de cálculo de duración como correcta (respuesta real: "63 minutos"). Otros puntos de referencia subestiman la competencia de los agentes entre un 1,6 y un 100%.
¿Por qué son frágiles los fundamentos de evaluación de los sistemas agénticos? Vea a continuación el hilo y los enlaces
1/8
1K
¡Soy malo para publicar cosas a tiempo! (mi excusa es que estoy enseñando en Addis Coder nuevamente este año)
¡La sesión de pósteres de este artículo se está llevando a cabo AHORA MISMO!
Sesión 5: V-Gather Find 28/07/2025 18:00-19:30
Saluda a @ChuxuanHu :)

Daniel Kang29 jul 2025
¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación?
Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%!
1/6

2.75K
¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación?
Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%!
1/6

6.73K
SWE-bench Verified es el estándar de oro para evaluar agentes de codificación: 500 problemas del mundo real + pruebas de OpenAI. ¿Suena a prueba de balas? Casi.
Mostramos pasar sus pruebas unitarias != coincidiendo con la verdad fundamental. En nuestro documento de ACL, corrigimos evaluaciones con errores: ¡el 24% de los agentes subieron o bajaron en la tabla de clasificación!
1/7

24.98K
El aprendizaje por refuerzo permite a los LLM vencer a los humanos en las competiciones de programación/matemáticas y ha impulsado avances recientes (serie o de OpenAI, Claude 4 de Anthropic)
¿Permitirá RL una generalización amplia de la misma manera que lo hace el preentrenamiento? No con las técnicas actuales
🧵 1/7
2.7K
Estaré presentando en la sesión de pósters 2 en SIGMOD (miércoles a las 16:00 en Potsdam II). ¡Ven a saludar!

Daniel Kang24 jun 2025
El procesamiento aproximado de consultas (AQP) puede acelerar las consultas analíticas de larga duración en órdenes de magnitud. Pero, ¿por qué AQP sigue siendo raro en producción?
Para abordarlo, desarrollamos PilotDB, un medio AQP en línea que realiza 0 cambios en los DBMS, ofrece resultados con garantías de error a priori y logra una aceleración de hasta 126 veces.
1/8
774
El procesamiento aproximado de consultas (AQP) puede acelerar las consultas analíticas de larga duración en órdenes de magnitud. Pero, ¿por qué AQP sigue siendo raro en producción?
Para abordarlo, desarrollamos PilotDB, un medio AQP en línea que realiza 0 cambios en los DBMS, ofrece resultados con garantías de error a priori y logra una aceleración de hasta 126 veces.
1/8
1.66K
@ZhanQiusi1 presentaremos nuestro trabajo en la sesión de pósteres del miércoles a las 11 a.m. y en el taller de TrustNLP del sábado (charla destacada)! Salúdala si la ves

Daniel Kang13 mar 2025
AI agents are increasingly popular (e.g., OpenAI's operator) but can be attacked to harm users!
We show that even with defenses, AI agents can still be compromised via indirect prompt injections via "adaptive attacks" in our NAACL 2025 findings paper
🧵 and links below

218
Populares
Ranking
Favoritas
Onchain en tendencia
Tendencia en X
Principales fondos recientes
Más destacadas