Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tutoriales diarios e información sobre DS, ML, LLM y RAG • Cofundador @dailydoseofds_ • IIT Varanasi • ex-Ingeniero de IA @ MastercardAI
Capas de observabilidad en sistemas de IA, explicadas visualmente:
Si despliegas aplicaciones impulsadas por LLM a usuarios reales, necesitas saber qué ocurre dentro de tu pipeline en cada paso.
Aquí está el modelo mental (ver el diagrama adjunto):
Piensa en tu pipeline de IA como una serie de pasos. Para simplificar, considera RAG.
Un usuario hace una pregunta, esta fluye a través de varios componentes y, finalmente, llega una respuesta.
Cada uno de esos pasos lleva tiempo, cada paso puede fallar y cada paso tiene su propio coste. Y si solo miras la entrada y salida de todo el sistema, nunca tendrás visibilidad completa.
Aquí es donde entran en juego las trazas y los tramos.
> A Trace captura todo el recorrido, desde el momento en que un usuario envía una consulta hasta que recibe una respuesta. Mira la columna "Trazar" en el diagrama de abajo. Una barra continua que lo abarca todo.
> Spans son las operaciones individuales dentro de esa traza. Cada casilla de color a la derecha representa un tramo.
Vamos a entender qué captura cada tramo en este caso:
- Alcance de consulta: El usuario envía una pregunta. Aquí es donde comienza tu rastro. Capturas la entrada en bruto, la marca de tiempo y la información de la sesión.
- Embedding Span: La consulta llega al modelo de embedding y se convierte en un vector. Este tramo registra el recuento de tokens y la latencia. Si tu API de incrustación es lenta o está llegando a límites de velocidad, lo detectarás aquí.
- Alcance de recuperación: El vector va a tu base de datos para la búsqueda de similitud. Nuestra observación sugiere que aquí es donde se esconden la mayoría de los problemas de RAG, siendo las razones más comunes fragmentos defectuosos, bajas puntuaciones de relevancia, valores top-k incorrectos, etc. El tramo de recuperación lo expone todo.
- Contexto Span: En este intervalo, los fragmentos recuperados se ensamblan con el prompt de tu sistema. Este intervalo te muestra exactamente qué se está dando al LLM. Así que si el contexto es demasiado largo, lo verás aquí.
- Generación de generación: Finalmente, el LLM produce una respuesta. Este tramo suele ser el más largo y caro. Tokens de entrada, tokens de salida, latencia, razonamiento (si los hay), etc., todo se registra para el seguimiento de costes y la depuración.
Esto debería dejar claro que sin trazado a nivel de tramo, la depuración es casi imposible.
Simplemente sabrías que la respuesta fue mala, pero nunca sabrías si fue por una mala recuperación, un mal contexto o la alucinación del LLM.
El seguimiento de costes es otro gran tema. El seguimiento a nivel de span te permite ver a dónde va realmente el dinero.
Una cosa más: los sistemas de IA se degradan con el tiempo. Lo que funcionó el mes pasado puede que hoy no funcione. Las métricas a nivel de span te permiten captar la deriva pronto y ajustar cada componente de forma independiente.
Por último, para aclarar, un Trace es el contenedor que une todo para una sola petición. Cuando un usuario envía una consulta, se genera un ID único de Trace. Cada span que ocurre como parte de esa petición lleva este mismo ID de Trace.
Así que si tu sistema procesa 1000 consultas, tienes 1000 trazas. Cada traza contiene múltiples spans (incrustación, recuperación, generación, etc.), pero todas están enlazadas por ese único ID de Traza.
La columna "Trace" muestra una barra larga y continua. Eso es el rastreo: empieza cuando llega la consulta y termina cuando se envía la respuesta. Todos los tramos de colores a la derecha están anidados dentro de él, enlazados por el mismo ID de Traza.
Si quieres ver cómo se implementan en la práctica la observabilidad a nivel de componente + las evaluaciones, he compartido un fragmento a continuación que utiliza el framework de código abierto DeepEval.
566
¡El MCP Toolbox de Google recibió una gran actualización (código abierto)!
El MCP Toolbox de Google es genial para datos estructurados, pero la mayoría de los conocimientos empresariales no residen realmente en bases de datos.
Está disperso entre correos electrónicos, hilos de Slack, repositorios de GitHub, registros de Salesforce, opiniones de clientes y documentos internos.
Así que los Agentes no pueden ver nada de eso, lo que significa que trabajan con una fracción del contexto que necesitan.
Lo arreglé usando MindsDB.
Actúa como una capa SQL universal que se sitúa sobre todas tus fuentes de datos, estructuradas, semiestructuradas y no estructuradas.
Esto significa que puedes consultar archivos Salesforce, Gmail, GitHub, S3, Jira y 200 fuentes más, usando la sintaxis SQL.
La parte ingeniosa es cómo se conecta con la caja de herramientas MCP.
MindsDB expone todo a través de MySQL, así que desde la perspectiva del agente, solo está ejecutando SQL y recibiendo contexto.
No sabe ni le importa que los datos provengan de cinco fuentes diferentes entre bastidores.
Esta configuración desbloquea algunas capacidades poderosas:
→ Interfaz SQL One para decenas de fuentes empresariales
→ Cross-sources unions donde puedes combinar datos de GitHub y CRM en una sola consulta
→ Capacidades de aprendizaje automático integradas para trabajar con datos no estructurados
→ Herramientas MCP simples que ahora tienen un alcance enormemente ampliado
En el vídeo de abajo, el Agente consulta datos de GitHub y una base de datos de reseñas de clientes en una consulta SQL.
Así que lo que antes requería pipelines ETL y semanas de esfuerzo de ingeniería ahora ocurre al instante.
Al final del día, los agentes de IA solo son útiles en la medida en que los datos a los que pueden acceder. Esto les da mucho más con qué trabajar.
¡He compartido el repositorio de GitHub en las respuestas!
293
MCP vs arquitectura API tradicional, explicado visualmente:
Las APIs tradicionales se crearon para que las aplicaciones se comunicaran con los servidores.
Tienes un cliente (web o aplicación móvil) que envía solicitudes HTTP a través de una pasarela API, y la pasarela enruta a diferentes servicios.
Esto funciona muy bien para aplicaciones. Pero los agentes de IA no son aplicaciones.
Aquí está el problema:
Cuando quieres que un agente de IA use una herramienta, como consultar una base de datos, acceder a archivos o llamar a una API, tienes que escribir código de integración personalizado para cada una. Cada herramienta es diferente y cada integración es a medida.
MCP soluciona esto, y la imagen que aparece abajo diferencia la diferencia arquitectónica.
En lugar de construir integraciones personalizadas, MCP proporciona un protocolo universal que se sitúa entre los clientes de IA (Claude, IDE, agentes) y las herramientas/APIs.
- Un protocolo para conectar a cualquier herramienta
- A la IA no le importa lo que hay detrás del servidor, como una base de datos, un sistema de archivos o una API web
- Los proveedores de herramientas construyen un servidor MCP, que funciona con cualquier cliente de IA.
La imagen que aparece a continuación lo muestra claramente: en lugar de un gateway API que enruta el tráfico a servicios individuales, MCP crea una capa universal entre agentes de IA y recursos de backend.
Si quieres profundizar en los MCP, he compartido una guía gratuita en las respuestas que cubre los fundamentos del MCP, con 11 proyectos prácticos.
208
Populares
Ranking
Favoritas
