Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Avi Chawla

Tutoriales diarios e información sobre DS, ML, LLM y RAG • Cofundador @dailydoseofds_ • IIT Varanasi • ex-Ingeniero de IA @ MastercardAI

Capas de observabilidad en sistemas de IA, explicadas visualmente: Si despliegas aplicaciones impulsadas por LLM a usuarios reales, necesitas saber qué ocurre dentro de tu pipeline en cada paso. Aquí está el modelo mental (ver el diagrama adjunto): Piensa en tu pipeline de IA como una serie de pasos. Para simplificar, considera RAG. Un usuario hace una pregunta, esta fluye a través de varios componentes y, finalmente, llega una respuesta. Cada uno de esos pasos lleva tiempo, cada paso puede fallar y cada paso tiene su propio coste. Y si solo miras la entrada y salida de todo el sistema, nunca tendrás visibilidad completa. Aquí es donde entran en juego las trazas y los tramos. > A Trace captura todo el recorrido, desde el momento en que un usuario envía una consulta hasta que recibe una respuesta. Mira la columna "Trazar" en el diagrama de abajo. Una barra continua que lo abarca todo. > Spans son las operaciones individuales dentro de esa traza. Cada casilla de color a la derecha representa un tramo. Vamos a entender qué captura cada tramo en este caso: - Alcance de consulta: El usuario envía una pregunta. Aquí es donde comienza tu rastro. Capturas la entrada en bruto, la marca de tiempo y la información de la sesión. - Embedding Span: La consulta llega al modelo de embedding y se convierte en un vector. Este tramo registra el recuento de tokens y la latencia. Si tu API de incrustación es lenta o está llegando a límites de velocidad, lo detectarás aquí. - Alcance de recuperación: El vector va a tu base de datos para la búsqueda de similitud. Nuestra observación sugiere que aquí es donde se esconden la mayoría de los problemas de RAG, siendo las razones más comunes fragmentos defectuosos, bajas puntuaciones de relevancia, valores top-k incorrectos, etc. El tramo de recuperación lo expone todo. - Contexto Span: En este intervalo, los fragmentos recuperados se ensamblan con el prompt de tu sistema. Este intervalo te muestra exactamente qué se está dando al LLM. Así que si el contexto es demasiado largo, lo verás aquí. - Generación de generación: Finalmente, el LLM produce una respuesta. Este tramo suele ser el más largo y caro. Tokens de entrada, tokens de salida, latencia, razonamiento (si los hay), etc., todo se registra para el seguimiento de costes y la depuración. Esto debería dejar claro que sin trazado a nivel de tramo, la depuración es casi imposible. Simplemente sabrías que la respuesta fue mala, pero nunca sabrías si fue por una mala recuperación, un mal contexto o la alucinación del LLM. El seguimiento de costes es otro gran tema. El seguimiento a nivel de span te permite ver a dónde va realmente el dinero. Una cosa más: los sistemas de IA se degradan con el tiempo. Lo que funcionó el mes pasado puede que hoy no funcione. Las métricas a nivel de span te permiten captar la deriva pronto y ajustar cada componente de forma independiente. Por último, para aclarar, un Trace es el contenedor que une todo para una sola petición. Cuando un usuario envía una consulta, se genera un ID único de Trace. Cada span que ocurre como parte de esa petición lleva este mismo ID de Trace. Así que si tu sistema procesa 1000 consultas, tienes 1000 trazas. Cada traza contiene múltiples spans (incrustación, recuperación, generación, etc.), pero todas están enlazadas por ese único ID de Traza. La columna "Trace" muestra una barra larga y continua. Eso es el rastreo: empieza cuando llega la consulta y termina cuando se envía la respuesta. Todos los tramos de colores a la derecha están anidados dentro de él, enlazados por el mismo ID de Traza. Si quieres ver cómo se implementan en la práctica la observabilidad a nivel de componente + las evaluaciones, he compartido un fragmento a continuación que utiliza el framework de código abierto DeepEval.

Populares

Ranking

Favoritas