¿Cuál es la mejor manera de realizar pruebas de extremo a extremo en interfaces de usuario basadas en chat (LLM) donde las respuestas podrían ser interactivas?