Qual é a melhor maneira de testar de ponta a ponta interfaces de usuário baseadas em chat (LLM) onde as respostas podem ser interativas?