De hecho, Manus es inteligente y han dividido la herramienta en 3 capas: Capa 1: Llamada a funciones Esta es la capa más básica, que solo mantiene una pequeña cantidad de funciones fijas y atomizadas, como leer y escribir archivos, ejecutar comandos de shell, buscar archivos, etc. En el indicador del sistema LLM, solo hay esta capa de definiciones de herramientas, que son relativamente pocas, dentro de 15, y los formatos de entrada y salida son muy claros y no es fácil cometer errores, pero hay dos herramientas especiales en él, una es Shell y la otra es Archivo. Nivel 2: Utilidades de Sandbox Cada sesión de Manus se ejecuta en un entorno limitado completo de la máquina virtual. Como se mencionó en el tweet original, la máquina virtual viene preinstalada con muchas herramientas de línea de comandos, como convertidores de formato, herramientas de reconocimiento de voz e incluso un cliente de línea de comandos MCP. A continuación, se llama a estas herramientas a través del shell definido en la capa 1, que es la herramienta de línea de comandos, la llamada a la línea de comandos. Pero, ¿cómo lo saben tantos modelos de herramientas? Manus le dice al LLM directamente en el indicador del sistema que hay muchas herramientas de línea de comandos preinstaladas en una carpeta específica. Para las herramientas más utilizadas, enumérelas directamente por su nombre. Para aquellos que no se usan comúnmente, los LLM pueden enumerar directamente todas las herramientas de línea de comandos a través de los comandos mencionados en el push original, y usar el parámetro --help para ver el uso de cualquiera de ellas, porque todas ellas se desarrollan por sí mismas y tienen un formato uniforme. Capa 3: Paquetes y API Esta capa es en realidad el LLM que escribe código Python en tiempo real, y se implementan funciones más complejas a través del código. Por ejemplo, si un usuario desea consultar los datos de una API, puede escribir directamente una función en Python para obtener los datos de la API y analizarlos en el formato requerido. De hecho, en Codex, el uso de código Python como herramienta se ha utilizado mucho. Dado que las operaciones complejas se realizan mediante código, los resultados de los cálculos de conocimiento devueltos al agente principal no ocupan el contexto del agente principal. La ventaja de este diseño de tres capas es que, desde la perspectiva del modelo, las herramientas que necesita llamar se fijan en una docena más o menos de la primera capa y, con la ayuda de la línea de comandos y el código, puede derivar innumerables combinaciones de herramientas. Otro punto es el subagente que mencioné en mi tweet anterior, Manus también usa mucho el modelo de "agente como herramienta". Utilice un subagente como herramienta, por ejemplo, el subagente responsable de la recuperación es un subagente, pero este subagente es una herramienta a los ojos del agente principal. Al mismo tiempo, también puede desempeñar un buen papel en la reducción del contexto.