DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Tatsächlich ist Manus sehr clever, sie haben die Werkzeuge in 3 Ebenen unterteilt: Ebene 1: Funktionsaufruf (Function Calling) Dies ist die grundlegendste Ebene, die nur eine kleine Gruppe fester, atomarer Funktionen enthält, wie z.B.: Dateien lesen und schreiben, Shell-Befehle ausführen, Dateien durchsuchen usw. In den System-Prompt-Wörtern des LLM gibt es nur die Definition dieser Ebene von Werkzeugen, relativ wenig, unter 15, das Eingabeformat und das Ausgabeformat sind sehr klar, es ist nicht leicht, Fehler zu machen, aber es gibt zwei Werkzeuge, die hier besonders sind, eines ist Shell, das andere ist File. Ebene 2: Sandbox-Werkzeuge (Sandbox Utilities) Jede Manus-Sitzung läuft in einer vollständigen virtuellen Maschinen-Sandbox. Das ist das, was im ursprünglichen Tweet erwähnt wurde, die virtuelle Maschine ist mit vielen Kommandozeilenwerkzeugen vorinstalliert, wie z.B. Formatkonvertern, Spracherkennungstools, sogar einem mcp-Kommandozeilen-Client. Diese Werkzeuge werden dann über die in Ebene 1 definierten Shell aufgerufen, das sind Kommandozeilenwerkzeuge, die über die Kommandozeile aufgerufen werden. Aber wie weiß das Modell mit so vielen Werkzeugen? Manus wird im System-Prompt direkt dem LLM mitteilen, dass es in einem bestimmten Ordner viele vorinstallierte Kommandozeilenwerkzeuge gibt. Für die am häufigsten verwendeten Werkzeuge werden deren Namen direkt aufgelistet. Für weniger häufig verwendete Werkzeuge kann das LLM direkt die im ursprünglichen Tweet erwähnte Befehlszeile verwenden, um alle Kommandozeilenwerkzeuge aufzulisten, und den --help-Parameter verwenden, um die Verwendung eines bestimmten Werkzeugs zu überprüfen, da all diese Werkzeuge von ihnen selbst entwickelt wurden und ein einheitliches Format haben. Ebene 3: Code-Pakete und APIs (Packages and APIs) Diese Ebene ist eigentlich das, was das LLM in Echtzeit Python-Code schreibt, um komplexere Funktionen zu implementieren. Wenn ein Benutzer beispielsweise Daten von einer bestimmten API abfragen möchte, kann er direkt eine Funktion in Python schreiben, um die API-Daten abzurufen und in das benötigte Format zu parsen. Tatsächlich wird in Codex bereits häufig Python-Code als Werkzeug verwendet. Da komplexe Berechnungen durch Code durchgeführt werden, werden die Ergebnisse der Wissensberechnung an den Haupt-Agenten zurückgegeben, sodass der Haupt-Agent keinen Kontext beansprucht. Der Vorteil dieses 3-Ebenen-Designs ist, dass aus der Perspektive des Modells die benötigten Werkzeuge fest auf die wenigen Dutzend der ersten Ebene beschränkt sind, während es durch die Nutzung von Kommandozeilen und Code unzählige Werkzeugkombinationen ableiten kann. Ein weiterer Punkt ist, dass ich in einem früheren Tweet das Konzept der Unteragenten erwähnt habe, Manus verwendet auch in großem Umfang das Modell "Agent als Werkzeug (agent as tool)". Unteragenten werden als Werkzeuge verwendet, zum Beispiel ist ein Unteragent für die Suche zuständig, aber dieser Unteragent wird vom Haupt-Agenten als Werkzeug betrachtet. Gleichzeitig kann es auch effektiv dazu beitragen, den Kontext zu reduzieren.

Top

Ranking

Favoriten