DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Ingenjörsavdelningen på Anthropic släppte ytterligare en bomb. Deras interna handbok för att utvärdera AI-agenter. Här är den mest kontraintuitiva lärdomen jag fick av den: Testa inte de steg din mäklare tog. Testa vad den faktiskt producerade. Detta går emot alla instinkter. Man skulle kunna tro att varje steg kontrollerar kvalitet. Men agenter är kreativa. De hittar lösningar du inte förväntade dig. Att straffa oväntade vägar gör bara dina utvärderingar sköra. Det som spelar roll är slutresultatet. Testa det direkt. Manualen delar upp tre typer av bedömare: - Kodbaserad: Snabb och objektiv, men spröd till giltig variant. - Modellbaserad: LLM som domare med bedömningsmatriser. Flexibel, men behöver kalibreras. - Människa: Guldstandard, men dyr. Använd sparsamt. Den täcker också utvärderingsstrategier för kodagenter, konversationsagenter, forskningsagenter och datoranvändningsagenter. Viktiga slutsatser: - Börja med 20–50 testfall från verkliga fel - Varje försök ska starta i en ren miljö - Kör flera tester eftersom modellutdata varierar - Läs utskrifterna. Det är så här man fångar rättningsbuggar. Om du är seriös med att skicka pålitliga agenter. Jag rekommenderar starkt att läsa den. Länk i nästa tweet.

Topp

Rankning

Favoriter