DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Resultat från Tiny Recursion Model (TRM) på ARC-AGI - ARC-AGI-1: 40%, $1.76/uppgift - ARC-AGI-2: 6,2 %, 2,10 USD/uppgift Tack till @jm_alexia för att du bidrar med TRM, en välskriven, öppen källkod och grundlig forskning till communityn baserad på HRM från @makingAGI

Tack till @k_schuerholt för att du återgav dessa resultat för ARC Prize, som baserades på hans tidigare HRM-analys Våra återgivna modellkontrollpunkter och reproduktionsinstruktioner finns tillgängliga på @huggingface

Våra anteckningar: - TRM har en högre körtid än HRM även om den är mindre. Vår hypotes är att detta beror på att bakutbredning sker i alla steg, medan HRM endast gjorde partiella steg Öppen fråga: Är TRM bättre för att det är smartare? Eller för att den tränar längre? Om du använde fixed-compute för båda, skulle prestandan vara densamma?

- Är TRM lika robust för antal förstärkningar som HRM var? - Att växla från linjära lager till uppmärksamhet är intressant, uppmärksamhet presterar sämre på en mindre uppgift. Varför? Det kan vara beräkningsmässigt mindre effektivt, men varför är det så mycket sämre på Maze?

Vår uppmaning till communityn: Dela upp förträning och inferens i TRM För närvarande är förträning och slutsatsdragning kopplade i TRM. Ytterligare batchar med uppgifter måste förtränas igen. Denna förstärkta TRM skulle sannolikt kunna köras på Kaggle för ARC Prize 2025

Kostnader för att reproducera: * ARC-AGI-1 Offentlig: 9h 52m 6 * 2x8H100 * $8/timme = $157.86 * ARC-AGI-1 Semi-privat: 11h 23m* 2x8H100 * $8/timme = $176.38 * ARC-AGI-1 Offentlig: 9h 35m * 3x8H100 * $8/timme = $216.58 * ARC-AGI-2 Semi-privat: 10h 30m * 3x8H100 * $8/timme = $252

259,53K

Topp

Rankning

Favoriter