Resultados do Modelo de Recursão Minúscula (TRM) no ARC-AGI - ARC-AGI-1: 40%, US$ 1,76/tarefa - ARC-AGI-2: 6,2%, US$ 2,10/tarefa Obrigado a @jm_alexia por contribuir com o TRM, uma pesquisa bem escrita, de código aberto e completa para a comunidade com base no HRM de @makingAGI
Obrigado a @k_schuerholt por reproduzir esses resultados para o Prêmio ARC, dos quais foram baseados em sua análise anterior de HRM Nossos pontos de verificação de modelo reproduzidos e instruções de reprodução estão disponíveis em @huggingface
Nossas notas: - O TRM tem um tempo de execução maior do que o HRM, embora seja menor. Nossa hipótese é que isso se deve à propagação de volta acontecendo em todas as etapas, enquanto a HRM fez apenas etapas parciais Pergunta aberta: O TRM é melhor porque é mais inteligente? ou porque treina por mais tempo? Se você usasse computação fixa para ambos, o desempenho seria o mesmo?
- O TRM é igualmente robusto para o número de aumentos como o HRM? - Mudar de camadas lineares para atenção é interessante, atenção teve pior desempenho em uma tarefa menor. Por que? Pode ser computacionalmente menos eficiente, mas por que é muito pior no Maze?
Nosso apelo para a comunidade: Pré-treinamento dividido e inferência em TRM Atualmente, o pré-treinamento e a inferência estão acoplados no TRM. Lotes adicionais de tarefas precisam ser pré-treinados novamente. Este TRM aumentado provavelmente seria capaz de ser executado no Kaggle para o ARC Prize 2025
Custos de reprodução: * ARC-AGI-1 Público: 9h 52m 6 * 2x8H100 * $ 8 / hora = $ 157,86 * ARC-AGI-1 Semi-privado: 11h 23m * 2x8H100 * $ 8 / hora = $ 176,38 * ARC-AGI-1 Público: 9h 35m * 3x8H100 * $ 8 / hora = $ 216,58 * ARC-AGI-2 Semi-privado: 10h 30m * 3x8H100 * $ 8 / hora = $ 252
259,52K