$A^3$-Bench
Um novo benchmark que avalia mecanismos impulsionados por memória no raciocínio científico. Mede como os modelos ativam "âncoras" (fórmulas principais) e "atratores" (esquemas/exemplos) durante a inferência—indo além de apenas verificar respostas finais.
A Meta acaba de lançar o benchmark MapAnything no Hugging Face
Avaliação universal de reconstrução 3D em tarefas de estéreo de múltiplas vistas, profundidade e pose da câmara. Avalie modelos feed-forward em diversas cenas do mundo real com métricas padronizadas.