Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chaque fois que je vois un nouveau score de référence « à la pointe de la technologie », j'essaie une simple expérience de pensée. Si l'IA est de l'argent, alors chaque point de précision sur MMLU est une décision salariale, une limite de crédit, un échange, un drapeau clinique. Les benchmarks d'aujourd'hui traitent les modèles comme des étudiants pendant la semaine des examens. MMLU à 88 %, HumanEval à quel que soit le pourcentage, taux de victoire en arène, mais presque personne ne pose la question qui compte lorsque le modèle effectue réellement un travail rémunéré. Ce cerveau exact, dans cet état exact, a-t-il produit cette réponse correctement ?
Nous savons déjà ce qui se passe lorsque vous ignorez cette couche. Pendant la pénurie de puces de 2021 à 2022, les modèles de chaîne d'approvisionnement qui avaient été « suffisamment bons » pendant des années ont chuté dans le vide. Ils continuaient à recommander des plans qui n'avaient aucun sens économique parce que le monde avait changé sous eux et que personne ne s'en est rendu compte assez rapidement. Plus récemment, les utilisateurs de Claude ont découvert des semaines de sorties dégradées avant qu'Anthropic n'admette que trois bugs d'infrastructure distincts corrompaient discrètement les réponses. De nombreux cas de ce type qui ne sont pas abordés de manière pratique (presque trop pratique).
Chez Ambient, nous avons commencé à traiter cela comme quelque chose que l'on peut mesurer. Nos propres expériences de mathématiques de l'école primaire prennent des calculs simples et montrent à quelle fréquence les modèles de pointe vacillent sur des tâches qu'ils devraient considérer comme des éléments de base. Une fois que vous voyez que certaines diapositives de « revenus IA » semblent incomplètes sans une diapositive sœur : une pour l'inférence vérifiée (que je définis en termes simples comme la capacité à prouver quel modèle avec quels poids a répondu à quelle invite à quel moment). Si l'IA doit se retrouver au milieu de la paie, des risques et des opérations, les benchmarks devront mûrir et la précision est le ticket d'entrée. Un comportement vérifiable sous des incitations économiques est le véritable examen.

Meilleurs
Classement
Favoris

