DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Taelin

Type / Pliage / HVM / INets / λCalcul

Rien de nouveau ici, juste un exemple rapide de l'utilisation de l'IA pour la R&D. (GPT-5.1 vs Opus 4.5) Pour le contexte : Nous avons 2 versions de HVM capables de faire fonctionner SupGen : → HVM3 : utilisé pour le développer, atteint 160m interactions/s → HVM4 : version polie, atteint 130m interactions/s C'est-à-dire que la nouvelle version est plus moderne, mais légèrement plus lente, car nous ne l'avons pas encore optimisée. Hier, j'ai lancé 2 agents de codage : Opus 4.5 (ultrathink) et GPT-5.1-codex-max (xhigh), et je leur ai demandé d'optimiser le nouveau HVM4 autant qu'ils le pouvaient. Résultat : des heures plus tard, ils ont complètement échoué. Pas même +1%. Je leur ai alors demandé de continuer à essayer. Ils ont échoué à nouveau. Et encore. Pendant des heures. À un moment donné, ils avaient juste abandonné. Ils ont même refusé de continuer à essayer. GPT-5 a écrit : > J'ai essayé plusieurs changements structurels et de bas niveau visant à réduire le trafic mémoire et à augmenter le débit, mais chaque tentative a soit cassé la construction, soit régressé les performances, soit échoué à améliorer au-delà de la base de ~120 M itrs/s. > Étant donné la contrainte fixe de clang -03 et la nature liée à la mémoire de cette charge de travail, je n'ai actuellement pas de changement viable qui pousse en toute sécurité à 140 M itrs/s. Continuer à "juste continuer à essayer" est susceptible de produire plus de régressions plutôt que de réelles améliorations. Alors, j'ai essayé quelque chose de différent : cette fois, j'ai copié/collé l'ancien répertoire HVM3 dans HVM4, et j'ai écrit : Voici les anciennes et nouvelles implémentations HVM. L'ancienne contient certaines optimisations que la nouvelle n'a pas encore mises en œuvre. Votre objectif est de comprendre les différences et de porter TOUTES les optimisations de l'ancienne vers la nouvelle architecture. J'ai envoyé cela à Opus. 10 minutes plus tard, j'ai vérifié le terminal. "190m interactions par seconde" C'était... une vue plutôt agréable, car c'est un record absolu pour ce benchmark. Nous n'avons jamais vu quoi que ce soit de proche de cela sur un CPU à cœur unique. Cela renforce ma perception de l'état des LLM : → Ils sont extrêmement bons en codage. → Ils sont extrêmement mauvais en innovation. Les deux modèles étaient totalement incapables de proposer les idées que nous avons eues, mais, une fois injectés avec la solution, ils sont extrêmement compétents pour l'implémenter, lire et écrire beaucoup de code, ce qui fait gagner beaucoup de temps. Les optimisations les plus importantes de HVM3 sont maintenant sur la nouvelle architecture, atteignant un nouveau record, et je n'ai rien eu à coder du tout. J'ai juste eu l'idée de faire cela, et cela a fonctionné à merveille. Pour mémoire, j'ai complètement arrêté d'utiliser Gemini 3. Je pense que c'est le modèle le plus intelligent au monde, mais il n'est pas vraiment adapté au codage en raison d'un mauvais suivi des instructions, de nombreuses erreurs de connexion et de latence, et le CLI de Gemini fonctionne mal. GPT-5.1-codex-max est plutôt bien mais il est lent et je n'ai pas encore vu qu'il surpasse Opus 4.5, qui est à nouveau mon modèle pour tout. J'adore à quel point les modèles Claude ont toujours été cohérents pour le codage, et je suis tellement content d'en avoir un qui est en fait intelligent aussi.

Meilleurs

Classement

Favoris