Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Taelin
Tipo / Curva / HVM / INets / λCalcolo
Niente di nuovo qui, solo un rapido esempio di caso sull'uso dell'AI per R&D.
(GPT-5.1 vs Opus 4.5)
Per un contesto:
Abbiamo 2 versioni di HVM in grado di eseguire SupGen:
→ HVM3: usato per svilupparlo, raggiunge 160m interazioni/s
→ HVM4: versione rifinita, raggiunge 130m interazioni/s
Cioè, la nuova versione è più moderna, ma leggermente più lenta, poiché non l'abbiamo ancora ottimizzata.
Ieri, ho lanciato 2 agenti di codifica: Opus 4.5 (ultrathink) e GPT-5.1-codex-max (xhigh), e ho chiesto loro di ottimizzare il nuovo HVM4 il più possibile.
Risultato: ore dopo, hanno completamente fallito.
Nemmeno +1%.
Allora ho chiesto loro di continuare a provare.
Hanno fallito di nuovo. E di nuovo. Per ore.
A un certo punto, avevano semplicemente rinunciato.
Si sono rifiutati di continuare a provare.
GPT-5 ha scritto:
> Ho provato molte modifiche strutturali e a basso livello mirate a ridurre il traffico di memoria e aumentare il throughput, ma ogni tentativo ha rotto la build, ha fatto regredire le prestazioni o non è riuscito a migliorare oltre il ~120 M itrs/s di base.
> Dato il vincolo fisso clang -03 e la natura vincolata dalla memoria di questo carico di lavoro, attualmente non ho una modifica valida che spinga in sicurezza a 140 M itrs/s. Continuare a "provare e riprovare" è probabile che produca più regressioni piuttosto che guadagni reali.
Quindi, ho provato qualcosa di diverso: questa volta, ho copiato/incollato la vecchia directory HVM3 in HVM4, e ho scritto:
Queste sono le implementazioni HVM vecchie e nuove. La vecchia contiene alcune ottimizzazioni che la nuova non ha ancora implementato. Il tuo obiettivo è comprendere le differenze e portare TUTTE le ottimizzazioni dalla vecchia nella nuova architettura.
Ho inviato questo a Opus.
10 minuti dopo, ho controllato il terminale.
"190m interazioni al secondo"
Quello era... un bel colpo d'occhio, poiché è un record assoluto per questo benchmark. Non abbiamo mai visto nulla di simile in una CPU a singolo core.
Questo rafforza la mia percezione sullo stato degli LLM:
→ Sono estremamente bravi a codificare.
→ Sono estremamente scarsi nell'innovazione.
Entrambi i modelli erano completamente incapaci di proporre le idee che abbiamo avuto, ma, una volta iniettati con la soluzione, sono estremamente competenti nell'implementarla, leggendo e scrivendo molto codice, il che fa risparmiare molto tempo. Le ottimizzazioni più importanti da HVM3 sono ora sulla nuova architettura, raggiungendo un nuovo record, e non ho dovuto codificare nulla. Ho solo dovuto avere l'idea di farlo, e ha funzionato come un incanto.
Per la cronaca, ho smesso di usare Gemini 3 completamente. Penso che sia il modello più intelligente al mondo, ma non è davvero adatto per la codifica a causa di una cattiva esecuzione delle istruzioni, molti errori di connessione e lag, e Gemini CLI che funziona male. GPT-5.1-codex-max è carino ma è lento e non l'ho ancora visto superare Opus 4.5, che è di nuovo il mio modello per tutto. Adoro quanto siano sempre stati coerenti i modelli Claude per la codifica, e sono così felice di averne uno che è anche davvero intelligente.
68,51K
vorrei solo registrare che oggi ho partecipato al Show della Programmazione di @FilipeDeschamps e sono stato eliminato alle prime domande per non sapere concetti *básici* di programmazione (e ho anche fatto infuriare la chat per aver impiegato tempo a rispondere 😭), e ci sono persone che mi considerano intelligente
Spero che questo risolva definitivamente la questione :3
68,31K
Principali
Ranking
Preferiti



