Ero uno dei 16 sviluppatori in questo studio. Volevo esprimere le mie opinioni sulle cause e le strategie di mitigazione per il rallentamento degli sviluppatori. Dirò come un gancio "perché dovremmo ascoltarti?" che ho sperimentato un -38% di accelerazione AI sui miei problemi assegnati. Penso che la trasparenza aiuti la comunità.
METR
METR11 lug 2025
Abbiamo condotto uno studio controllato randomizzato per vedere quanto gli strumenti di codifica AI accelerino gli sviluppatori esperti di open-source. I risultati ci hanno sorpreso: gli sviluppatori pensavano di essere più veloci del 20% con gli strumenti AI, ma in realtà erano l'19% più lenti quando avevano accesso all'AI rispetto a quando non lo avevano.
In primo luogo, penso che l'accelerazione dell'IA sia molto debolmente correlata all'abilità di chiunque come sviluppatore. Tutti gli sviluppatori in questo studio sono molto bravi. Penso che abbia più a che fare con il cadere in modalità di fallimento, sia nell'abilità dell'LLM che nel flusso di lavoro dell'uomo. Lavoro con un sacco di fantastici sviluppatori di pre-formazione e penso che le persone affrontino molti degli stessi problemi. Ci piace dire che gli LLM sono strumenti, ma li trattiamo più come una bacchetta magica. Letteralmente qualsiasi sviluppatore può attestare la soddisfazione di aver finalmente eseguito il debug di un problema spinoso. Gli LLM sono un grande pulsante di scelta rapida per la dopamina che può risolvere il tuo problema. Continui a premere il pulsante che ha l'1% di possibilità di riparare tutto? È molto più divertente dell'estenuante alternativa, almeno per me.
Penso che i casi di uso eccessivo di LLM possano verificarsi perché è facile ottimizzare il piacere percepito piuttosto che il tempo per la soluzione mentre si lavora. Io premo tab nel cursore per 5 ore invece di eseguire il debug per 1:
In terzo luogo, è facilissimo distrarsi durante i tempi di inattività durante la generazione di LLM. L'economia dell'attenzione dei social media è brutale e penso che le persone passino 30 minuti a scorrere mentre "aspettano" la loro generazione di 30 secondi. Tutto quello che posso dire su questo è che dovremmo conoscere le nostre insidie e cercare di riempire questo tempo di generazione LLM in modo produttivo: - Se l'attività richiede un'elevata concentrazione, dedica questo tempo a lavorare su un'attività secondaria o a pensare alle domande di follow-up. Anche se la modella risponde alla tua domanda, cos'altro non capisco? - Se l'attività richiede una scarsa concentrazione, nel frattempo fai un'altra piccola attività (rispondi all'e-mail/rallenta, leggi o modifica un altro paragrafo, ecc.). Come sempre, piccoli accorgimenti di igiene digitale aiutano in questo (blocchi dei siti web, telefono su dnd, ecc.). Mi dispiace essere un nonno, ma funziona per me :)
Alcune dichiarazioni finali: - METR è un'organizzazione meravigliosa con cui lavorare, e sono scienziati competenti. Mi è piaciuto partecipare a questo studio e leggere i loro risultati. - Non sono un guru dei LLM che cerca di predicare. Pensate a questo come a una mia pubblicazione di un'entrata personale di diario, sperando che altri possano trarre beneficio dalla mia introspezione.
1,96M