Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
Co-fondatore @ndea. Co-fondatore @arcprize. Creatore di Keras e ARC-AGI. Autore di "Deep Learning with Python".
Domande aperte sull'economia del ride hailing senza conducente:
1. Quale sarà la riduzione dei costi (rispetto a Uber/Lyft) eliminando il conducente?
2. Quanto aumenta la domanda grazie a questa riduzione dei costi?
3. Cambierebbe significativamente l'esperienza utente (UX) e influenzerebbe la domanda?
4. Vedremo un grande aumento della disponibilità geografica (non c'è bisogno di conducenti = si possono mettere più taxi sulla strada)?
Per 1: il costo del lavoro di una corsa Lyft/Uber, dopo aver considerato tutto il resto, è solo il 20-40% del prezzo, il che limita la riduzione a -40% nel migliore dei casi. Tuttavia, una rete di taxi senza conducente avrebbe costi fissi significativamente più elevati (ingegneri AI, data center) e costi unitari aggiuntivi non nulli (pulizia frequente degli interni, ammortamento dell'hardware per la guida autonoma), quindi realisticamente stiamo parlando più di -15-20%.
Quindi è indubbio che le corse autonome, su larga scala, saranno più economiche rispetto ai servizi di ride hailing attuali. Ma l'entità dell'effetto sarà molto più piccola di quanto la maggior parte delle persone si aspetti. Saranno comunque abbastanza costose.
Per 2: probabilmente non molto -- a causa della tariffazione dinamica, i prezzi già fluttuano più di così, e qualche anno fa Uber stava pesantemente sovvenzionando la domanda, quindi abbiamo alcuni dati su cosa accadrebbe con corse più economiche del 20%. Il mercato totale (TAM) in aree già ben servite da Uber/Lyft potrebbe crescere di circa il 20% in termini di miglia, mentre rimarrebbe costante in termini di dollari.
Per 3: sappiamo già (attraverso i dispiegamenti di Waymo) che le persone preferiscono non avere un conducente in auto, e i clienti insensibili al prezzo sono disposti a pagare di più per quell'esperienza. Non è tutto positivo però: ci sono state preoccupazioni riguardo alla pulizia dell'auto (facilmente risolvibili, ma ciò aumenta i costi unitari). In generale, non penso che il cambiamento dell'UX aumenterà molto il TAM, poiché per la maggior parte delle persone prezzo e disponibilità saranno i fattori critici.
Per 4: questo è più un'incognita. La maggior parte dei costi di una rete autonoma sono costi fissi; i costi unitari incrementali sono principalmente l'ammortamento del costo dell'auto (un errore di arrotondamento) e la pulizia. Questo significa che una rete autonoma ha il potenziale di avere una copertura molto più alta rispetto all'attuale rete Uber/Lyft. Ma non sarà certamente il caso che queste reti si estenderanno *ovunque*, almeno non con un tempo di attesa breve. Penso che vedremo un aumento del TAM da questo effetto, forse +20-30%.
In generale: dovremmo aspettarci un aumento incrementale del TAM in termini di dollari, ma nel complesso il mercato sarà più simile a Uber++ che a un nuovo paradigma di trasporto. La maggior parte delle persone negli Stati Uniti, specialmente al di fuori delle aree densamente popolate, continuerà a guidare la propria auto.
36,48K
Grok 4 è ancora all'avanguardia su ARC-AGI-2 tra i modelli di frontiera.
15,9% per Grok 4 contro 9,9% per GPT-5.

ARC Prize8 ago, 01:29
GPT-5 su ARC-AGI Valutazione Semi Privata
GPT-5
* ARC-AGI-1: 65.7%, $0.51/task
* ARC-AGI-2: 9.9%, $0.73/task
GPT-5 Mini
* ARC-AGI-1: 54.3%, $0.12/task
* ARC-AGI-2: 4.4%, $0.20/task
GPT-5 Nano
* ARC-AGI-1: 16.5%, $0.03/task
* ARC-AGI-2: 2.5%, $0.03/task

566
Risultati di GPT-5 su ARC-AGI 1 e 2!
Punto principale:
65,7% su ARC-AGI-1
9,9% su ARC-AGI-2

ARC Prize8 ago, 01:29
GPT-5 su ARC-AGI Valutazione Semi Privata
GPT-5
* ARC-AGI-1: 65.7%, $0.51/task
* ARC-AGI-2: 9.9%, $0.73/task
GPT-5 Mini
* ARC-AGI-1: 54.3%, $0.12/task
* ARC-AGI-2: 4.4%, $0.20/task
GPT-5 Nano
* ARC-AGI-1: 16.5%, $0.03/task
* ARC-AGI-2: 2.5%, $0.03/task

38,97K
Il documento "Modelli di Ragionamento Gerarchico" sta facendo il giro ultimamente, raccogliendo decine di migliaia di like su Twitter attraverso dozzine di thread semi-virali, il che è piuttosto insolito per un articolo di ricerca.
Il documento afferma un'accuratezza del 40,3% su ARC-AGI-1 con un modello piccolo (27M di parametri) addestrato da zero senza alcun dato di addestramento esterno -- se fosse vero, rappresenterebbe una grande svolta nel ragionamento.
Ho appena fatto un'analisi approfondita del documento e del codice...
È una lettura interessante, dettagliata ma facile da seguire. Penso che le idee presentate siano piuttosto interessanti e che l'architettura sia probabilmente preziosa.
Il concetto mi ricorda molte idee diverse che ho incontrato durante l'"età dell'oro" della ricerca sull'architettura DL, circa 2016-2018. Questo tipo di ricerca non è stata popolare per un po', quindi è bello vedere un rinnovato interesse per architetture alternative.
Tuttavia, l'impostazione sperimentale sembra essere criticamente difettosa, il che significa che attualmente non abbiamo alcun segnale empirico (almeno da ARC-AGI) su se l'architettura sia effettivamente utile o meno.
L'esperimento ARC-AGI-1 sta facendo quanto segue, basandomi sulla mia lettura del codice di preparazione dei dati:
1. Addestrare su 876.404 compiti, che sono varianti generate per aumento di 960 compiti originali:
... 400 da ARC-AGI-1/train
... 400 da ARC-AGI-1/eval
... 160 da ConceptARC
2. Testare su 400 compiti (ARC-AGI-1/eval), aumentando ogni compito in ~1000 varianti (in realtà sono solo 368.151 in totale a causa delle idiosincrasie del processo di aumento), producendo una previsione per ogni variante e riducendo le previsioni a N=2 tramite voto di maggioranza.
In breve: stanno addestrando sui dati di test.
Potresti chiedere, aspetta, perché l'accuratezza è del 40% allora, piuttosto che del 100%? il modello è gravemente sottodimensionato?
È perché i dati di addestramento e i dati di test rappresentano gli stessi compiti originali *in diverse variazioni*. L'aumento dei dati viene applicato in modo indipendente ai compiti di valutazione nei dati di addestramento e ai compiti di valutazione nei dati di test.
Quindi, ciò che l'esperimento sta misurando, grosso modo, è come il modello riesce a generalizzare a varianti generate proceduralmente degli stessi compiti (cioè se il modello può imparare a invertire un insieme fisso di trasformazioni statiche della griglia).
Quindi -- non ti entusiasmare troppo per ora. Ma penso che questo tipo di ricerca architettonica sia preziosa (quando accompagnata da un adeguato segnale di validazione empirica) e che l'idea HRM sia molto interessante.
Inoltre, per essere chiari, non penso che gli autori avessero l'intento di ingannare e nascondere il problema sperimentale -- probabilmente non si sono resi conto di cosa significasse effettivamente la loro impostazione di addestramento.
19,76K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari