Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
Medgründer @ndea. Medgründer @arcprize. Skaperen av Keras og ARC-AGI. Forfatter av 'Deep Learning with Python'.
Åpne spørsmål om førerløs skyss-økonomi:
1. Hva vil være kostnadsreduksjonen (over Uber/Lyft) ved å fjerne sjåføren?
2. Hvor mye øker denne kostnadsreduksjonen etterspørselen?
3. Vil UX-endringen påvirke etterspørselen betydelig?
4. Vil vi se en stor økning i geografisk tilgjengelighet (ikke behov for sjåfører = kan sette flere drosjer på veien)?
For 1: lønnskostnaden for en Lyft/Uber-tur etter å ha tatt hensyn til alt annet er bare 20-40 % av prisen, noe som begrenser reduksjonen til -40 % i beste fall. Imidlertid vil et førerløst drosjenettverk ha betydelig høyere faste kostnader (AI-ingeniører, datasentre) og ikke-null ekstra enhetskostnader (hyppig innvendig rengjøring, selvkjørende maskinvareamortisering), så realistisk sett ser vi på mer som -15-20 %.
Så det er utvilsomt at autonome turer, i stor skala, vil være billigere enn dagens skysstjenester. Men effektstørrelsen vil være mye mindre enn de fleste forventer. De vil fortsatt være ganske dyre.
For 2: sannsynligvis ikke så mye - på grunn av dynamisk prising svinger prisene allerede mer enn dette, og for noen år siden subsidierte Uber etterspørselen kraftig, så vi har noen data om hva som ville skje med 20 % billigere turer. TAM i områder som allerede er godt betjent av Uber/Lyft kan vokse ~20 % i miles, samtidig som den holder seg konstant i dollar.
For 3: vi vet allerede (via Waymo-distribusjoner) at folk foretrekker å ikke ha en sjåfør i bilen, og prisufølsomme kunder er villige til å betale mer for den opplevelsen. Det er imidlertid ikke bare positivt: det har vært bekymringer om bilens renslighet (lett å håndtere, men det øker enhetskostnadene). Totalt sett tror jeg ikke UX-endringen vil øke TAM mye, da pris og tilgjengelighet for de fleste vil være de kritiske faktorene.
For 4: dette er en er mer et jokertegn. De fleste kostnadene ved et autonomt nettverk er faste kostnader; Inkrementelle enhetskostnader er hovedsakelig amortisering av bilkostnader (en avrundingsfeil) og rengjøring. Dette betyr at et autonomt nettverk har potensial til å ha mye høyere dekning enn dagens Uber/Lyft-nettverk. Men det vil absolutt ikke være slik at disse nettverkene vil strekke seg *hvor som helst*, i hvert fall ikke med kort ventetid. Jeg tror vi vil se en viss TAM-økning fra denne effekten, kanskje +20-30%.
Totalt sett: vi bør forvente en inkrementell TAM-økning i dollartermer, men totalt sett vil markedet være mer som Uber++ enn et nytt transportparadigme. De fleste i USA, spesielt utenfor tette områder, vil fortsatt kjøre sin egen bil.
36,48K
Grok 4 er fortsatt toppmoderne på ARC-AGI-2 blant frontier-modeller.
15.9 % for Grok 4 mot 9.9 % for GPT-5.

ARC Prize8. aug., 01:29
GPT-5 på ARC-AGI Semi Private Eval
GPT-5
* ARC-AGI-1: 65,7 %, $0,51 per oppgave
* ARC-AGI-2: 9,9 %, $0,73 per oppgave
GPT-5 Mini
* ARC-AGI-1: 54,3 %, $0,12 per oppgave
* ARC-AGI-2: 4,4 %, $0,20 per oppgave
GPT-5 Nano
* ARC-AGI-1: 16,5 %, $0,03 per oppgave
* ARC-AGI-2: 2,5 %, $0,03/oppgave

569
GPT-5-resultater på ARC-AGI 1 og 2!
Øverste linje:
65.7 % på ARC-AGI-1
9.9 % på ARC-AGI-2

ARC Prize8. aug., 01:29
GPT-5 på ARC-AGI Semi Private Eval
GPT-5
* ARC-AGI-1: 65,7 %, $0,51 per oppgave
* ARC-AGI-2: 9,9 %, $0,73 per oppgave
GPT-5 Mini
* ARC-AGI-1: 54,3 %, $0,12 per oppgave
* ARC-AGI-2: 4,4 %, $0,20 per oppgave
GPT-5 Nano
* ARC-AGI-1: 16,5 %, $0,03 per oppgave
* ARC-AGI-2: 2,5 %, $0,03/oppgave

38,98K
Artikkelen «Hierarchical Reasoning Models» har gått rundt i det siste, og samlet titusenvis av likes på Twitter på tvers av dusinvis av semi-virale tråder, noe som er ganske uvanlig for en forskningsartikkel.
Papiret hevder 40,3 % nøyaktighet på ARC-AGI-1 med en liten modell (27 millioner parametere) trent fra bunnen av uten eksterne treningsdata - hvis det er ekte, vil dette representere et stort gjennombrudd for resonnement.
Jeg gjorde nettopp et dypdykk på papiret og kodebasen ...
Den er god å lese, detaljert, men likevel lett å følge. Jeg synes ideene som presenteres er ganske interessante, og arkitekturen er sannsynligvis verdifull.
Konseptet minner meg om mange forskjellige ideer jeg møtte i løpet av «gullalderen» for DL-arkitekturforskning, rundt 2016-2018. Denne typen forskning har ikke vært populær på en stund, så det er hyggelig å se fornyet interesse for alternative arkitekturer.
Det eksperimentelle oppsettet ser imidlertid ut til å være kritisk feil, noe som betyr at vi foreløpig ikke har noe empirisk signal (i det minste fra ARC-AGI) om hvorvidt arkitekturen faktisk er nyttig eller ikke.
ARC-AGI-1-eksperimentet gjør følgende, basert på min lesning av dataforberedelseskoden:
1. Tren på 876 404 oppgaver, som er utvidelsesgenererte varianter av 960 opprinnelige oppgaver:
... 400 fra ARC-AGI-1/tog
... 400 fra ARC-AGI-1/eval
... 160 fra ConceptARC
2. Test på 400 oppgaver (ARC-AGI-1/eval), ved å utvide hver oppgave til ~1000 varianter (i virkeligheten er det bare 368 151 totalt på grunn av særegenheter i utvidelsesprosessen), produsere en prediksjon for hver variant, og redusere prediksjoner til N=2 via flertallsavstemning.
Kort sagt: de trener på testdataene.
Du spør kanskje, vent, hvorfor er nøyaktigheten 40 % da, i stedet for 100 %? Er modellen alvorlig underfit?
Det er fordi treningsdataene og testdataene representerer de samme opprinnelige oppgavene *i forskjellige varianter*. Dataforsterkning brukes uavhengig på evalueringsoppgavene i treningsdataene og evalueringsoppgavene i testdataene.
Så det eksperimentet måler, omtrent, er hvordan modellen klarer å generalisere til prosedyregenererte varianter av de samme oppgavene (dvs. om modellen kan lære å reversere et fast sett med statiske netttransformasjoner).
Så -- ikke bli for begeistret ennå. Men jeg tror denne typen arkitekturforskning er verdifull (når den ledsages av et skikkelig empirisk valideringssignal) og at HRM-ideen er veldig interessant.
Dessuten, for å være tydelig, tror jeg ikke forfatterne hadde noen intensjon om å villede og skjule det eksperimentelle problemet -- de skjønte sannsynligvis ikke hva treningsoppsettet deres faktisk betydde.
19,76K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til