Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
Współzałożyciel @ndea. Współzałożyciel @arcprize. Twórca Keras i ARC-AGI. Autor książki "Deep Learning with Python".
Otwarte pytania dotyczące ekonomiki autonomicznych usług przewozowych:
1. Jaki będzie spadek kosztów (w porównaniu do Uber/Lyft) po usunięciu kierowcy?
2. Jak bardzo ten spadek kosztów zwiększy popyt?
3. Czy zmiana UX znacząco wpłynie na popyt?
4. Czy zobaczymy duży wzrost dostępności geograficznej (brak potrzeby kierowców = możliwość wprowadzenia większej liczby taksówek na drogę)?
W przypadku 1: koszt pracy w przejeździe Lyft/Uber po uwzględnieniu wszystkich innych kosztów wynosi tylko 20-40% ceny, co ogranicza redukcję do -40% w najlepszym przypadku. Jednak sieć taksówek bez kierowców miałaby znacznie wyższe koszty stałe (inżynierowie AI, centra danych) oraz niezerowe dodatkowe koszty jednostkowe (częste czyszczenie wnętrza, amortyzacja sprzętu do autonomicznej jazdy), więc realistycznie patrzymy na bardziej -15-20%.
Zatem nie ma wątpliwości, że autonomiczne przejazdy, na dużą skalę, będą tańsze niż obecne usługi przewozowe. Ale rozmiar efektu będzie znacznie mniejszy, niż większość ludzi się spodziewa. Nadal będą stosunkowo drogie.
W przypadku 2: prawdopodobnie nie tak bardzo -- z powodu dynamicznego ustalania cen, ceny już fluktuują bardziej niż to, a kilka lat temu Uber mocno subsydiował popyt, więc mamy pewne dane na temat tego, co by się stało z przejazdami tańszymi o 20%. Całkowity adresowalny rynek w obszarach już dobrze obsługiwanych przez Uber/Lyft może wzrosnąć o ~20% w kategoriach mil, podczas gdy pozostanie na stałym poziomie w kategoriach dolarowych.
W przypadku 3: już wiemy (na podstawie wdrożeń Waymo), że ludzie wolą nie mieć kierowcy w samochodzie, a klienci, którzy nie zwracają uwagi na cenę, są gotowi zapłacić więcej za to doświadczenie. Nie wszystko jest jednak pozytywne: były obawy dotyczące czystości samochodów (łatwe do rozwiązania, ale zwiększa to koszty jednostkowe). Ogólnie nie sądzę, aby zmiana UX znacząco zwiększyła całkowity adresowalny rynek, ponieważ dla większości ludzi cena i dostępność będą kluczowymi czynnikami.
W przypadku 4: to jest bardziej dziki kartą. Większość kosztów sieci autonomicznej to koszty stałe; dodatkowe koszty jednostkowe to głównie amortyzacja kosztów samochodu (błąd zaokrąglenia) i czyszczenie. Oznacza to, że sieć autonomiczna ma potencjał do znacznie wyższej pokrywy niż obecna sieć Uber/Lyft. Ale z pewnością nie będzie tak, że te sieci rozciągną się *gdziekolwiek*, przynajmniej nie z krótkim czasem oczekiwania. Myślę, że zobaczymy pewien wzrost całkowitego adresowalnego rynku z tego efektu, być może +20-30%.
Ogólnie: powinniśmy oczekiwać stopniowego wzrostu całkowitego adresowalnego rynku w kategoriach dolarowych, ale ogólnie rynek będzie bardziej przypominał Uber++ niż nowy paradygmat transportowy. Większość ludzi w USA, szczególnie poza gęsto zaludnionymi obszarami, nadal będzie jeździć własnym samochodem.
36,47K
Grok 4 wciąż jest najnowocześniejszy w ARC-AGI-2 wśród modeli granicznych.
15,9% dla Grok 4 w porównaniu do 9,9% dla GPT-5.

ARC Prize8 sie, 01:29
GPT-5 na ARC-AGI Semi Private Eval
GPT-5
* ARC-AGI-1: 65.7%, $0.51/zadanie
* ARC-AGI-2: 9.9%, $0.73/zadanie
GPT-5 Mini
* ARC-AGI-1: 54.3%, $0.12/zadanie
* ARC-AGI-2: 4.4%, $0.20/zadanie
GPT-5 Nano
* ARC-AGI-1: 16.5%, $0.03/zadanie
* ARC-AGI-2: 2.5%, $0.03/zadanie

562
Wyniki GPT-5 na ARC-AGI 1 i 2!
Najważniejsze:
65,7% na ARC-AGI-1
9,9% na ARC-AGI-2

ARC Prize8 sie, 01:29
GPT-5 na ARC-AGI Semi Private Eval
GPT-5
* ARC-AGI-1: 65.7%, $0.51/zadanie
* ARC-AGI-2: 9.9%, $0.73/zadanie
GPT-5 Mini
* ARC-AGI-1: 54.3%, $0.12/zadanie
* ARC-AGI-2: 4.4%, $0.20/zadanie
GPT-5 Nano
* ARC-AGI-1: 16.5%, $0.03/zadanie
* ARC-AGI-2: 2.5%, $0.03/zadanie

38,97K
Artykuł "Modele Rozumowania Hierarchicznego" zyskuje ostatnio na popularności, zbierając dziesiątki tysięcy polubień na Twitterze w ramach dziesiątek pół-wiralnych wątków, co jest dość niezwykłe jak na pracę badawczą.
Artykuł twierdzi, że osiąga 40,3% dokładności na ARC-AGI-1 przy użyciu małego modelu (27M parametrów) wytrenowanego od podstaw bez żadnych zewnętrznych danych treningowych -- jeśli to prawda, byłoby to znaczące osiągnięcie w zakresie rozumowania.
Właśnie przeprowadziłem dokładną analizę artykułu i bazy kodu...
To dobra lektura, szczegółowa, ale łatwa do zrozumienia. Uważam, że przedstawione pomysły są dość interesujące, a architektura prawdopodobnie wartościowa.
Koncepcja przypomina mi wiele różnych pomysłów, które napotkałem podczas "złotego wieku" badań nad architekturą DL, około 2016-2018. Ten typ badań nie był popularny przez jakiś czas, więc miło widzieć odnowione zainteresowanie alternatywnymi architekturami.
Jednakże, układ eksperymentalny wydaje się być krytycznie wadliwy, co oznacza, że obecnie nie mamy empirycznego sygnału (przynajmniej z ARC-AGI), czy architektura jest rzeczywiście pomocna, czy nie.
Eksperyment ARC-AGI-1 robi następujące rzeczy, na podstawie mojej analizy kodu przygotowania danych:
1. Trenuje na 876,404 zadaniach, które są wariantami oryginalnych 960 zadań generowanymi przez augmentację:
... 400 z ARC-AGI-1/train
... 400 z ARC-AGI-1/eval
... 160 z ConceptARC
2. Testuje na 400 zadaniach (ARC-AGI-1/eval), augmentując każde zadanie do ~1000 wariantów (w rzeczywistości jest to tylko 368,151 w sumie z powodu idiosynkrazji procesu augmentacji), produkując prognozę dla każdego wariantu i redukując prognozy do N=2 za pomocą głosowania większościowego.
Krótko mówiąc: trenują na danych testowych.
Możesz zapytać, czekaj, dlaczego dokładność wynosi 40%, a nie 100%? Czy model jest poważnie niedopasowany?
To dlatego, że dane treningowe i dane testowe reprezentują te same oryginalne zadania *w różnych wariantach*. Augmentacja danych jest stosowana niezależnie do zadań ewaluacyjnych w danych treningowych i zadań ewaluacyjnych w danych testowych.
Więc to, co eksperyment mierzy, w przybliżeniu, to jak model radzi sobie z generalizowaniem do proceduralnie generowanych wariantów tych samych zadań (tj. czy model potrafi nauczyć się odwracać ustaloną grupę statycznych transformacji siatki).
Więc -- nie ekscytuj się jeszcze zbytnio. Ale uważam, że tego rodzaju badania architektoniczne są wartościowe (gdy są wspierane odpowiednim sygnałem walidacji empirycznej) i że pomysł HRM jest bardzo interesujący.
Również, aby było jasne, nie sądzę, że autorzy mieli jakiekolwiek intencje wprowadzenia w błąd i ukrywania problemu eksperymentalnego -- prawdopodobnie nie zdawali sobie sprawy, co ich układ treningowy naprawdę oznacza.
19,76K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi