Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

François Chollet
Salah satu pendiri @ndea. Salah satu pendiri @arcprize. Pencipta Keras dan ARC-AGI. Penulis 'Deep Learning with Python'.
Pertanyaan terbuka tentang ekonomi pemesanan kendaraan tanpa pengemudi:
1. Apa pengurangan biaya (melalui Uber/Lyft) untuk menghapus pengemudi?
2. Berapa pengurangan biaya itu meningkatkan permintaan?
3. Apakah perubahan UX akan memengaruhi permintaan secara signifikan?
4. Apakah kita akan melihat peningkatan besar dalam ketersediaan geografis (tidak perlu pengemudi = dapat menempatkan lebih banyak taksi di jalan)?
Untuk 1: biaya tenaga kerja perjalanan Lyft/Uber setelah memperhitungkan yang lain hanya 20-40% dari harga, yang membatasi pengurangan pada -40% dalam skenario kasus terbaik. Namun jaringan taksi tanpa pengemudi akan memiliki biaya tetap yang jauh lebih tinggi (insinyur AI, pusat data) dan biaya unit tambahan bukan nol (pembersihan interior yang sering, amortisasi perangkat keras self-driving), jadi secara realistis kami melihat lebih dari -15-20%.
Jadi tidak diragukan lagi bahwa wahana otonom, dalam skala besar, akan lebih murah daripada layanan ride hailing saat ini. Tetapi ukuran efeknya akan jauh lebih kecil dari yang diharapkan kebanyakan orang. Mereka masih akan cukup mahal.
Untuk 2: mungkin tidak terlalu banyak -- karena penetapan harga yang dinamis, harga sudah berfluktuasi lebih dari ini, dan beberapa tahun yang lalu Uber sangat mensubsidi permintaan, jadi kami memiliki beberapa data tentang apa yang akan terjadi dengan perjalanan 20% lebih murah. TAM di daerah yang sudah dilayani dengan baik oleh Uber/Lyft mungkin tumbuh ~20% dalam hal mil, sambil tetap konstan dalam hal dolar.
Untuk 3: kami sudah tahu (melalui penerapan Waymo) bahwa orang lebih suka tidak memiliki pengemudi di dalam mobil, dan pelanggan yang tidak sensitif terhadap harga bersedia membayar lebih untuk pengalaman itu. Itu tidak semuanya positif: ada kekhawatiran tentang kebersihan mobil (mudah ditangani, tetapi itu meningkatkan biaya unit). Secara keseluruhan saya tidak berpikir perubahan UX akan meningkatkan TAM banyak, karena bagi kebanyakan orang harga dan ketersediaan akan menjadi faktor penting.
Untuk 4: ini adalah salah satu yang lebih dari wildcard. Sebagian besar biaya jaringan otonom adalah biaya tetap; Biaya unit tambahan terutama adalah amortisasi biaya mobil (kesalahan pembulatan) dan pembersihan. Ini berarti bahwa jaringan otonom memiliki potensi untuk memiliki jangkauan yang jauh lebih tinggi daripada jaringan Uber/Lyft saat ini. Tetapi tentu saja tidak akan terjadi bahwa jaringan ini akan meluas *ke mana saja*, setidaknya tidak dengan waktu tunggu yang singkat. Saya pikir kita akan melihat beberapa peningkatan TAM dari efek ini, mungkin +20-30%.
Secara keseluruhan: kita harus mengharapkan peningkatan TAM bertahap dalam hal dolar, tetapi secara keseluruhan pasar akan lebih seperti Uber++ daripada paradigma transportasi baru. Kebanyakan orang di AS, terutama di luar daerah padat, masih akan mengendarai mobil mereka sendiri.
36,48K
Grok 4 masih canggih di ARC-AGI-2 di antara model perbatasan.
15.9% untuk Grok 4 vs 9.9% untuk GPT-5.

ARC Prize8 Agu, 01.29
GPT-5 pada Evaluasi Semi Pribadi ARC-AGI
GPT-5
* ARC-AGI-1: 65,7%, 0,51 USD/tugas
* ARC-AGI-2: 9,9%, 0,73 USD/tugas
GPT-5 Mini
* ARC-AGI-1: 54,3%, 0,12 USD/tugas
* ARC-AGI-2: 4,4%, 0,20 USD/tugas
GPT-5 Nano
* ARC-AGI-1: 16,5%, 0,03 USD/tugas
* ARC-AGI-2: 2,5%, 0,03 USD/tugas

564
Hasil GPT-5 pada ARC-AGI 1 & 2!
Garis atas:
65.7% pada ARC-AGI-1
9.9% pada ARC-AGI-2

ARC Prize8 Agu, 01.29
GPT-5 pada Evaluasi Semi Pribadi ARC-AGI
GPT-5
* ARC-AGI-1: 65,7%, 0,51 USD/tugas
* ARC-AGI-2: 9,9%, 0,73 USD/tugas
GPT-5 Mini
* ARC-AGI-1: 54,3%, 0,12 USD/tugas
* ARC-AGI-2: 4,4%, 0,20 USD/tugas
GPT-5 Nano
* ARC-AGI-1: 16,5%, 0,03 USD/tugas
* ARC-AGI-2: 2,5%, 0,03 USD/tugas

38,97K
Makalah "Model Penalaran Hierarkis" telah beredar akhir-akhir ini, mengumpulkan puluhan ribu suka di Twitter di lusinan utas semi-viral, yang sangat tidak biasa untuk makalah penelitian.
Makalah ini mengklaim akurasi 40,3% pada ARC-AGI-1 dengan model kecil (27 juta parameter) yang dilatih dari awal tanpa data pelatihan eksternal - jika nyata, ini akan mewakili terobosan penalaran utama.
Saya baru saja menyelam lebih dalam pada kertas dan basis kode...
Ini bagus dibaca, detail namun mudah diikuti. Saya pikir ide-ide yang disajikan cukup menarik dan arsitekturnya kemungkinan berharga.
Konsep ini mengingatkan saya pada banyak ide berbeda yang saya temui selama "masa keemasan" penelitian arsitektur DL, sekitar 2016-2018. Jenis penelitian ini belum populer untuk sementara waktu, jadi senang melihat minat baru pada arsitektur alternatif.
Namun, pengaturan eksperimental tampaknya sangat cacat, yang berarti bahwa saat ini kita tidak memiliki sinyal empiris (setidaknya dari ARC-AGI) apakah arsitekturnya benar-benar membantu atau tidak.
Eksperimen ARC-AGI-1 melakukan hal berikut, berdasarkan pembacaan saya tentang kode persiapan data:
1. Berlatih pada 876.404 tugas, yang merupakan varian yang dihasilkan augmentasi dari 960 tugas asli:
... 400 dari ARC-AGI-1/kereta api
... 400 dari ARC-AGI-1/eval
... 160 dari ConceptARC
2. Uji pada 400 tugas (ARC-AGI-1/eval), dengan menambah setiap tugas menjadi ~1000 varian (pada kenyataannya hanya 368.151 secara total karena keanehan proses augmentasi), menghasilkan prediksi untuk setiap varian, dan mengurangi prediksi menjadi N=2 melalui pemungutan suara mayoritas.
Singkatnya: mereka berlatih pada data pengujian.
Anda mungkin bertanya, tunggu, mengapa akurasinya 40%, bukan 100%? Apakah modelnya sangat kurang bugar?
Itu karena data pelatihan dan data pengujian mewakili tugas asli yang sama *dalam variasi yang berbeda*. Augmentasi data diterapkan secara independen ke tugas evaluasi dalam data pelatihan dan tugas evaluasi dalam data pengujian.
Jadi apa yang diukur oleh eksperimen, secara kasar, adalah bagaimana model berhasil menggeneralisasi ke varian yang dihasilkan secara prosedural dari tugas yang sama (yaitu apakah model dapat belajar untuk membalikkan serangkaian transformasi grid statis yang tetap).
Jadi -- jangan terlalu bersemangat dulu. Tapi saya pikir penelitian arsitektur semacam ini berharga (bila disertai dengan sinyal validasi empiris yang tepat) dan bahwa ide HRM sangat menarik.
Juga, untuk lebih jelasnya, saya tidak berpikir penulis memiliki niat menyesatkan dan menyembunyikan masalah eksperimental - mereka mungkin tidak menyadari apa arti sebenarnya dari pengaturan pelatihan mereka.
19,76K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal