熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

François Chollet
聯合創始人 @ndea.聯合創始人 @arcprize.Keras 和ARC-AGI的建立者。《Deep Learning with Python》的作者。
關於無人駕駛打車經濟學的開放問題:
1. 去掉司機後,成本降低(相較於Uber/Lyft)會是多少?
2. 這種成本降低會增加多少需求?
3. 用戶體驗的顯著變化會影響需求嗎?
4. 我們會看到地理可用性的大幅增加嗎(不需要司機 = 可以在路上增加更多出租車)?
對於第1點:在考慮其他所有因素後,Lyft/Uber乘車的勞動力成本僅占價格的20-40%,這在最佳情況下將降低成本限制在-40%。然而,無人駕駛出租車網絡將有顯著更高的固定成本(人工智慧工程師、數據中心)和非零的附加單位成本(頻繁的內部清潔、自駕硬體的攤銷),所以實際上我們看到的更像是-15-20%。
因此,毫無疑問,規模化的自主出行將比當前的打車服務便宜。但效果的大小將遠小於大多數人預期的。它們仍然會相對昂貴。
對於第2點:可能不會太多——由於動態定價,價格已經波動超過這個範圍,幾年前Uber大力補貼需求,因此我們有一些數據可以了解20%便宜的乘車會發生什麼。在Uber/Lyft已經服務良好的地區,按里程計算的市場總量可能增長約20%,而按美元計算則保持不變。
對於第3點:我們已經知道(通過Waymo的部署)人們更喜歡車裡沒有司機,且對價格不敏感的客戶願意為這種體驗支付更多。但並非所有都是積極的:人們對汽車清潔度有擔憂(雖然可以輕鬆解決,但這會增加單位成本)。總體而言,我認為用戶體驗的變化不會大幅增加市場總量,因為對大多數人來說,價格和可用性將是關鍵因素。
對於第4點:這一點更像是一個不確定因素。自主網絡的大部分成本是固定成本;增量單位成本主要是汽車成本的攤銷(一個小數)和清潔。這意味著自主網絡有潛力比當前的Uber/Lyft網絡覆蓋更廣。但這些網絡肯定不會擴展到*任何地方*,至少不會有短暫的等待時間。我認為我們會看到由於這一效應市場總量的增加,或許是+20-30%。
總體而言:我們應該預期市場總量在美元方面的增量增加,但整體市場更像是Uber++而不是一種新的交通範式。美國大多數人,尤其是在稀疏地區,仍然會開自己的車。
36.48K
Grok 4 在前沿模型中仍然是 ARC-AGI-2 的最先進技術。
Grok 4 的比例為 15.9%,而 GPT-5 為 9.9%。

ARC Prize8月8日 01:29
GPT-5 在 ARC-AGI 半私有評估
GPT-5
* ARC-AGI-1: 65.7%,$0.51/任務
* ARC-AGI-2: 9.9%,$0.73/任務
GPT-5 Mini
* ARC-AGI-1: 54.3%,$0.12/任務
* ARC-AGI-2: 4.4%,$0.20/任務
GPT-5 Nano
* ARC-AGI-1: 16.5%,$0.03/任務
* ARC-AGI-2: 2.5%,$0.03/任務

565
GPT-5 在 ARC-AGI 1 和 2 的結果!
總體表現:
ARC-AGI-1:65.7%
ARC-AGI-2:9.9%

ARC Prize8月8日 01:29
GPT-5 在 ARC-AGI 半私有評估
GPT-5
* ARC-AGI-1: 65.7%,$0.51/任務
* ARC-AGI-2: 9.9%,$0.73/任務
GPT-5 Mini
* ARC-AGI-1: 54.3%,$0.12/任務
* ARC-AGI-2: 4.4%,$0.20/任務
GPT-5 Nano
* ARC-AGI-1: 16.5%,$0.03/任務
* ARC-AGI-2: 2.5%,$0.03/任務

38.97K
最近,論文《層次推理模型》引起了廣泛關注,在Twitter上收集了數萬個讚,這在研究論文中相當不尋常。
該論文聲稱在ARC-AGI-1上以一個小型模型(2700萬參數)從零開始訓練,準確率為40.3%——如果這是真的,將代表一個重大的推理突破。
我剛剛深入研究了這篇論文和代碼庫……
這是一篇好文章,詳細而易於理解。我認為所提出的想法相當有趣,架構也可能具有價值。
這個概念讓我想起了我在2016-2018年"深度學習架構研究的黃金時代"遇到的許多不同想法。這類研究已經不再流行一段時間,因此看到對替代架構的重新興趣是件好事。
然而,實驗設置似乎存在嚴重缺陷,這意味著我們目前沒有來自ARC-AGI的實證信號,無法確定該架構是否真的有幫助。
根據我對數據準備代碼的理解,ARC-AGI-1實驗正在進行以下操作:
1. 在876,404個任務上進行訓練,這些任務是960個原始任務的增強生成變體:
... 400來自ARC-AGI-1/train
... 400來自ARC-AGI-1/eval
... 160來自ConceptARC
2. 在400個任務(ARC-AGI-1/eval)上進行測試,通過將每個任務增強為約1000個變體(實際上,由於增強過程的特殊性,總共只有368,151個),為每個變體生成預測,並通過多數投票將預測減少到N=2。
簡而言之:他們在測試數據上進行訓練。
你可能會問,等等,那麼準確率為什麼是40%,而不是100%?模型是否嚴重欠擬合?
這是因為訓練數據和測試數據代表的是相同原始任務的*不同變體*。數據增強是獨立應用於訓練數據中的評估任務和測試數據中的評估任務。
因此,這個實驗大致上是在測量模型如何成功地對相同任務的程序生成變體進行泛化(即模型是否能學會逆轉一組固定的靜態網格變換)。
所以——不要太興奮。但我確實認為這類架構研究是有價值的(當伴隨著適當的實證驗證信號時),而HRM的想法非常有趣。
此外,為了澄清,我不認為作者有意誤導或隱藏實驗問題——他們可能沒有意識到他們的訓練設置實際上意味著什麼。
19.76K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可