热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

François Chollet
联合创始人 @ndea.联合创始人 @arcprize.Keras 和 ARC-AGI 的创建者。《Deep Learning with Python》的作者。
关于无人驾驶打车经济学的开放问题:
1. 去掉司机后,成本降低(相较于Uber/Lyft)会是多少?
2. 这种成本降低会增加多少需求?
3. 用户体验的显著变化会影响需求吗?
4. 我们会看到地理可用性的大幅增加吗(不需要司机 = 可以在路上增加更多出租车)?
对于第1点:在考虑其他所有因素后,Lyft/Uber乘车的劳动力成本仅占价格的20-40%,这在最佳情况下将降低成本限制在-40%。然而,无人驾驶出租车网络将有显著更高的固定成本(人工智能工程师、数据中心)和非零的附加单位成本(频繁的内部清洁、自驾硬件的摊销),所以实际上我们看到的更像是-15-20%。
因此,毫无疑问,规模化的自主出行将比当前的打车服务便宜。但效果的大小将远小于大多数人预期的。它们仍然会相对昂贵。
对于第2点:可能不会太多——由于动态定价,价格已经波动超过这个范围,几年前Uber大力补贴需求,因此我们有一些数据可以了解20%便宜的乘车会发生什么。在Uber/Lyft已经服务良好的地区,按里程计算的市场总量可能增长约20%,而按美元计算则保持不变。
对于第3点:我们已经知道(通过Waymo的部署)人们更喜欢车里没有司机,且对价格不敏感的客户愿意为这种体验支付更多。但并非所有都是积极的:人们对汽车清洁度有担忧(虽然可以轻松解决,但这会增加单位成本)。总体而言,我认为用户体验的变化不会大幅增加市场总量,因为对大多数人来说,价格和可用性将是关键因素。
对于第4点:这一点更像是一个不确定因素。自主网络的大部分成本是固定成本;增量单位成本主要是汽车成本的摊销(一个小数)和清洁。这意味着自主网络有潜力比当前的Uber/Lyft网络覆盖更广。但这些网络肯定不会扩展到*任何地方*,至少不会有短暂的等待时间。我认为我们会看到由于这一效应市场总量的增加,或许是+20-30%。
总体而言:我们应该预期市场总量在美元方面的增量增加,但整体市场更像是Uber++而不是一种新的交通范式。美国大多数人,尤其是在稀疏地区,仍然会开自己的车。
36.48K
Grok 4 在前沿模型中仍然是 ARC-AGI-2 的最先进技术。
Grok 4 的得分为 15.9%,而 GPT-5 的得分为 9.9%。

ARC Prize8月8日 01:29
GPT-5 在 ARC-AGI 半私有评估中
GPT-5
* ARC-AGI-1: 65.7%,$0.51/任务
* ARC-AGI-2: 9.9%,$0.73/任务
GPT-5 Mini
* ARC-AGI-1: 54.3%,$0.12/任务
* ARC-AGI-2: 4.4%,$0.20/任务
GPT-5 Nano
* ARC-AGI-1: 16.5%,$0.03/任务
* ARC-AGI-2: 2.5%,$0.03/任务

563
GPT-5 在 ARC-AGI 1 和 2 上的结果!
总体情况:
ARC-AGI-1:65.7%
ARC-AGI-2:9.9%

ARC Prize8月8日 01:29
GPT-5 在 ARC-AGI 半私有评估中
GPT-5
* ARC-AGI-1: 65.7%,$0.51/任务
* ARC-AGI-2: 9.9%,$0.73/任务
GPT-5 Mini
* ARC-AGI-1: 54.3%,$0.12/任务
* ARC-AGI-2: 4.4%,$0.20/任务
GPT-5 Nano
* ARC-AGI-1: 16.5%,$0.03/任务
* ARC-AGI-2: 2.5%,$0.03/任务

38.97K
最近,论文《分层推理模型》引起了广泛关注,在Twitter上收获了数万个赞,涉及数十个半病毒式的讨论,这对于一篇研究论文来说相当不寻常。
该论文声称在ARC-AGI-1上取得了40.3%的准确率,使用的是一个从零开始训练的小型模型(2700万个参数),没有任何外部训练数据——如果属实,这将代表一个重大的推理突破。
我刚刚对这篇论文和代码库进行了深入研究……
这是一篇不错的读物,详细而易于理解。我认为所提出的想法相当有趣,架构可能也很有价值。
这个概念让我想起了我在2016-2018年间遇到的许多不同的想法,那是深度学习架构研究的“黄金时代”。这种类型的研究已经不再流行一段时间,所以看到对替代架构的重新关注真是令人欣慰。
然而,实验设置似乎存在严重缺陷,这意味着我们目前没有来自ARC-AGI的实证信号,无法判断该架构是否真的有帮助。
根据我对数据准备代码的理解,ARC-AGI-1实验正在进行以下操作:
1. 在876,404个任务上进行训练,这些任务是960个原始任务的增强生成变体:
... 400来自ARC-AGI-1/train
... 400来自ARC-AGI-1/eval
... 160来自ConceptARC
2. 在400个任务(ARC-AGI-1/eval)上进行测试,通过将每个任务增强为约1000个变体(实际上由于增强过程的特殊性,总共只有368,151个),为每个变体生成预测,并通过多数投票将预测减少到N=2。
简而言之:他们在测试数据上进行训练。
你可能会问,等等,为什么准确率是40%,而不是100%?模型是否严重欠拟合?
这是因为训练数据和测试数据代表的是相同原始任务的*不同变体*。数据增强是独立应用于训练数据中的评估任务和测试数据中的评估任务。
因此,实验大致测量的是模型如何成功地推广到相同任务的程序生成变体(即模型是否能够学习逆转一组固定的静态网格变换)。
所以——不要太兴奋。不过我确实认为这种架构研究是有价值的(当伴随适当的实证验证信号时),而HRM的想法非常有趣。
此外,明确一点,我不认为作者有意误导或隐瞒实验问题——他们可能没有意识到他们的训练设置实际上意味着什么。
19.76K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可