来自特斯拉人工智能副总裁 @aelluswamy 的一场新的 30 分钟演讲已发布,他谈到了 FSD、人工智能以及团队的最新进展。 演讲亮点: • 特斯拉的车辆车队每天可以提供 500 年的驾驶数据。 维度诅咒: • 8 个高帧率摄像头 = 每 30 秒驾驶上下文数十亿个标记。 • 特斯拉必须压缩并提取传感器输入与控制动作之间的正确关联。 数据优势: • 特斯拉可以访问“尼亚加拉大瀑布般的数据”——数百年的集体车队驾驶数据。 • 使用智能数据触发器捕捉稀有的边缘案例(例如,复杂的交叉口、不可预测的行为)。 质量与效率: • 仅提取训练模型所需的基本数据,以提高效率。 调试与可解释性: • 尽管系统是端到端的,特斯拉仍然可以提示模型输出可解释的数据: 3D 占用、道路边界、物体、标志、交通信号灯等。 • 自然语言查询:询问模型为什么做出某个决定。 • 这些辅助预测不会驾驶汽车,但帮助工程师调试并确保安全。 特斯拉的高级高斯点云(3D 场景建模): • 特斯拉开发了一种定制的超快速高斯点云系统,从有限的摄像头视角重建 3D 场景。 • 即使从少数摄像头角度也能生成清晰、准确的 3D 渲染——远远优于标准的 NeRF/点云方法。 • 使得在 3D 中快速可视化调试驾驶环境成为可能。 评估与世界模型: • 评估是最具挑战性的任务:模型在离线时可能表现良好,但在现实条件下可能失败。 • 特斯拉构建了平衡、多样化的评估数据集,专注于边缘案例——不仅仅是简单的高速公路驾驶。...