我认为部分责任在于硅谷/旧金山的创业文化,这种文化奖励开发 AI 包装器和微调现有 AI 模型。与“快速构建,打破常规”的口号相结合,这种文化不鼓励“花时间学习事物/学习基础知识”。
本质上,年轻的研究人员和企业家(生活在西海岸)面临着很大的文化压力,迫使他们立即交付某些东西,并保持在趋势的最前沿,以便在同龄人中脱颖而出,或者拥有一个可以获得资金的初创公司。
这意味着大多数人根本没有机会学习或探索基础知识,而只是基于现有的研究或产品进行构建。
在世界模型的背景下,这仅仅是能够运行与高斯溅射相关的研究/模型,而不是从根本上理解 3D 视觉是如何工作的,甚至是计算机图形学。
在具身 AI 的背景下,我认为情况更糟。具体来说,启动一个现有的 VLA 模型并微调一个机器人手臂去拿起一个杯子要容易得多,而不是花几天时间去理解经典运动规划、抓取、操作、逆运动学等的约束。
我之所以说“情况更糟”,是因为在具身 AI 中,你不仅要处理软件,还要处理一个物理系统,掌握硬件/软件系统的开发或优化是另一种挑战。