这次控制是最后的。但它正在到来。
Cristóbal Valenzuela
Cristóbal Valenzuela2024年11月14日
我经常谈论人工智能中的控制。但我意识到,有时人们认为我指的是“更好的提示”。所以这里是我对控制的理解:我们正在反向解决图形问题。 计算机图形的历史遵循着一个明确的进程:首先是控制,然后是质量。建立正确的抽象——曲线、三角形、多边形、网格——以便让我们能够在屏幕上准确绘制我们想要的东西,花费了几十年的时间。这些基本构建块没有太大变化,因为它们被证明是正确的。从埃德·卡特穆尔的手到现代游戏引擎,我们控制像素的核心原则保持了惊人的稳定性。这些基础不仅是为了控制而出现的,也是描述和渲染复杂场景的高效方式。 渲染质量是最后的边界。1987年使用第一版Renderman建模的立方体遵循与今天在Blender中建模的立方体相同的几何原则。截然不同的是渲染——照明、材料、阴影和反射使其感觉真实。行业花费了几十年时间来缩小不真实的谷底,构建越来越复杂的渲染系统以接近照片级真实感。当然,许多图形创新同时改善了控制和质量,图形进步的历史比“控制然后质量”要复杂得多。 但这个顺序并不是任意的。图形管道本身强制执行这一点:几何定义了我们想要绘制的内容,着色器决定了它的外观。即使是实时引擎也遵循这种模式——首先建立细节级别控制,然后在这些限制内提高渲染质量。 人工智能完全颠覆了这一进程。 今天的生成模型实现了与传统管道相媲美或超越的照片级渲染质量,实际上通过大规模训练学习了整个图形堆栈——从几何到全局照明。它们打破了建模和渲染之间的传统分隔,创建了一个端到端的系统,可以从高层描述中生成惊人的图像。 缺失的是控制。 虽然我们可以在几秒钟内生成照片级场景,但我们缺乏几十年图形研究所提供的精确控制。我们无法轻松调整几何形状,微调材料,或以艺术家期望的细致程度操控照明。传统图形的确定性特性——每个参数都有可预测的效果——已被概率模型所取代。 这就是逆图形问题:我们在解决控制之前解决了渲染。我们的模型可以创建惊人的图像,但缺乏使计算机图形如此强大的基本抽象——在任何细节级别进行精确、意图明确的更改的能力。 这并不是一个永久的限制。正如计算机图形最终解决了渲染问题,人工智能也将解决控制问题。问题不在于是否,而在于如何。我们正在寻找控制生成模型的正确抽象——相当于革命性计算机图形的曲线、三角形和多边形。我认为解决方案可能看起来不同。对于神经网络而言,原生的控制新原语可能是正确的答案,而不是试图将传统图形概念强加到这个新范式中。尽管我也认为结合传统图形与人工智能的混合方法值得探索。 目标仍然是提供与计算机图形作为创意表达基础工具所带来的相同水平的可预测性和精确性。这是最终目标,但更好:实时、便宜,并且具有尽可能直观和通用的精确控制。 这次控制排在最后。但它正在到来。
5.17K