Jeg snakker ofte om kontroll i AI. Men jeg har innsett at noen ganger tror folk at jeg mener "bedre oppfordringer". Så her er mine tanker om hva jeg mener med kontroll: Vi løser grafikk baklengs. Historien om datagrafikk følger en klar progresjon: først kom kontroll, deretter kvalitet. Det tok flere tiår å etablere de riktige abstraksjonene - kurver, trekanter, polygoner, masker - som ville tillate oss å tegne akkurat det vi ønsket på en skjerm. Disse grunnleggende byggesteinene har ikke endret seg mye fordi de viste seg å være de riktige. Fra Ed Catmulls hånd til moderne spillmotorer har kjerneprinsippene for hvordan vi kontrollerer piksler holdt seg bemerkelsesverdig stabile. Det grunnleggende dukket opp ikke bare for kontroll, men som effektive måter å beskrive og gjengi komplekse scener på. Gjengivelseskvalitet var den siste grensen. En kube modellert i 1987 ved hjelp av den første versjonen av Renderman følger de samme geometriske prinsippene som en modellert i Blender i dag. Det som er dramatisk annerledes er gjengivelsen - belysningen, materialene, skyggene og refleksjonene som får det til å føles ekte. Bransjen brukte flere tiår på å lukke den uhyggelige dalen, og bygge stadig mer sofistikerte gjengivelsessystemer for å nærme seg fotorealisme. Selvfølgelig forbedret mange grafiske innovasjoner både kontroll og kvalitet samtidig, og historien om grafikkfremgang er mer kompleks enn bare "kontroll og deretter kvalitet." Men denne ordren var ikke vilkårlig. Selve grafikkrørledningen håndhever det: geometri definerer hva vi vil tegne, shaders bestemmer hvordan det ser ut. Selv sanntidsmotorer følger dette mønsteret – først etablerer de detaljnivåkontroller, og forbedrer deretter gjengivelseskvaliteten innenfor disse begrensningene. AI har fullstendig snudd denne progresjonen. Dagens generative modeller oppnår fotorealistisk gjengivelseskvalitet som konkurrerer med eller overgår tradisjonelle rørledninger, og lærer effektivt hele grafikkstabelen – fra geometri til global belysning – gjennom massiv opplæring. De har kollapset det tradisjonelle skillet mellom modellering og gjengivelse, og skapt et ende-til-ende-system som kan produsere fantastiske bilder fra beskrivelser på høyt nivå. Det som mangler er kontroll. Selv om vi kan generere fotorealistiske scener på sekunder, mangler vi den presise kontrollen som flere tiår med grafikkforskning ga. Vi kan ikke enkelt justere geometri, finjustere materialer eller manipulere belysning med den granulariteten som kunstnere forventer. Den deterministiske naturen til tradisjonell grafikk - der hver parameter har en forutsigbar effekt - har blitt erstattet av sannsynlighetsmodeller. Dette er det omvendte grafikkproblemet: vi har løst gjengivelsen før vi løste kontrollen. Modellene våre kan skape fantastiske bilder, men mangler de grunnleggende abstraksjonene som gjorde datagrafikk så kraftig – evnen til å gjøre presise, tilsiktede endringer på alle detaljnivåer. Dette er ikke en permanent begrensning. Akkurat som datagrafikk til slutt løste gjengivelsesproblemet, vil AI løse kontrollproblemet. Spørsmålet er ikke om, men hvordan. Vi finner de riktige abstraksjonene for å kontrollere generative modeller - tilsvarende kurvene, trekantene og polygonene som revolusjonerte datagrafikk før. Jeg tror løsningene kan se annerledes ut. Nye primitiver for kontroll som er hjemmehørende i nevrale nettverk kan være det riktige svaret i stedet for å prøve å tvinge tradisjonelle grafikkkonsepter inn i dette nye paradigmet. Selv om jeg også tror det er hybride tilnærminger som kombinerer tradisjonell grafikk med AI som er verdt å utforske. Målet er fortsatt å gi samme nivå av forutsigbarhet og presisjon som gjorde datagrafikk til et grunnleggende verktøy for kreativt uttrykk. Det er det endelige målet, men bedre: sanntid, billig og med presis kontroll som er så intuitiv og generell som mulig. Kontroll kommer sist denne gangen. Men det kommer.
107,65K