Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Is jouw robotbeleid World-Model pilled?
Jim Fan van NVIDIA zet hier groot op in.
Hij stelt dat VLM-gebaseerde VLA's fundamenteel niet goed zijn afgestemd op robotica omdat ze de nadruk leggen op hoge-level semantiek in plaats van de gedetailleerde fysieke details die nodig zijn voor behendigheid.
'Een video wereldmodel lijkt een veel betere pretrainingdoelstelling voor robotbeleid.'
We kunnen dit jaar een grote duw van NVIDIA in deze richting verwachten.


29 dec 2025
Iedereen maakt zich druk om vibe coding. In de feeststemming, laat me mijn angst delen over het wilde westen van robotica. 3 lessen die ik in 2025 heb geleerd.
1. Hardware loopt voor op software, maar de betrouwbaarheid van hardware beperkt de snelheid van software-iteratie ernstig.
We hebben prachtige ingenieurskunst gezien zoals Optimus, e-Atlas, Figure, Neo, G1, enz. Onze beste AI heeft niet alle mogelijkheden van deze grensverleggende hardware benut. Het lichaam is capabeler dan wat de hersenen kunnen aansturen. Toch vereist het babysitten van deze robots een heel operationeel team. In tegenstelling tot mensen genezen robots niet van blauwe plekken. Oververhitting, gebroken motoren, bizarre firmwareproblemen achtervolgen ons dagelijks. Fouten zijn onomkeerbaar en genadeloos.
Mijn geduld was het enige dat opschaalde.
2. Benchmarking is nog steeds een epische ramp in de robotica.
LLM-normies dachten dat MMLU & SWE-Bench gezond verstand waren. Houd je 🍺 voor robotica. Niemand is het ergens over eens: hardwareplatform, taakdefinitie, beoordelingsrubrieken, simulator of opstellingen in de echte wereld. Iedereen is SOTA, per definitie, op de benchmark die ze ter plekke definiëren voor elke nieuws aankondiging. Iedereen kiest de mooiste demo uit van 100 pogingen.
We moeten het beter doen als veld in 2026 en stoppen met het behandelen van reproduceerbaarheid en wetenschappelijke discipline als tweederangs burgers.
3. VLM-gebaseerde VLA voelt verkeerd.
VLA staat voor "vision-language-action" model en is de dominante benadering voor robotbreinen. Het recept is eenvoudig: neem een voorgetrainde VLM-checkpoint en graft een actiemodule erbovenop. Maar als je erover nadenkt, zijn VLM's hyper-geoptimaliseerd om benchmarks zoals visuele vraagbeantwoording te beklimmen. Dit impliceert twee problemen: (1) de meeste parameters in VLM's zijn voor taal & kennis, niet voor fysica; (2) visuele encoders zijn actief afgestemd om *lage-niveau* details te *verwerpen*, omdat Q&A alleen een hoog-niveau begrip vereist. Maar minutieuze details zijn erg belangrijk voor behendigheid.
Er is geen reden dat de prestaties van VLA opschalen naarmate de parameters van VLM opschalen. Voortraining is niet goed afgestemd. Het videowereldmodel lijkt een veel betere voortrainingsdoelstelling voor robotbeleid te zijn. Ik zet groot in op dit.

Het wereldmodel-gebaseerde beleid van 1X volgt een vergelijkbare aanpak, waarbij videoproductie wordt omgezet in autonome robotacties.
- AI-gegenerateerde video aan de linkerkant
- Echte robotactie aan de rechterkant
20
Boven
Positie
Favorieten
