Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Onko robottipolitiikkasi World-Model -pilleroitu?
Jim Fan NVIDIA:lta panostaa siihen paljon.
Hän väittää, että VLM-pohjaiset VLA:t ovat perustavanlaatuisesti ristiriidassa robotiikalle, koska ne asettavat korkean tason semantiikan etusijalle yksityiskohtien sijaan, joita ketteryys vaatii.
'Videomaailman malli vaikuttaa olevan paljon parempi esikoulutustavoite robottipolitiikalle.'
Voimme odottaa NVIDIA:lta suurta ponnistusta tähän suuntaan tänä vuonna.


29.12.2025
Kaikki ovat paniikissa vibe-koodauksesta. Joulun hengessä sallikaa minun jakaa ahdistukseni robotiikan villistä lännestä. 3 oppituntia, jotka opin vuonna 2025.
1. Laitteisto on ohjelmistoja edellä, mutta laitteiston luotettavuus rajoittaa merkittävästi ohjelmiston iterointinopeutta.
Olemme nähneet hienoja insinööritaiteita kuten Optimus, e-Atlas, Figure, Neo, G1 jne. Paras tekoälymme ei ole puristanut kaikkea tehoa näistä rajaseudun laitteista. Keho on kykenevämpi kuin mitä aivot pystyvät määräämään. Silti näiden robottien vahtiminen vaatii kokonaisen operaatiotiimin. Toisin kuin ihmiset, robotit eivät parane mustelmista. Ylikuumeneminen, rikkinäiset moottorit, oudot laiteohjelmistoongelmat vainoavat meitä päivittäin. Virheet ovat peruuttamattomia ja armottomia.
Kärsivällisyyteni oli ainoa asia, joka kasvoi.
2. Benchmarking on edelleen valtava katastrofi robotiikalla.
LLM:n tavalliset ihmiset pitivät MMLU:ta ja SWE-Benchiä maalaisjärkenä. Odota 🍺 robotiikkaa. Kukaan ei ole samaa mieltä mistään: laitteistoalustasta, tehtävien määrittelystä, pisteytyksen arviointikriteereistä, simulaattorista tai oikean maailman asetuksista. Jokainen on määritelmän mukaan SOTA, sillä mittapuulla, jonka he määrittelevät lennossa jokaiselle uutisilmoitukselle. Kaikki valitsevat sadasta yrityksestä parhaimman demon.
Meidän täytyy parantaa alaa vuonna 2026 ja lopettaa toistettavuuden ja tieteenkurin kohteleminen toisen luokan kansalaisina.
3. VLM-pohjainen VLA tuntuu väärältä.
VLA tarkoittaa "näkö-kieli-toiminta" -mallia ja on ollut hallitseva lähestymistapa robottiaivoissa. Resepti on yksinkertainen: ota esikoulutettu VLM-tarkistuspiste ja liitä sen päälle toimintamoduuli. Mutta jos miettii, VLM:t on optimoitu mäkikilpailuihin, kuten visuaaliseen kysymykseen vastaamiseen. Tämä johtaa kahteen ongelmaan: (1) suurin osa VLM:ien parametreista koskee kieltä ja tietoa, ei fysiikkaa; (2) visuaaliset kooderit on aktiivisesti viritetty *hylkäämään* matalan tason yksityiskohdat, koska kysymys-vastaus vaatii vain korkean tason ymmärrystä. Mutta pienet yksityiskohdat ovat tärkeitä ketteryydelle.
VLA:n suorituskyvyn skaalautumiselle ei ole mitään syytä skaalata VLM-parametrien skaaloituessa. Esikoulutus on väärässä linjassa. Videomaailman malli vaikuttaa paljon paremmalta esikoulutustavoitteelta robottipolitiikalle. Panostan siihen paljon.

1X:n maailmanmallipohjainen politiikka noudattaa samanlaista lähestymistapaa, muuttaen videon tuotannon autonomaisiksi robottitoiminnoiksi.
- Tekoälyn tuottama video vasemmalla
- Oikea robottitoiminta oikealla
48
Johtavat
Rankkaus
Suosikit
