Robot politikanız Dünya Modeli mi? NVIDIA'dan Jim Fan buna büyük bahis yapıyor. VLM tabanlı VLA'ların temelde robotik için uyumsuz olduğunu savunuyor; çünkü beceri için gereken ayrıntılı fiziksel detaylardan çok yüksek seviyeli anlamanlamı önceliklendiriyorlar. 'Video dünya modeli, robot politikası için çok daha iyi bir ön eğitim hedefi gibi görünüyor.' Bu yıl NVIDIA'dan bu yönde büyük bir itme bekleyebiliriz.
Jim Fan
Jim Fan29 Ara 2025
Herkes vibe kodlama konusunda panikliyor. Tatil ruhunda, robotik enerjisinin vahşi batısı hakkındaki kaygımı paylaşmama izin verin. 2025'te öğrendiğim 3 ders. 1. Donanım yazılımın önündedir, ancak donanım güvenilirliği yazılım yineleme hızını ciddi şekilde sınırlar. Optimus, e-Atlas, Figure, Neo, G1 gibi muhteşem mühendislik sanatlarını gördük. En iyi yapay zekamız bu sınır donanımından tüm enerjiyi çıkarmadı. Vücut, beynin emredip bildiğinden daha yeteneklidir. Yine de bu robotlara bakmak için tam bir operasyon ekibi gerekiyor. İnsanların aksine, robotlar morluklardan iyileşmez. Aşırı ısınma, kırık motorlar, garip yazılım sorunları her gün bizi rahatsız ediyor. Hatalar geri döndürülemez ve affetmezdir. Sadece sabrım ölçülendi. 2. Benchmarking robotikte hâlâ epik bir felaket. LLM standartları MMLU ve SWE-Bench'in sağduyu olduğunu düşünüyordu. Robotik için bekle 🍺. Kimse hiçbir konuda hemfikir değil: donanım platformu, görev tanımı, puanlama rubrikleri, simülatör veya gerçek dünya kurulumları. Herkes, tanım gereği, her haber duyurusu için anında tanımladığı kıyasa göre SOTA'dır. Herkes 100 deneme arasından en güzel görünen demoyu seçiyor. 2026'da bir alan olarak daha iyi olmalı ve tekrarlanabilirlik ile bilimsel disiplinleri ikinci sınıf vatandaşlar olarak görmeyi bırakmalıyız. 3. VLM tabanlı VLA yanlış hissettiriyor. VLA, "vizyon-dil-eylem" modeli anlamına gelir ve robot beyinleri için baskın yaklaşım olmuştur. Tarif basit: önceden eğitilmiş bir VLM kontrol noktası alın ve üzerine bir eylem modülü yerleştirin. Ama düşününce, VLM'ler görsel soru cevaplama gibi yokuş tırmanış kıyaslamalarına aşırı optimize edilmiştir. Bu iki problemi ortaya koymaktadır: (1) VLM'lerdeki çoğu parametre dil ve bilgi içindir, fizik için değil; (2) görsel kodlayıcılar aktif olarak düşük seviyeli detayları *atmak* için ayarlanmıştır, çünkü Soru-Cevap yalnızca yüksek seviyeli anlayış gerektirir. Ama en ince detaylar beceri için çok önemlidir. VLA'nın performansının VLM parametreleri ölçeklendikçe ölçeklenmesi için bir sebep yok. Ön eğitim yanlış hizalanmış. Video dünya modeli, robot politikası için çok daha iyi bir ön eğitim hedefi gibi görünüyor. Büyük bir bahis oynuyorum.
1X'in dünya modeline dayalı politikası da benzer bir yaklaşımı takip ediyor ve video üretimini otonom robot eylemlerine dönüştürüyor. - Solda yapay zeka tarafından oluşturulan video - Sağda gerçek robot hareketi
49