Perdebatan tentang motivasi AI intrinsik versus ekstrinsik telah diselesaikan. Meta baru saja menunjukkan bahwa seluruh sistem hadiah eksplisit adalah gangguan. Platform RL $500 per bulan Anda sekarang mengajar agen dengan roda pelatihan. Pembelajaran nyata terjadi dari konsekuensi langsung, bukan skor sewenang-wenang. Ini membuka jalan bagi kecerdasan yang benar-benar adaptif dan tidak terprogram.