AI DeepMind Menemukan Cara Belajar yang Lebih Baik: Terobosan dalam Pembelajaran Penguatan Para peneliti di DeepMind telah menunjukkan bahwa kecerdasan buatan dapat secara mandiri menemukan algoritme pembelajaran penguatan (RL) yang mengungguli algoritme yang dibuat dengan cermat oleh manusia. Kemajuan ini menantang paradigma tradisional di mana aturan RL dirancang secara manual, membuka jalan bagi mesin untuk mengembangkan strategi pembelajaran mereka sendiri dari pengalaman saja. Inovasi inti terletak pada pembelajaran meta-penguatan, sebuah teknik di mana sistem AI belajar *cara* belajar dengan mengambil dari pengalaman kolektif dari beberapa agen yang menavigasi lingkungan yang kompleks. Alih-alih mengandalkan aturan yang telah ditentukan sebelumnya, AI secara berulang menyempurnakan metode baru untuk memperbarui kebijakan dan prediksi. Ketika diuji pada benchmark Atari klasik—serangkaian video game yang digunakan untuk mengevaluasi kinerja RL—algoritme yang ditemukan tidak hanya melampaui aturan yang dirancang manusia tetapi juga unggul dalam tugas-tugas yang sama sekali baru dan menantang yang belum pernah ditemui selama pelatihan. Bukan peningkatan bertahap, ini adalah pergeseran konseptual. AI dapat mempercepat kemajuan di bidang yang membutuhkan kecerdasan adaptif, mulai dari robotika hingga penemuan ilmiah. Dengan mengotomatiskan proses penemuan, kita mungkin akan segera melihat sistem AI yang mem-bootstrap kemajuan mereka sendiri, mengurangi kebutuhan akan intervensi manusia dan berpotensi mengarah pada kecerdasan buatan yang lebih kuat dan dapat digeneralisasikan. Kertas: