Umělá inteligence společnosti DeepMind vynalézá lepší způsob učení: Průlom v posilovaném učení Výzkumníci z DeepMind prokázali, že umělá inteligence může autonomně objevovat algoritmy zpětnovazebního učení (RL), které překonávají algoritmy pečlivě vytvořené lidmi. Tento pokrok zpochybňuje tradiční paradigma, kde jsou pravidla RL navrhována ručně, což strojům dláždí cestu k vývoji vlastních strategií učení pouze na základě zkušeností. Hlavní inovace spočívá v meta-zpětnovazebním učení, technice, při které se systém umělé inteligence učí *jak* se učit tím, že čerpá z kolektivních zkušeností více agentů pohybujících se ve složitém prostředí. Namísto spoléhání se na předem definovaná pravidla umělá inteligence iterativně zdokonaluje novou metodu aktualizace zásad a předpovědí. Při testování na klasickém benchmarku Atari – sadě videoher používaných k hodnocení výkonu RL – objevený algoritmus nejen překonal stávající pravidla navržená lidmi, ale také vynikal ve zcela nových, náročných úkolech, se kterými se během tréninku nikdy nesetkal. Nejde o postupné zlepšování, ale o koncepční posun. Umělá inteligence by mohla urychlit pokrok v oblastech vyžadujících adaptivní inteligenci, od robotiky po vědecké objevy. Automatizací procesu objevování bychom se mohli brzy dočkat systémů umělé inteligence, které budou provádět vlastní pokroky, snižovat potřebu lidského zásahu a potenciálně vést k robustnější a zobecnitelné umělé inteligenci. Papír: