DeepMindin tekoäly keksii paremman tavan oppia: läpimurto vahvistusoppimisessa DeepMindin tutkijat ovat osoittaneet, että tekoäly voi itsenäisesti löytää vahvistusoppimisen (RL) algoritmeja, jotka ylittävät ihmisten huolellisesti luomat algoritmit. Tämä edistysaskel haastaa perinteisen paradigman, jossa RL-säännöt suunnitellaan manuaalisesti, mikä tasoittaa tietä koneille kehittää omia oppimisstrategioitaan pelkän kokemuksen perusteella. Ydininnovaatio on metavahvistusoppiminen, tekniikka, jossa tekoälyjärjestelmä oppii *miten* oppia hyödyntämällä useiden monimutkaisissa ympäristöissä navigoivien agenttien kollektiivisia kokemuksia. Sen sijaan, että tekoäly luottaisi ennalta määritettyihin sääntöihin, se tarkentaa iteratiivisesti uutta menetelmää käytäntöjen ja ennusteiden päivittämiseen. Kun löydettyä algoritmia testattiin klassisella Atari-benchmarkilla – videopelisarjalla, jota käytetään RL-suorituskyvyn arviointiin – löydetty algoritmi ei ainoastaan ylittänyt olemassa olevia ihmisen suunnittelemia sääntöjä, vaan myös loisti täysin uusissa, haastavissa tehtävissä, joita se ei ollut koskaan kohdannut koulutuksen aikana. Ei asteittainen parannus, se on käsitteellinen muutos. Tekoäly voisi nopeuttaa kehitystä adaptiivista älykkyyttä vaativilla aloilla robotiikasta tieteellisiin löytöihin. Automatisoimalla etsintäprosessin saatamme pian nähdä tekoälyjärjestelmiä, jotka käynnistävät omat edistysaskeleensa, mikä vähentää ihmisen väliintulon tarvetta ja mahdollisesti johtaa vankempaan ja yleistettävämpään tekoälyyn. Paperi: