Kaikki puhuvat RL-ympäristöistä. Ja olet liian peloissasi kysyäksesi tässä vaiheessa: "Mikä on RL-ympäristö"? Ajattele sitä maailmana, jossa agentti elää, jossa nykyinen tila, palkkiot ja tavoite määritellään. Uusi tapa skaalata älykkyyttä. Vaikeinta RL-env:n määrittelyssä on saada konteksti ja toiminnot järkeviksi. Useimmille ammatinharjoittajille, kuten mille tahansa uudelle tekniikalle, se ei tule. Havainto-/toiminta-tilan + palkitsemisfunktion määrittely on täysin data-asia... 👀