Uusi blogikirjoitus pitkästä aikaa! Tässä sarjassa puhun siitä, kuinka ratkaista vahvistusoppimista pitkän näkökulman tehtävissä asteittain yksinkertaisimmista lähestymistavoista. (linkki vastauksissa!) tämän sarjan ensimmäisessä osassa heitämme RL:n kuutioon sen suorimmassa, kaunistelemattomimmassa muodossa ja aseistamme itse epäonnistumisen. tämän blogin tavoitteena on seurata RL-jalka-aseiden ampumista hidastettuna ja nähdä, kuinka palkkion niukkuus muuttuu politiikan romahduksen painajaiseksi, miksi tutkimusmatka voi tukehtua pitkän horisontin tiloissa ja mitä tapahtuu kulissien takana, kun malli kuulostaa itsevarmalta, mutta pysyy pohjimmiltaan eksyksissä! Erityiskiitos @willccbb ja @PrimeIntellect tämän :) sponsoroinnista Verifioijat on uskomaton työkalu ja toivotan heille kaikkea hyvää.