nuovo post sul blog dopo tanto tempo! in questa serie parlerò di come risolvere l'apprendimento per rinforzo per compiti a lungo termine, in modo incrementale a partire dagli approcci più semplici. (link nelle risposte!) nella parte I di questa serie, lanciamo l'RL sul cubo nella sua forma più diretta e non filtrata e armiamo il fallimento stesso. l'obiettivo di questo blog è osservare i footgun dell'RL sparare al rallentatore e vedere come la scarsità di ricompense si trasformi in un incubo di collasso della politica, perché l'esplorazione può soffocare in spazi a lungo termine e cosa succede dietro le quinte quando un modello sembra sicuro mentre rimane fondamentalmente perso! un ringraziamento speciale a @willccbb e @PrimeIntellect per aver sponsorizzato questo :) verifiers è uno strumento incredibile e auguro loro il meglio.