Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alcune diapositive del mio intervento alla conferenza @PyTorch di questa settimana riguardo le scelte di design dei verificatori e come abbiamo costruito l'ecosistema di punta per gli ambienti di RL aperti :)




in particolare:
- riteniamo che la giusta incapsulazione per un ambiente sia un pacchetto Python installabile che implementa una funzione factory e che può gestire risorse esterne sia tramite una libreria di componenti predefiniti che tramite i propri launcher personalizzati
- riteniamo che l'API OpenAI Chat Completions sia il giusto livello di astrazione per la maggior parte degli sviluppatori che costruiscono ambienti, con OpenAI Completions come opzione per la frazione di casi che richiedono un controllo più dettagliato
- riteniamo che gli sviluppatori di framework per trainer e ambienti debbano farsi carico di esporre primitive pulite e familiari ai costruttori di ambienti, che rispecchiano le esperienze di sviluppo nella costruzione di agenti statici o valutazioni
- riteniamo che gli ambienti RL per LLM presentino sfide uniche rispetto alle ere precedenti di RL e che le astrazioni debbano evolversi per tenerne conto
- riteniamo che i container siano importanti per molti ambienti, ma non dovrebbero essere obbligatori per gli ambienti che non ne hanno bisogno
- riteniamo che costruire questo ecosistema sia una sfida globale, che richiede discussioni sfumate e aperte tra le parti interessate per garantire che tutti possano beneficiarne
passiamo molto tempo a riflettere su queste cose, a dibattere compromessi, a iterare e a sperimentare. se c'è qualcosa di cui hai bisogno che non supportiamo ancora, o suggerimenti su come possiamo migliorare, siamo tutti orecchie :)
22,11K
Principali
Ranking
Preferiti

