Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
noen lysbilder fra foredraget mitt på @PyTorch conf tidligere denne uken om designvalgene til verifikatorer og hvordan vi har bygget flaggskipøkosystemet for åpne RL-miljøer :)




Spesielt:
- vi tror at den riktige innkapslingen for et miljø er en installerbar Python-pakke som implementerer en fabrikkfunksjon, og som kan administrere eksterne ressurser enten via et bibliotek med forhåndsbygde komponenter eller via sine egne tilpassede lanseringer
- vi tror at OpenAI Chat Completions API er riktig abstraksjonsnivå for de fleste utviklere som bygger miljøer, med OpenAI Completions som et alternativ for brøkdelen av tilfellene som krever mer finkornet kontroll
- Vi mener at trener og utviklere av miljørammeverk bør bære byrden med å eksponere rene og kjente primitiver for miljøbyggere, som speiler utviklingserfaringene med å bygge statiske agenter eller evaler
- vi tror at RL-miljøer for LLM-er gir unike utfordringer i forhold til tidligere epoker med RL, og at abstraksjoner bør utvikle seg for å ta hensyn til dette
- Vi mener at beholdere er viktige for mange miljøer, men bør ikke være obligatoriske for miljøer som ikke trenger dem
- Vi mener at det å bygge dette økosystemet er en global utfordring, som krever nyanserte og åpne diskusjoner blant interesserte interessenter for å sikre at alle kan dra nytte av det
Vi bruker mye tid på å tenke på disse tingene, diskutere avveininger, gjenta og eksperimentere. Hvis det er noe du trenger som vi ennå ikke støtter, eller forslag til hvordan vi kan forbedre, er vi alle ører :)
21,63K
Topp
Rangering
Favoritter

