Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
enkele dia's van mijn presentatie op de @PyTorch conferentie eerder deze week over de ontwerpkeuzes van verifiers en hoe we het vlaggenschip ecosysteem voor open RL-omgevingen hebben opgebouwd :)




opmerkelijk:
- we denken dat de juiste encapsulatie voor een omgeving een installeerbaar Python-pakket is dat een fabrieksfunctie implementeert en dat externe bronnen kan beheren, hetzij via een bibliotheek van vooraf gebouwde componenten of via zijn eigen aangepaste launchers
- we denken dat de OpenAI Chat Completions API het juiste abstractieniveau is voor de meeste ontwikkelaars die omgevingen bouwen, met OpenAI Completions als een optie voor de fractie van de gevallen die meer gedetailleerde controle vereisen
- we denken dat ontwikkelaars van trainers en omgevingsframeworks de last moeten dragen van het blootstellen van schone en vertrouwde primitieve functies aan omgevingsbouwers, die de ontwikkelervaringen van het bouwen van statische agenten of evaluaties weerspiegelen
- we denken dat RL-omgevingen voor LLM's unieke uitdagingen met zich meebrengen in vergelijking met eerdere tijdperken van RL, en dat abstracties moeten evolueren om hier rekening mee te houden
- we denken dat containers belangrijk zijn voor veel omgevingen, maar niet verplicht moeten zijn voor omgevingen die ze niet nodig hebben
- we denken dat het bouwen van dit ecosysteem een wereldwijde uitdaging is, die genuanceerde en open discussies tussen geïnteresseerde belanghebbenden vereist om ervoor te zorgen dat iedereen kan profiteren
we besteden veel tijd aan het nadenken over deze zaken, het debatteren over afwegingen, itereren en experimenteren. als er iets is dat je nodig hebt dat we nog niet ondersteunen, of suggesties over hoe we kunnen verbeteren, we staan open voor ideeën :)
22,36K
Boven
Positie
Favorieten

