câteva diapozitive din discursul meu de la @PyTorch conf de la începutul acestei săptămâni despre alegerile de design ale verificatorilor și despre modul în care am construit ecosistemul emblematic pentru mediile RL deschise :)
Mai ales: - credem că încapsularea potrivită pentru un mediu este un pachet Python instalabil care implementează o funcție de fabrică și care poate gestiona resurse externe fie printr-o bibliotecă de componente preconstruite, fie prin propriile lansatoare personalizate - credem că API-ul OpenAI Chat Completions este nivelul potrivit de abstractizare pentru majoritatea dezvoltatorilor care construiesc medii, OpenAI Completions fiind o opțiune pentru fracțiunea de cazuri care necesită un control mai fin - Credem că formatorii și dezvoltatorii de cadre de mediu ar trebui să poarte povara expunerii primitivelor curate și familiare constructorilor de mediu, care oglindesc experiențele de dezvoltare ale agenților statici sau evaluărilor de construcție - credem că mediile RL pentru LLM aduc provocări unice față de epocile anterioare ale RL și că abstracțiile ar trebui să evolueze pentru a ține cont de acest lucru - credem că containerele sunt importante pentru multe medii, dar nu ar trebui să fie obligatorii pentru mediile care nu au nevoie de ele - credem că construirea acestui ecosistem este o provocare globală, necesitând discuții nuanțate și deschise între părțile interesate pentru a ne asigura că toată lumea poate beneficia Petrecem mult timp gândindu-ne la aceste lucruri, dezbătând compromisuri, iterând și experimentând. Dacă aveți nevoie de ceva pe care nu îl susținem încă sau sugestii despre cum putem îmbunătăți, suntem cu toții urechi :)
22,37K