Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Måling av tenkeeffektivitet i resonneringsmodeller: Den manglende målestokken
Vi målte tokenbruk på tvers av resonneringsmodeller: åpne modeller sender ut 1,5-4 ganger flere tokens enn lukkede modeller på identiske oppgaver, men med stor variasjon avhengig av oppgavetype (opptil 10 ganger på enkle spørsmål).
Denne skjulte kostnaden opphever ofte prisfordeler per token. Tokeneffektivitet bør bli et primært mål sammen med nøyaktighetsstandarder, spesielt med tanke på ikke-resonnerende brukstilfeller.
Les den grundige gjennomgangen av resonnementeffektivitet på tvers av det åpne og lukkede modelllandskapet i vårt siste blogginnlegg i samarbeid med vår forsker i residens, Tim.
Se mer av deres arbeid her:

44,13K
Nous Research lagt ut på nytt
Arena-Hard-evalueringsmiljøet er nå slått sammen med Atropos - nyt skalerbar, fleksibel og moderne evaluering med @lmsysorg arena-hard benchmark som er veldig god til å bestemme et bredt spekter av evner i modeller.
Klar til å være et RL-miljø hvis du også tar med ditt eget togsett :)
Finn ut mer på

6,85K
Vår Researcher in Residence-@yaboilyrical vil diskutere sitt arbeid med SMC-styring ved UC Berkeley 3.
Sjekk ut bloggen om dette arbeidet her:
Detaljer nedenfor!

nightwing25. juli 2025
Jeg er glad for å kunngjøre at jeg vil være foredragsholder på @BerkeleyRDI DeAI Summit, og presentere forskningen min med @NousResearch om begrenset språkdekoding!
Hvis du deltar på toppmøtet, eller ønsker å komme og se foredraget mitt, vennligst kontakt meg!

10,66K
Atropos v0.3 er nå ute!
RL Environments-rammeverket vårt har sett mange oppgraderinger siden v0.2 - noen høydepunkter:
- Atropos kan nå brukes som et benchmarking- og evalueringsrammeverk av @rogershijin, med vår første eksterne benchmark, Reward-Bench 2!
- La til Reasoning Gym, et eksternt treningsstudio som er portert til atropos med over 100 resonneringsoppgaver av @neurosp1ke og venner.
- @max_paperclips integrerte @intern_lm resonnement-bootcamp, og la til 1000+ nye resonneringsoppgaver for RL
- @dmayhem93 hovedingeniøren til Atropos lagt til dusinvis av feilrettinger og andre forbedringer av pålitelighet og kompatibilitet, bedre støtte for multi-miljø og CI/CD
- Mange av Atropos hackathon-miljøene har blitt slått sammen til /environments/community - å liste dem alle ville ta opp mesteparten av skjermplassen, men noen høydepunkter:
VR-CLI av @JakeABoggs, filosofi RLAIF, adaptive LLM-lærere, WebVoyager, proteindesign av @hallerite, et modellrutingsmiljø av @gabinfay, flere på lean-bevis, catbot-arenaen, pokémon-oppgjør, poker, hjelpsomme leger, sanskrit-poesi av @khoomeik og mye mer!
- Andre bemerkelsesverdige offisielt støttede nye miljøer inkluderer:
Svarformat følgende miljø
Pydantisk til JSON-miljø portert fra @MatternJustus arbeid
Instruksjon Følger portert fra @natolambert og @allen_ai arbeid
Brevtelling
- 47 helt nye bidragsytere!
Sjekk ut hele endringsloggen her:

Teknium (e/λ)18. juli 2025
Har nettopp slått sammen en PR for et miljø for å forbedre LLM som dommer, samt evaluere modeller på deres evne til å gjøre vurderinger!
Visste du at alle verifiserbare RL-miljøer er nesten likeverdige med benchmarks (og omvendt!)? Så vi la til en evalueringskommando til Atropos' base, og nå kan du kjøre benchmarks gjennom Atropos-miljøer.
Vi ble frustrerte over å jobbe med så mange benchmark-rammeverk som var utdaterte eller ubrukelige, så vi implementerte kun evalueringsmodus i Atropos, vårt RL-miljørammeverk.
Så vår første havn utenfor våre eksisterende miljøer var @natolambert's Reward-Bench!
Merk: den støtter bare generative belønningsmodeller (vanlige LLM-dommere) for øyeblikket.
Sjekk ut PR her:

25,11K
Nous Research lagt ut på nytt
Det var morsomt å jobbe med @huggingface-teamet for å gjøre denne funksjonen til virkelighet! Takk for alt ditt arbeid og kreativitet @pcuenq @reach_vb @julien_c @ariG23498 !
Også takk til @NousResearch @Teknium1 @Euclaise_ for å være tidlig ute med å ta i bruk tilpassede bærbare datamaskiner og jobbe med dette sammen med oss!
31,46K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til