DApp Store | Piattaforma Web3 per eventi e giochi

Explore the Momentum ecosystem and earn $1.015M in rewards

Argomenti di tendenza

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+11,61%

Boopa-1,71%

PORK-12,7%

Nous Research

Nous Research ha ripubblicato

Asankhaya Sharma20 ago, 10:30

1/10🧵 @nousresearch ha recentemente pubblicato uno studio interessante che mostra come i modelli aperti utilizzino da 2 a 3 volte più token rispetto ai modelli chiusi per i compiti di ragionamento. Abbiamo testato se l'allocazione dinamica dei token potesse aiutare a colmare questo divario di efficienza. Ecco cosa abbiamo imparato 👇

7,27K

Nous Research15 ago, 04:30

Misurare l'Efficienza del Pensiero nei Modelli di Ragionamento: Il Benchmark Mancante Abbiamo misurato l'uso dei token nei modelli di ragionamento: i modelli aperti producono da 1,5 a 4 volte più token rispetto ai modelli chiusi su compiti identici, ma con una grande variabilità a seconda del tipo di compito (fino a 10 volte su domande semplici). Questo costo nascosto spesso annulla i vantaggi dei prezzi per token. L'efficienza dei token dovrebbe diventare un obiettivo primario insieme ai benchmark di accuratezza, specialmente considerando i casi d'uso non legati al ragionamento. Leggi la recensione approfondita dell'efficienza del ragionamento attraverso il panorama dei modelli aperti e chiusi nel nostro ultimo post sul blog in collaborazione con il nostro ricercatore residente, Tim. Scopri di più sul loro lavoro qui:

48,55K

Nous Research10 ago, 04:17

Ciao! kainan_e ti ha invitato a unirti al loro gruppo DM. L'invito scade tra 24 ore.

585

Nous Research ha ripubblicato

Teknium (e/λ)31 lug 2025

L'ambiente di valutazione Arena-Hard è ora integrato in Atropos - goditi una valutazione scalabile, flessibile e moderna con il benchmark arena-hard di @lmsysorg, che è molto efficace nel determinare una vasta gamma di capacità nei modelli. Pronto per essere un ambiente RL se porti il tuo set di addestramento! :) Scopri di più su

6,88K

Nous Research30 lug 2025

Il nostro Ricercatore in Residenza @yaboilyrical discuterà del suo lavoro sulla guida SMC all'UC Berkeley il 3 agosto. Dai un'occhiata al blog su questo lavoro qui: Dettagli qui sotto!

nightwing25 lug 2025

sono entusiasta di annunciare che sarò relatore al DeAI Summit di @BerkeleyRDI, presentando la mia ricerca con @NousResearch sul decoding del linguaggio vincolato! se parteciperai al summit, o vuoi venire a vedere il mio intervento, contattami!

10,8K

Nous Research25 lug 2025

L'orario di apertura dell'ufficio Psyche inizia tra 20 minuti nel nostro Discord - Ci vediamo lì!

11,28K

Nous Research18 lug 2025

Atropos v0.3 è ora disponibile! Il nostro framework per ambienti RL ha visto molti aggiornamenti dalla v0.2 - alcuni punti salienti: - Atropos può ora essere utilizzato come framework di benchmarking e valutazioni da @rogershijin, con il nostro primo benchmark esterno, Reward-Bench 2! - Aggiunto il Reasoning Gym, un repository di ambienti esterni portato in Atropos con oltre 100 compiti di ragionamento da @neurosp1ke e amici. - @max_paperclips ha integrato il bootcamp di ragionamento di @intern_lm, aggiungendo oltre 1000 nuovi compiti di ragionamento per RL. - @dmayhem93, l'ingegnere capo di Atropos, ha aggiunto dozzine di correzioni di bug e altri miglioramenti di affidabilità e compatibilità, un migliore supporto per ambienti multipli e CI/CD. - Molti degli ambienti hackathon di Atropos sono stati fusi in /environments/community - elencarli tutti occuperebbe gran parte dello spazio dello schermo, ma alcuni punti salienti: VR-CLI di @JakeABoggs, Filosofia RLAIF, Insegnanti LLM Adattivi, WebVoyager, progettazione di proteine da @hallerite, un ambiente di routing dei modelli di @gabinfay, prove lean multiple, l'arena catbot, pokemon showdown, poker, dottori utili, poesia sanscrita di @khoomeik e molto altro! - Altri nuovi ambienti ufficialmente supportati includono: Formato di risposta seguente ambiente Ambiente Pydantic a JSON portato dal lavoro di @MatternJustus Seguire le istruzioni portato dal lavoro di @natolambert e @allen_ai Conteggio lettere - 47 nuovi collaboratori! Controlla il changelog completo qui:

Teknium (e/λ)18 lug 2025

Ho appena unito un PR per un ambiente per migliorare l'LLM come giudice e valutare i modelli sulla loro capacità di esprimere giudizi! Sapevi che tutti gli ambienti RL verificabili sono quasi equivalenti ai benchmark (e viceversa!)? Quindi abbiamo aggiunto un comando di valutazione alla base di Atropo e ora è possibile eseguire benchmark attraverso gli ambienti di Atroposo. Ci sentivamo frustrati dal lavorare con così tanti framework di benchmark obsoleti o inutilizzabili, quindi abbiamo implementato la modalità di sola valutazione in Atropos, il nostro framework per ambienti RL. Quindi il nostro primo porting al di fuori dei nostri ambienti esistenti è stato @natolambert's Reward-Bench! Nota: al momento supporta solo modelli di ricompensa generativa (regolari giudici LLM). Dai un'occhiata al PR qui: