跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-22.82%
USELESS
-11.34%
IKUN
-9.29%
gib
-2.75%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-2.24%
ALON
-1.01%
LAUNCHCOIN
-3.56%
GOONC
-1.33%
KLED
+5.62%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.98%
Boopa
-13.14%
PORK
0.00%
主頁
Ronak Malde ✈️ NeurIPS 2025
現實@GoogleDeepmind |先前研究@windsurf_ai(Deepmind Acq.) |@stanford
查看原文
Ronak Malde ✈️ NeurIPS 2025
1月9日 01:03
在LLM歷史上,一個冷門但有趣的事實 - 每個實驗室的工具調用格式都非常不同,這在很長一段時間內是一個相當重要的秘密。 Nous Research是第一個開源他們的Hermes工具調用格式和模型的實驗室,這在2024年時壓倒了BFCL工具調用排行榜,並向人們展示了一個可靠的工具格式和解析器。 隨後,Qwen也開始使用Hermes工具格式,現在所有Qwen模型至今仍在使用它。Hermes格式也成為我們在Windsurf的swe-1模型的基石。 看到這個實驗室的貢獻在開源中延續,真的很酷。 這是它的樣子: <|im_start|>assistant <tool_call> {name: args:} </tool_call> <|im_end|>
Nous Research
1月7日 03:39
介紹 NousCoder-14b,一個競爭性的奧林匹克編程模型。 我們最新的博客詳細說明了來自廣泛實驗和日誌的完整發現,完整堆棧已發布 - RL 環境、基準和在 Atropos 中構建的工具,所有這些都可以使用我們的開放訓練堆棧完全重現。 NousCoder-14b 是由駐校研究員 @JoeLi5050 使用 48 台 B200s 在 4 天內進行後訓練的,使用我們的 Atropos 框架和 @modal 的自動擴展器。它達到了 67.87% 的 Pass@1 準確率,比 Qwen 的基準準確率提高了 7.08%,使用可驗證的執行獎勵。
52
Ronak Malde ✈️ NeurIPS 2025
1月1日 15:31
2024年是代理人的年代 2025年是強化學習的年代 2026年將是持續學習的年代
56
Ronak Malde ✈️ NeurIPS 2025
2025年12月22日
這可能是我今年最喜歡的論文🤯 Rich Sutton聲稱目前的強化學習方法無法實現持續學習,因為它們不會在先前的知識上進行累積,每次的執行都是從零開始。 瑞士的研究人員介紹了Meta-RL,這可能破解了這個難題。通過元學習目標在多個回合中進行優化,這樣可以激勵代理先探索然後再利用。然後反思之前的失敗,以便未來的代理運行。 整體來說,這篇論文的結果令人難以置信,閱讀體驗也非常棒。 作者:@YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic
26
熱門
排行
收藏