跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+1.93%
USELESS
+2.64%
IKUN
+13.01%
gib
-5.28%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.79%
ALON
+1.72%
LAUNCHCOIN
+7.71%
GOONC
-1.49%
KLED
-4.56%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-1.97%
Boopa
+5.06%
PORK
0.00%
主頁
karminski-牙医
編碼員、公路自行車騎手、伺服器算命師、電子垃圾收集者、KCORES 聯合創始人、IllaSoft、Kingsoft、Kingsoft、Juejin 前董事。
查看原文
karminski-牙医
2025年12月25日
好消息!遊戲卡就能用SAM-Audio了! 前天給大家測了Meta新出的音軌分割大模型,SAM-Audio,不過這個模型最大的問題是它太大了,我實測的時候large版本要吃90GB顯存。現在好消息來了,一個博主把模型中不重要的部分剔除了(編碼器和排序器,其實這個模型還支持在視頻中指定視頻的樂器進行提取,但用文本直接描述提起什麼樂器也是可以的。所以把這部分功能移除了)。 目前small 版本只需要4-6GB顯存,large版本也只要10GB顯存,基本好一點的遊戲卡都能跑了,而且作者還搞了個一鍵安裝包,直接點擊即安裝使用,啥也不用管。有提取歌曲BGM或者分離樂器,人聲需求的朋友可以試試。 項目地址:
8
karminski-牙医
2025年12月20日
開源分解圖層大模型這麼快就來了? 給大家帶來阿里剛剛發佈的 Qwen-Image-Layered 模型實測, 這是一個可以把圖片分成不同圖層的大模型, 模型是基於 Qwen-Image 微調的. 本次我的測試覆蓋這個模型的擅長場景(海報), 指令遵循測試(指定抽取目標), 邊緣處理(頭髮), 極限測試(全是貼紙, 一個貼紙一個圖層的話可以抽取50多個圖層). 直接說結論, 首先還是模型太大了, 因為這個模型基於 Qwen-Image 所以是個20B的模型, 我是用HuggingFace Zero GPU 測試, 每次運行大概2分鐘左右, 模型的確可以做到分離圖層, 而且邊緣處理很不錯, 不過穩定性有待優化, 在我測試中4個圖層可以輸出, 但是8個或者10個圖層就炸了, 懷疑可能是超過了Zero GPU超時或者bug (GPU是H200, 不太可能爆顯存), 輸出尺寸只有 544*736, 官方也推薦640分辨力, 這點也需要提升, 以及模型還是太大了, 20B, 希望能優化下尺寸.
8
karminski-牙医
2025年12月19日
哭了, SOTA 只是面子, 真幹活還得靠"牛馬模型" OpenRouter 創始人 Alex Atallah 剛發了個推, 說自己用量最大的還是 Kimi-K2-0711 (7月份的 Kimi-K2-Instruct). 然後是 openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3 我第一看上去, 這人是不是斷網了, 好久沒用新的大模型了? 但仔細一想, 不對, 很不對勁. 這才是真正 Power User 的用法, 太真實了 如果在這個時間點找一個, 足夠大上下文(128K), 性能夠用(SWE-Bench Verified > 65), Agent 能力強(Tau2-bench > 65), 知識面巨廣(參數量相當大), 且回答得快(非Thinking模型), 好像只有 Kimi-K2-Instruct 了. 這麼倒推 Alex Atallah 應該大部分工作都是處理文檔 (長上下文, 尤其是用了13.4M token), 使用工具分析並撰寫報告 (Agent 能力), 這些 Kimi-K2-Instruct 都能搞定, 然後寫寫腳本 (o4 和 Claude-3.7-Sonnet 兜底, 甚至包裝成 Agent 讓 Kimi-k2 調用這些模型來寫腳本). 最後 Kimi-k2 還能滿足最重要的一點, 數據隱私, 因為模型是開放權重的, 可以部署在自家服務器, 任何敏感信息都不會洩露給 OpenAI 或者 Anthropic. 甚至下面那個 GPT-OSS-120B 存在意義應該也在於此. 我大概能懂現在新的大模型為什麼卷 Agent 能力了, 人直接用 AI 只是中間階段, 高級用戶都已經用 AI 來操作 AI 了. 一個用來收發所有 AI 上下文的 Agent 特化模型必然會是用量 Top. 原帖:
8
熱門
排行
收藏