熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們的 GPU 堆疊對於 NVIDIA 和 AMD,除了少量簽名的韌體外,100% 開源且純粹使用 Python,除了編譯器。它不使用供應商驅動程式、框架或庫。這就是為什麼在 Mac 上使用起來如此簡單。
對於編譯器,AMD 使用上游的 LLVM,而 NVIDIA 則使用 MESA 專案的 NAK 編譯器。我們計劃在一兩年內將編譯器替換為純粹的 tinygrad。
隨著 RANGEIFY 的合併,我們的降級技術現在達到了最前沿的水平,符合 TVM 樣式。我們正在研究 ThunderKittens 和 TileLang 以提高該層級的速度,並應該在 200 天內為我們的 AMD Llama 405B 訓練合約準備好所有這些技術。
由於 tinygrad 的小巧和純 Python 的特性,它是最容易進展的 ML 庫,也就是說,改進的速度最快。使用 Megakernel 樣式進行排程,MODeL_opt 樣式進行規劃,以及 E-graph 樣式進行符號處理,我們應該能夠超越 PyTorch 和 JAX 的最前沿速度。
如果我們做到這一點,NVIDIA 的護城河就結束了。添加一個新的加速器到 tinygrad 最多只需 1000 行代碼。而我所說的並不是在內核驅動程式、編譯器和庫的幫助下添加新的加速器。只需 1000 行軟體,讓整個加速器直接在 PCIe BARs 上運行,就像 tinygrad 現在對 NVIDIA 和 AMD GPU 所做的那樣。
@geerlingguy 或者其實,AMD 更簡單。只需安裝 `extra/usbgpu/tbgpu` 驅動程式,然後設置 AMD=1
@geerlingguy 或者其實,AMD 更簡單。只需安裝 `extra/usbgpu/tbgpu` 驅動程式,並設置 AMD=1。0 計劃在這個層面上支持 Intel。
54.29K
熱門
排行
收藏