Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A nossa pilha de GPU para NVIDIA e AMD, além de algumas peças mínimas de firmware assinado, é 100% open source e pura Python, exceto pelo compilador. Não está a usar drivers, frameworks ou bibliotecas de fornecedores. É por isso que é tão fácil fazê-la funcionar no Mac. Para compiladores, na AMD, usamos o LLVM upstream, e na NVIDIA, usamos o compilador NAK do projeto MESA. Planeamos substituir o compilador por puro tinygrad em um ou dois anos também. Com o RANGEIFY mesclado, as nossas reduções agora correspondem ao estado da arte, estilo TVM. Estamos a estudar ThunderKittens e TileLang para velocidade nesse nível, e devemos ter tudo isso pronto em 200 dias para a data de entrega do nosso contrato de treinamento AMD Llama 405B. Devido ao pequeno tamanho do tinygrad e à sua natureza pura em Python, é a biblioteca de ML mais fácil para progredir, ou seja, a mais rápida em termos de melhoria. Com o estilo Megakernel para agendamento, o estilo MODeL_opt para planejamento, e o estilo E-graph para simbólico, devemos ultrapassar o estado da arte em velocidade do PyTorch e JAX. Se conseguirmos isso, a vantagem da NVIDIA acabou. São no máximo 1000 linhas para adicionar um novo acelerador ao tinygrad. E não me refiro a adicionar um novo acelerador com a ajuda de um driver de kernel, compilador e bibliotecas. Apenas 1000 linhas de software para o *todo* acelerador a comunicar diretamente nos PCIe BARs, como o que o tinygrad está a fazer com as GPUs NVIDIA e AMD agora.

Top

Classificação

Favoritos