Kopiering och tweaking amd_uop_matmul.py för 4090 bör ge dig $ 300 GEMM hastighet bounty. Det är så enkelt att AI (nästan) kan göra det.