Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Zephyr
DM:s är öppna
Prenumerera på X för att läsa mina artiklar om teknik, AI, halvledare
Prime-bröderna lagade hårt


Prime Intellect7 timmar sedan
Introduktion av INTELLECT-3: Skalning av RL till en 100B+ MoE-modell på vår end-to-end-stack
Att uppnå toppmodern prestanda för sin storlek inom matematik, kod och resonemang
Byggt med samma verktyg som vi ger dig, från miljöer och utvärderingar, RL-ramverk, sandlådor och mer
1,38K
Kan du testa en MoE som GPT-OSS, Kimi eller DeepSeek??

Artificial Analysis9 timmar sedan
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Artificial Analysis' hårdvarubenchmarking visar att NVIDIA uppnår ~5x fördel i tokens per dollar jämfört med TPU v6e (Trillium), och ~2x fördel över MI300X, i vår viktiga kostnadsmetrik
I vårt mått för inferenskostnad, kallat Cost Per Million Input and Output Tokens at Reference Speed, ser vi att NVIDIA H100- och B200-system uppnår lägre totalkostnad än TPU v6e och MI300X. För Llama 3.3 70B som körs med vLLM med en per-query referenshastighet på 30 utgångstokens/s, uppnår NVIDIA H100 en kostnad per miljon in- och utgångstokens på 1,06 dollar, jämfört med MI300X på 2,24 dollar och TPU v6e på 5,13 dollar.
Denna analys bygger på resultaten från Artificial Analysis System Load Test för systeminferensgenomströmning över olika samtidighetsnivåer, samt prisdata för GPU-instanser som vi samlar in från olika GPU-molnleverantörer. "Cost Per Million Input and Output Tokens at Reference Speed" använder systemets genomströmning som systemet kan uppnå samtidigt som det upprätthåller 30 utmatningstoken per sekund per förfrågan, och delar systemets hyreskostnad med denna genomströmning (skalat till en miljon tokens).
Fullständiga resultat över ett spektrum av samtidighets- och hastighetsnivåer finns tillgängliga på sidan Artificial Analysis Hardware Benchmarking.
Viktig kontext:
➤ Vi rapporterar endast resultat för TPU v6e som kör Llama 3.3 70B eftersom detta är den enda modellen på vår hårdvarusida där vLLM på TPU officiellt stöds. Vi rapporterar resultat för NVIDIA Hopper- och Blackwell-system, och nu för AMD MI300X, över alla fyra modeller på vår hårdvarusida: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 och Llama 3.3 70B.
➤ Dessa resultat baseras på vad företag kan hyra i molnet nu – nästa generations MI355X- och TPU v7-acceleratorer är ännu inte allmänt tillgängliga. Vi tar det lägsta priset över en referensuppsättning av GPU-molnleverantörer. TPU v6e är prissatt på begäran till 2,70 dollar per chip och timme, vilket är billigare än vårt lägsta spårade pris för NVIDIA B200 (5,50 dollar per timme) men liknar NVIDIA H100 (2,70 dollar per timme) och AMD MI300X (2 dollar per timme).
➤ Googles TPU v7 (Ironwood) blir allmänt tillgänglig under de kommande veckorna. Vi förväntar oss att TPU v7 kommer att prestera avsevärt bättre än v6e, med tanke på stora beräkningshopp (918 TFLOPS till 4 614 TFLOPS), minne (32 GB till 192 GB) och minnesbandbredd (1,6 TB/s till 7,4 TB/s). Vi vet dock ännu inte vad Google kommer att ta ut för dessa fall – så effekten på implicita kostnader per token är ännu oklar.
➤ Vår kostnad per miljon in- och utmatningstoken kan inte jämföras direkt med serverless API-prissättning. Den totala implicita kostnaden per miljon tokens för en given distribution påverkas av den hastighet per fråga du vill sikta på (styrd av batchstorlek/samtidighet) och förhållandet mellan in- och utgångstokens.
➤ Dessa resultat gäller alla för system med 8 acceleratorer – dvs. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Vi har också nyligen publicerat uppdaterade Blackwell-resultat – mer analys av dessa kommer snart.

1,37K
Dessa förutsägelser har misslyckats så hårt

Yuchen Jin7 timmar sedan
Brytning: forskare hittar LLM:er som har lärt sig hallucinationer från människor.

4,57K
Topp
Rankning
Favoriter
