Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
vLLM bietet mit derselben GPU-Plattform noch mehr Inferenzleistung.
In nur 1 Monat haben wir mit NVIDIA zusammengearbeitet, um den maximalen Durchsatz pro GPU von @nvidia Blackwell um bis zu 33 % zu steigern – was die Kosten pro Token erheblich senkt – und gleichzeitig eine noch höhere Spitzenleistung für die latenzsensibelsten Anwendungsfälle zu ermöglichen, die durch eine tiefe PyTorch-Integration und Zusammenarbeit unterstützt werden.

2
🎉Herzlichen Glückwunsch an das @Zai_org Team zur Einführung von GLM-4.6V und GLM-4.6V-Flash — mit Day-0-Servingsupport in vLLM-Rezepten für Teams, die diese auf ihren eigenen GPUs ausführen möchten.
GLM-4.6V konzentriert sich auf qualitativ hochwertiges multimodales Denken mit langem Kontext und nativen Tool-/Funktionsaufrufen, während GLM-4.6V-Flash eine 9B-Variante ist, die für geringere Latenz und kleinere Bereitstellungen optimiert wurde; unser neues vLLM-Rezept liefert sofort einsatzbereite Konfigurationen, Multi-GPU-Anleitungen und produktionsorientierte Standardeinstellungen.
Wenn Sie Inferenzdienste aufbauen und GLM-4.6V in Ihrem Stack haben möchten, starten Sie hier:


Z.ai8. Dez., 20:14
Die GLM-4.6V-Serie ist da🚀
- GLM-4.6V (106B): Flaggschiff-Vision-Sprachmodell mit 128K Kontext
- GLM-4.6V-Flash (9B): ultra-schnelle, leichte Version für lokale und latenzarme Arbeitslasten
Erste native Funktionsaufrufe in der GLM-Vision-Modellfamilie
Gewichte:
Teste jetzt GLM-4.6V:
API:
Technik-Blog:
API-Preise (pro 1M Tokens):
- GLM-4.6V: 0,6 $ Eingabe / 0,9 $ Ausgabe
- GLM-4.6V-Flash: Kostenlos

193
🎉 Herzlichen Glückwunsch an das Mistral-Team zur Einführung der Mistral 3-Familie!
Wir sind stolz darauf, dass @MistralAI, @NVIDIAAIDev, @RedHat_AI und vLLM eng zusammengearbeitet haben, um vollständige Day-0-Unterstützung für die gesamte Mistral 3-Reihe bereitzustellen.
Diese Zusammenarbeit ermöglichte:
• NVFP4 (llm-compressor) optimierte Checkpoints
• Sparse MoE-Kerne für Mistral Large 3
• Prefill/Decode disaggregierte Bereitstellung
• Multimodale + Langzeit-Kontext-Inferenz
• Effiziente Inferenz auf A100 / H100 / Blackwell
🙏 Ein großes Dankeschön an @MistralAI, @NVIDIAAIDev und @RedHat_AI für die starke Partnerschaft und den Ingenieureinsatz, der die Day-0-Optimierung möglich gemacht hat.
Wenn Sie den schnellsten, effizientesten Open-Source-Bereitstellungsweg für die gesamte Mistral 3-Reihe wünschen – vLLM ist heute bereit.


Mistral AI2. Dez., 23:08
Einführung der Mistral 3 Modellfamilie: Frontier-Intelligenz in allen Größen. Apache 2.0. Details in 🧵

131
Top
Ranking
Favoriten
