DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

La série GLM-4.6V est là🚀 - GLM-4.6V (106B) : modèle phare de vision-langage avec 128K de contexte - GLM-4.6V-Flash (9B) : version ultra-rapide et légère pour des charges de travail locales et à faible latence Première fonction d'appel native dans la famille de modèles de vision GLM Poids : Essayez GLM-4.6V maintenant : API : Blog technique : Tarification API (par 1M de tokens) : - GLM-4.6V : 0,6 $ entrée / 0,9 $ sortie - GLM-4.6V-Flash : Gratuit

GLM-4.6V peut accepter des entrées multimodales de différents types et générer automatiquement un contenu de haute qualité, structuré et entrelacé image-texte.

GLM-4.6V offre un flux de travail de recherche et d'analyse multimodal de bout en bout, permettant au modèle de passer sans effort de la perception visuelle à la récupération en ligne, au raisonnement et à la réponse finale.

Nous avons optimisé GLM-4.6V pour le développement frontend, réduisant considérablement le cycle "de la conception au code".

GLM-4.6V aligne son encodeur visuel avec une longueur de contexte de 128K, offrant au modèle une capacité de mémoire massive. En pratique, cela équivaut à traiter ~150 pages de documents complexes, 200 pages de diapositives, ou une vidéo d'une heure en un seul passage d'inférence.

Le modèle peut effectuer une synthèse globale sur de longues vidéos tout en conservant la capacité d'effectuer un raisonnement précis sur des indices temporels, tels que la synthèse des événements clés et des horodatages dans un match de football complet.

211

Meilleurs

Classement

Favoris