Seria GLM-4.6V jest już tutaj🚀 - GLM-4.6V (106B): flagowy model wizji-języka z kontekstem 128K - GLM-4.6V-Flash (9B): ultra-szybka, lekka wersja do lokalnych i niskolatencyjnych obciążeń Pierwsze w historii natywne wywoływanie funkcji w rodzinie modeli wizji GLM Wagi: Wypróbuj GLM-4.6V teraz: API: Blog technologiczny: Cennik API (za 1M tokenów): - GLM-4.6V: 0,6 USD za wejście / 0,9 USD za wyjście - GLM-4.6V-Flash: Darmowe
GLM-4.6V może akceptować multimodalne wejścia różnych typów i automatycznie generować wysokiej jakości, strukturalne treści przeplatane obrazem i tekstem.
GLM-4.6V dostarcza kompleksowy proces wyszukiwania i analizy multimodalnej, umożliwiając modelowi płynne przechodzenie od percepcji wizualnej do wyszukiwania online, do rozumowania i do ostatecznej odpowiedzi.
Optymalizowaliśmy GLM-4.6V do rozwoju front-endu, znacznie skracając cykl "projektowania do kodu".
GLM-4.6V dostosowuje swój enkoder wizualny do długości kontekstu 128K, co daje modelowi ogromną pojemność pamięci. W praktyce oznacza to przetwarzanie ~150 stron złożonych dokumentów, 200 stron slajdów lub jednominutowego wideo w jednym przebiegu wnioskowania.
Model może przeprowadzać globalne podsumowanie długich filmów, jednocześnie zachowując zdolność do precyzyjnego rozumowania na podstawie wskazówek czasowych, takich jak podsumowywanie wydarzeń bramkowych i znaczników czasowych w pełnym meczu piłkarskim.
212