من وجهة نظري ، SWE-bench و T-bench هما المعياران القلائل اللذان لديهما إشارة جيدة من حيث مقدار التقدم الذي نحرزه مع النماذج. يعمل هذا النموذج مثل Qwen3 Coder وهو أسوأ بنسبة 10٪ فقط من GPT-5 ، بينما يكون أيضا LLM للأغراض العامة وليس متخصصا في الكود.
Z.ai
Z.ai‏11 أغسطس، 11:43
تقديم التقرير الفني GLM-4.5! 👇 يوضح هذا العمل كيف طورنا نماذج تتفوق في التفكير والترميز والمهام الوكيلة من خلال نموذج تدريب فريد متعدد المراحل. تشمل الابتكارات الرئيسية تكرار نموذج الخبراء مع التقطير الذاتي لتوحيد القدرات ، ووضع التفكير الهجين لحل المشكلات الديناميكي ، ومنهج التعلم المعزز القائم على الصعوبة.
‏‎28.64‏K