Opus 4.5 çok zekice olduğu için τ2-bench havayolu değerlendirmesini benchmark tablomuzdan çıkarmak zorunda kaldık. Kıyaslama, bir havayolu müşteri hizmetleri temsilcisini simüle eder. Bir test örneğinde, rahatsız bir müşteri uçuşunu değiştirmek için arıyor, ancak temel ekonomi bileti var. Simüle edilen havayolunun politikası, temel ekonomi biletlerinin değiştirilemeyeceğini belirtmektedir. "Doğru" cevap, modelin talebi reddetmesidir. Bunun yerine, Opus 4.5 politikada bir boşluk buldu. Kabin yükseltildi, ardından uçuşlar değiştirildi. Müşteriye yardım etmek ve politikayı takip etmek ama teknik olarak test vakasında başarısız olmak. Model transkripti:
Model kartımızda tam hikayeyi okuyun:
707,45K