Dün Gemini 3 ile erken erişim ile oynadım. Birkaç düşünce - Öncelikle genellikle kamuya açık benchmarklarda dikkatli olmamı tavsiye ederim çünkü bence onları oynamak oldukça mümkün. Bu, ekibin disiplini ve kendini tutmasına bağlıdır (bu arada bu arada güçlü şekilde teşvik ediliyor) ve belge göme alanındaki test setine bitişik veriler üzerinde karmaşık jimnastiklerle test setlerini aşırı fitne etmemek için çalışır. Gerçekçi olarak, herkes bunu yaptığı için, bunu yapma baskısı yüksek. Modelle konuş. Diğer modellerle konuşun (LLM Cycle'ı sür - her gün farklı bir LLM kullan). Dün kişilik, yazı, atmosfer kodlama, mizah gibi konularda olumlu bir ilk izlenim oluştu, günlük sürücü potansiyelim çok yüksek, kesinlikle birinci seviye bir LLM, takımı tebrikler! Önümüzdeki birkaç gün/hafta boyunca en çok merak ediyorum ve özel değerlendirmeler için bir topluluk arıyorum; şimdi birçok kişi/organizasyon bu tür etkinlikleri kendileri için kurup ara sıra burada rapor ediyor.