Testarea robusteței scorurilor @Havelock_AI organizând un turneu, în care Claude primește doar marcatorii gramaticali și lexicali (fără conținut) a două texte și i se cere să ghicească care este mai oral. Vom vedea dacă textele cu scoruri mai mari chiar au ELO-uri mai mari.
Primul lot de test înainte de marea serie
86