Habe das vollständige Papier, das noch nicht veröffentlicht ist, nicht gelesen, daher kann ich nichts zu den Details sagen, aber ich freue mich, dass mehr methodische Strenge auf LLM als Richter angewendet wird. LLM-Bewertungen stehen im Mittelpunkt einer riesigen Anzahl von Benchmarks und werden oft ohne klare statistische Validierung verwendet.