Не читал полную статью, которая еще не вышла, поэтому не могу говорить о деталях, но мне приятно видеть, что к LLM как к судье применяется больше методологической строгости. Оценки LLM находятся в центре огромного количества бенчмарков и часто используются без четкой статистической валидации.