通过进行一场比赛来测试@Havelock_AI 分数的稳健性,在比赛中,Claude 仅被呈现两个文本的语法和词汇标记(没有内容),并被要求猜测哪个更口语化。我们将看看得分更高的文本是否真的具有更高的 ELO。
大规模运行前的第一次测试批次
88