热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
作为评判者的LLM已成为评估模型解决任务能力的主要方式,因为它不依赖于测试集,并且能够处理答案不唯一的情况。
但尽管这种方法被广泛使用,几乎所有报告的结果都存在高度偏见。
很高兴分享我们关于如何正确使用LLM作为评判者的预印本。
🧵
===
那么人们实际上是如何使用LLM作为评判者的呢?
大多数人只是将LLM用作评估者,并报告LLM认为答案看起来正确的经验概率。
当LLM完美时,这种方法很好,并且提供了一个无偏估计。
如果LLM不完美,这种方法就会失效。
考虑一个案例,其中LLM正确评估的概率为80%。
更具体地说,如果答案是正确的,LLM以80%的概率说“这看起来正确”,而当答案实际上是错误的时,LLM同样以80%的概率说“这看起来正确”。
在这种情况下,你不应该报告经验概率,因为它是有偏的。为什么?
设被测试模型正确的真实概率为p。
那么LLM说“正确”的经验概率(= q)为:
q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p
因此,无偏估计应该是:...



热门
排行
收藏

