上周末我发布了Claude Code在一个小时内创建了一个完整的实证政治学研究的消息。很多人问:这个研究的准确性如何? 答案是:相当准确,虽然有一些有趣的错误和重要的局限性。 为了得到答案,Graham Straus好心地提供了进行独立手动审计的服务——收集相同的数据,并像Claude那样扩展论文,但不使用任何AI。他发现了以下内容: Claude完全复制了原始论文,正确编码了29/30个加州县的处理时间,并收集的选举数据与手动收集的数据相关性超过0.999。 Graham发现的三个主要错误——错误编码一个县的处理年份,遗漏了对几个在始终处理州中可能相关的竞选的数据显示,以及没有使用非总统选举来计算投票率——类似于人类在第一次撰写这篇论文时可能犯的错误,并且对后续估计的影响很小。 另一方面,当Claude试图创建一些不是原始论文简单扩展的新分析时,效果就差了。没有幻觉或疯狂的错误,但它偏离了提示,产生了我们认为构思不佳的结果。 我的看法: –今天的AI已经是快速更新和扩展良好封闭、简单实证论文的极其强大的方式。 –要做好实证社会科学研究,绝对需要人类专家的指导和监督。 下周我将在我的博客上分享关于这项工作的更广泛的想法,我们通过这项工作学到了什么,以及我们接下来要去哪里。感谢许多与我联系、提出问题并对这个项目提供反馈的人。
Andy Hall
Andy Hall1月4日 08:01
Here's proof that Claude Code can write an entire empirical polisci paper. To validate my claim that AI agents are coming for polisci "like a freight train", today I had Claude Code fully replicate and extend an old paper of mine estimating the effect of universal vote-by-mail on turnout and election outcome...essentially in one shot. After careful prompting, Claude Code: (1) Downloaded the old paper's repo and replicated the past results, translating our old Stata Code into Python (2) Crawled the web to get updated official election data and census data (3) Ran new analyses extending the results through 2024 (4) Created new tables and figures (5) Performed a lit review (6) Wrote a wholly new paper (7) Pushed the whole thing to a new github repo The whole thing took about an hour. This is an insane paradigm shift in how empirical work is done. It also validates the point that several people including @BrendanNyhan made yesterday---it's going to be especially easy to scale observational research with AI. Thanks to @alexolegimas, @arthur_spirling , and many others who gave me feedback. .
完整的文章可以在这里找到: 与 @joshgans、@alexolegimas、@deanwball 及其他人的近期写作结合起来很有趣!
289