На прошлых выходных я опубликовал, что Claude Code создал полное эмпирическое исследование политической науки за час. Многие люди спрашивали: но насколько точно было исследование? Ответ: довольно точно, с некоторыми интересными ошибками и важными ограничениями. Чтобы получить ответ, Грэм Страус любезно предложил провести независимый, ручной аудит — собрать те же данные и расширить статью, как это сделал Claude, но без использования AI. Вот что он нашел: Claude точно воспроизвел оригинальную статью, правильно закодировал 29 из 30 округов Калифорнии по времени лечения и собрал данные выборов, которые коррелировали >.999 с ручным сбором. Три основные ошибки, которые нашел Грэм — неверное кодирование года лечения одного округа, пропуск сбора данных по нескольким потенциально важным выборам в всегда обрабатываемых штатах и неиспользование неп presidential выборов для вычисления явки — похожи на те ошибки, которые человек мог бы сделать при первом написании этой статьи, и оказали лишь небольшое влияние на последующие оценки. С другой стороны, когда Claude пытался создать новые анализы, которые не были простыми продолжениями оригинальной статьи, у него получилось хуже. Никаких галлюцинаций или безумных ошибок, как таковых, но он отклонился от запроса и выдал результаты, которые мы сочли плохо продуманными. Мой вывод: –AI сегодня уже является чрезвычайно мощным способом быстро обновлять и расширять хорошо структурированные, простые эмпирические статьи. –Чтобы хорошо проводить эмпирические исследования в области социальных наук, это абсолютно необходимо с руководством и контролем со стороны человеческих экспертов. На следующей неделе мы поделимся более широкими мыслями об этой работе, о том, что мы узнали, занимаясь ею, и куда мы идем дальше на моем блоге. Спасибо многим, многим людям, которые связались, задавали вопросы и предлагали отзывы по этому проекту.
Andy Hall
Andy Hall4 янв., 08:01
Вот доказательство того, что Claude Code может написать целую эмпирическую статью по политическим наукам. Чтобы подтвердить свое утверждение о том, что AI-агенты приходят в политические науки "как товарный поезд", сегодня я заставил Claude Code полностью воспроизвести и расширить одну из моих старых статей, оценивающую влияние универсального голосования по почте на явку и результаты выборов... по сути, за один раз. После тщательной настройки Claude Code: (1) Скачал репозиторий старой статьи и воспроизвел прошлые результаты, переведя наш старый код Stata на Python (2) Обошел интернет, чтобы получить обновленные официальные данные о выборах и данные переписи (3) Провел новые анализы, расширяющие результаты до 2024 года (4) Создал новые таблицы и графики (5) Провел обзор литературы (6) Написал совершенно новую статью (7) Загрузил все это в новый репозиторий на github На все это ушло около часа. Это безумный сдвиг парадигмы в том, как выполняется эмпирическая работа. Это также подтверждает точку зрения, которую высказали несколько человек, включая @BrendanNyhan, вчера --- будет особенно легко масштабировать наблюдательные исследования с помощью AI. Спасибо @alexolegimas, @arthur_spirling и многим другим, кто дал мне обратную связь.
Полный отчет доступен здесь: Интересно сопоставить с недавними публикациями от @joshgans @alexolegimas @deanwball и других!
265