Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

На прошлых выходных я опубликовал, что Claude Code создал полное эмпирическое исследование политической науки за час. Многие люди спрашивали: но насколько точно было исследование? Ответ: довольно точно, с некоторыми интересными ошибками и важными ограничениями. Чтобы получить ответ, Грэм Страус любезно предложил провести независимый, ручной аудит — собрать те же данные и расширить статью, как это сделал Claude, но без использования AI. Вот что он нашел: Claude точно воспроизвел оригинальную статью, правильно закодировал 29 из 30 округов Калифорнии по времени лечения и собрал данные выборов, которые коррелировали >.999 с ручным сбором. Три основные ошибки, которые нашел Грэм — неверное кодирование года лечения одного округа, пропуск сбора данных по нескольким потенциально важным выборам в всегда обрабатываемых штатах и неиспользование неп presidential выборов для вычисления явки — похожи на те ошибки, которые человек мог бы сделать при первом написании этой статьи, и оказали лишь небольшое влияние на последующие оценки. С другой стороны, когда Claude пытался создать новые анализы, которые не были простыми продолжениями оригинальной статьи, у него получилось хуже. Никаких галлюцинаций или безумных ошибок, как таковых, но он отклонился от запроса и выдал результаты, которые мы сочли плохо продуманными. Мой вывод: –AI сегодня уже является чрезвычайно мощным способом быстро обновлять и расширять хорошо структурированные, простые эмпирические статьи. –Чтобы хорошо проводить эмпирические исследования в области социальных наук, это абсолютно необходимо с руководством и контролем со стороны человеческих экспертов. На следующей неделе мы поделимся более широкими мыслями об этой работе, о том, что мы узнали, занимаясь ею, и куда мы идем дальше на моем блоге. Спасибо многим, многим людям, которые связались, задавали вопросы и предлагали отзывы по этому проекту.

Полный отчет доступен здесь: Интересно сопоставить с недавними публикациями от @joshgans @alexolegimas @deanwball и других!

265

Топ

Рейтинг

Избранное