W zeszły weekend opublikowałem, że Claude Code stworzył pełne empiryczne badanie z zakresu nauk politycznych w ciągu godziny. Wiele osób pytało: ale jak dokładne było to badanie? Odpowiedź: całkiem dokładne, z interesującymi błędami i ważnymi ograniczeniami. Aby uzyskać odpowiedź, Graham Straus uprzejmie zaoferował przeprowadzenie niezależnego, ręcznego audytu — zbierając te same dane i rozszerzając artykuł tak, jak zrobił to Claude, ale bez użycia jakiejkolwiek AI. Oto co odkrył: Claude dokładnie powtórzył oryginalny artykuł, poprawnie zakodował 29/30 hrabstw CA pod względem czasu leczenia i zebrał dane wyborcze, które korelowały >.999 z ręcznym zbiorem. Trzy główne błędy, które znalazł Graham — błędne zakodowanie roku leczenia jednego hrabstwa, pominięcie zbierania danych dla kilku potencjalnie istotnych wyścigów w stanach zawsze leczonych oraz nieużycie wyborów nieprezydenckich do obliczenia frekwencji — są podobne do rodzajów błędów, które człowiek mógłby popełnić przy pierwszym podejściu do napisania tego artykułu, i miały tylko niewielki wpływ na późniejsze oszacowania. Z drugiej strony, gdy Claude próbował stworzyć nowe analizy, które nie były prostymi rozszerzeniami oryginalnego artykułu, wypadł gorzej. Nie było halucynacji ani szalonych błędów, ale odbiegł od polecenia i wyprodukował wyniki, które uznaliśmy za źle pomyślane. Moje wnioski: –AI dzisiaj jest już niezwykle potężnym sposobem na szybkie aktualizowanie i rozszerzanie dobrze zdefiniowanych, prostych empirycznych artykułów. –Aby dobrze przeprowadzać empiryczne badania z zakresu nauk społecznych, absolutnie potrzebuje to wskazówek i nadzoru ze strony ludzkich ekspertów. Podzielimy się szerszymi przemyśleniami na temat tej pracy, tego, czego się nauczyliśmy, wykonując ją, oraz dokąd zmierzamy dalej w przyszłym tygodniu na moim blogu. Dziękuję wielu, wielu osobom, które się skontaktowały, zadawały pytania i oferowały opinie na temat tego projektu.
Andy Hall
Andy Hall4 sty, 08:01
Oto dowód, że Claude Code potrafi napisać całą empiryczną pracę z zakresu nauk politycznych. Aby potwierdzić moje twierdzenie, że agenci AI nadchodzą do nauk politycznych "jak pociąg towarowy", dzisiaj kazałem Claude Code w pełni zreplikować i rozszerzyć moją starą pracę, w której oszacowałem wpływ uniwersalnego głosowania korespondencyjnego na frekwencję i wyniki wyborów... zasadniczo w jednym podejściu. Po starannym podpowiedzeniu, Claude Code: (1) Pobranie repozytorium starej pracy i zreplikowanie wcześniejszych wyników, tłumacząc nasz stary kod Stata na Pythona (2) Przeszukał internet, aby uzyskać zaktualizowane oficjalne dane wyborcze i dane z spisu ludności (3) Przeprowadził nowe analizy rozszerzające wyniki do 2024 roku (4) Stworzył nowe tabele i wykresy (5) Wykonał przegląd literatury (6) Napisał całkowicie nową pracę (7) Przesłał wszystko do nowego repozytorium na githubie Całość zajęła około godziny. To szalona zmiana paradygmatu w sposobie, w jaki prowadzi się prace empiryczne. To również potwierdza tezę, którą wczoraj przedstawiło kilka osób, w tym @BrendanNyhan - będzie szczególnie łatwo skalować badania obserwacyjne z AI. Dziękuję @alexolegimas, @arthur_spirling i wielu innym, którzy udzielili mi informacji zwrotnej.
Pełny artykuł jest dostępny tutaj: Interesujące jest połączenie z ostatnimi tekstami od @joshgans @alexolegimas @deanwball i innych!
186