Weekendul trecut am postat că Claude Code a creat un studiu empiric complet de științe politice într-o oră. Mulți oameni au întrebat: dar cât de precis a fost studiul? Răspunsul: destul de precis, cu unele greșeli interesante și limitări importante. Pentru a obține răspunsul, Graham Straus s-a oferit amabil să facă un audit independent, manual—colectând aceleași date și extinzând lucrarea ca Claude, dar fără a folosi nicio inteligență artificială. Iată ce a descoperit: Claude a replicat exact lucrarea originală, a codificat corect 29/30 de județe din California privind momentul tratamentului și a colectat date electorale care au corelat >,999 cu colectarea manuală. Cele trei erori principale pe care Graham le-a găsit — codificarea greșită a anului de tratament al unui comitat, omiterea colectării datelor pentru mai multe curse potențial relevante în state mereu tratate și neutilizarea alegerilor non-prezidențiale pentru a calcula prezența la vot — sunt similare cu tipurile de greșeli pe care un om le-ar putea face la prima încercare de a scrie această lucrare și au avut doar efecte mici asupra estimărilor ulterioare. Pe de altă parte, când Claude a încercat să creeze analize noi care nu erau extensii simple ale lucrării originale, a avut rezultate mai rele. Nu au avut halucinații sau erori nebunești, propriu-zis, dar s-a îndepărtat de prompt și a produs rezultate pe care le-am considerat prost concepute. Lectura mea: –AI de astăzi este deja o modalitate extrem de puternică de a actualiza și extinde rapid lucrări empirice simple și bine conținute. –Pentru a face bine cercetare empirică în științele sociale, are absolut nevoie de îndrumare și supraveghere din partea experților umani. Vom împărtăși gânduri mai largi despre această muncă, ce am învățat făcând-o și încotro mergem de aici săptămâna viitoare pe blogul meu. Mulțumim numeroșilor oameni care au luat legătura, au pus întrebări și au oferit feedback asupra acestui proiect.
Andy Hall
Andy Hall4 ian., 08:01
Iată dovada că Claude Code poate scrie un întreg articol de studii politice empirice. Pentru a-mi valida afirmația că agenții AI vin pentru poliție "ca un tren de marfă", astăzi l-am rugat pe Claude Code să reproducă complet și să extindă un vechi articol al meu care estima efectul votului universal prin corespondență asupra prezenței la vot și rezultatului alegerilor... practic dintr-o singură lovitură. După insistențe atente, Claude Code: (1) Am descărcat depozitul vechiului articol și am replicat rezultatele anterioare, traducând vechiul nostru cod Stata în Python (2) A căutat pe internet pentru a obține date oficiale electorale și date recensământului actualizate (3) Au realizat noi analize care au extins rezultatele până în 2024 (4) A creat tabele și figuri noi (5) A efectuat o revizuire literară (6) A scris o lucrare complet nouă (7) Am împins totul într-un nou depozit github Totul a durat cam o oră. Aceasta este o schimbare de paradigmă incredibilă în modul în care se face munca empirică. De asemenea, validează punctul pe care mai mulți oameni, inclusiv @BrendanNyhan, l-au făcut ieri --- va fi deosebit de ușor să scalezi cercetarea observațională cu AI. Mulțumiri lui @alexolegimas, @arthur_spirling și multor alții care mi-au oferit feedback. .
Un rezumat complet este disponibil aici: Este interesant să o asociezi cu scrierile recente ale lui @joshgans @alexolegimas @deanwball și ale altora!
186