Joka kerta kun näen uuden "huipputeknologian" vertailupisteen, kokeilen yksinkertaista ajatuskoetta. Jos tekoäly on rahaa, niin jokainen MMLU:n tarkkuuspiste on palkkapäätös, luottoraja, kauppa, kliininen merkki. Nykyiset vertailuarvot kohtelevat malleja kuin koeviikon oppilaita. MMLU 88 %, HumanEval millä tahansa prosentilla, areenavoittoprosentit, mutta lähes kukaan ei kysy kysymystä, jolla on merkitystä, kun malli tekee oikeasti palkallista työtä. Antoivatko juuri nämä aivot tässä tilassa tämän vastauksen oikein? Tiedämme jo, mitä tapahtuu, kun jätät tuon kerroksen huomiotta. Vuosien 2021–2022 sirupulan aikana toimitusketjumallit, jotka olivat olleet "riittävän hyviä" vuosia, ajautuivat rotkoon. He suosittelivat jatkuvasti suunnitelmia, joilla ei ollut taloudellista järkeä, koska maailma oli muuttunut heidän aikanaan eikä kukaan huomannut sitä tarpeeksi nopeasti. Viime aikoina Clauden käyttäjät ovat löytäneet viikkoja heikentyneitä tuloksia, ennen kuin Anthropic myönsi, että kolme erillistä infrastruktuurivirhettä korruptoivat hiljaisesti vastauksia. Monista tällaisista tapauksista ei puhuta kätevästi (melkein liiankin kätevästi). Ambientilla aloimme käsitellä tätä kuin jotain, mitä voi mitata. Omat alakoulun matematiikkakokeemme ottavat yksinkertaista laskua ja osoittavat, kuinka usein rajaseudun mallit horjuvat tehtävissä, joita niiden tulisi käsitellä pöytäpanoksina. Kun huomaat, että jotkut "tekoälytulo"-diat näyttävät keskeneräisiltä, ilman sisarkalvoa: yksi varmennettua päättelyä varten (jonka määrittelen yksinkertaisesti kyvyksi todistaa, millä mallilla ja millä painolla vastattiin mihinkin kehotteeseen milloinkin). Jos tekoäly aikoo olla palkanlaskennan, riskien ja operaatioiden keskellä, vertailuarvojen on kasvatettava, ja tarkkuus on lähtölippu. Todennettavissa oleva käyttäytyminen taloudellisten kannustimien alla on todellinen koe.