Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Mój pierwszy opublikowany artykuł naukowy dotyczył Prawa Moore'a, a obecnie rozwój AI wygląda podobnie: eksponencjalny wzrost Prawa Moore'a nie był wynikiem jednej technologii, lecz raczej wielu różnych technologii przez wiele dziesięcioleci, które były gotowe, gdy jedna z metod produkcji chipów zawiodła. Regularne tempo Prawa pełniło funkcję koordynacyjną, dzięki czemu zmieniająca się grupa konkurentów była zmuszona do stworzenia samospełniającej się przepowiedni ciągłego wzrostu możliwości.
Podobnie rozwój AI już napotkał szereg przeszkód, które musiały zostać pokonane dzięki nowym technikom i badaniom (podejścia do danych syntetycznych, rozumowanie, nowe zastosowania dla RL). Ale chyba że jesteś osobą z branży (lub śledzisz AI na X), nie dostrzegasz tych przeszkód: tylko stały, eksponencjalny postęp.
Biorąc pod uwagę ilość pieniędzy i talentów w tej dziedzinie, spodziewam się, że nawet jeśli wstępne szkolenie lub cokolwiek innego napotka ścianę, zobaczymy szybkie przejście całej branży do jednego lub więcej z wielu innych podejść, które ludzie rozwijają. Można to już zauważyć: prace nad modelami świata, alternatywy dla LLM, nowe metody szkolenia itp. Nawet alternatywne ekosystemy, które stawiają na wzrost małych, precyzyjnie dostosowanych modeli itd. Niektóre z tych technik pochodzą z startupów, inne są rozwijane w samych laboratoriach AI.
Ludzie na X mają tendencję do zagłębiania się w szczegóły, traktując AI jak sport, kibicując lub przeciwko zespołom i podejściom. Ale w rozsądnej perspektywie czasowej, możliwe jest, że rozwój AI wygląda jak gładka eksponencjalna na wielu metrykach dla wszystkich innych.


11,71K
"Dopasowanie dla kogo" będzie dużym pytaniem w organizacjach, gdy wdrażają zewnętrzne rozwiązania AI...

Alex Albert25 lis, 05:24
Musieliśmy usunąć ocenę linii lotniczej τ2-bench z naszej tabeli benchmarków, ponieważ Opus 4.5 zepsuł ją, będąc zbyt sprytnym.
Benchmark symuluje agenta obsługi klienta linii lotniczej. W jednym przypadku testowym, zaniepokojony klient dzwoni, chcąc zmienić swój lot, ale ma bilet w podstawowej klasie ekonomicznej. Polityka symulowanej linii lotniczej stwierdza, że bilety w podstawowej klasie ekonomicznej nie mogą być modyfikowane.
"Poprawną" odpowiedzią jest to, że model odmawia prośbie.
Zamiast tego, Opus 4.5 znalazł lukę w polityce.
Ulepszył klasę, a następnie zmodyfikował loty. Pomagając klientowi i przestrzegając polityki, ale technicznie nie zdając testu.
Transkrypcja modelu:

35,98K
Najlepsze
Ranking
Ulubione

