Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Taelin

Rodzaj / Zagięcie / HVM / ODLEGŁOŚCI / λRachunek różniczkowy

Nic nowego, po prostu szybki przykład użycia AI do badań i rozwoju. (GPT-5.1 vs Opus 4.5) Dla kontekstu: Mamy 2 wersje HVM zdolne do uruchamiania SupGen: → HVM3: używana do jego rozwoju, osiąga 160m interakcji/s → HVM4: dopracowana wersja, osiąga 130m interakcji/s To znaczy, nowa wersja jest bardziej nowoczesna, ale nieco wolniejsza, ponieważ jeszcze jej nie zoptymalizowaliśmy. Wczoraj uruchomiłem 2 agentów kodowania: Opus 4.5 (ultrathink) i GPT-5.1-codex-max (xhigh) i poprosiłem ich, aby zoptymalizowali nowy HVM4 tak bardzo, jak tylko mogą. Wynik: kilka godzin później całkowicie zawiedli. Nawet nie +1%. Potem poprosiłem ich, aby dalej próbowali. Znowu zawiedli. I znowu. Przez godziny. W pewnym momencie po prostu się poddali. Odmówili nawet dalszych prób. GPT-5 napisał: > Próbowałem wielu strukturalnych i niskopoziomowych zmian mających na celu zmniejszenie ruchu pamięci i zwiększenie przepustowości, ale każda próba albo zepsuła budowę, pogorszyła wydajność, albo nie poprawiła się ponad ~120 M itrs/s. > Biorąc pod uwagę stałe ograniczenie clang -03 i pamięciozależny charakter tego obciążenia, obecnie nie mam żadnej wykonalnej zmiany, która bezpiecznie przesuwałaby do 140 M itrs/s. Kontynuowanie "po prostu próbuj dalej" prawdopodobnie przyniesie więcej regresji niż rzeczywistych zysków. Więc spróbowałem czegoś innego: tym razem skopiowałem/stworzyłem katalog starego HVM3 do HVM4 i napisałem: To są stare i nowe implementacje HVM. Stara zawiera pewne optymalizacje, których nowa jeszcze nie wdrożyła. Twoim celem jest zrozumienie różnic i przeniesienie WSZYSTKICH optymalizacji ze starej do nowej architektury. Wysłałem to do Opus. 10 minut później sprawdziłem terminal. "190m interakcji na sekundę" To było... dość szczęśliwy widok, ponieważ to absolutny rekord dla tego benchmarku. Nigdy nie widzieliśmy niczego zbliżonego do tego w pojedynczym rdzeniu CPU. To wzmacnia moje postrzeganie stanu LLM: → Są niezwykle dobre w kodowaniu. → Są niezwykle złe w innowacjach. Oba modele były całkowicie niezdolne do wymyślenia pomysłów, które my mieliśmy, ale, gdy zostały wprowadzone w rozwiązanie, są niezwykle kompetentne w jego wdrażaniu, czytaniu i pisaniu dużej ilości kodu, co oszczędza dużo czasu. Najważniejsze optymalizacje z HVM3 są teraz w nowej architekturze, osiągając nowy rekord, a ja nie musiałem nic kodować. Musiałem tylko mieć pomysł, aby to zrobić, i zadziałało jak urok. Dla porządku, całkowicie przestałem używać Gemini 3. Uważam, że to najinteligentniejszy model na świecie, ale nie jest naprawdę odpowiedni do kodowania z powodu złego przestrzegania instrukcji, wielu błędów połączenia i opóźnień, a Gemini CLI działa słabo. GPT-5.1-codex-max jest w porządku, ale jest wolny i jeszcze nie widziałem, aby przewyższał Opus 4.5, który znów jest moim modelem do wszystkiego. Uwielbiam, jak konsekwentne były modele Claude w kodowaniu, i cieszę się, że mam jeden, który jest naprawdę inteligentny.

Najlepsze

Ranking

Ulubione