Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bias-varians-avvägningen saknar en detalj!
Inte många ML-ingenjörer känner till det.
Överväg att passa en polynomregressionsmodell på någon dummydataset, säg y=sin(x) + brus.
Som visas i den första grafen i bilden, när vi ökar graden (m):
- Träningsförlusten kommer att gå ner till noll.
- Test- (eller validerings-) förlusten minskar och ökar sedan.
Men lägg märke till vad som händer när vi fortsätter att öka graden (m):
↳ Testförlusten minskar igen (visas i den andra grafen)
Detta kallas "double descent-fenomenet" och det observeras ofta i deep learning-modeller.
Det är kontraintuitivt eftersom det visar att en ökning av modellens komplexitet kan förbättra generaliseringsprestandan.
Så vitt jag vet är detta fortfarande en öppen fråga. Det är inte helt klart varför neurala nätverk uppvisar detta beteende.
Det finns dock vissa teorier kring regularisering, såsom denna:
Det kan vara så att modellen tillämpar någon form av implicit regularisering. Som ett resultat kan den exakt fokusera på ett lämpligt antal parametrar för generalisering.
Faktum är att du faktiskt kan prova det själv:
- Skapa en liten dummy-datamängd av storlek n.
- Träna en polynomregression av grad m, som börjar från 1 till ett värde större än n.
- Plotta testförlust och träningsförlust för varje m.
👉 Över till dig: Hade du hört talas om dubbel nedstigning tidigare?

Här är den exakta tidsstämpeln där Ilya Sutskever pratar om det i Lex Fridmans podcast:

10,03K
Topp
Rankning
Favoriter

