De bias-variantie trade-off heeft een ontbrekend detail! Niet veel ML-engineers weten ervan. Overweeg een polynomiale regressiemodel te passen op een dummy dataset, laten we zeggen, y=sin(x) + ruis. Zoals te zien is in de eerste plot in de afbeelding, naarmate we de graad (m) verhogen: - De trainingsverlies zal naar nul gaan. - De test- (of validatie) verlies zal afnemen en daarna toenemen. Maar let op wat er gebeurt als we de graad (m) blijven verhogen: ↳ Testverlies neemt opnieuw af (zoals weergegeven in de tweede plot) Dit wordt het “double descent fenomeen” genoemd en het wordt vaak waargenomen in deep learning modellen. Het is tegenintuïtief omdat het laat zien dat het verhogen van de modelcomplexiteit de generalisatieprestaties kan verbeteren. Voor zover ik weet, is dit nog steeds een open vraag. Het is niet helemaal duidelijk waarom neurale netwerken dit gedrag vertonen. Er zijn enkele theorieën over regularisatie, zoals deze: Het zou kunnen zijn dat het model een soort impliciete regularisatie toepast. Als gevolg daarvan kan het zich precies richten op een geschikt aantal parameters voor generalisatie. In feite kun je het zelf proberen: - Maak een kleine dummy dataset van grootte n. - Train een polynomiale regressie van graad m, beginnend vanaf 1 tot een waarde groter dan n. - Plot de testverlies en trainingsverlies voor elke m. 👉 Aan jou: Had je eerder van double descent gehoord?
Hier is de exacte tijdstempel waar Ilya Sutskever erover praat in de podcast van Lex Fridman:
10,03K