O tradeoff entre bias e variância tem um detalhe faltando! Não muitos engenheiros de ML sabem sobre isso. Considere ajustar um modelo de regressão polinomial em um conjunto de dados fictício, digamos, y=sin(x) + ruído. Como mostrado no primeiro gráfico da imagem, à medida que aumentamos o grau (m): - A perda de treinamento vai a zero. - A perda de teste (ou validação) diminui e depois aumenta. Mas note o que acontece à medida que continuamos a aumentar o grau (m): ↳ A perda de teste diminui novamente (mostrado no segundo gráfico) Isso é chamado de "fenômeno da dupla descida" e é comumente observado em modelos de deep learning. É contraintuitivo, pois mostra que aumentar a complexidade do modelo pode melhorar o desempenho de generalização. Até onde sei, essa ainda é uma questão em aberto. Não está totalmente claro por que as redes neurais exibem esse comportamento. Existem algumas teorias sobre regularização, no entanto, como esta: Pode ser que o modelo aplique algum tipo de regularização implícita. Como resultado, ele pode focar precisamente em um número adequado de parâmetros para a generalização. Na verdade, você pode tentar isso você mesmo: - Crie um pequeno conjunto de dados fictício de tamanho n. - Treine uma regressão polinomial de grau m, começando de 1 até um valor maior que n. - Plote a perda de teste e a perda de treinamento para cada m. 👉 Sua vez: Você já tinha ouvido falar de dupla descida antes?
Aqui está a marca de tempo exata onde Ilya Sutskever fala sobre isso no podcast de Lex Fridman:
10,21K