Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O tradeoff entre bias e variância tem um detalhe faltando!
Não muitos engenheiros de ML sabem sobre isso.
Considere ajustar um modelo de regressão polinomial em um conjunto de dados fictício, digamos, y=sin(x) + ruído.
Como mostrado no primeiro gráfico da imagem, à medida que aumentamos o grau (m):
- A perda de treinamento vai a zero.
- A perda de teste (ou validação) diminui e depois aumenta.
Mas note o que acontece à medida que continuamos a aumentar o grau (m):
↳ A perda de teste diminui novamente (mostrado no segundo gráfico)
Isso é chamado de "fenômeno da dupla descida" e é comumente observado em modelos de deep learning.
É contraintuitivo, pois mostra que aumentar a complexidade do modelo pode melhorar o desempenho de generalização.
Até onde sei, essa ainda é uma questão em aberto. Não está totalmente claro por que as redes neurais exibem esse comportamento.
Existem algumas teorias sobre regularização, no entanto, como esta:
Pode ser que o modelo aplique algum tipo de regularização implícita. Como resultado, ele pode focar precisamente em um número adequado de parâmetros para a generalização.
Na verdade, você pode tentar isso você mesmo:
- Crie um pequeno conjunto de dados fictício de tamanho n.
- Treine uma regressão polinomial de grau m, começando de 1 até um valor maior que n.
- Plote a perda de teste e a perda de treinamento para cada m.
👉 Sua vez: Você já tinha ouvido falar de dupla descida antes?

Aqui está a marca de tempo exata onde Ilya Sutskever fala sobre isso no podcast de Lex Fridman:

10,21K
Top
Classificação
Favoritos

