Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A troca entre viés e variância tem um detalhe que falta!
Poucos engenheiros de ML sabem sobre isso.
Considere ajustar um modelo de regressão polinomial em algum conjunto de dados fictício, por exemplo, y=sin(x) + ruído.
Como mostrado no primeiro gráfico da imagem, à medida que aumentamos o grau (m):
- A perda no treinamento vai cair para zero.
- A perda de teste (ou validação) diminuirá e depois aumentará.
Mas note o que acontece à medida que continuamos aumentando o grau (m):
↳ Perda no teste diminui novamente (mostrado no segundo gráfico)
Isso é chamado de "fenômeno da dupla descida" e é comumente observado em modelos de aprendizado profundo.
É contraintuitivo, pois mostra que aumentar a complexidade do modelo pode melhorar o desempenho da generalização.
Até onde sei, essa ainda é uma questão em aberto. Não está totalmente claro por que as redes neurais apresentam esse comportamento.
No entanto, existem algumas teorias sobre regularização, como esta:
Pode ser que o modelo aplique algum tipo de regularização implícita. Como resultado, pode focar precisamente em um número adequado de parâmetros para generalização.
Na verdade, você pode tentar por conta própria:
- Criar um pequeno conjunto de dados fictício de tamanho n.
- Treinar uma regressão polinomial de grau m, começando de 1 até um valor maior que n.
- Plotar a perda no teste e a perda de treinamento para cada m.
👉 A palavra é sua: você já tinha ouvido falar de dupla descida antes?

Aqui está o horário exato onde Ilya Sutskever fala sobre isso no podcast de Lex Fridman:

10,03K
Melhores
Classificação
Favoritos

