A troca entre viés e variância tem um detalhe que falta! Poucos engenheiros de ML sabem sobre isso. Considere ajustar um modelo de regressão polinomial em algum conjunto de dados fictício, por exemplo, y=sin(x) + ruído. Como mostrado no primeiro gráfico da imagem, à medida que aumentamos o grau (m): - A perda no treinamento vai cair para zero. - A perda de teste (ou validação) diminuirá e depois aumentará. Mas note o que acontece à medida que continuamos aumentando o grau (m): ↳ Perda no teste diminui novamente (mostrado no segundo gráfico) Isso é chamado de "fenômeno da dupla descida" e é comumente observado em modelos de aprendizado profundo. É contraintuitivo, pois mostra que aumentar a complexidade do modelo pode melhorar o desempenho da generalização. Até onde sei, essa ainda é uma questão em aberto. Não está totalmente claro por que as redes neurais apresentam esse comportamento. No entanto, existem algumas teorias sobre regularização, como esta: Pode ser que o modelo aplique algum tipo de regularização implícita. Como resultado, pode focar precisamente em um número adequado de parâmetros para generalização. Na verdade, você pode tentar por conta própria: - Criar um pequeno conjunto de dados fictício de tamanho n. - Treinar uma regressão polinomial de grau m, começando de 1 até um valor maior que n. - Plotar a perda no teste e a perda de treinamento para cada m. 👉 A palavra é sua: você já tinha ouvido falar de dupla descida antes?
Aqui está o horário exato onde Ilya Sutskever fala sobre isso no podcast de Lex Fridman:
10,03K