Uma coisa engraçada sobre o aprendizado por reforço é que é difícil encontrar bugs, porque a abordagem de aprendizado subjacente é tão poderosa que tende a funcionar de qualquer maneira, mesmo que elementos importantes sejam quebrados.