isso sempre esteve errado - mas agora categoricamente errado na era do RL em domínios verificáveis Os modelos buscam a verdade e até interagem com um mundo exterior difícil por meio do uso de ferramentas
David Deutsch
David Deutsch4 de ago., 16:23
Os LLMs são treinados para imitar padrões de linguagem, não para descobrir ou verificar a verdade. Assim, quando solicitado a falar como especialista em uma área onde os especialistas percebidos têm um equívoco generalizado, o LLM repetirá esse equívoco, adotando o registro e o vocabulário dos especialistas.
358,05K