每次你查询一个 LLM 时,基本上是在和一群书呆子对话。 书呆子们编写了训练数据(互联网数据、书籍、维基百科等)。书呆子们微调了模型。书呆子们讨论了损失曲线。 你得到的每个标记几乎都是以下内容的输出: - 数十亿篇“博客文章”、Reddit 线程、Stack Overflow 答案、RFC 文档、维基百科编辑战争、个人争吵……等等。 - 加上 OpenAI 研究人员的秘密调料,他们在听着 lofi 音乐、争论对齐问题的同时微调它,喝着燕麦奶拿铁。 对文化的显著影响来自相对较少的人。