每次你查詢一個 LLM,你基本上是在和一群書呆子對話。 書呆子們撰寫了訓練數據(互聯網數據、書籍、維基百科等)。書呆子們微調了模型。書呆子們討論了損失曲線。 你得到的每個標記幾乎都是以下內容的產物: - 數十億篇“博客文章”、reddit 論文、stack overflow 回答、rfc 文檔、維基百科編輯戰、個人罵戰……等等。 - 加上 OpenAI 研究人員的秘密調味料,他們在微調的同時聽著 lo-fi 音樂,並在燕麥奶拿鐵上爭論對齊問題。 對文化的顯著影響來自相對少數的人。