我最近更多地了解了LLM是如何训练的,我开始注意到与 我自己的学习过程 的相似之处。
以下是我发现的一些最有趣的见解:
- 预训练 (Pretraining) 就像上学。 它是基础。我们应该不断地教育或”预训练”自己,无论年龄大小。
- 监督微调 (SFT) 就像工作。 在工作中,我们稍微调整自己以偏好某些输出(行为,交付物)而不是其他。
- 强化学习 (RL) 一直在发生。 我们不断地被”世界 RL“。像来自TikTok末日滚动的多巴胺冲击这样的奖励让我们上瘾,而存钱或锻炼缺乏即时奖励使它们更难维持。
那么,对我们自己的生活有哪些实际启示呢?
- 拥抱终身预训练。 不断接触新信息、想法和观点 —— 无论年龄大小。
- 输出,不仅仅是阅读/观看/倾听(编码)。 教学,写作,解释 —— 这就是知识如何巩固的。
- 有意识地微调。 寻找能够为我们渴望成为的人提供正确监督的环境和导师。
- 意识到我们的奖励模型。 如果我们不设定它,世界就会为我们设定。而世界的激励(点赞,点击,快速多巴胺)很少与我们最深层的目标一致。
- 持续和按需学习。 从”先学后做”转变为”边做边学”。将每项任务视为更新我们模型权重的机会。
- 说 之前 想,行 之前 计划,并 做好笔记 以便检索。
一些新想法
前段时间,我做了一个思想实验:
如果人类是LLM……
- 发明语言 → Tokenization (分词)
- 做笔记 → RAG & context retrieval (上下文检索)
- 上学 → Knowledge distillation (知识蒸馏)
- 同理心 → Reading hidden states / latent embeddings (读取隐藏状态/潜在嵌入)
- 分科 → Mixture of Experts (MoE, 混合专家)
- 创造新学科 → New tasks, loss functions, and evaluation metrics (新任务,损失函数和评估指标)
还有更多不同角度的类比 —— 一个有趣的探索镜头!
最近,我一直在进一步扩展这个类比:
- 预训练 就像 上学。
- 工作 就像 SFT。
- 日常生活 是不断的 RL。
- 幻觉 就像 撒谎或做梦。
- MoE 更像是 大脑区域 而不是 学校科目。
- 模型循环输出相同的内容就像一个人嗨了并无休止地重复自己。
这个镜头并不完美,但它让我们反思:如果我们像LLM,我们如何更好地训练自己?
预训练:终身学校教育的基础
大部分学校生活是关于学习和参加 考试 —— 或多或少就像预测或选择下一个token。
起初,感觉像是 死记硬背。但随着时间的推移,模式出现,知识结晶,使我们能够掌握一门学科并超越它。
以推理工作闻名的AI研究员Denny Zhou曾争辩说,推理能力在预训练期间就已经出现(链接)。如果它不在预训练的基础中,以后很难获得。人类也是如此:没有广泛的基础,很难在以后的生活中获得深刻的推理技能。
这就是为什么预训练如此重要。在社会中,我们甚至看到对某些学校的偏见 —— 类似于选择某些基础模型来构建。
同样重要的是要指出,在许多地方,学校系统变得 考试饱和 —— 教育几乎完全为考试成绩优化。这类似于在 基准测试 上过度拟合模型:测试集上的准确性上升,但泛化能力受损。真正的理解需要更广泛的经验分布,而不仅仅是钻研一个指标。
监督微调 (SFT):在工作场所适应
如果预训练是我们的基础,那么微调就是社会后来如何塑造我们。工作环境非常像 SFT。
即使我们的基础模型(教育背景)不同,被职业期望塑造的过程也会极大地改变我们。工作场所奖励某些反应而不是其他反应 —— 就像监督微调一样。随着时间的推移,我们学会了产生被期望、被重视和被奖励的输出。
这也表明我们应该 有意识地微调:选择能够推动我们朝着我们实际想要成长的方向发展的环境、导师和项目。这意味着积极寻求能够拓展我们的项目,寻找提供我们需要’监督’的导师,甚至有意识地采用我们钦佩的人的沟通方式。
强化学习 (RL):驾驭世界的反馈
每天,我们都在不断地被强化学习所塑造。世界为我们的行为提供奖励和惩罚,通常以即时反馈循环的形式。正如查理·芒格所说,”永远,永远不要想别的事情,当你应该思考激励的力量时。”
RL最关键的组成部分是奖励函数。现代生活充满了多巴胺驱动的奖励循环,可能会让我们误入歧途。我们从观看TikTok中获得即时奖励(多巴胺冲击),所以我们继续末日滚动。相反,像存钱或锻炼这样的长期目标提供延迟的奖励,使它们更难坚持。
- 巴甫洛夫著名地通过奖励训练狗。
- 查理·芒格(巴菲特的长期合作伙伴)直言不讳地说:
“给我看激励,我就给你看结果。”
- 或者用他的话说:“永远,永远不要想别的事情,当你应该思考激励的力量时。”
奖励很重要。
如果我们的个人”奖励模型”错位,我们就会为了短期满足而牺牲长期繁荣。这是人类风格的奖励黑客攻击。
那么我们如何修复它?
- 游戏化学习。 我一直在尝试”加法学习”:完成任务给自己积分和徽章,然后用这些积分换取奖励(比如玩手机时间)。这很简单,但很有效。
- 身份作为强化。 如果我们将自己视为”终身学习者”,那么学习感觉就不那么费力,而更像是与我们的身份保持一致。
- 按需学习。 RL之父之一Richard Sutton在他最近的 “Oak” 演讲 中提出,我们应该直接为正在使用的东西进行训练,而不是分离预训练、SFT和RL。这更适用于人类:当奖励直接与现实世界的使用挂钩时,我们学得最好 —— 这就是 “vibe coding” 传播者 Andrej Karpathy 所说的 “按需学习”。

当然,我们不仅仅是LLM。我们有意识、情感和AI没有的丰富内心世界。这个类比是一张地图,而不是领土。但像任何好地图一样,它可以帮助我们驾驭个人成长的复杂景观。
对我们自己有什么启示?
总结一下:
- 拥抱终身预训练 世界太复杂,不能仅仅依靠我们最初的学校教育。我们必须不断进行广泛的学习来更新我们的基础模型。广泛阅读,探索新领域,保持好奇心。这建立了适应任何未来”微调”任务所需的强大基础。
- 输出,不仅仅是阅读/观看/倾听(编码)。 编码器本身是不够的。我们可以消耗无尽的信息(预训练),但真正的理解来自于生成输出。这是费曼技巧的核心:要真正学习某事,尝试教给别人。写作、演讲和创造是我们提炼知识和暴露思维差距的方式。
- 有意识地微调。 不要只是让工作或文化被动地塑造我们。选择能够强化你想成为什么样子的环境。向最伟大的人学习。
- 意识到我们的奖励模型。 不要让世界的默认奖励函数支配我们的行为。有意识地定义我们的长期目标,并为导致这些目标的行动创造即时、有形的奖励。将我们的习惯与我们的身份保持一致,使积极的行为感觉自然和轻松。
- 持续和按需学习。 将我们的思维方式从”先学后做”模式转变为”边做边学”模式。将每项任务视为更新技能的机会。当我们遇到问题时,就在那时深入研究必要的知识。这使学习变得相关且立即可用,有效地实时更新我们的心理模型。
- 说之前想。 在刺激和反应之间增加一个故意的停顿。深吸一口气,默默列出我们的观点(目标 → 关键主张 → 1-2个支持 → 结束),然后说话。这个微小的缓冲区减少了下意识的回答,提高了信噪比,并使我们的”输出”更清晰 —— 非常符合 Google联合创始人 Sergey Brin 和 DeepMind联合创始人 Demis Hassabis 的 谈话 精神。
- 行之前计划。 在行动之前,做一个快速的计划-执行循环:定义目标,将其分解为步骤,注意依赖关系,设定停止标准(”什么证明这一步完成了?”),然后运行步骤并反思。如果我们遇到歧义,重新计划。这反映了代理模式(ReAct等):计划 → 行动 → 观察 → 反思 → 重新计划。这让我们在保持意图的同时不断交付。
- 笔记作为个人RAG。 将笔记视为我们可以从中”检索”的外部记忆:捕获原子片段(每个笔记一个想法),标记好,链接相关想法,并在我们学到东西后写简短的总结。在解决问题时,首先 检索 相关笔记,然后 生成 我们的答案。这大大减少了重新学习的时间,并提高了我们”输出”的质量。
- 善良在某种程度上独立于智力。 我们可以训练我们的头脑变得更敏锐,但培养温暖、同理心和慷慨通常遵循不同的路径。两者都很重要,它们共同构成了真正的智慧。见 Hinton在上海的演讲。
这些想法对我来说不仅仅是理论上的。它们激励我构建工具来帮助付诸实践,从我正在开发的一个名为 “Human Pretraining” 的应用程序开始,我很兴奋很快能分享。