主要目的是列出我收集的所有关于机器学习 (ML)、人工智能 (AI) 和大型语言模型 (LLM) 的资源。
ML 基础
对于ML入门,我推荐以下资源:
课程:
视频:
- 3Blue1Brown’s intro to neural network
- 这个youtube频道也有很多关于数学(线性代数,微积分等),物理和许多科学主题的好视频。
- Andrew Karpathy’s Neural Networks: Zero to Hero
还有更多优秀的入门材料。
LLM
两个最好的LLM课程是:
- Stanford CS224n (winter 2025)
- 一个非常好的课程,提供了许多LLM的直觉,附带 Youtube视频
- Stanford CS336 (spring 2025)
- 最硬核的LLM课程,附带 Youtube视频
视频:
- 中文:沐神读论文 GPT 1-3
- 著名的研究员和博主,他有很多关于 Transformer, GPT1-4, InstructGPT, CLIP, GAN, Whisper 等的好视频。
- Google DeepMind: How to Scale Your Model
训练基础设施
- 并行计算101:LLM并行性入门
- 我自己写的关于LLM训练中并行性的很好的介绍。
- The Ultra-Scale Playbook:
Training LLMs on GPU Clusters
- Hugging Face关于在GPU集群上训练LLM的手册。非常全面和详细。
强化学习
- RL book from Sutton and Barto (2020)
- Youtube videos from EZ.Encoder
- 关于 Deepseek, RL 等的优秀视频。
可解释性
- A Mathematical Framework for Transformer Circuits (Dec 2021)
- Anthropic的论文,以一种新的但数学上等效的方式概念化transformer的操作,并理解这些小模型,从而对它们如何在内部运作获得重要的理解。
- In-Context Learning and Induction Heads (Mar 2022)
- Anthropic的论文,认为归纳头(induction heads)可能是任何规模的transformer模型中通用上下文学习的机制来源。
- Towards Monosemanticity: Decomposing Language Models with Dictionary Learning (Oct 2023)
- Anthropic的论文,使用稀疏自编码器从单层transformer中提取大量可解释的特征。
- Sparse Autoencoders Find Highly Interpretable Model Directions (Oct 2023)
- 使用稀疏自编码器在模型的激活中寻找有意义的方向。
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (May 2024)
- 将这些想法应用并扩展到更大、更能力的模型,如Claude 3 Sonnet。
- Scaling and evaluating sparse autoencoders (Jun 2024)
- 探索稀疏自编码器在大规模下的实际方面和有效性。
- Transcoders find interpretable LLM feature circuits (Jun 2024)
- 专注于在LLM中寻找可解释的特征电路。
- On the Biology of a Large Language Model (Mar 2025)
- Anthropic关于LLM可解释性的最新论文。
就像你可以在TikTok上无限滚动一样,你可以在论文上无限滚动。
Agent
- UCB CS294/194-196 Large Language Model Agents
- UC Berkeley的一门好课,附带 Youtube视频,邀请了许多前沿研究人员讲课。
- 主题列表
- 推理时技术与推理 (CoT, ReAct, RAG, Planning, etc.)
- 编码代理
- 多模态自主AI代理
- AlphaProof, 科学发现
- 强化学习
- 安全与漏洞
- 等等
- 我计划为这门课写一个总结。
###
All About Transformer Inference
最近的LLM论文(我读过并喜欢的)
需要提到的是,许多课程和资源已经包含了许多好论文。
- 投机解码 (Speculative deconding) 论文
视觉
入门:
- 图像生成101:入门指南 我自己写的关于图像生成的很好的介绍。
课程:
- Stanfodd CS231n
- 似乎只有 2017年的视频
论文
-
简介中列出了许多重要论文。
-
Large Language Models are Zero-Shot Reasoners (May 2022)
- 著名的 “Let’s think step by step” 论文。
新闻 & 博客
- Lil’Log
- Lilian Weng的博客,OpenAI前研究副总裁。
- 中文:我通常听 大飞
- 中文:一个不错的是 aidaily.win
- The bitter lessons (苦涩的教训) Mar. 2019, Richard Sutton.
- 从70年的AI研究中可以读出的最大教训是,利用计算的通用方法最终是最有效的,而且优势巨大。
- The Second Half, Apr. 2025, Shunyu Yao.
-
Welcome to the Era of Experience, Apr. 2025, David Silver & Richard Sutton, DeepMind.
- 意识,强烈推荐听Jeffrey Hinton在2024年的演讲。
- CBMM10 Panel: Research on Intelligence in the Age of AI Jeffrey Hinton, Demis Hassabis, Illya Sutskever的小组讨论。
术语
- Attention
- Chain of Thought
-
Flash Attention
- ReAct
- Transformer
旧的
- SIFT features: Scale-Invariant Feature Transform, 旧的视觉方法,已过时。
人物
必须知道
- Jeffrey Hinton,
- Demis Hassabis,
-
Ilya Sutskever,
- Yoshua Bengio,
- Yann LeCun, Meta
-
Richard Sutton
- Sam Altman,
- Dario Amodei,
- Andrew Ng,
- Fei-Fei Li,
大佬
- David Silver,
-
Ian Goodfellow,
- Andrew Karpathy
- Jared Kaplan, Anthropic codouner and CSO.
- Noam Shazeer
- Kaiming He
- Jeff Dean
- Aidan Gomez
- Mustafa Suleyman
- Ashish Vaswani