周末的一个下午,在 AI 的大力协助下,我花了一些时间阅读了过去一年发布的主要开源大语言模型(LLM)的技术报告:DeepSeek V3/V3.2、Qwen 3/3.5、Gemma 3、Llama 3.1、GLM-4.5/5、Kimi K2/K2.5、gpt-oss 以及 Ministral 3。

我的主要收获很简单:前沿模型正在向一种相当标准的骨干网络方案收敛,而大多数真正的差异化已经转移到了注意力机制、长上下文处理以及系统工程上。

有关各个模型的详细笔记,请参阅我的架构笔记

开源大语言模型架构对比(上)

开源大语言模型架构对比(下)

骨干网络正在收敛

在这些前沿模型中,骨干网络方案开始变得似曾相识。DeepSeek V3(总参数 671B/激活 37B)、Qwen 3(235B/22B)、GLM-5(744B/40B)、Kimi K2(1T/32B),甚至 OpenAI 的首个开源模型 gpt-oss(117B/5B),都拥有庞大的总参数量,但在每个 token 上只激活极小一部分。

坚持使用稠密模型的有 Llama 3.1(405B 稠密,始终全部激活)、Gemma 3(27B 稠密)和 Ministral 3(14B 稠密)。它们依然具有竞争力,但已经游离于主流的扩展模式之外。

更重要的是,MoE(混合专家)方案本身也在收敛:底部是几层稠密层,然后主要是专家层;Top-8 路由很常见;一些模型系列还会添加一个共享专家。这种模式在 DeepSeek、GLM 和 Kimi 中都有出现,且差异小得令人惊讶。

注意力之战:MLA 对决 GQA

这正是事情变得有趣的地方。这里出现了明显的分歧:

  • GQA 阵营:Qwen 3、Gemma 3、Llama 3.1、Ministral 3、GLM-4.5、gpt-oss
  • MLA 阵营:DeepSeek V3、GLM-5、Kimi K2

GQA 是安全且被充分理解的选择。MLA(多头潜在注意力)是 DeepSeek 的创新,它极大地压缩了 KV 缓存。它虽然更复杂,但在推理时节省的 KV 缓存是巨大的。GLM-5 从 GQA(GLM-4.5)转向 MLA 是一个强烈的信号——这意味着尝试过 MLA 的团队就不会再回头了。

然后是 Qwen 3.5,它完全不按套路出牌:门控 DeltaNet + 门控注意力(Gated DeltaNet + Gated Attention),这是一种线性注意力加传统注意力的混合架构。这是这批模型中在架构上最大胆的一个。512 个专家、1M+ token 上下文、多步 MTP。如果这种架构在扩大规模后表现良好,它可能会成为继 MoE 之后的下一个范式转变。

大家都想要更长的上下文

  • Qwen 3.5:原生 1M tokens
  • GLM-5:200K
  • Ministral 3:256K
  • 大多数其他模型:128K

128K 现在已经是标配了。相关技术大家都很熟悉:高基础频率的 RoPE、YaRN、ABF、DCA。更有趣的故事在于稀疏注意力(sparse attention)——DeepSeek 的 DSA(DeepSeek 稀疏注意力)在 V3.2 和 GLM-5 中都有出现,这表明它在长上下文处理上确实有效。与其关注所有内容,不如学习哪些部分才是重要的。

已经标准化的微小细节

在 Block 层面上,现在令人惊讶地几乎没有分歧:

  • 随处可见的 RMSNorm。这批模型中没有一个使用 LayerNorm。
  • SwiGLU 作为 FFN 激活函数。DeepSeek、Llama、Kimi、gpt-oss、Ministral 都在用。
  • RoPE 用于位置编码。再也没有人尝试使用可学习的位置编码了。
  • QK-Norm 是训练稳定性的新趋势——Qwen、Gemma 和 GLM 都采用了它,而 Kimi 则选择了 QK-Clip。
  • MTP(多 Token 预测)不断出现:DeepSeek、Qwen 3.5、GLM-4.5、GLM-5。它似乎确实有帮助,尽管各家的实现方式有所不同。

多模态现已成为默认配置

Qwen 3.5、Gemma 3、Ministral 3、Kimi K2.5——全部都是多模态模型。其实现方法也在收敛:保持语言骨干网络完整,外挂一个视觉编码器 + 投影层。 没有人为了多模态而从头重新设计 Transformer。Kimi K2.5 在这方面最具野心,配备了 MoonViT-3D 和智能体架构,但底层的语言骨干网络依然只是 K2。

让我感到惊讶的地方

gpt-oss 非常小。 总参数 117B,激活 5B——这是这批模型中迄今为止最小的 MoE。显然,OpenAI 想要发布的是一个高效的模型,而不是为了推动前沿。不过,MXFP4 量化的 MoE 权重倒是很有意思。

DeepSeek V3 的 FP8 训练 依然是最令人印象深刻的基础设施故事。在 FP8 混合精度下训练一个 671B 的 MoE 绝非易事,而且还没有其他团队报告过在这种规模下实现过。

Kimi K2 是最大的模型,总参数量达到 1T,却只有 1 层稠密层。这是极度的稀疏性。用于保持稳定性的 MuonClip 优化器和 QK-Clip,是解决这种级别稀疏性所带来问题的新颖方案。

我的看法

开源大语言模型领域发展迅速,但它并非一片混乱,而是在走向收敛。 激活约 8 个专家的 MoE、RMSNorm、SwiGLU、RoPE 以及 128K+ 上下文正在成为标准方案。前沿的差异化现在体现在注意力机制设计(MLA vs GQA vs 混合架构)、训练基础设施(FP8、MXFP4)以及后训练(强化学习、推理、智能体)上。

如果让我押注下一代最具影响力的架构决策,那将会是 MLA 与混合线性注意力 之间的问题。GQA 是一个很好的基线,但随着上下文变得越来越长,KV 缓存问题只会变得更糟。总得有所取舍。

中国的实验室(DeepSeek、Qwen、GLM、Kimi)正以惊人的速度发布模型,并且具备真正的技术深度。MLA、DSA、DeltaNet 混合架构以及无辅助损失路由(auxiliary-loss-free routing)绝非微小的变动。它们是实质性的架构决策,正在推动前沿不断向前发展。