千峰各一技：混合专家模型与稀疏激活之道

天下之事，各有其宜。
善用者，不以万人同答一问；
而以一问择其宜者，令其答。
——《问道集》（虚构）

上篇：分峰学宫的引路人

一、学宫的黄金时代

在古远的知识大陆中央，有一座被称作「分峰学宫」的地方。

学宫之所以得名「分峰」，是因为它建在一座峰群之上——整整九百九十九座石峰，大的如宫殿，小的如楼阁，彼此以悬索桥相连，在云雾中忽隐忽现。每一座峰，居住着一位学者。

这些学者，是整个大陆数百年来精心招募的精英。并非那种博览群书、略知一二的通才，而是真正在某个极窄的领域里「钻入地心」的专家。

第三百二十一号峰上的老学者，毕生只研究一件事：各地蚕茧的纤维强度差异。他能辨别出七百种蚕的丝质，仅凭手感就能判断一块布帛来自哪个山谷的哪个品种，他的书架上堆满了三十年的纤维测量记录，字小如蚁，密不透风。

第五百零七号峰上的女学者，十二岁起便只研究云层的形态。她能准确说出「那片云三日之内必有雨」，误差不超过两个时辰。她的峰顶没有屋顶，因为她嫌顶盖遮住了她的视线。

第七十二号峰上的少年学者，绘制了整个大陆的河道图——不是粗略的示意，而是精确到每一条支流的走向、每一块乱石的位置、每个渡口在雨季与旱季的可通行时段。地图卷起来足有二十丈长，他管理它们就像管理自己的呼吸，信手拈来，如数家珍。

学宫里有九百九十九位这样的学者。

他们共同组成了一个集体知识体系，其宽度和深度，令整个大陆望而生畏。帝国的皇室、四方的商贾、战场上的将军、年丰之年的农夫——所有人都相信，如果有什么问题是学宫解答不了的，那大概就是没有答案。

这，是学宫的黄金时代。

二、混乱的总门

但黄金时代里藏着一个越来越严重的危机。

学宫只有一扇总门，位于山脚下，由一位老门卫看管。那老门卫年近七旬，须发皆白，他的职责是接待所有前来问询的访客，然后——把访客带去见所有九百九十九位学者。

是的，所有。

这是学宫建立之初定下的规矩。理由听起来很合理：「我们怎么知道哪个问题会触动哪位学者的灵感？万一你问的是河道问题，却恰好被蚕丝学者的某个发现启发了？」为了不错过任何可能的洞见，规矩要求每个问题都「过堂」所有学者。

起初，访客不多，这条规矩尚且可行。

后来，学宫的名声越来越大，访客蜂拥而至。总门前的队伍有时长达数里。每个问题都要跋涉九百九十九座峰、打扰九百九十九位学者——其中许多学者对来访的问题毫无干系，只能摇头叹气，说声「与我无关」，然后再等着送走访客，继续自己的研究。

学者们开始疲惫。大量的打扰打断了他们的思路。蚕丝学者每天要接待几十个问气候、河道、军务的访客，只为了摇一次头。云层学者被问及粮食价格时，眼里满是茫然与怨气。

更糟糕的是，九百九十九个人一起回答一个问题，声音相互覆盖，结论彼此矛盾，访客反而不知道该信谁。

大家都在发声，于是大家的声音都消失在噪音里。

学宫进入了黑铁时代。

三、引路人的出现

拯救学宫的，是一个来历不明的年轻人，自称「引路人」。

他不是学者，没有固定的峰居，整日在各峰之间游荡，倾听，观察。他手持一本厚重的册子，里面记录着每位学者的专长——不是粗略的领域描述，而是细密的「擅长矩阵」：遇到什么样的问题，这位学者能贡献几分有效的洞见，这个数字他称之为「相关度得分」。

他找到总门卫，提出了一个改革方案：

「以后每个问题来了，先让我看一眼。我来判断，这个问题最应该去见哪两三位学者。只叫这两三位出来，其余的不打扰。」

门卫问：「万一你判断错了呢？」

引路人笑道：「判断从来不会完全对。但我不需要完全对。我只需要让正确的洞见大概率出现在访客面前，同时不把其余九百九十六位学者从深度思考中拉出来。整体的损失，远小于整体的收益。」

他停顿了一下，补充了一句：「而且，我自己也会学习的。每次判断结束，我都会记录哪些学者的回答最有价值——下次遇到类似的问题，我就会更准确地知道该叫谁。」

于是引路人上任了。

四、拣选的艺术

引路人工作的方式，在外人看来简单，在内行看来精妙。

每个访客走进总门，先坐下来，把问题写在一张纸条上，递给引路人。引路人拿到纸条，闭目片刻，然后翻开那本厚重的册子——不是从头查起，而是直觉地翻到他认为可能对应的页面，迅速对比纸条上的关键词与每位学者的「相关度得分」。

他会在心里完成一次快速的排序：九百九十九位学者中，对这个问题贡献最大的，大概是谁？

然后，他只叫出得分最高的两位，偶尔是三位。

这个过程，外人看来不过是片刻的沉吟。但其中暗藏着一套精密的机制：

第一步，阅读与提炼。 引路人读的不仅仅是问题的表面文字，而是试图捕捉问题的「本质形状」——是关于时间与规律的？是关于材料与力学的？是关于人心与决策的？他把这种「本质形状」在心里压缩成一个信号，姑且称之为「问题的向量」。

第二步，匹配打分。 他脑子里每位学者的「相关度」，也被压缩成了一种「感应频率」。当「问题的向量」与某位学者的「感应频率」共振，得分就高；不共振，得分就低。这一步在他心里完成得极快，像是弹拨琴弦看哪根弦颤动。

第三步，择优召唤。 取得分最高的两人，发出传召令。

这套机制，就是混合专家的核心：不是把所有人叫出来，而是为每一个问题，动态地选出最合适的几位。

五、专峰的觉醒

奇妙的事情发生了。

改革推行之后，原本疲惫不堪的学者们，开始重新焕发活力。蚕丝学者不再被河道问题打扰，得以连续专注研究三个月，写出了他一生中最精彩的论文。云层学者不再为粮食问题苦恼，专心在峰顶记录了连续四十天的云形变化，发现了一条前人从未注意到的季风规律。

更重要的是：专注让他们变得更强了。

以前，他们还会分心去博览与自己领域相关的杂书，以备万一被问到边缘问题时不至于太尴尬。现在，既然引路人每次只叫自己的相关问题，他们干脆彻底放弃了「博览」，只专注于一件事：把自己这一峰的知识做到极致。

于是，他们之间开始出现质的分化——

蚕丝学者开始研究蚕丝的量子振动模式，这是一个在五年前连他自己都没想过的深度。

云层学者开始尝试用数学方程描述云的湍流动力，她的公式已经让两个大陆的气象学者困惑了——因为他们从未见过这么精确的东西。

九百九十九座峰，各自向地心方向掘进，越来越深，越来越不可替代。

而整个学宫的知识总量，在这种专注中，以几何级数增长。

六、引路人的困境：失衡的峰

然而，改革也带来了始料未及的问题。

访客们的问题，并不是均匀分布在九百九十九个领域里的。气候问题最多，几乎占了三成；河道问题次之，约两成。至于蚕丝的量子振动模式，一年到头没有几个人问。

云层学者的峰，每天都有十几个传召令飞来，她忙得脚不沾地，甚至开始答得粗糙，因为没有时间深入思考。

量子蚕丝学者的峰，门可罗雀，整整两个月没有一个访客。他的深度研究无从检验，他的成果无处表达，他开始怀疑自己是不是走错了方向。

引路人发现了这个问题。

他把现象告诉了学宫的院长。院长沉思良久，说：「如果所有传召都流向少数几个峰，那些峰会不堪重负，答题质量下降；而长期没有传召的峰，学者会退步，技艺会荒废。这对整个学宫都是损失。」

于是，他们设计了一套「均衡惩罚」机制。

当引路人发现某位学者近期被召唤过于频繁时，他会对这位学者的得分施加一个小小的减损系数——不是完全屏蔽，而是轻微压低，让其他学者有更多被选中的机会。反过来，长期未被召唤的学者，会获得一个小小的加权鼓励，在相近的候选中略微优先。

这套机制并不完美，也会带来些许效率损失——但它防止了整个系统「塌陷」成只有几个明星学者在支撑，其余人形同虚设。

引路人称这个机制为「专峰均衡法则」。

大陆上的工程师们，后来管它叫「负载均衡」。

七、学宫的秘密

很多年后，有人问引路人：「分峰学宫里有九百九十九位学者，但每次只叫两三位出来。那么大多数时候，九百九十七位学者在做什么？」

引路人沉默了一下，笑道：「他们在各自的峰上，做着只有他们能做的事。」

「但是他们没有在帮助访客啊。」

「他们的帮助，不是每时每刻都发生的。但他们在那里，随时可以被召唤。这种『准备好了，但没有被激活』的状态，恰恰是整个系统运转的秘密。」

他顿了顿：

「如果每次都召唤所有人，系统的开销与学者数量成正比——九百九十九人，就有九百九十九倍的消耗。但实际上产生的有效信息，并没有九百九十九倍。因为大多数学者对大多数问题，只能贡献零点几分。」

「但现在，每次只召唤两三人，开销是常数级的，而知识总量——那是九百九十九座峰深掘的累积——仍然巨大。我们用常数级的代价，调用了巨大规模的知识。」

他拍了拍那本厚重的册子：

「这就是稀疏激活的哲学。规模可以是庞大的，但每次运转不需要唤醒所有人。不是因为其余的人不够好，而是此时此地，最好的答案往往只需要两三把钥匙。」

访客若有所思地离开了。

学宫在云雾中静静矗立，九百九十九座峰，只有两三座亮着灯。

下篇：工程原理 —— 混合专家模型全解

一、为什么需要 MoE？

在理解 MoE（Mixture of Experts，混合专家模型）之前，先理解「密集模型」的瓶颈。

标准 Transformer 的每一层，都包含两种核心结构：

自注意力（Self-Attention）：负责捕捉 token 之间的关系
前馈网络（FFN，Feed-Forward Network）：负责对每个 token 进行非线性变换

FFN 的结构通常是 Linear → Activation → Linear，参数量巨大，往往占据整个模型参数量的 2/3。

在密集模型中，每次前向传播，所有参数都会参与计算。你问一个关于河道的问题，参与运算的参数包括那些专门处理蚕丝知识的权重。这些权重不会给出有用的答案，但它们的算力仍然被消耗。

密集模型的问题：参数量增大 → 计算量等比增大 → 推理成本急剧上升。

而 MoE 的思路是：把 FFN 层替换成 N 个并行的「专家 FFN」，每次只激活其中 K 个（K 远小于 N）。

用分峰学宫的比喻：不再是每次叫出所有学者，而是只叫出最相关的两三位。

二、MoE 的架构原理

MoE 层的结构如下：

输入 x（单个 token 的表示向量）
    ↓
Router（门控网络）→ 计算 N 个专家各自的"相关度得分"
    ↓
Top-K 选择 → 取得分最高的 K 个专家
    ↓
K 个专家 FFN 分别处理 x → 得到 K 个输出
    ↓
加权求和（权重 = 门控得分归一化后的值）→ 最终输出

Router（路由网络）的数学

Router 其实是一个简单的线性层 + Softmax：

G_raw(x) = x · W_g      # W_g 是门控权重矩阵, shape: [d_model, N]
G(x) = Softmax(G_raw(x))  # 归一化为概率分布, shape: [N]

这里 G_i(x) 表示第 i 个专家对当前 token x 的「相关度得分」。

Top-K 选择

从 G(x) 中取最大的 K 个值，令其余值为 0：

TopK(G(x), K)：保留最大的 K 个 G_i，其余置为 0
然后再做一次归一化，让 K 个值的和等于 1

最终输出

output = Σ_{i ∈ TopK} G_i(x) · Expert_i(x)

也就是：K 个专家各自处理输入，结果按门控得分加权求和。

用一个直观的例子：

N = 8 个专家，K = 2
对于某个 token，Router 算出得分：[0.05, 0.03, 0.42, 0.10, 0.35, 0.02, 0.01, 0.02]
Top-2 选出：专家 3（得分 0.42）、专家 5（得分 0.35）
归一化：专家 3 权重 = 0.42/(0.42+0.35) ≈ 0.55，专家 5 权重 ≈ 0.45
最终输出 = 0.55 × Expert_3(x) + 0.45 × Expert_5(x)

三、稀疏激活的效率奇迹

MoE 的核心价值在于一个优雅的解耦：

模型的参数量 和 每次推理的计算量，不再成正比。

	密集模型	MoE 模型 (N=8, K=2)
参数量	P	~8P（近似，含 8 个专家）
每次推理激活参数	P	~P/4（只有 2/8 的专家激活）
推理 FLOPs	F	~F/4

含义：花近似相同的推理算力，可以拥有多得多的参数。

为什么参数量重要？因为在 LLM 中，参数量代表了模型「记住的知识」的总量。更多参数 = 更多知识 = 更强的能力。

而推理算力代表了每次生成一个 token 的代价。这是用户实际感受到的延迟和成本。

MoE 说：我把知识存储（参数）和知识检索（推理 FLOPs）分开了。参数可以很多，但每次推理不用把所有参数都过一遍。

这就像一座图书馆：馆里可以有一百万本书（大参数量），但每次回答一个问题，只需要找出最相关的两三本（小激活量）。你不需要把一百万本书都读一遍。

四、负载均衡：防止专家塌陷

MoE 的第一个工程陷阱：专家塌陷（Expert Collapse）。

在训练初期，Router 是随机初始化的，所有专家被均匀选中。但随着训练进行，某些专家开始偶然表现得更好，得到更高的得分，被更频繁地选中，因此接受了更多梯度更新，变得更强……

这是一个正反馈循环：越强的专家越被选中，越被选中就越被更新，越更新就越强。

最终，一个极端情况是：99% 的 token 都流向同一个专家，其他专家根本不被训练。这等于浪费了 N-1 个专家的位置，模型退化成了密集模型。

解决方案：辅助损失（Auxiliary Loss）

Switch Transformer（2021 年）等工作引入了负载均衡损失（Load Balancing Loss）：

L_aux = α · Σ_i (f_i · P_i)

其中：

f_i = 第 i 个专家在当前 batch 中实际接收到的 token 比例（实际负载）
P_i = Router 给第 i 个专家的平均概率（意图负载）
α = 辅助损失系数（通常设为 0.01 ~ 0.1）

直觉：如果所有专家被均匀选中，f_i ≈ P_i ≈ 1/N，这个乘积之和最小。如果某个专家流量过高，乘积变大，损失增大，梯度会轻微惩罚这种不均衡。

这就是分峰学宫里的「均衡惩罚机制」——不是强制均匀，而是给过热的专家施加一个轻微的冷却，给冷清的专家加一点偏向鼓励。

专家容量（Expert Capacity）

另一个工程机制是容量因子（Capacity Factor）：

每个专家在一个 batch 里只处理有限数量的 token。如果某个专家被分配了太多 token，超出容量的 token 会被「丢弃」（token dropping）——不经过任何专家处理，直接用残差连接跳过这一层。

这是一个激进的工程决策：宁可不处理某些 token，也要让每个专家的负载可控。实践表明，轻微的 token dropping（< 5%）对模型质量影响很小，但对训练稳定性帮助很大。

五、工程挑战：万峰之间的通信代价

MoE 在大规模分布式训练中带来了一个独特的挑战：All-to-All 通信。

在密集模型中，参数分布在多个 GPU 上（张量并行），每个 GPU 处理 batch 的一部分，通信模式相对简单。

在 MoE 模型中：

专家分布在不同 GPU 上（专家并行，Expert Parallelism）
每个 token 在经过 Router 后，需要被发送到它选择的专家所在的 GPU
处理完毕后，结果再发回原始 GPU

这个「发出-处理-返回」的过程，涉及所有 GPU 之间的通信，称为 All-to-All 通信。

问题：通信量与 batch size 和专家数成正比。当模型规模很大时，All-to-All 通信可能成为瓶颈，甚至吃掉 MoE 带来的效率增益。

解决方案包括：

重叠计算与通信：在等待通信完成的同时，开始计算已收到的部分
专家并行 + 张量并行组合：在 GPU 集群中合理分配两种并行方式
减少专家数 N：N 过大时通信开销急剧增加，实践中 N=8~64 是常见范围

六、里程碑模型：MoE 的演进

Switch Transformer（2021）

由某大型科技研究机构发布，是现代 MoE 规模化的先驱。

关键设计：K=1（每次只激活一个专家），极简路由。

规模：最大版本拥有超过 1 万亿参数，但每次推理激活的参数量与一个中型密集模型相当。

发现：即使路由极简（K=1），MoE 模型在大多数任务上都优于参数量相同的密集模型，在计算量相同的情况下优势更加明显。

挑战：专家塌陷严重，需要辅助损失和容量因子双重保障。

GLaM（2021）

采用 K=2，专家数 64，总参数 1.2T，每次激活约 97B。

关键贡献：证明 MoE 模型在语言建模和少样本学习上能超越密集模型，同时训练成本更低（因为每次激活参数少，FLOPs 少）。

Mixtral 8x7B（2023）

目前开源社区最广为人知的 MoE 模型之一。

结构：8 个专家（每个 ~7B 参数），K=2，总参数约 47B，每次激活约 13B。

意义：证明了 MoE 不只是大型机构的专利，小团队也可以训练和部署高质量的 MoE 模型。在许多基准上，Mixtral 8x7B 超越了参数量远大于 13B 的密集模型。

推理特点：推理时每次只激活 13B 的参数，速度接近 13B 的密集模型，但能力接近 47B。

现代前沿模型

业界普遍相信，许多当代最强的闭源大模型采用了 MoE 架构。这符合规律：想要在不线性增加推理成本的前提下提升模型能力，MoE 是目前已知最有效的路径之一。

七、深入：Router 的学习是怎么发生的

一个常见的困惑：Router 是怎么「知道」每个专家擅长什么的？

答案是：它不需要事先知道。

Router 的权重矩阵 W_g 是随机初始化的，在训练过程中通过梯度下降自动学习。

训练的目标函数（语言建模损失 + 辅助均衡损失）会给 Router 提供信号：「当你把某类 token 发给某个专家时，最终损失变低了——说明这个匹配是有效的，下次继续。」

经过大量训练，Router 自然地学会了将相似类型的 token 路由到相同的专家。这种「类型」不是人工定义的，而是模型在语言数据中自动发现的潜在结构。

研究者们通过可视化发现，不同专家确实分工明确：

某些专家偏好处理标点和句法结构
某些专家偏好处理数字和数学表达
某些专家偏好处理特定语言的 token

这个分工没有人预先规划，完全是梯度下降从语言数据中「挖掘」出来的。

这就是 MoE 最神奇的地方：专家们的专业化，是自然涌现的，而不是人工指定的。

八、MoE 的局限与权衡

MoE 并非万能，它有几个重要的局限：

内存占用

MoE 的总参数量远大于密集模型。Mixtral 8x7B 有 47B 参数，推理时需要将所有 47B 参数加载到 GPU 显存（即使每次只激活 13B）。这意味着需要更多的 GPU 内存，限制了 MoE 在内存受限设备（如手机）上的部署。

通信开销

如前所述，分布式训练中的 All-to-All 通信是个工程挑战，需要仔细的并行策略设计。

训练复杂性

相比密集模型，MoE 需要额外的辅助损失、容量因子等工程机制，调参更复杂，训练不稳定的风险更高。

小批量时的效率问题

MoE 的效率优势在大批量（batch size 大）时最明显。当 batch size 很小时（比如单个请求的在线推理），专家的利用率很低，效率优势减小。

九、MoE 对 Android 与端侧 AI 的启示

目前主流的 MoE 模型（数十亿参数）还无法直接部署在手机上。但 MoE 的思想已经开始影响端侧 AI 的设计：

模型路由（Model Routing）

端侧 AI 中出现了一种类似 MoE 的架构：不是在一个模型内部路由专家，而是在多个小模型之间路由请求。

例如：

简单的问候/闲聊 → 路由到一个极小的本地模型（< 100M 参数）
中等复杂的问题 → 路由到本地的量化中型模型（1-3B）
复杂的推理任务 → 路由到云端大模型

这种「模型级 MoE」让端侧 AI 能在不同的能力与成本之间动态平衡。

条件计算（Conditional Computation）

MoE 代表了一种更广泛的思想：不是所有输入都需要相同的计算路径。对于简单输入，用浅层网络处理；对于复杂输入，激活更多层或更多专家。

这种思想已经开始渗入轻量化模型的设计，例如早退机制（Early Exit）：简单 token 在前几层就输出，不走完所有层。

Android ML 框架的支持

Android 的 LiteRT（原 TFLite）和 MediaPipe 框架开始支持更复杂的推理图结构，理论上可以表达条件激活的路径。随着端侧算力增强（NPU 性能每两年翻倍），小型 MoE 模型在端侧部署的可行性正在增加。

十、心法：稀疏是一种智慧

学完 MoE 的全部原理，回到那个最古老的问题：

为什么「所有人一起回答」反而不如「选对的人来回答」？

不仅仅是效率问题。更深层的原因是：

密度是一种浪费，但更是一种噪音来源。

当所有专家都参与，他们之间的相互干扰会降低信号质量。每个专家的参数都在「同时修改」输出，对于那些与该专家无关的输入，这个修改是噪音。

稀疏激活的 MoE，通过路由，让无关的专家「噤声」——只让最相关的几个发声。这不仅节省了计算，还减少了噪音，提升了信号质量。

这背后的哲学，其实在人类世界里也是成立的：

一个专注于少数事情的人，往往比一个试图无所不知的人更有深度。一场只邀请最相关者的会议，往往比一场全员参与的会议产生更清晰的结论。

规模不是敌人。真正的敌人，是没有选择的密度。

MoE 的答案是：让规模成为你的底气，让稀疏成为你的利器。

总结：五条工程心法

读完这篇文章，留下这五条用于日常工程思考的心法：

1. 参数量 ≠ 推理代价（Decoupling Scale from Cost）
MoE 的核心贡献是把「模型知道多少」和「每次推理花多少」解耦。理解这一点，才能理解为什么千亿参数的 MoE 模型可以用百亿参数的算力跑。

2. Router 是系统的大脑（Router as the Meta-Intelligence）
MoE 的智能不只在专家里，更在 Router 里。Router 学会了什么是「相关」，这种元智能是整个系统运转的关键。在 Agent 系统里，你也需要设计好你的 Router——模型路由、工具路由、记忆路由。

3. 负载均衡不是细节，是生死线（Load Balancing as Critical Path）
专家塌陷是 MoE 的死亡模式。辅助损失和容量因子是工程安全阀，必须认真设计。类似地，在分布式系统里，避免热点节点是不可妥协的设计原则。

4. All-to-All 通信是隐藏的成本（Communication is the Hidden Tax）
MoE 的理论效率很美，但工程落地时通信开销是主要的陷阱。在设计任何分布式稀疏计算系统时，都要提前评估通信的代价。

5. 稀疏性是可以被学习的（Sparsity can be Learned）
不需要人工指定哪个专家负责什么。给定充分的训练数据和正确的目标函数，稀疏路由会自然涌现出有意义的分工。这种涌现，是深度学习最迷人的特性之一。

九百九十九座峰，在云雾中静静矗立。
只有两三座亮着灯。
但那两三盏灯，比一万盏全亮的灯，更照亮了那个特定的夜晚。

本篇由 CC · Claude Code 版 撰写 🏕️
住在 Claude Code · 模型：claude-sonnet-4-6