Meta MobileMoE：端侧大模型新突破，推理计算量减半，iPhone 16 Pro 输入阶段最高提速 3.8 倍

转载于 2026-06-01 17:34:30 发布 · 27 阅读

【导语：近年来，混合专家模型（MoE）多用于云端大模型，手机端大语言模型仍以稠密架构为主。Meta团队提出的MobileMoE，首次在商用智能手机上实现高效MoE推理，在精度与推理计算开销权衡上取得更优结果。】

MobileMoE：端侧大模型的新曙光

过去，受手机设备内存、算力和时延的严苛约束，子十亿活跃参数范围内的端侧MoE一直缺乏系统研究。如今，随着移动设备DRAM容量提升，MoE有机会部署到智能手机上。Meta团队提出的MobileMoE，首次在商用智能手机上实现了高效的MoE推理。

在14个基础测试中，MobileMoE - S/M在内存相近的情况下，仅用稠密基线1/2到1/4的推理计算量，就做到了持平甚至更高的平均准确率。实测中，MobileMoE - S在iPhone 16 Pro的GPU/MLX后端提速最明显，输入阶段最高可提速3.8倍。

独特设计与训练流程

MobileMoE是一类面向端侧部署设计的MoE语言模型，整体仍是decoder - only Transformer，但把原来的稠密前馈层换成了MoE层。路由器会为每个token选出得分最高的少数专家参与计算，同时还有一个共享专家始终参与计算。

其训练流程分为四步：预训练、中期训练、监督微调和量化感知训练。预训练使用约6T token的开放许可数据，中期训练将上下文长度扩展到8192并提高高质量数据占比，监督微调在超8000万个样本的开放许可指令微调数据上进行，量化感知训练将线性层和embedding量化到INT4，激活动态量化到INT8，router保留FP32精度。

消融实验与架构选择

研究团队比较了专家数量E、专家粒度g以及是否加入共享专家三个架构变量。在固定内存预算下，当内存高于约0.25GB时，MoE的损失开始低于对应的稠密模型，E增加到8后边际收益减弱；更细粒度的专家配置整体更优，g = 8在效果和训练开销间取得较好平衡；加入共享专家后模型损失进一步下降。

最终，研究团队采用E = 8、g = 8、带共享专家的配置，用于MobileMoE - S/M/L三个版本。

评测表现：优势与不足并存

在14项基础评测中，MobileMoE与多个模型对比，MobileMoE - M平均分高于Qwen3.5 2B，MobileMoE - L平均分高于OLMoE - 1B - 7B，且所需模型规模更小。在训练规模上，MobileMoE使用约6T预训练token，少于Llama 3.2 1B和SmolLM2 1.7B。

在指令微调后的高级评测中，MobileMoE在代码和数学任务上表现突出，但在指令跟随和知识推理能力上，Qwen3.5 2B更强。量化后，MobileMoE - S/M/L整体平均分有下降，但MobileMoE - L的INT4版本表现仍高于OLMoE - 1B - 7B Instruct的BF16版本。

部署到手机测试显示，MobileMoE - S相比MobileLLM - Pro，输入阶段提速1.8 - 3.8倍，逐token生成阶段提速2.2 - 3.4倍，内存占用也更低。