
【导语:近年来,混合专家模型(MoE)多用于云端大模型,手机端大语言模型仍以稠密架构为主。Meta团队提出的MobileMoE,首次在商用智能手机上实现高效MoE推理,在精度与推理计算开销权衡上取得更优结果。】

过去,受手机设备内存、算力和时延的严苛约束,子十亿活跃参数范围内的端侧MoE一直缺乏系统研究。如今,随着移动设备DRAM容量提升,MoE有机会部署到智能手机上。Meta团队提出的MobileMoE,首次在商用智能手机上实现了高效的MoE推理。
在14个基础测试中,MobileMoE - S/M在内存相近的情况下,仅用稠密基线1/2到1/4的推理计算量,就做到了持平甚至更高的平均准确率。实测中,MobileMoE - S在iPhone 16 Pro的GPU/MLX后端提速最明显,输入阶段最高可提速3.8倍。

MobileMoE是一类面向端侧部署设计的MoE语言模型,整体仍是decoder - only Transformer,但把原来的稠密前馈层换成了MoE层。路由器会为每个token选出得分最高的少数专家参与计算,同时还有一个共享专家始终参与计算。
其训练流程分为四步:预训练、中期训练、监督微调和量化感知训练。预训练使用约6T token的开放许可数据,中期训练将上下文长度扩展到8192并提高高质量数据占比,监督微调在超8000万个样本的开放许可指令微调数据上进行,量化感知训练将线性层和embedding量化到INT4,激活动态量化到INT8,router保留FP32精度。

研究团队比较了专家数量E、专家粒度g以及是否加入共享专家三个架构变量。在固定内存预算下,当内存高于约0.25GB时,MoE的损失开始低于对应的稠密模型,E增加到8后边际收益减弱;更细粒度的专家配置整体更优,g = 8在效果和训练开销间取得较好平衡;加入共享专家后模型损失进一步下降。
最终,研究团队采用E = 8、g = 8、带共享专家的配置,用于MobileMoE - S/M/L三个版本。

在14项基础评测中,MobileMoE与多个模型对比,MobileMoE - M平均分高于Qwen3.5 2B,MobileMoE - L平均分高于OLMoE - 1B - 7B,且所需模型规模更小。在训练规模上,MobileMoE使用约6T预训练token,少于Llama 3.2 1B和SmolLM2 1.7B。
在指令微调后的高级评测中,MobileMoE在代码和数学任务上表现突出,但在指令跟随和知识推理能力上,Qwen3.5 2B更强。量化后,MobileMoE - S/M/L整体平均分有下降,但MobileMoE - L的INT4版本表现仍高于OLMoE - 1B - 7B Instruct的BF16版本。
部署到手机测试显示,MobileMoE - S相比MobileLLM - Pro,输入阶段提速1.8 - 3.8倍,逐token生成阶段提速2.2 - 3.4倍,内存占用也更低。

目前,指令微调后的MobileMoE在更高阶的指令遵循以及知识与推理能力上落后于Qwen3.5 2B,可能与更完善的后训练有关。未来,训练侧需加强蒸馏、面向推理的后训练以及多模态扩展。
同时,MoE在手机上的内存占用随输入内容变化,仅基于模板化输入测试可能低估实际内存压力。后续还需探索NPU路线,动态路由、专家剪枝、混合精度量化以及移动端NPU部署都是提升端侧效率的方向。
编辑观点:Meta的MobileMoE为端侧大模型带来了新的突破,在推理计算和精度上展现出优势,但也存在不足。未来通过持续优化和探索,有望进一步提升端侧大模型的性能。
34

被折叠的 条评论
为什么被折叠?



