一、模型简介
OLMoE 是一个基于稀疏MoE 架构开源大语言模型。 OLMoE-1B-7B 拥有7B 总参数,每次处理一个输入token 仅激活大约1B 参数,在5T token 大规模语料上进行预训练,后面进一步微调得到 OLMoE-1B-7B-INSTRUCT。OLMoE-1B-7B 在性能上超过了所有具有相似激活参数数量的大模型,甚至优于一些更大规模参数量的大模型,比如Llama2-13B-Chat 和 DeepSeekMoE-16B 。MoE 架构可以在较小的计算成本下获得更优的性能表现。
二、消融实验
OLMoE 作者为了排除其他因素的影响,用控制单一变量的方式进行对比实验,在每个实验中仅改变一个超参数,探索模型达到最优效果的超参数、模型架构以及训练策略等。
| 关键设计选择 | 描述 | OLMoE |
|---|---|---|
| Active params | 每个输入token的激活参数数量 | 1.3B |
| Total params | 模型中的总参数数量 | 6.9B |
订阅专栏 解锁全文
8415

被折叠的 条评论
为什么被折叠?



