文章核心总结与翻译
一、主要内容
文章针对大型语言模型(LLMs)在低资源语言上性能不足的问题,提出一种稀疏子网络增强框架。通过语言激活概率熵(LAPE)识别模型中与特定语言相关的神经元,仅对这些神经元对应的子网络进行微调(仅更新最多1%的参数),在提升12种中低资源语言任务性能的同时,保留模型的通用能力。实验在LLAMA-3.1-8B和MISTRAL-NEMO-12B上开展,结果显示该方法优于全量微调、仅FFN微调、LoRA适配等基线方法,还能增强跨语言表征对齐性,优化训练动态。
二、创新点
- 提出系统性框架:基于LAPE精准识别语言特异性神经元,实现高效的子网络增强,平衡目标语言性能与通用能力。
- 参数效率优异:仅更新0.2%-1%的模型参数,却在12种中低资源语言上持续超越多种主流微调方法。
- 揭示关键机制:发现FFN层的下投影矩阵在语言适配中起核心作用,且目标语言数据量增加可进一步提升性能。
- 开放资源支持:发布100余种语言的特异性神经元识别结果及适配流水线,助力低资源语言适配研究。
三、核心部分翻译(Markdown格式)
Abstract
大型语言模型在不同语言间表现不均衡,高资源语言与低资源语言之间存在显著差距。本文提出一种框架,通过对语言特异性子网络进行靶向微调,增强大模型在代表性不足语言中的单语能力,同时保留其通用性能。该方法利用语言激活概率熵(
订阅专栏 解锁全文
436

被折叠的 条评论
为什么被折叠?



