Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models

文章核心总结与翻译

一、主要内容

文章针对大型语言模型(LLMs)在低资源语言上性能不足的问题,提出一种稀疏子网络增强框架。通过语言激活概率熵(LAPE)识别模型中与特定语言相关的神经元,仅对这些神经元对应的子网络进行微调(仅更新最多1%的参数),在提升12种中低资源语言任务性能的同时,保留模型的通用能力。实验在LLAMA-3.1-8B和MISTRAL-NEMO-12B上开展,结果显示该方法优于全量微调、仅FFN微调、LoRA适配等基线方法,还能增强跨语言表征对齐性,优化训练动态。

二、创新点

  1. 提出系统性框架:基于LAPE精准识别语言特异性神经元,实现高效的子网络增强,平衡目标语言性能与通用能力。
  2. 参数效率优异:仅更新0.2%-1%的模型参数,却在12种中低资源语言上持续超越多种主流微调方法。
  3. 揭示关键机制:发现FFN层的下投影矩阵在语言适配中起核心作用,且目标语言数据量增加可进一步提升性能。
  4. 开放资源支持:发布100余种语言的特异性神经元识别结果及适配流水线,助力低资源语言适配研究。

三、核心部分翻译(Markdown格式)

Abstract

大型语言模型在不同语言间表现不均衡,高资源语言与低资源语言之间存在显著差距。本文提出一种框架,通过对语言特异性子网络进行靶向微调,增强大模型在代表性不足语言中的单语能力,同时保留其通用性能。该方法利用语言激活概率熵(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值