Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 144 阅读

·

3

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2846 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与翻译

一、主要内容

文章针对大型语言模型（LLMs）在低资源语言上性能不足的问题，提出一种稀疏子网络增强框架。通过语言激活概率熵（LAPE）识别模型中与特定语言相关的神经元，仅对这些神经元对应的子网络进行微调（仅更新最多1%的参数），在提升12种中低资源语言任务性能的同时，保留模型的通用能力。实验在LLAMA-3.1-8B和MISTRAL-NEMO-12B上开展，结果显示该方法优于全量微调、仅FFN微调、LoRA适配等基线方法，还能增强跨语言表征对齐性，优化训练动态。

二、创新点

提出系统性框架：基于LAPE精准识别语言特异性神经元，实现高效的子网络增强，平衡目标语言性能与通用能力。
参数效率优异：仅更新0.2%-1%的模型参数，却在12种中低资源语言上持续超越多种主流微调方法。
揭示关键机制：发现FFN层的下投影矩阵在语言适配中起核心作用，且目标语言数据量增加可进一步提升性能。
开放资源支持：发布100余种语言的特异性神经元识别结果及适配流水线，助力低资源语言适配研究。

三、核心部分翻译（Markdown格式）

Abstract

大型语言模型在不同语言间表现不均衡，高资源语言与低资源语言之间存在显著差距。本文提出一种框架，通过对语言特异性子网络进行靶向微调，增强大模型在代表性不足语言中的单语能力，同时保留其通用性能。该方法利用语言激活概率熵（

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。