Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study

最新推荐文章于 2026-07-04 23:09:23 发布

原创最新推荐文章于 2026-07-04 23:09:23 发布 · 7 阅读

·

0

·

LLM Daily 专栏收录该内容

1250 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容与创新点总结

一、主要内容

本文聚焦低资源方言的大语言模型（LLM）适配问题，以魁北克法语（Québécois）为案例，研究在有限数据和计算资源下，通过持续预训练（CPT）结合参数高效微调（PEFT）技术实现方言适配的可行性。

研究背景：主流LLM多基于高资源标准语（如法国法语）训练，对低资源地区方言覆盖不足，存在"方言鸿沟"，限制了少数语言群体的AI技术使用权。魁北克法语在拼写、词汇、习语和语码转换等方面与标准法语存在差异，且相关语料资源稀缺。
技术方案：
- 数据：构建8657万词的魁北克法语语料库，涵盖新闻、书籍、社交媒体评论、论坛帖子等正式与非正式文本。
- 模型：基于CroissantLLMChat-v0.1（1.35B）、Llama-3.2-1B、Llama-3.1-8B三个基础模型，采用低秩适配（LoRA）和梯度检查点技术，仅更新不到1%的模型参数。
- 训练：以因果语言建模（CLM）为目标，进行3轮和6轮持续预训练，使用AdamW优化器、余弦学习率衰减等配置。
评估与结果：
- 在COLE基准套件的8个任务（4个魁北克法语任务+4个标准法语任务）上评估。
- 结果显示：6轮预训练后所有模型在魁北克法语任务上均有提升；大模型（如Llama-3.1-8B）可同时提升方言适配能力和标准法语表现，小模型（如Llama-3.2-1B）存在适配与能

标签

#语言模型 #人工智能 #机器学习

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。