Low-Resource Dialect Adaptation of Large Language Models: A French Dialect Case-Study

文章主要内容与创新点总结

一、主要内容

本文聚焦低资源方言的大语言模型(LLM)适配问题,以魁北克法语(Québécois)为案例,研究在有限数据和计算资源下,通过持续预训练(CPT)结合参数高效微调(PEFT)技术实现方言适配的可行性。

  1. 研究背景:主流LLM多基于高资源标准语(如法国法语)训练,对低资源地区方言覆盖不足,存在"方言鸿沟",限制了少数语言群体的AI技术使用权。魁北克法语在拼写、词汇、习语和语码转换等方面与标准法语存在差异,且相关语料资源稀缺。
  2. 技术方案
    • 数据:构建8657万词的魁北克法语语料库,涵盖新闻、书籍、社交媒体评论、论坛帖子等正式与非正式文本。
    • 模型:基于CroissantLLMChat-v0.1(1.35B)、Llama-3.2-1B、Llama-3.1-8B三个基础模型,采用低秩适配(LoRA)和梯度检查点技术,仅更新不到1%的模型参数。
    • 训练:以因果语言建模(CLM)为目标,进行3轮和6轮持续预训练,使用AdamW优化器、余弦学习率衰减等配置。
  3. 评估与结果
    • 在COLE基准套件的8个任务(4个魁北克法语任务+4个标准法语任务)上评估。
    • 结果显示:6轮预训练后所有模型在魁北克法语任务上均有提升;大模型(如Llama-3.1-8B)可同时提升方言适配能力和标准法语表现,小模型(如Llama-3.2-1B)存在适配与能
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值