2025_NIPS_ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation

原创于 2026-06-16 10:30:00 发布 · 67 阅读

·

3

·

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

2806 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

886 篇文章

订阅专栏

文章总结与翻译

一、主要内容

本文提出了一种复合语音-语言模型（ComSL），用于端到端语音到文本翻译任务。该模型针对联合语音-语言训练中存在的训练数据需求大、GPU消耗高以及语音与语言模态差异等问题，采用复合架构，充分利用已有的预训练语音模型（Whisper）和语言模型（mBART），无需从零开始进行大规模预训练。

模型核心由三部分组成：语音Transformer块（初始化自Whisper编码器）、适配器（实现语音表示的下采样与模态适配）和语言Transformer块（初始化自mBART模型）。训练过程中采用多任务学习策略，整合了语音识别（ASR）、机器翻译（MT）、语音翻译（ST）以及跨模态学习（CML）等任务，并引入了解码器分布匹配（DDM）、MT正则化、冻结语音编码器等训练技巧，同时补充伪ST数据以提升低资源语言对的性能。

在CoVoST2数据集的21种语言到英语的翻译任务中，ComSL模型取得了31.5的平均BLEU分数，超越了Google USM、OpenAI Whisper等现有最优模型，验证了其在端到端语音翻译任务中的有效性。

二、创新点

复合架构设计：直接复用预训练语音模型（Whisper）和语言模型（mBART），无需大规模从头预训练，兼顾数据效率与性能，可直接针对下游任务微调。
简化的跨模态学习：基于语音与文本的拼接输入进行跨模态映射/匹配，无需外部或内部对齐器实现令牌/单词级别的强制对齐，简化了实现流程，可融入微调阶段。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。