首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽音频+文本多模态任务

简介: Meta AI 研究团队提出了一种名为 SpiRit-LM 的新型多模态语言模型,该模型能够处理文本和音频,实现两者无缝融合。SpiRit-LM 通过“交织”方法训练,具备多模态融合、情感保留和多任务学习能力,在自动语音识别、文本转语音等任务上表现出色。它有 Base 和 Expressive 两个版本,后者能更好地捕捉情感表达。研究团队在多个基准上测试了其性能,并探索了其在语音助手、内容创作、教育和音频编辑等领域的应用前景。

在大型语言模型(LLM)的迅猛发展中,文本领域已然取得了令人瞩目的成就。然而,音频领域的研究却稍显滞后。为了填补这一空白,Meta AI 研究团队近日提出了一种名为 SpiRit-LM 的新型多模态语言模型,该模型能够自如地处理文本和音频,并在音频理解和生成方面展现出卓越的能力。

SpiRit-LM 的提出,标志着音频语言模型研究的重大突破。它不仅能够理解和生成文本,还能够理解和生成音频,实现了文本和音频的无缝融合。这一创新主要体现在以下几个方面:

  1. 多模态融合:SpiRit-LM 通过将文本和音频序列进行拼接,并采用一种称为“交织”(interleaving)的方法进行训练,使得模型能够同时学习到文本和音频的语义信息。

  2. 情感保留:为了评估生成模型的表达能力,研究团队引入了 Speech-Text Sentiment Preservation(STSP)基准,用于衡量模型在文本和音频之间以及同一模态内的情感保留能力。SpiRit-LM 是第一个能够同时在文本和音频模态中保留情感的模型。

  3. 多任务学习:SpiRit-LM 能够通过少量示例进行学习,并在多个任务上表现出色,包括自动语音识别(ASR)、文本转语音(TTS)和音频分类等。

为了满足不同应用场景的需求,研究团队提出了 SpiRit-LM 的两个版本:Base 版本和 Expressive 版本。

  • Base 版本:使用音频语义单元进行训练,能够理解和生成基本的音频内容。
  • Expressive 版本:除了音频语义单元,还增加了音调和风格单元,能够更好地捕捉和生成具有情感表达的音频内容。

为了评估 SpiRit-LM 的性能,研究团队在多个基准上进行了测试,包括文本和音频的理解任务、情感建模任务以及负责任的 AI 评估。

  • 文本和音频理解:在文本和音频的理解任务上,SpiRit-LM 表现出了与文本模型相媲美的性能,并在一些任务上取得了显著的改进。
  • 情感建模:在情感建模任务上,SpiRit-LM-Expressive 表现出了出色的情感保留能力,尤其是在音频到文本和文本到音频的转换过程中。
  • 负责任的AI评估:研究团队还对 SpiRit-LM 进行了负责任的 AI 评估,包括对生成内容的毒性检测。虽然 SpiRit-LM 在大多数方面表现出了良好的性能,但在一些特定的情感轴上仍存在一定的毒性风险。

SpiRit-LM 的提出,为音频和文本的多模态应用打开了广阔的前景。以下是一些潜在的应用领域:

  1. 语音助手:SpiRit-LM 能够理解和生成自然的语音响应,为语音助手提供更智能、更人性化的交互体验。
  2. 内容创作:SpiRit-LM 能够根据文本提示生成相应的音频内容,为内容创作者提供更多的创作可能性。
  3. 教育和培训:SpiRit-LM 能够生成具有情感表达的音频内容,为教育和培训领域提供更生动、更有趣的学习材料。
  4. 音频编辑:SpiRit-LM 能够理解音频内容并进行相应的编辑操作,为音频编辑工具提供更强大的功能。

论文链接:https://arxiv.org/pdf/2402.05755

目录
相关文章
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
363 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1213 2
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1803 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
391 41
|
2月前
|
机器学习/深度学习 算法 物联网
Google开源Tunix:JAX生态的LLM微调方案来了
Tunix是Google推出的基于JAX的LLM后训练库,支持微调、强化学习与知识蒸馏,集成Flax NNX,主打TPU优化与模块化设计,支持QLoRA等高效训练方法,适用于高性能分布式训练场景。
346 13
Google开源Tunix:JAX生态的LLM微调方案来了
|
3月前
|
自然语言处理 安全
Min-p采样:通过动态调整截断阈值让大模型文本生成兼顾创造力与逻辑性
大语言模型通过预测下一个词生成文本,采样策略决定其创造力与连贯性。Min-p采样根据模型置信度动态调整选择阈值,在高不确定性时扩大候选范围,低不确定性时聚焦高概率词,相较Top-k、Top-p等方法,更好平衡了多样性与质量,尤其在高温下仍保持输出稳定,提升生成文本的流畅性与创新性。
196 3
|
2月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
37_开源LLM:LLaMA与Mistral的突破_深度解析
在人工智能领域,2025年已经成为开源大语言模型的黄金时代。从Meta的LLaMA系列到欧洲初创公司Mistral AI的创新突破,开源LLM正在重塑整个AI生态系统的格局。截至2025年4月,Meta的LLaMA系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一,并被集成于数百个学术项目、创业平台和AI产品之中

热门文章

最新文章