微软和马里兰大学联合提出Florence-VL,一系列多模态大模型

原创于 2024-12-11 20:13:31 发布 · 1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读，只列出了论文标题、AMiner AI综述等信息，如果感兴趣可点击查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：
https://www.aminer.cn/chat/g/explain

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

【要点】：本文提出了基于认知科学的精确记忆类型定义，并建立了评估强化学习（RL）智能体记忆能力的统一实验方法，以促进客观比较和正确判断。
【方法】：作者通过借鉴认知科学，定义了不同类型的记忆（如长期与短期记忆、陈述性与程序性记忆），并基于这些定义对RL智能体的记忆进行分类和评估。
【实验】：作者通过使用不同的RL智能体进行实验，验证了所提出评估方法的必要性，实验使用了多个数据集，并得出了遵循该方法的重要性及不遵循可能导致的后果。
【链接】：https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e6e2

ProcessBench: Identifying Process Errors in Mathematical Reasoning

【要点】：本文介绍了ProcessBench，一个用于测量数学推理过程中错误步骤识别能力的基准，发现现有过程奖励模型在更复杂数学问题上表现不佳，而一般语言模型在经过特定提示后表现出色。
【方法】：通过构建包含3400个测试用例的ProcessBench，每个测试用例都包含由人类专家注释的错误位置的逐步解决方案，模型需要识别最早出现错误的步骤或判断所有步骤均正确。
【实验】：在ProcessBench上进行了广泛评估，包括过程奖励模型（PRMs）和经过步骤提示的批评模型（critic models）。结果显示，现有PRMs在GSM8K和MATH之外的更难数学问题上表现不佳，而经过提示的一般语言模型和作者训练的PRM在PRM800K数据集上进行了微调后表现较好。开源模型QwQ-32B-Preview在批评能力上与专有模型GPT-4o竞争力相当，但仍然落后于专门用于推理的o1-mini模型。
【链接】：https://www.aminer.cn/pub/6757afb1ae8580e7ffb2e701

Training Large Language Models to Reason in a Continuous Latent Space

【要点】：本文提出了一种新型推理范式Coconut，通过在连续潜在空间而非自然语言空间中训练大型语言模型（LLM），实现更高效的推理过程。
【方法】：作者将LLM的最后隐藏状态作为推理状态的表示，直接在连续空间中将该状态作为后续输入嵌入，而不是将其解码为单词标记。
【实验】：通过在多个推理任务上使用Coconut方法，实验结果显示该范式能够有效增强LLM的推理能力，并在某些需要大量回溯计划的逻辑推理任务中优于传统的链式思维（CoT）。使用的数据集名称未在摘要中明确提及，但结果证明了潜在空间推理的潜力。
【链接】：https://www.aminer.cn/pub/6757c48cae8580e7ffe1eba7

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

【要点】：本文介绍了Infinity模型，一种基于比特位视觉自动回归模型，能够根据语言指令生成高分辨率、逼真的图像，通过无限词汇量标记器和比特位自我修正机制显著提高了生成能力和细节表现。
【方法】：Infinity模型在比特位预测框架下重新定义了视觉自动回归模型，理论上将标记器词汇量扩展至无限，并同步扩大变换器规模，实现了相较于传统VAR模型的强大扩展能力。
【实验】：研究者在实验中使用了无限词汇量标记器和特制的比特位自我修正机制，通过GenEval和ImageReward两个指标，Infinity在生成图像质量上超过了SD3-Medium和SDXL等顶级扩散模型，实现了在0.8秒内生成1024x1024像素图像的能力，比SD3-Medium快2.6倍。实验结果使用了GenEval和ImageReward数据集。
【链接】：https://www.aminer.cn/pub/67526da4ae8580e7ff3d4f6e

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

【要点】：本文提出了一种新的多模态大型语言模型 Florence-VL，通过引入生成视觉基础模型 Florence-2 和深度-广度融合架构，增强了视觉表示，提升了多模态任务性能。
【方法】：研究采用了一种新颖的特征融合架构和创新的训练方法，将 Florence-2 的视觉特征有效集成到预训练的语言模型中。
【实验】：模型通过端到端预训练和微调投影层及语言模型的方式进行训练，使用了包含高质量图像标题和指令调整对的多样化开源数据集。实验结果表明 Florence-VL 在视觉语言对齐上优于流行的视觉编码器，并在多种多模态和视觉中心基准测试中取得了显著改进。数据集名称和具体实验结果未在摘要中明确提及，但模型和相关训练方法已在开源平台发布。
【链接】：https://www.aminer.cn/pub/67526da4ae8580e7ff3d4f67