AI时代下的数据信息提取 | 多模态数据信息提取

2025-01-21 861

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 多模态数据信息提取方案利用先进的大模型技术，支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务，接收用户请求并调用视觉和文本模型进行处理，最终返回结果。部署过程简单易上手，适合新手操作，且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取，满足不同场景需求。此外，该方案支持批处理模式下的离线作业，大幅提高大规模数据处理效率，降低业务落地成本达50%。

前言

随着数字化与信息化进程的持续深入，以及人工智能（AI）科技的迅猛发展，企业对于数据信息的获取与处理的重要性有了更为深刻的认识。在这一大背景下，市场迫切需求一种能够支持多模态文件信息抽取能力的解决方案。这种能力需要能够识别和解析包括文本、图像、音频和视频在内的各种格式文件，从而高效提取出极具价值的信息。今日，我们为您精心寻觅到一款理想的解决方案——【多模态数据信息提取】方案，运用先进的大模型来进行数据的深入理解与精细分析处理。

多模态数据信息提取方案支持多种场景，包括文本信息提取、图片信息提取、视频信息提取，用户可以根据不同的需求进行结构化信息挖掘、提取、分析和摘要等，并支持批处理模式下的离线作业，提高大规模数据处理效率，降低 50% 的业务落地成本。

方案架构

本方案以函数计算 FC 为例，构建的 Web 服务来接收用户的请求，在函数计算内部将视频关键帧图片上传到对象存储 OSS 中，然后将关键帧图片地址和提示词发送至百炼模型服务，由其调用视觉模型 qwen-vl-max-latest 处理后，结果返回后，再次调用文本模型 qwen-max-latest 处理，最终将结果返回给用户，方案架构图如图

部署操作

在多模态数据信息提取方案介绍页面，点击【立即部署】进入部署操作体验页面，如果你没有开通阿里云百炼大模型服务，那么需要你先开通阿里云百炼大模型服务，开通服务后，在阿里云百炼大模型服务平台：https://bailian.console.aliyun.com/?spm=a2c6h.28997786.0.0.11234015Z4XOqi#/home 点击【API-KEY】

在 API-KEY 管理页面，点击【创建我的API-KEY】完成API-KEY的创建，并复制保存 API-KEY

复制好创建完成的API-KEY，点击实验操作的前往部署，在函数计算部署页面，粘贴刚才复制的 API-KEY，其他的都默认选择，然后点击【创建并部署默认环境】

等待函数计算部署成功，这个过程大概耗时1分钟左右

等待函数计算部署成功之后，点击【访问域名】

在WebUI页面，我们选择【示例1】，示例1默认加载关键词【型号，价格】，在点击【提取信息】后，会有限按照关键词来提取文档信息

点击提取信息后的提取结果如图

这个时候你可以去掉关键词【型号，价格】后再次点击【提取信息】，再没有关键词的情况下，模型会自动解析，可能会出席那每次提取信息后返回的内容有差异的情况

释放资源

实验完成之后，如果你不再使用当前函数计算资源，那么你可以选择删除函数计算应用，在函数计算详情页，点击右上角的【删除应用】释放资源，

或者在函数计算应用列表的操作列，点击【删除应用】

均可以完成函数资源的释放。到这里关于多模态信息提取中文本信息提取的部署操作也就结束了。

其他体验

如果你还想体验多模态信息提取的其他应用场景的信息提取，比如图片信息提取、视频信息提取。我们当前评测文档中提供的只有文本信息提取方案，那么【视频信息提取】方案的操作我也体验过，体验地址：https://www.aliyun.com/solution/tech-solution-deploy/2860032?spm=a2c6h.29876473.J_9552847120.2.2d0443beRC1hEm 体验效果如图，感兴趣的小伙伴可以自行体验哈

测评反馈

这里我对于测评中涉及的解决方案部署操作界面、操作文档、部署流程、验证效果的内容做一个整体的反馈。

多模态数据信息提取解决方案部署操作界面简单，步骤也不多，操作都比较简单容易上手，文档中对于每一步的执行步骤也有详细的描述，辅助截图以及文档操作步骤，新手小白也可以轻松部署。整个部署流程也比较顺畅，按照资源准备，函数计算部署的操作比较符合正常的部署流程。最后效果的验证，提供了官方示例，可以方便大家快速验证部署后的效果。总的说来整个流程比较顺畅，效果也不错。

目前对于多模态数据信息提取解决方案的整个操作下来，以及最后的文本信息提取效果验证，五种信息解决方案在解决方案页面都可以找到，

通过切换tab的方式可以在线操作体验五种信息提取解决方案。每一种解决方案的部署步骤都比较简单，通过函数计算一键部署的方式操作，部署过程几乎没有什么难度，大家感兴趣的可以逐个尝试，这里我对于每种信息提取方案之前也都部署过，就不再文章中再次操作了。

费用方面的话不用担心，正如部署文档描述的一样，预计成本不超过 1元，大家可以放心部署，部署结束之后不用的话记得及时删除应用即可。或者也可以不删除应用，但是注意应用的访问域名不要被他人盗用。

小建议

对于现有的文本信息提取方案，目前部署之后是通过在线 WebUI界面操作的方式来实现文本内容信息的提取，那么实际情况中，往往是需要通过API接入的方式来嵌入企业现有的业务系统，而不是通过嵌套或者WebUI跳转页面这样的操作方式。那么是否有对应的API接口文档或者接口接入方案来帮助企业落地企业业务系统呢？

对于此次的操作体验那必须是体验感拉满，希望后期可以有API接入方案，企业可以通过调用API接口上传待识别文本信息、图片信息、视频信息等来获取想要的内容，那么企业落地就完美了。

AI时代下的数据信息提取 | 多模态数据信息提取

前言

方案架构

部署操作

释放资源

其他体验

测评反馈

小建议

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI时代下的数据信息提取 | 多模态数据信息提取

前言

方案架构

部署操作

释放资源

其他体验

测评反馈

小建议

热门文章

最新文章

相关课程

相关电子书

相关实验场景