AI时代下的数据信息提取 | 多模态数据信息提取

简介: 多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。

前言

随着数字化与信息化进程的持续深入,以及人工智能(AI)科技的迅猛发展,企业对于数据信息的获取与处理的重要性有了更为深刻的认识。在这一大背景下,市场迫切需求一种能够支持多模态文件信息抽取能力的解决方案。这种能力需要能够识别和解析包括文本、图像、音频和视频在内的各种格式文件,从而高效提取出极具价值的信息。今日,我们为您精心寻觅到一款理想的解决方案——【多模态数据信息提取】方案,运用先进的大模型来进行数据的深入理解与精细分析处理。


多模态数据信息提取方案支持多种场景,包括文本信息提取、图片信息提取、视频信息提取,用户可以根据不同的需求进行结构化信息挖掘、提取、分析和摘要等,并支持批处理模式下的离线作业,提高大规模数据处理效率,降低 50% 的业务落地成本。

image.png

方案架构

本方案以函数计算 FC 为例,构建的 Web 服务来接收用户的请求,在函数计算内部将视频关键帧图片上传到对象存储 OSS 中,然后将关键帧图片地址和提示词发送至百炼模型服务,由其调用视觉模型 qwen-vl-max-latest 处理后,结果返回后,再次调用文本模型 qwen-max-latest 处理,最终将结果返回给用户,方案架构图如图

部署操作

在多模态数据信息提取方案介绍页面,点击【立即部署】进入部署操作体验页面,如果你没有开通阿里云百炼大模型服务,那么需要你先开通阿里云百炼大模型服务,开通服务后,在阿里云百炼大模型服务平台:https://bailian.console.aliyun.com/?spm=a2c6h.28997786.0.0.11234015Z4XOqi#/home  点击【API-KEY】

image.png

在 API-KEY 管理页面,点击【创建我的API-KEY】完成API-KEY的创建,并复制保存 API-KEY

image.png

复制好创建完成的API-KEY,点击实验操作的前往部署,在函数计算部署页面,粘贴刚才复制的 API-KEY,其他的都默认选择,然后点击【创建并部署默认环境】

image.png

等待函数计算部署成功,这个过程大概耗时1分钟左右

image.png

等待函数计算部署成功之后,点击【访问域名】

image.png

在WebUI页面,我们选择【示例1】,示例1默认加载关键词【型号,价格】,在点击【提取信息】后,会有限按照关键词来提取文档信息

image.png

点击提取信息后的提取结果如图

image.png

这个时候你可以去掉关键词【型号,价格】后再次点击【提取信息】,再没有关键词的情况下,模型会自动解析,可能会出席那每次提取信息后返回的内容有差异的情况

image.png

释放资源

实验完成之后,如果你不再使用当前函数计算资源,那么你可以选择删除函数计算应用,在函数计算详情页,点击右上角的【删除应用】释放资源,

image.png


或者在函数计算应用列表的操作列,点击【删除应用】

image.png


均可以完成函数资源的释放。到这里关于多模态信息提取中文本信息提取的部署操作也就结束了。

其他体验

如果你还想体验多模态信息提取的其他应用场景的信息提取,比如图片信息提取、视频信息提取。我们当前评测文档中提供的只有文本信息提取方案,那么【视频信息提取】方案的操作我也体验过,体验地址:https://www.aliyun.com/solution/tech-solution-deploy/2860032?spm=a2c6h.29876473.J_9552847120.2.2d0443beRC1hEm  体验效果如图,感兴趣的小伙伴可以自行体验哈

image.png

测评反馈

这里我对于测评中涉及的解决方案部署操作界面、操作文档、部署流程、验证效果的内容做一个整体的反馈。

多模态数据信息提取解决方案部署操作界面简单,步骤也不多,操作都比较简单容易上手,文档中对于每一步的执行步骤也有详细的描述,辅助截图以及文档操作步骤,新手小白也可以轻松部署。整个部署流程也比较顺畅,按照资源准备,函数计算部署的操作比较符合正常的部署流程。最后效果的验证,提供了官方示例,可以方便大家快速验证部署后的效果。总的说来整个流程比较顺畅, 效果也不错。

目前对于多模态数据信息提取解决方案的整个操作下来,以及最后的文本信息提取效果验证,五种信息解决方案在解决方案页面都可以找到,

image.png

通过切换tab的方式可以在线操作体验五种信息提取解决方案。每一种解决方案的部署步骤都比较简单,通过函数计算一键部署的方式操作,部署过程几乎没有什么难度,大家感兴趣的可以逐个尝试,这里我对于每种信息提取方案之前也都部署过,就不再文章中再次操作了。

费用方面的话不用担心,正如部署文档描述的一样,预计成本不超过 1元,大家可以放心部署,部署结束之后不用的话记得及时删除应用即可。或者也可以不删除应用,但是注意应用的访问域名不要被他人盗用。

小建议

对于现有的文本信息提取方案,目前部署之后是通过在线 WebUI界面操作的方式来实现文本内容信息的提取,那么实际情况中,往往是需要通过API接入的方式来嵌入企业现有的业务系统,而不是通过嵌套或者WebUI跳转页面这样的操作方式。那么是否有对应的API接口文档或者接口接入方案来帮助企业落地企业业务系统呢?

对于此次的操作体验那必须是体验感拉满,希望后期可以有API接入方案,企业可以通过调用API接口上传待识别文本信息、图片信息、视频信息等来获取想要的内容,那么企业落地就完美了。




相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
2月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
4188 62
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
401 121
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
314 114
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
324 120
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
296 117
|
2月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
315 117
|
2月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
1383 16
构建AI智能体:一、初识AI大模型与API调用
|
2月前
|
人工智能 自然语言处理 自动驾驶
超越文本:多模态大语言模型如何让AI“看世界
超越文本:多模态大语言模型如何让AI“看世界
|
2月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
196 1

热门文章

最新文章