大数据& AI 产品月刊【2025年5月】

简介: 大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

一、产品功能发布


【云原生大数据计算服务 MaxCompute】新功能/规格 - MaxCompute 数据传输服务观测能力升级

通过优化指标数据采集和加工处理链路,提升数据的准确性,新增支持以项目维度查看资源用量能力,新增更多使用方式选项,丰富数据传输服务的可观测性,实现对更多分析场景和需求的支持。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据资产治理新增数据质量治理计划

数据质量治理计划帮助用户快速发现数据质量问题并获取优化建议。


【大数据开发治理平台 DataWorks】新功能/规格 - 自定义镜像支持同步至 MaxCompute

支持在创建个人开发环境的自定义镜像时,同步生成 MaxCompute 的自定义镜像。


【大数据开发治理平台 DataWorks】功能优化 - 支持通过 RAM policy 实现对安全中心的访问

方便 RAM 用户/角色访问安全中心。


【大数据开发治理平台 DataWorks】功能优化 - 手动业务流程运维体验优化

支持运维大屏查看、新增筛选条件和排序方式,帮助用户提升运维效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据地图新增支持多个数据源租户级数据目录

新增 Data Lake Formation、Hologres 租户视角数据目录能力,帮助快速了解数据。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成新增火山引擎 TOS 数据源

可通过 DataWorks 获取火山引擎 TOS 中存储的文件,解析并离线同步至任意目标数据源。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成针对特定任务新增支持方式

PostgreSQL 至 Hologres 整库实时同步任务支持根据已有字段生成 Hologres 分区。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据质量智能规则生成支持波动类规则

帮助提升周期产出数据的完整性校验的配置效率。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发支持冒烟测试

方便用户能够在不影响线上数据的前提下,查看调度节点的任务执行情况。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持日志查询

StarRocks 支持日志查询功能,通过该功能可以查询详细实例日志进行任务的异常定位


【开源大数据平台 E-MapReduce】新地域/新可用区 - 全托管 StarRocks 在日本(东京)正式开服

Serverless StarRocks  新增开通日本(东京)地域,可以在控制台上按需求开通集群。


【向量检索服务 Milvus 版】新功能/规格 - 新增按量计费模式

用户购买标准版时可按需选择按量计费模式。


【向量检索服务 Milvus 版】功能优化 - 管控平台能力多项升级

通过集群维度监控看板、日志查询、集群标签与资源组管理、资源计算器升级等方式提高用户运维效率。



二、产品快讯

人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒、白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。基于 EasyDistill 框架,PAI 进一步开源了 DistilQwen 模型系列,并且提供了蒸馏技术的实际应用案例 EasyDistill-Recipes,其推理能力超越了其他开源蒸馏模型。


DistilQwen-ThoughtX:变长思维链推理模型,能力超越 DeepSeek 蒸馏模型

人工智能平台 PAI 团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集推出了 DistilQwen-ThoughtX 系列模型,可以通过 RV 和 CD 分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。


DataWorks x Qwen3:数据开发与分析效率再升级

DataWorks 平台正式接入 Qwen3模型,支持最大235B 参数量。用户可通过 DataWorks Copilot 智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。


火热邀测 | DataWorks 数据集成支持大模型 AI 处理

大数据开发治理平台 DataWorks 数据集成智能升级,以"AI 释放数据价值"为核心,推出数据集成支持大模型 AI 处理功能,支持在数据同步过程中对数据进行高级分析和处理,帮助用户利用 AI 技术提升数据质量、挖掘数据价值,让数据集成与大模型无缝协同,为多行业多场景赋能企业 AI 落地。


Hologres x 函数计算 x Qwen3,对接MCP构建企业级数据分析 Agent

Hologres 联合函数计算FC 推出「基于 Qwen3 的企业级数据分析 Agent」方案,解决企业级数据分析 Agent 性能、部署、弹性的挑战。


AI 搜索开放平台 x Qwen3:智能搜索全栈解决方案新升级

AI 搜索开放平台与 Qwen3 模型的深度融合,为企业和开发者提供了从基础能力到复杂场景的全栈解决方案,让智能搜索的落地门槛更低、效率更高、体验更佳。


阿里云 AI 搜索开放平台新增:服务开发能力

AI 搜索开放平台内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成(RAG)、多模态搜索等搜索相关场景的搭建。本次阿里云 AI 搜索开放平台服务开发能力的发布,旨在通过集成 DSW 能力并新增 Notebook 功能,进一步提升用户编排效率。


三、最佳实践


DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍 DistilQwen2.5-DS3-0324蒸馏小模型在 PAI-ModelGallery 的训练、评测、压缩及部署实践。


云上玩转 Qwen3系列之二:PAI-LangStudio 搭建联网搜索和 RAG 增强问答应用

通过 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


云上玩转 Qwen3系列之三:PAI-LangStudio x Hologres 构建 ChatBI 数据分析 Agent 应用

PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。


Cosmos on PAI 系列一:PAI-Model Gallery 云上一键部署 NVIDIA Cosmos Reason-1

NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。  阿里云人工智能平台 PAI 支持 Cosmos Reason-1进行快速部署使用。


构建 AI 时代的大数据基础设施- MaxCompute 多模态数据处理最佳实践

本方案通过 MaxCompute 提供面向多模态数据管理的表类型 Object Table,支持对 OSS 上的多模态图片数据进行元数据自动采集管理。同时,通过分布式 Python 计算框架 MaxFrame 完成对多模态数据处理开发,在 DataWorks 的 Notebook 中一站式完成多模态数据处理工作。


DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪基于 DataWorks 构建的企业级大数据平台,通过湖仓一体架构与全链路数据治理体系,实现了多源异构数据的高效整合与价值挖掘,有效支撑了婚礼纪精准营销策略优化、智能广告投放、交易风控体系以及用户行为分析等核心业务场景。


开源大数据平台建设经典案例合集

EMR 作为云原生开源大数据平台,凭借其全栈技术生态、弹性资源和开箱即用的优势,已在多个行业头部企业中落地实践,覆盖云原生数据湖、实时湖仓分析、数据湖治理、机器学习等场景。本文精选多个标杆案例,解读 EMR 如何助力企业释放数据价值。


StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询

A+流量分析平台是阿里集团统一的全域流量数据分析平台,当前,流量采集团队每天需要的日志数据达到万亿级,在写入和查询面临着巨大挑战。在引入 StarRocks+Paimon 后,实现万亿级实时日志数据的秒级查询。Paimon 负责高效存储实时日志数据,StarRocks 作为计算引擎提供高性能查询能力。通过分桶表设计、Data Cache 优化及文件大小控制,解决了高吞吐写入和高并发查询挑战,查询延迟稳定在秒级,大幅提升日志分析效率。


Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速

流利说基于阿里云 EMR Serverless Spark 构建高效数据平台,解决了原有半托管集群在弹性资源管理、成本、性能等方面的痛点。新架构采用 Serverless 模式实现按需计费,结合 Fusion 引擎使任务耗时减少40%,成本降低30%,失败率下降80%。平台整合 Airflow 调度、Hive 元数据管理和 OSS 存储,支持离线 ETL、数据集成和查询等场景,显著提升了任务执行效率与稳定性。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
73881 4
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
|
人工智能 大数据 云栖大会
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
3640 0
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
639 42
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
992 50
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
481 30

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute