通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验

简介: 通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。

模型新特征

01复杂人物运动,稳定展现

02现实物理规律,逼真还原

03中英文视频特效,约丽呈现 (生成的视频直接带音效!)

通过自研的高效VAEDiT架构

增强了时空上下文建模能力

支持无限长1080P视频的高效编解码

首次实现了中文文字视频生成功能

升级后的通义万相

荣登VBench榜单第一


image.png

VBench视频生成模型评测体系


image.png

视频生成


01

复杂人物运动,稳定展现

旋转、跳跃、转身、翻滚......复杂的肢体运动、大幅度动作、镜头的移动都能稳定展现

Prompt在室内,镜头平拍一个外国男子跳霹雳舞的全景,男子身穿灰色的上衣和绿色的裤子,镜头随着男子的动作而移动,男子在舞台上进行一系列的翻滚和旋转动作,背景中可以看到观众席上的观众和一些模糊的舞台灯光,但焦点始终保持在舞者的动作上。


Prompt:巴洛克风格的欧式宫殿内,璀璨的水晶吊灯洒下柔和光芒,照亮了中央一对翩翩起舞的舞者。男士身着黑色燕尾服,搭配雪白衬衫与蝴蝶结领结,尽显绅士风度;女士一袭曳地长裙,裙摆以细腻蕾丝点缀,轻盈飘逸。他们紧紧相拥,手臂优雅交织,随着华尔兹旋律旋转跳跃,每一步都诠释着浪漫与激情。中景,采用稳定跟随拍摄,捕捉每一个旋转瞬间。



02

现实物理规律,逼真还原

碰撞、反弹、切割、挤压......

真实世界的物理规律,也能逼真还原

雨滴落在伞上,会溅起水花

做木雕,会有木头碎屑掉落

Prompt一对穿着正式晚礼服的夫妇在回家途中遭遇大雨,他们撑着黑色雨伞。平拍镜头下,男士穿着黑色西装,女士穿着白色长裙。他们在雨中缓缓行走,雨水沿着伞面滴落。镜头跟随他们的步伐平稳移动,展现出他们在雨中的优雅姿态。


Prompt:特写镜头聚焦于一双布满老茧的手,正细致地在木头上雕刻。手握刻刀,刀锋在飞舞的木屑中闪烁,木纹清晰,指尖轻盈游走在刀刃间,勾勒出精致的花纹与图案。背景虚化,仅见工作台与散落的木工工具,强调手部精妙动作与匠艺之精髓。



03

中英文视频特效,绚丽呈现

中英文视频,都可以一键生成艺术字

还提供多种视频特效选项,以增强视觉表现力

如过渡、粒子效果、模拟......

Prompt:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。


Prompt:赛博朋克的城市里,夜晚霓虹灯闪烁,大楼上招牌写着“AI DAY”的文字,街道上车辆快速行驶。



04

影视质感与艺术风格,一键转换

电影色调、印象笔触、抽象表现......

强大的艺术风格表现力

帮你稳定生成各种风格视频

影视级画面质感与细节,也能精准还原

Prompt:哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在古老的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与紧张的氛围。近景动态骑马场景。


Prompt:视频以低角度仰拍开始,展现一名身穿银白色太空服的宇航员在月球表面行走的壮丽景象,四周是荒凉但神秘的月球地形,布满坑洞与崎岖不平的地貌。随着镜头缓慢推进,可以看到宇航员的手轻轻触摸到一颗悬浮在空中的星星,背景中,深邃的宇宙星河缓缓流转,星星闪烁,构成一幅令人惊叹的星际画卷。整个视频通过慢镜头和精心设计的镜头运动,营造出一种梦幻般的科幻氛围,引领观众一同踏上这场月球探索之旅。


image.png

图片生成

通义万相2.1支持文生组图

采用了IC-LoRA图像生成训练方法

利用DiT架构,增强文本到图像的上下文能力

对多张图像进行拼接与联合描述

轻松实现关联图像间的组合生成

并保持特征稳定连续

在通义万相官网可以体验哪些玩法?


01

分镜流畅,电影质感

还原电影级的分镜效果

角色、相貌、动作、环境、灯光连贯......

将故事情节、视觉效果和氛围营造完美结合

确保每一张图连贯且富有表现力

image.png

Prompt:浪漫的公园里,一对青年男女在温馨的拥抱交谈


02

四格漫画,故事速览

描述你希望展现的漫画剧情与风格

通过四格漫画,为你讲述一个小故事

image.png

Prompt:一只小狗在抓蝴蝶,撞到了一棵大树上,眼冒金星。


03

情侣头像,创意定制

根据你的喜好、风格、特点

定制一套专属情侣头像

卡通风格、写实风格、创意风格

满足你的一切需求


image.png



Prompt:生成一组可爱的卡通情侣头像


image.png

快来体验吧~


即日起,也可以直接进入阿里云百炼调用API

image.png

image.png


🎈需要了解阿里云百炼可点击以下链接:

👉阿里云百炼详情了解可点击此官网链接:阿里云百炼官网介绍

👉阿里云百炼控制台页面可点击此链接直接进入阿里云百炼控制台


欢迎大家在评论区交流探讨调用万相新模型的体验与经验 。如果您在体验过程中有遇到什么问题需要我们解答,可以在评论区中留言探讨或是加入我们的官方钉钉支持群(群号:120480015429)进行交流反馈!

1bb53390962d38c328f19fcc8419d77a.png




相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
384 41
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
722 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
存储 自然语言处理 搜索推荐
从音频与照片生成数字人视频:阿里云百炼工作流打造“超级数字人”全流程解析
阿里云百炼上线通义万相2.2数字人视频生成模型S2V,支持音频+单张人像生成个性化数字人视频。结合Qwen-TTS、Qwen-Image与IMS智能剪辑,打造从内容生成到视频输出的全自动“超级数字人”工作流,大幅提升制作效率与质量。
1396 2
|
3月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
3月前
|
人工智能 缓存 自然语言处理
阿里云百炼大模型收费说明:模型推理、模型训练和模型部署费用整理
阿里云百炼平台开通免费,且每模型享100万Token免费额度。费用产生于模型推理、训练(调优)和部署,超出免费额度后按量计费。推理按输入/输出Token阶梯计价,训练按数据量和循环次数计费,部署支持按时长或调用量两种模式。
2310 65
|
3月前
|
人工智能 自然语言处理 语音技术
阿里云百炼官网首页登录入口:开通百炼,每个大模型免费100万Tokens
阿里云百炼平台现开放免费领Token福利,开通即享超5000万额度。提供大模型推理、部署及训练服务,涵盖通义千问、万相等多个系列模型。前台介绍平台详情与价格,后台支持API-Key申请及管理操作。
1054 8
人工智能
1161 0
|
3月前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
4月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
1199 29

热门文章

最新文章

相关产品

  • 大模型服务平台百炼