面对一张复杂的交互网页截图,它不仅能读懂视觉布局,还能生成带有动态效果的前端代码,这不再是顶尖闭源模型的专属能力。

就在春节前不到三周,国内开源大模型上演了一场“三连发”的盛况。DeepSeek、Qwen和Kimi三大国产模型在3天内相继发布重要更新。
其中,月之暗面发布的Kimi K2.5尤为引人注目,与一年前Kimi发布K1.5时被DeepSeek流量淹没的情况不同,这次K2.5似乎在国际上获得了更多关注,关键还是开源的。

🤗 Huggingface :
https://huggingface.co/moonshotai/Kimi-K2.5

Kimi K2.5在多个基准测试中表现亮眼,在Agent、Image、Video三大维度均展现出较强的竞争力,Coding维度上接近Claude Opus 4.5。
其核心围绕三大核心能力展开:Coding with Vision (视觉编程)、Agent Swarm (智能体集群) 和 Office Productivity (办公生产力)。
这些成绩使得K2.5在发布24小时内便登顶全球多个开源模型榜单,大有追赶国际顶尖闭源模型之势。
在成本方面,K2.5的定价为每百万输入Token 0.6美元,输出Token 3美元。虽然相比一些开源模型偏高,但相比闭源竞品仍具有成本优势,且根据AA评测榜单在多项评测中运行成本低于GPT 5.2 Thinking。
毫无疑问,“视觉编码”是这次更新中最有特色的、也最容易被感知的亮点。那么,我们就从这里开始,用从易到难的测试,看看它的“美商”和代码能力究竟在什么水平。
01.Coding with Vision
AI写前端,早已不新鲜,但“程序员审美”一直是个绕不开的槽点——功能能跑通,但界面丑得千篇一律。Kimi K2.5声称要解决这个问题,我们来验证一下。
Case1:图片复刻网页
Prompt: 我们上传了两张小红书Web端主页和笔记详情的截屏,请帮我复刻一个Web端的小红书笔记社区网站,可以参考我图片中的设计和UI布局。
素材:


Kimi K2.5 Agent 生成:

实测评估:K2.5能够完成任务,但在生成前有较长的处理时间。最终产出的代码在视觉还原度上表现优异,布局、色彩、字体等元素与原图高度一致。
核心局限在于交互逻辑的生成:模型仅能复现由多张具有明确因果关系的图片所构成的交互流,无法主动推断或创建图片中未显式展示的交互行为。
Case 2 :手绘草图到应用
Prompt: 我们手画了一张非常潦草的UX图,是一个集“机票预订、座位选择、AI生活服务”于一体的App。请生成一个信息流结构清晰、有质感的网站,在网站里可以查看对应的航班班次、时间、在线选座位,点餐等。
素材:
Kimi K2.5 Agent 生成:

☞【AGI-Eval大模型评测】看原版实测视频
实测评估:此项测试耗时显著增加,接近10分钟。模型基本完成了任务要求,成功将手绘草图转化为结构化的网页,并补充了必要的视觉元素。页面间的布局设计与图像质感均有不错的水准。
然而,其Agent应用能力在此受限,模型的交互实现停留在宏观层面,无法深入到具体的控件交互(如点餐流程)。 目前K2.5的视觉编程能力更侧重于UI的高保真复现,而非复杂的、端到端的应用逻辑生成。
Case 3 :视频复刻动态交互
Prompt: 录制了一段50秒的AGI-Eval官网的操作视频,AGI-Eval是致力于打造科学、公正、客观的大模型评测社区,视频演示了在官网中点击功能模块、查看榜单、页面滚动加载等一系列交互。请复刻这段视频中的交互逻辑和UI细节,并适当进行动效创新,在网页整体添加马年春节元素,包括但不限于对联、灯笼、饺子、烟花特效、2026字样等,发挥你的“美商”,帮我们设计出充满科技感、有春节氛围感的交互界面,给浏览AGI-Eval官网的朋友们拜个早年。
素材:

☞【AGI-Eval大模型评测】看原版实测视频
Kimi K2.5 Agent 生成:

☞【AGI-Eval大模型评测】看原版实测视频
实测评估:K2.5的智能体机制首先对视频进行任务拆解,生成待办清单并初始化项目。模型基本复刻了视频中的功能界面,但新增的春节元素在设计上未能达到预期的科技感和高级感,视觉风格较为初级。生成的对联文本存在截断问题,且最终页面运行存在明显卡顿,响应迟缓。可见K2.5可以复刻网站的基础框架,但距离可直接部署使用的标准尚有差距。 实测发现,要生成更完善的交互功能,用户需在录制视频时,将所有期望的交互细节完整地操作一遍,模型才能准确复刻。这表明其对交互的理解仍基于视觉模仿,而非深层的意图理解。
通过以上三个案例,我们发现了一个贯穿始终的共性问题:无论是图片、草图还是视频,它都展现出强大的视觉转录能力,能够精确地还原用户所呈现的内容。但一旦涉及到未在视觉素材中明确展示的、需要模型自行推理的深层交互逻辑(如一个按钮背后的完整功能、一个未被点击的菜单项),它的能力便会显著下降。
Case 4 :复刻动画设计网站
Prompt: 选择了一个复杂、酷炫的3D动效和交互的动画设计网站,录制了一段屏幕视频,根据录制的视频复刻出3D动效。
素材:

☞【AGI-Eval大模型评测】看原版实测视频
Kimi K2.5 Agent 生成:

☞【AGI-Eval大模型评测】看原版实测视频
实测评估: K2.5基本完成了复刻任务的核心部分,成功搭建出由滚动驱动的3D场景切换逻辑和基础场景。虽然动效细节与视觉保真度与原版存在差距,但其对复杂动态交互的理解和代码生成能力已表现较好,这表明K2.5能够有效降低从复杂创意到可运行原型的开发门槛,为后续的细节功能迭代提供了坚实的基础,显著加速了从概念到应用的过程。
02.Agent Swarm
如果说视觉编码是K2.5在“手艺”上的精进,那么Agent Swarm则展示了它在“组织和调度”上的强大能力。官方宣称它能自动创建多达100个子智能体并行工作。这听起来很酷,但实际效果如何?
Case5:跨平台信息搜集
Prompt: 这是一个常见的调研任务:“最近有哪些 GitHub 开源项目很火?请帮我分别在 X、YouTube、GitHub、Reddit、即刻等社区上查找相关信息,并整理一份可视化清单,列出 Stars 数、功能、领域等,并对每个开源项目进行介绍,创新点是什么?未来应该如何应用落地到实践中去。”
Kimi K2.5 Agent Swarm生成:

执行过程:启动Agent Swarm模式后,我们能清晰地看到K2.5的主智能体迅速将任务分解,又并行为我们创建了5个子智能体,每个子智能体都有一个有趣的name和职业title,分别负责一个信息渠道的搜索。

屏幕上,5 个子智能体的任务进度条同时推进,场面较为壮观,且每个子智能体通过反思、评估、搜索和验证的闭环流程,协同完成信息搜集与分析。
接着,又让其将生成功能演示视频发布到X、YouTobe等媒体上,请欣赏实测效果。

实测评估:其协同机制表现良好,能够实现子智能体之间的任务交接。 最终产出的可视化清单内容详实,分类交互清晰,且具备跳转至GitHub源码库的功能,展现了良好的外部API兼容性。生成的发布UI布局合理,但其能力仅限于前端呈现,无法执行实际的发布操作。
不足之处在于:
- 效率问题: 尽管子智能体并行执行,但用户需等待所有任务完成后才能看到最终结果,整体等待时间并未如预期般显著缩短,效率有待进一步优化。
- UI缺陷: 生成的可视化清单中,图表(如 stars 数)的坐标轴刻度选择不当,导致图形被过度拉伸,影响了图表可读性。
- 稳定性: 该功能目前处于Beta阶段,在处理更长、更复杂的任务链时,其稳定性仍需持续观察。
03.Office Productivity
作为一款主打“视觉智能体智能”的模型,其在办公生产力上的表现是衡量其“落地能力”的重要指标。
Kimi K2.5声称能深度赋能日常办公。这不再是简单的文案生成,而是直接交付格式化的专业文档。我们设计了一个典型的、多环节的办公场景来检验它的成色。
Case6:从原始数据到完整商业报告
Prompt: "这是一份某电商公司第三季度的销售流水原始数据,包含了日期、产品类别、销售额、地区等字段。请帮我完成以下工作:
1.将这些数据整理到一个Excel文件中。
2.在 Excel 中,使用数据透视表(Pivot Table)分析各地区、各产品类别的总销售额,并生成一个可视化的柱状图。
3.撰写一份不少于500字的Word市场分析报告,报告需包含标题、摘要、数据分析(引用图表结论)、市场洞察和未来建议,并使用规范的文档格式。
4.最后,根据这份Word报告,为我制作一个5页的PPT幻灯片,提炼核心要点。"
素材:

Kimi K2.5 Agent 生成:

☞【AGI-Eval大模型评测】看原版实测视频
实测评估: K2.5展示了端到端的问题解决能力,未经分步确认即连续处理了整个工作流,并最终输出了三个可直接使用的文件:
- Excel 文件: 包含整理后的原始数据表、配置正确的数据透视表以及基于透视表生成的柱状图。



- Word 文件: 格式规范,逻辑清晰,准确引用了Excel中的数据分析结论,并基于此提供了合理的市场洞察与建议。

- PPT 文件: 简洁地提炼了Word报告的核心要点,图文一致性较强,符合演示需求。

实测评估: Kimi K2.5在办公生产力上的表现较为亮眼,实现了Office全流程办公。对于打工人而言,这意味着可以将大量耗时的数据整理、图表制作、报告撰写和PPT美化工作外包给AI,自己则可以更专注于策略思考和决策。这种端到端的解决方案,是其生产力价值的最直接体现。
04.总结
本次实测围绕Kimi K2.5主打的三大核心能力展开。在Coding with Vision方面,其在静态视觉还原与基础动态逻辑理解上表现可靠,但在复杂交互生成与高保真动效复刻上存在局限。Agent Swarm模式在可并行拆分的广度搜索任务中展现出优势,但整体效率与输出稳定性有待提升。在Office Productivity方面,其端到端处理多步骤专业任务的能力最为突出,接近即开即用的水平。总体而言,K2.5在特定场景下已具备较高的实用价值,尤其在办公自动化领域;而在需要深度创意或复杂协调的任务中,仍处于辅助角色,需与人工协同完成。
最后让我们引用Kimi创始人的一段发言结束本次的评测。当被问及如何评估一个开源模型时,杨植麟曾表示:“最终标尺,已不再是榜单上的分数,而是在真实、复杂且多变的工作流中,它究竟能为使用者节省多少时间成本,创造出多少切实、可用的价值。”
1447

被折叠的 条评论
为什么被折叠?



