中文竞技场(MS)大模型评测

简介: 分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。

概要引言

中文竞技场(MS)大模型是构建于modelscope(魔塔社区)之上的,体验大模型的前提是首先准备一个modelscope社区的账号,随后就可以在评测活动首页点击进入来到大模型了。如下:
image.png
大模型提供了六种体验场景,分别是写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域。如下:
image.png
大模型关联了4个训练模型,分别是ChatGLM-中英对话大模型-6B、moss-moon-003-sft、BiLLa-7B-SFT、BELLE-LLaMA-13B-2M。如下:
image.png
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGLM 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型。

大模型的6大场景都提供了三种对话模式,分别是双模型匿名对话、模型自动对话、单模型对话。如下:
image.png
双模型匿名对话是指在文本框中输入一句话,两个不同的模型将同时生成回复。

模型自动对话是指从 Model B 的角度,对 Model A 说一句话(如:让我们来玩个游戏吧),模型将自动开始多轮对话。

单模型对话顾名思义就是在文本框中输入一句话,此刻系统随机选择一个模型生成回复。

场景评测

写作创作相关

接下来分别针对6个场景进行体验。先从写作创作相关开始。

双模型匿名对话中,第一次无响应,如下:
image.png
第二次,模型A出现了重复语句,模型B的回复较好。如下:
image.png
在模型自动对话中,提供了20种场景对话,不支持手动输入。如下:
image.png
以苹果专卖店为例,结果出乎意外,专卖店竟然买起了友商的产品,而且品类还很多。
image.png
这里依然存在重复答复的情况,如下:
image.png
而且应答稳定性也很不好,时常出现限流异常。如下:
image.png
在单模型对话中,答复是整段扔出来的,效果不如一字一句来的好,不过好在内容质量还可以。如下:
image.png

代码相关

接下来体验代码相关场景,先从双模型匿名对话开始。如下:
image.png
从答复来看,模型A答复的格式更友好。接着手动输入一个,如下:
image.png
在这个答复中,显然模型B更优,以更少的代码段实现了功能。接着看看单模型对话,如下:
image.png

知识常识

这个回答质量还是蛮可以的。接着就来到知识常识场景。如下:
image.png
模型A的回答有点应付了事,模型B的回答虽然全是外国货,但更切合题意。接下来看看自定义输入,如下:
image.png
依旧是模型B回答质量更好。
image.png
在这个严谨的常识答复中,模型B准确,模型A犯了严重错误。看看单模型对话情况如何。如下:
image.png
该模型回答质量还不错。看看自定义的情况如何。如下:
image.png

中文游戏

三个常识问题,答错了两个。接下来看看中文游戏场景体验如何。如下:
image.png
在这类场景下,显然模型B回答的更切合实际,更实用。看看手动输入的情况如何。如下:
image.png
依旧是模型B的回答更好,更具实用性。单模型场景看看情况如何,如下:
image.png

人类价值观

对于成语的解答质量不错,看来模型对成语的储备丰富。接下来看看人类价值观方面,模型表现如何。如下:
image.png
这轮回答中,模型A虽然没有模型B的字数多,但就质量来说,不分伯仲,表现都可以。
image.png
对于这个终极命题,模型A和模型B都给出了满意的答复,安全第一。
image.png

NLP专业领域

单模型的回答质量很稳定,质量还可以。最后体验下NLP专业领域,模型是否能表现满意。如下:
image.png
这一上来,模型B就掉线了,模型A回答准确。重新刷新看看结果如何。如下:
image.png
这次的回答都还不错。试试手动输入的回答情况如何。如下:
image.png
模型A和模型B回答的很类似,但都不正确,应该是小女孩缺乏安全感。单模型体验看看。如下:
image.png
从结果来看,模型给出的回答是准确的。手动输入的情况如下:
image.png
显然,模型对于NLP的理解还待提高。

体验总结

中文竞技场大模型依托于魔塔社区,因此会有如下优势:

  1. 丰富的模型资源:在ModelScope社区中文竞技场中,提供了大量的模型资源,涵盖了多种领域,如自然语言处理、图像识别、语音合成等。这些模型资源有些是由社区用户分享的,有些是由官方提供的,可以满足不同用户的需求。
  2. 多样化的挑战活动:中文竞技场经常举办各种挑战活动,用户可以通过参加挑战活动来提升自己的技能和经验。这些挑战活动的难度不同,有些需要用户提交自己的模型代码和结果,有些则需要用户对指定的模型进行评估和优化。
  3. 详细的模型讨论区:在ModelScope社区中文竞技场中,每个模型都有一个专门的讨论区,用户可以在这里对模型进行讨论和交流。通过与其他用户的交流,我可以了解到不同的思路和方法,也可以得到一些实用的建议和帮助。
  4. 强大的模型评估工具:ModelScope社区中文竞技场提供了一个强大的模型评估工具,用户可以对不同的模型进行评估和比较。这个评估工具支持不同的评估指标,包括准确率、召回率、F1分数等,可以帮助用户更好地了解模型的性能。
  5. 丰富的学习资源:除了模型资源和挑战活动外,ModelScope社区中文竞技场还提供了丰富的在线学习资源,包括教程、视频和文档等。这些学习资源可以帮助新手快速入门,也可以帮助老手深入了解某个领域的知识。

但从此次模型评测结果来看,大模型需要走的路还很长,存在不小的差距和不足,如下:

  1. 社区规模较小:相比其他同类型的平台,ModelScope社区的规模相对较小。这使得用户可能无法找到足够数量的挑战伙伴或者得不到足够的社区支持。
  2. 技术支持不足:虽然ModelScope社区有详细的教程和解答,但是对于一些复杂的技术问题,用户可能会发现没有足够的技术支持。这使得一些新手用户可能会感到困惑。
  3. 模型质量不一:由于ModelScope社区中文竞技场是一个开放平台,任何人都可以上传自己的模型。因此,模型的质量可能存在较大的差异。有些模型可能存在错误或缺陷,影响用户的体验。
  4. 挑战公平性不足:在一些挑战活动中,由于缺乏有效的监管机制,有些用户可能会采用不公平的手段来获得胜利。这使得其他用户可能感到不满和不公。
  5. 学习资源更新缓慢:虽然ModelScope社区中文竞技场提供了丰富的在线学习资源,但是这些资源的更新速度可能比较缓慢。这使得一些新出现的技术和知识无法及时地得到反映,影响用户的学习效果。
  6. 模型训练有待加强:多数模型在手动输入问题的回答中质量很差,对于一些基本常识类的问题本不应该犯错的,可却频率很高,模型体验感不好。
目录
相关文章
|
4月前
|
人工智能 文字识别 安全
大模型能力评测方式很多?
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。
459 0
|
7月前
|
人工智能 自然语言处理 IDE
技术赋能新维度,灵码进化新突破:通义灵码2.5新功能尝鲜及深度评测
通义灵码是阿里云推出的基于通义大模型的智能编程助手,作为首款全栈智能辅助的国产编码工具,它为开发者提供“第二大脑”,并重构团队协作效能。2.5版本新增智能体模式,支持Qwen3系列模型,具备自主决策、工程感知和记忆能力,集成3000+MCP工具。其优势包括多模式对话体验、上下文增强、全流程工具链支持及个性化记忆功能,但仍存在上下文管理、权限控制和语言支持等方面的改进空间。此次更新标志着AI辅助开发进入全链路智能化新纪元,成为开发者真正的“结对编程伙伴”。
1326 36
|
7月前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
425 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
2月前
|
人工智能 自然语言处理 监控
58_大模型评估与评测:构建科学的多维度评测体系
在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。
|
3月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
837 3
|
6月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
6月前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
1145 10
|
7月前
|
人工智能 Java API
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
298 2
|
7月前
|
传感器 人工智能 API
通义灵码2.5深度评测:编程智能体与MCP工具的革新体验
通义灵码2.5通过“智能体+MCP”组合,重新定义了AI编码助手的边界。其价值不仅在于代码生成效率,更在于通过工具链整合和环境感知,推动开发流程向“声明式编程”演进。对于开发者而言,它既是提升效率的利器,也是探索AI辅助开发边界的实验场。
601 8
|
8月前
|
算法 物联网 Swift
Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
Qwen于近日发布了Qwen3系列模型,包含了各个不同规格的Dense模型和MoE模型。开源版本中,Dense模型基本沿用了之前的模型结构,差别之处在于对于Q和K两个tensor增加了RMSNorm;MoE模型去掉了公共Expert,其他结构基本与前一致。在模型大小上,涵盖了从0.6B到32B(Dense)和235B(MoE)不同的尺寸。
1310 15

热门文章

最新文章