文章总结与翻译
一、主要内容
本文围绕大型语言模型(LLMs)的“上下文角色扮演”能力展开研究,通过在提示词中前缀“如果您是{角色}”的引导方式,让LLMs模拟不同社会身份或领域专长的角色,进而在三类任务中验证其表现:
- 多臂老虎机任务:让LLMs模拟2岁、4岁、7岁、13岁、20岁等不同年龄段的角色,结果发现模型能复现人类类似的探索行为发展阶段——年龄越小,探索性越强,年龄越大,利用已有信息的倾向越明显,20岁后表现趋于稳定。
- 语言推理任务(基于MMLU数据集):让LLMs模拟任务专家、领域专家和非领域专家角色,结果显示任务专家角色的表现最优,领域专家次之,非领域专家表现最差,且该趋势在人文、STEM等多个领域均成立。
- 视觉-语言分类任务:让LLMs模拟不同年龄、领域专长(鸟类专家/汽车技师)、性别(男性/女性)、种族(黑人/白人)的角色,生成鸟类(CUB数据集)和汽车(Stanford Cars数据集)的描述,再结合CLIP等视觉语言模型进行分类。结果表明:领域专家角色的描述能提升分类准确率;年龄越大描述越精准;同时模型暴露了潜在偏见——模拟黑人或男性时汽车分类表现更好,模拟白人或女性时鸟类分类表现更好。
研究采用Vicuna-13B和ChatGPT(gpt-3.5-turbo)两种模型,所有实验均为零样本设置,未进行额外微调,仅通过提示词引导角色模拟。
二、创新点
- 提出“上

订阅专栏 解锁全文
1221

被折叠的 条评论
为什么被折叠?



