Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screeni...

文章核心总结与翻译

一、主要内容

本文聚焦系统文献综述(SLR)筛选阶段的自动化,通过五种提示策略(零样本、少样本、思维链(CoT)、CoT-少样本、自我反思),在六种主流大语言模型(GPT-4o、GPT-4o-mini、DeepSeek-Chat-V3等)上,围绕相关性分类和六个二级任务(SLR各阶段自动化+LLM使用检测)展开评估,核心结论包括:

  • 提示策略与模型存在显著交互效应:CoT-少样本平衡精度与召回率最优,零样本在高灵敏度筛选中召回率最高,自我反思因过度包容表现最差。
  • 模型性能:GPT-4o和DeepSeek-Chat-V3整体表现稳健,GPT-4o-mini性价比突出,在低成本下实现竞争性性能。
  • 成本-性能分析:GPT-4o-mini在所有提示策略下均保持低开销,结构化提示(CoT/CoT-少样本)可小幅提升其F1值。
  • 实用工作流:建议先用低成本模型+结构化提示进行初筛,仅将边界案例升级至高性能模型处理。

二、创新点

  1. 系统性评估:首次对提示策略、LLM型号、筛选标准表述进行析因交叉评估,量化三者交互对精度、平衡度和效率的影响。
  2. 多维度基准:覆盖六种主流模型和五种核心提示策略,提供SLR自动化筛选的全面性能对比基准。
  3. 成本-性能联动分析:针对大规模筛选场景,揭示不同模型-提示组合的成本差异,提出兼顾准确性与运营效率的配置方案。
  4. 任务适配指导:明确不同SLR任务(如筛选、合成、LLM检测)对模型和提示策略的适配性,为针对
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值