文章核心总结与翻译
一、主要内容
本文聚焦系统文献综述(SLR)筛选阶段的自动化,通过五种提示策略(零样本、少样本、思维链(CoT)、CoT-少样本、自我反思),在六种主流大语言模型(GPT-4o、GPT-4o-mini、DeepSeek-Chat-V3等)上,围绕相关性分类和六个二级任务(SLR各阶段自动化+LLM使用检测)展开评估,核心结论包括:
- 提示策略与模型存在显著交互效应:CoT-少样本平衡精度与召回率最优,零样本在高灵敏度筛选中召回率最高,自我反思因过度包容表现最差。
- 模型性能:GPT-4o和DeepSeek-Chat-V3整体表现稳健,GPT-4o-mini性价比突出,在低成本下实现竞争性性能。
- 成本-性能分析:GPT-4o-mini在所有提示策略下均保持低开销,结构化提示(CoT/CoT-少样本)可小幅提升其F1值。
- 实用工作流:建议先用低成本模型+结构化提示进行初筛,仅将边界案例升级至高性能模型处理。
二、创新点
- 系统性评估:首次对提示策略、LLM型号、筛选标准表述进行析因交叉评估,量化三者交互对精度、平衡度和效率的影响。
- 多维度基准:覆盖六种主流模型和五种核心提示策略,提供SLR自动化筛选的全面性能对比基准。
- 成本-性能联动分析:针对大规模筛选场景,揭示不同模型-提示组合的成本差异,提出兼顾准确性与运营效率的配置方案。
- 任务适配指导:明确不同SLR任务(如筛选、合成、LLM检测)对模型和提示策略的适配性,为针对
订阅专栏 解锁全文
2708

被折叠的 条评论
为什么被折叠?



