Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screeni...

原创于 2026-06-30 07:30:00 发布 · 121 阅读

·

4

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2899 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章核心总结与翻译

一、主要内容

本文聚焦系统文献综述（SLR）筛选阶段的自动化，通过五种提示策略（零样本、少样本、思维链（CoT）、CoT-少样本、自我反思），在六种主流大语言模型（GPT-4o、GPT-4o-mini、DeepSeek-Chat-V3等）上，围绕相关性分类和六个二级任务（SLR各阶段自动化+LLM使用检测）展开评估，核心结论包括：

提示策略与模型存在显著交互效应：CoT-少样本平衡精度与召回率最优，零样本在高灵敏度筛选中召回率最高，自我反思因过度包容表现最差。
模型性能：GPT-4o和DeepSeek-Chat-V3整体表现稳健，GPT-4o-mini性价比突出，在低成本下实现竞争性性能。
成本-性能分析：GPT-4o-mini在所有提示策略下均保持低开销，结构化提示（CoT/CoT-少样本）可小幅提升其F1值。
实用工作流：建议先用低成本模型+结构化提示进行初筛，仅将边界案例升级至高性能模型处理。

二、创新点

系统性评估：首次对提示策略、LLM型号、筛选标准表述进行析因交叉评估，量化三者交互对精度、平衡度和效率的影响。
多维度基准：覆盖六种主流模型和五种核心提示策略，提供SLR自动化筛选的全面性能对比基准。
成本-性能联动分析：针对大规模筛选场景，揭示不同模型-提示组合的成本差异，提出兼顾准确性与运营效率的配置方案。
任务适配指导：明确不同SLR任务（如筛选、合成、LLM检测）对模型和提示策略的适配性，为针对

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。